【发布时间】:2015-10-02 17:24:25
【问题描述】:
我有一个锚标记如下:
<a class="gsc_a_at" href= "/citations?view_op=view_citation&hl=en&user=11JgipcAAAAJ&pagesize=100&citation_for_view=11JgipcAAAAJ:j3f4tGmQtD8C">'''
我想使用beautifulSoup 提取citation_for_view 之后的内容。没有regular expressions,我该怎么办。
以下是我尝试过的。
input_data = ''' '''
#!/usr/bin/python
from bs4 import BeautifulSoup
soup = BeautifulSoup(input_data)
for href_tags in soup.find_all('a',href=True):
print href_tags['href']
这个输出:
/citations?view_op=view_citation&hl=en&user=11JgipcAAAAJ&pagesize=100&citation_for_view=11JgipcAAAAJ:j3f4tGmQtD8C
如何提取href 内的citation_for_view 的内容并仅输出11JgipcAAAAJ:j3f4tGmQtD8C
【问题讨论】:
标签: python regex beautifulsoup