【问题标题】:Extracting specific psuedo tag inside href element using Beautiful Soup [duplicate]使用 Beautiful Soup 在 href 元素中提取特定的伪标签 [重复]
【发布时间】:2015-10-02 17:24:25
【问题描述】:

我有一个锚标记如下:

<a class="gsc_a_at" href= "/citations?view_op=view_citation&amp;hl=en&amp;user=11JgipcAAAAJ&amp;pagesize=100&amp;citation_for_view=11JgipcAAAAJ:j3f4tGmQtD8C">'''

我想使用beautifulSoup 提取citation_for_view 之后的内容。没有regular expressions,我该怎么办。

以下是我尝试过的。

input_data = ''' '''

#!/usr/bin/python
from bs4 import BeautifulSoup

soup = BeautifulSoup(input_data)

for href_tags in soup.find_all('a',href=True):
    print href_tags['href']

这个输出:

/citations?view_op=view_citation&hl=en&user=11JgipcAAAAJ&pagesize=100&citation_for_view=11JgipcAAAAJ:j3f4tGmQtD8C

如何提取href 内的citation_for_view 的内容并仅输出11JgipcAAAAJ:j3f4tGmQtD8C

【问题讨论】:

    标签: python regex beautifulsoup


    【解决方案1】:

    您可以使用urlparse

    >>> import urlparse
    
    >>> url = '/citations?view_op=view_citation&hl=en&user=11JgipcAAAAJ&pagesize=100&citation_for_view=11JgipcAAAAJ:j3f4tGmQtD8C'
    >>> vals = urlparse.parse_qs(url)
    >>> print vals.get('citation_for_view')
    ['11JgipcAAAAJ:j3f4tGmQtD8C']
    

    【讨论】:

      猜你喜欢
      • 2020-07-04
      • 1970-01-01
      • 2011-11-03
      • 2019-08-14
      • 1970-01-01
      • 1970-01-01
      • 2019-05-30
      • 2022-01-18
      • 1970-01-01
      相关资源
      最近更新 更多