【问题标题】:Web Scraping with Beautiful Soup for Content of Specific Text within a Specific Tag使用 Beautiful Soup 抓取特定标签中特定文本的内容
【发布时间】:2017-05-27 08:18:43
【问题描述】:

我在 Python 中使用 bs4 通过在通用标签中查找特定文本来抓取 Web 内容。具体来说:

html

...
<h3>Content</h3>
<ul>...</ul>
...

那么,无论如何,我是否可以指示 bs4 查找带有特定文本“内容”的标题,以便我可以识别锚点并获取内容?

我试过了,但是没用:

soup2.find('h3', {'text': 'Content'}).findNext('ul').text)

非常感谢。

【问题讨论】:

    标签: python web-scraping beautifulsoup python-3.5


    【解决方案1】:

    使用string filter:

    soup.find('h3', string='Content')
    

    最简单的过滤器是字符串。将字符串传递给搜索方法,Beautiful Soup 将针对该确切字符串执行 ma​​tch

    这将是完全匹配,如果你想找到标签包含这个字符串, 使用正则表达式过滤器:

    soup.find('h3', re.compile=('Content'))
    

    【讨论】:

    • @CL。 L palese 接受我的回答来结束这个问题。
    • 完成了,顺便问一下,你能修正一下编译函数的错别字吗?
    猜你喜欢
    • 2013-05-20
    • 1970-01-01
    • 2022-01-16
    • 1970-01-01
    • 2020-07-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多