使用 Beautiful Soup 抓取特定标签中特定文本的内容

【问题标题】：Web Scraping with Beautiful Soup for Content of Specific Text within a Specific Tag使用 Beautiful Soup 抓取特定标签中特定文本的内容
【发布时间】：2017-05-27 08:18:43
【问题描述】：

我在 Python 中使用 bs4 通过在通用标签中查找特定文本来抓取 Web 内容。具体来说：

html

...
<h3>Content</h3>
<ul>...</ul>
...

那么，无论如何，我是否可以指示 bs4 查找带有特定文本“内容”的标题，以便我可以识别锚点并获取内容？

我试过了，但是没用：

soup2.find('h3', {'text': 'Content'}).findNext('ul').text)

非常感谢。

【问题讨论】：

标签： python web-scraping beautifulsoup python-3.5

【解决方案1】：

使用string filter:

soup.find('h3', string='Content')

最简单的过滤器是字符串。将字符串传递给搜索方法，Beautiful Soup 将针对该确切字符串执行 match。

这将是完全匹配，如果你想找到标签包含这个字符串，使用正则表达式过滤器：

soup.find('h3', re.compile=('Content'))

【讨论】：

@CL。 L palese 接受我的回答来结束这个问题。
完成了，顺便问一下，你能修正一下编译函数的错别字吗？