如何使用新的 Requests-HTML 库查找特定类型的所有元素答案

【问题标题】：How to find all Elements of a specific Type with the new Requests-HTML library如何使用新的 Requests-HTML 库查找特定类型的所有元素
【发布时间】：2019-03-30 10:26:00
【问题描述】：

我想在 HTML 中查找所有特定字段，在 Beautiful soup 中，所有内容都使用此代码：

soup = BeautifulSoup(html_text, 'html.parser')
urls_previous = soup.find_all('h2', {'class': 'b_algo'})

但是如何使用 requests 库进行相同的搜索，或者 requests 只能在 HTML 文档中找到单个元素，我在文档或示例中找不到如何做到这一点？

https://html.python-requests.org/

例子：

&lt;li class="b_algo"&gt;&lt;h2&gt;&lt;a href="https://de.wikipedia.org/wiki/Vereinigte_Staaten"&gt;Vereinigte Staaten – Wikipedia&lt;/a&gt;&lt;/h2&gt;&lt;a href="https://de.wikipedia.org/wiki/Vereinigte_Staaten"&gt;https://de.wikipedia.org/wiki/Vereinigte_Staaten&lt;/a&gt;&lt;/div&gt;&lt;p&gt;U.S., I wanna have THIS text here&lt;/p&gt;&lt;/li&gt;

如何使用请求库找到特定类型的所有元素？

【问题讨论】：

需要明确的是，requests-html 与 requests 是不同的包。在requests-html 中，您可以使用 CSS 选择器或 Xpath 来选择某些元素。如果您在选择 html_text 中的特定元素时需要帮助，请将其作为示例包含在您的问题中。

标签： python python-3.x beautifulsoup screen-scraping python-requests-html

【解决方案1】：

requests-html

from requests_html import HTML
doc = """<li class="b_algo"><h2><a href="https://de.wikipedia.org/wiki/Vereinigte_Staaten">Vereinigte Staaten – Wikipedia</a></h2><a href="https://de.wikipedia.org/wiki/Vereinigte_Staaten">https://de.wikipedia.org/wiki/Vereinigte_Staaten</a></div><p>U.S., I wanna have THIS text here</p></li>"""
#load html from string
html = HTML(html=doc)
x = html.find('h2')
print(x)

【讨论】：