【发布时间】:2021-10-09 08:06:41
【问题描述】:
我尝试从https://webscraper.io/test-sites 网站获取所有标题。为此,我使用美丽的汤。标题(在本例中为电子商务网站)始终包含在代码的以下部分中:
<h2 class="site-heading">
<a href="/test-sites/e-commerce/allinone">
E-commerce site
</a>
</h2>
我不明白那部分。我已经尝试了不同的东西,但例如对我来说最直观的代码不起作用:
import re
from bs4 import BeautifulSoup
import requests
url = 'https://webscraper.io/test-sites'
r = requests.get(url)
r_html = r.text
soup = BeautifulSoup(r_html)
string = soup.find_all("h2", string=re.compile("E-commerce")
我怎样才能只获得标题,在本例中为列表的“电子商务网站”?
【问题讨论】:
-
你得到了什么?
标签: python regex beautifulsoup