【发布时间】:2015-03-05 13:10:04
【问题描述】:
我正在用 python 编写一个网络爬虫。我希望得到<li> </li>标签之间的所有内容。例如:
<li>January 13, 1991: At least 40 people <a href ="......."> </a> </li>
所以我想在这里:
a.)提取日期-并将其转换为 dd/mm/yyyy 格式
b.)人前面的数字。
soup = BeautifulSoup(page1)
h2 =soup.find_all("li")
count = 0
while count < len(h2):
print (str(h2[count].get_text().encode('ascii', 'ignore')))
count += 1
我现在只能提取文本。
【问题讨论】:
标签: python parsing web-scraping beautifulsoup html-parsing