【发布时间】:2017-06-18 04:05:41
【问题描述】:
我想抓取spiegel.de/schlagzeilen 以获取显示在日期下方的所有新闻(今天、昨天、到几天前)。
<div class="schlagzeilen-content schlagzeilen-overview">
包含我想要的,我想,但还有一个问题:
print(data)
保留我需要的数据,但此外它还带有一堆我不想要的短语(如集成模块的名称/HTML/CSS 的部分等)
所以我选择了
for item in data:
print(item.text)
这个有一个非常漂亮的输出(!),但现在我错过了文章 URL,这是很重要的。有没有人可以帮助我?这是我的代码:
from bs4 import BeautifulSoup
import requests
website = 'http://spiegel.de/schlagzeilen'
r = requests.get(website)
soup = BeautifulSoup((r.content), "lxml")
data = soup.find_all("div", {"class": "schlagzeilen-content schlagzeilen-overview"})
for item in data:
print(item.text)
【问题讨论】:
标签: python python-3.x web-scraping beautifulsoup