【发布时间】:2015-11-19 23:34:45
【问题描述】:
我正在尝试用漂亮的汤来抓取一些评论数据,它只会让我抓取一个元素:
BASE_URL = "http://consequenceofsound.net/'category/reviews/album-reviews/"
html = urlopen(BASE_URL + section_url).read()
soup = BeautifulSoup(html, "lxml")
meta = soup.find("div", {"class": "content"}).h1
wordage = [s.contents for s in meta]
这将让我从该页面中获取一个评论标题。但是,当我将 find 更改为 find_all 时,我无法在这一行识别 h1,所以我得到了一些类似这样的代码:
meta = soup.find("div", {"class": "content"})
wordage = [s.h1 for s in meta]
我无法找到隔离内容的方法。
【问题讨论】:
-
您希望
wordage是什么?另外,您能否展示一个非常简单的 html 示例? -
你能告诉我们你到底想要什么
标签: python web-scraping beautifulsoup nlp screen-scraping