【发布时间】:2013-07-26 05:52:42
【问题描述】:
如果我有页面的 URL,我需要能够提取标签中的 HTML 内容。有什么方法可以使用 Python 做到这一点?
【问题讨论】:
-
谷歌 python 网页抓取.
-
Options for HTML scraping? 的可能重复项
标签: python
如果我有页面的 URL,我需要能够提取标签中的 HTML 内容。有什么方法可以使用 Python 做到这一点?
【问题讨论】:
标签: python
有一个令人难以置信的 Python 抓取库,名为 BeautifulSoup,它将让您的生活变得更加轻松:http://www.crummy.com/software/BeautifulSoup/
BeautifulSoup 允许您通过 html 标记和/或 html 属性(例如通过 css 类名)进行选择。它还可以很好地处理糟糕的 html 文档,但是您需要阅读文档以了解其工作原理。使用这个库只需几行代码就可以抓取到什么,真是太神奇了。
玩得开心!
【讨论】:
这很容易做到这一点,只需使用urllib 从网络获取数据,然后使用 BeautifulSoup 解析出您需要的信息
这是一个例子:
import urllib2
from bs4 import BeautifulSoup
url = urllib2.urlopen('example.com')
soup = BeautifulSoup(url)
然后你可以使用 BeautifulSoup 来提取给定特定标签的信息
soup.find_all('tag_name')
还有很多其他方法可以提取数据,这个网站将帮助Web-Scraping with bs4
【讨论】:
from bs4 import * 应该是 from bs4 import BeautifulSoup。此外,您不需要在将文件句柄传递给BeautifulSoup 之前读取它。