使用 Python 抓取特定标签 [关闭]答案

【问题标题】：Web Scraping particular tags using Python [closed]使用 Python 抓取特定标签 [关闭]
【发布时间】：2013-07-26 05:52:42
【问题描述】：

如果我有页面的 URL，我需要能够提取标签中的 HTML 内容。有什么方法可以使用 Python 做到这一点？

【问题讨论】：

标签： python

【解决方案1】：

有一个令人难以置信的 Python 抓取库，名为 BeautifulSoup，它将让您的生活变得更加轻松：http://www.crummy.com/software/BeautifulSoup/

BeautifulSoup 允许您通过 html 标记和/或 html 属性（例如通过 css 类名）进行选择。它还可以很好地处理糟糕的 html 文档，但是您需要阅读文档以了解其工作原理。使用这个库只需几行代码就可以抓取到什么，真是太神奇了。

玩得开心！

【讨论】：

【解决方案2】：

使用BeautifuSoup

这很容易做到这一点，只需使用urllib 从网络获取数据，然后使用 BeautifulSoup 解析出您需要的信息

这是一个例子：

import urllib2
from bs4 import BeautifulSoup

url = urllib2.urlopen('example.com')

soup = BeautifulSoup(url)

然后你可以使用 BeautifulSoup 来提取给定特定标签的信息

soup.find_all('tag_name')

还有很多其他方法可以提取数据，这个网站将帮助Web-Scraping with bs4

【讨论】：

from bs4 import * 应该是 from bs4 import BeautifulSoup。此外，您不需要在将文件句柄传递给BeautifulSoup 之前读取它。
如果你下载 BeautifulSoup 4 你可以像那样导入它
抱歉，我说的是星号。你不应该这样做。
ohhhh 是的，你是对的，我修好了