Python屏幕抓取整个网站答案

【问题标题】：Python screen scrape whole websitePython屏幕抓取整个网站
【发布时间】：2011-11-28 18:07:01
【问题描述】：

我想制作一个小程序，它将使用来自任何网站的每一个有意义的词它是用python编写的，我听说过BeautifulSoup，但我不太清楚如何使用它来达到这个目的……小教程？ :p 还是就像正则表达式一样简单？喜欢： re.compile('<.*>(.*)<.*>') 所以括号之间的所有内容？换行符和其他东西已经完成了；）

提前谢谢各位，对不起小英语...

【问题讨论】：

这似乎与 HTML 没有任何关系......您能否提供更多关于每个“单个有意义的词”含义的信息？
可以这么说，我的意思是你会去那个网站，全选然后粘贴到记事本中......不需要标记

标签： python html screen-scraping beautifulsoup

【解决方案1】：

Mechanize 是一个 python 库，它允许您执行 http 请求，甚至提供一些解析 html 和提取您要查找的数据的能力。它的主要特点是它可以像浏览器一样工作并处理身份验证和 cookie 等事情。

在使用 XML/HTML 时，Regex 并不理想（你会看到）。如果您更喜欢该解析库，则可以将 BeautifulSoup 与 mechanize 结合使用。学习 XPath 之类的东西也可以让你的生活变得更简单。

mechanize 和 BeautifulSoup 都有教程，所以开始阅读一些代码吧！

【讨论】：

【解决方案2】：

Scrapy 使网络抓取变得容易。它还有很棒的文档，scrapy startproject 命令将为您构建一个框架项目。

【讨论】：