【问题标题】:Python screen scrape whole websitePython屏幕抓取整个网站
【发布时间】:2011-11-28 18:07:01
【问题描述】:

我想制作一个小程序,它将使用来自任何网站的每一个有意义的词 它是用python编写的,我听说过BeautifulSoup,但我不太清楚如何使用它来达到这个目的……小教程? :p 还是就像正则表达式一样简单?喜欢: re.compile('<.*>(.*)<.*>') 所以括号之间的所有内容? 换行符和其他东西已经完成了;)

提前谢谢各位,对不起小英语...

【问题讨论】:

  • 这似乎与 HTML 没有任何关系......您能否提供更多关于每个“单个有意义的词”含义的信息?
  • 可以这么说,我的意思是你会去那个网站,全选然后粘贴到记事本中......不需要标记

标签: python html screen-scraping beautifulsoup


【解决方案1】:

Mechanize 是一个 python 库,它允许您执行 http 请求,甚至提供一些解析 html 和提取您要查找的数据的能力。它的主要特点是它可以像浏览器一样工作并处理身份验证和 cookie 等事情。

在使用 XML/HTML 时,Regex 并不理想(你会看到)。如果您更喜欢该解析库,则可以将 BeautifulSoup 与 mechanize 结合使用。学习 XPath 之类的东西也可以让你的生活变得更简单。

mechanize 和 BeautifulSoup 都有教程,所以开始阅读一些代码吧!

【讨论】:

    【解决方案2】:

    Scrapy 使网络抓取变得容易。它还有很棒的文档,scrapy startproject 命令将为您构建一个框架项目。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-01-17
      • 2014-07-29
      • 2010-10-23
      相关资源
      最近更新 更多