【问题标题】:Crawling a website to extract data [closed]抓取网站以提取数据[关闭]
【发布时间】:2014-10-21 08:33:54
【问题描述】:

有一个网站包含我们已付费访问的信息,但访问该信息的唯一方法是通过该网站,并且有 1400 条记录。所以,既然有这么多,我们希望将信息放在一个易于管理的 Excel 电子表格中。但是,负责该网站的组织不愿意提供帮助。

我可以编写一个可以解析 html 并提取相关数据的 python 脚本,但是,问题是该站点不容易被抓取,因为它是一个 ASP 站点,并且许多“链接”实际上是触发加载目标页面的javascript。这意味着像HTTrack 这样的工具并不能真正起作用。

是否有任何其他工具或 python 模块可以帮助我做到这一点(记住“javascript”链接)?我对这种东西完全陌生,所以我对我可以使用什么样的东西没有经验。

【问题讨论】:

  • 你需要一个使用 JavaScript 引擎的爬虫(本质上是一个无头浏览器)。 PhantomJS 是一种流行的 (JavaScript) 选择。这个问题可能会有所帮助:stackoverflow.com/questions/13287490/…
  • @joews 谢谢! Ghost.py 似乎是一个很棒的工具。

标签: javascript python web-crawler


【解决方案1】:

Jython + HtmlUnit 可能对您的任务非常有用。

【讨论】:

    【解决方案2】:

    您可以使用 Scrapy,它是一个用于抓取网站的框架。

    【讨论】:

      猜你喜欢
      • 2022-01-23
      • 2012-02-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-12-12
      • 1970-01-01
      • 2014-07-06
      相关资源
      最近更新 更多