抓取网站以提取数据[关闭]答案

【问题标题】：Crawling a website to extract data [closed]抓取网站以提取数据[关闭]
【发布时间】：2014-10-21 08:33:54
【问题描述】：

有一个网站包含我们已付费访问的信息，但访问该信息的唯一方法是通过该网站，并且有 1400 条记录。所以，既然有这么多，我们希望将信息放在一个易于管理的 Excel 电子表格中。但是，负责该网站的组织不愿意提供帮助。

我可以编写一个可以解析 html 并提取相关数据的 python 脚本，但是，问题是该站点不容易被抓取，因为它是一个 ASP 站点，并且许多“链接”实际上是触发加载目标页面的javascript。这意味着像HTTrack 这样的工具并不能真正起作用。

是否有任何其他工具或 python 模块可以帮助我做到这一点（记住“javascript”链接）？我对这种东西完全陌生，所以我对我可以使用什么样的东西没有经验。

【问题讨论】：

你需要一个使用 JavaScript 引擎的爬虫（本质上是一个无头浏览器）。 PhantomJS 是一种流行的 (JavaScript) 选择。这个问题可能会有所帮助：stackoverflow.com/questions/13287490/…
@joews 谢谢！ Ghost.py 似乎是一个很棒的工具。

【解决方案1】：

Jython + HtmlUnit 可能对您的任务非常有用。

【讨论】：

【解决方案2】：

您可以使用 Scrapy，它是一个用于抓取网站的框架。

【讨论】：