【发布时间】:2014-10-21 08:33:54
【问题描述】:
有一个网站包含我们已付费访问的信息,但访问该信息的唯一方法是通过该网站,并且有 1400 条记录。所以,既然有这么多,我们希望将信息放在一个易于管理的 Excel 电子表格中。但是,负责该网站的组织不愿意提供帮助。
我可以编写一个可以解析 html 并提取相关数据的 python 脚本,但是,问题是该站点不容易被抓取,因为它是一个 ASP 站点,并且许多“链接”实际上是触发加载目标页面的javascript。这意味着像HTTrack 这样的工具并不能真正起作用。
是否有任何其他工具或 python 模块可以帮助我做到这一点(记住“javascript”链接)?我对这种东西完全陌生,所以我对我可以使用什么样的东西没有经验。
【问题讨论】:
-
你需要一个使用 JavaScript 引擎的爬虫(本质上是一个无头浏览器)。 PhantomJS 是一种流行的 (JavaScript) 选择。这个问题可能会有所帮助:stackoverflow.com/questions/13287490/…
-
@joews 谢谢! Ghost.py 似乎是一个很棒的工具。
标签: javascript python web-crawler