网络爬虫/蜘蛛获取基于 ajax 的链接答案

【问题标题】：web crawler/spider to fetch ajax based link网络爬虫/蜘蛛获取基于 ajax 的链接
【发布时间】：2011-07-01 09:58:01
【问题描述】：

我想创建一个网络爬虫/蜘蛛以迭代地获取网页中的所有链接，包括基于 javascript 的链接 (ajax)、编目页面上的所有对象、构建和维护站点层次结构。我的问题是：

哪种语言/技术应该更好（获取基于 javascript 的链接）？
那里有开源工具吗？

谢谢

布拉杰什

【问题讨论】：

标签： javascript ajax web-crawler

【解决方案1】：

您可以自动化浏览器。例如，看看http://watir.com/

【讨论】：

【解决方案2】：

获取 ajax 链接是连搜索巨头都没有完成的事情。这是因为，ajax 链接是动态的，并且命令和响应都根据用户的操作而有很大差异。这可能就是为什么现在正在开发 SEF-AJAX（搜索引擎友好 AJAX）。这是一种使网站完全可被搜索引擎索引的技术，当被网络浏览器访问时，它充当网络应用程序。供参考，您可以查看此链接：http://nixova.com

无意冒犯，但我没有看到任何跟踪 ajax 链接的方法。我的知识到此为止。 :)

【讨论】：

【解决方案3】：

您可以使用 php、simple_html_dom 和 java 来实现。让 php 爬虫复制本地机器或网络服务器上的页面，用 java 应用程序（jpane 或其他东西）打开它，将所有文本标记为焦点并抓取它。将其发送到您的数据库或您要存储它的位置。跟踪所有带有 onclick 或 mouseover 属性的标签或标签。检查再次调用它时会发生什么。如果源 html（从服务器返回的文档）大小或 md5 哈希值不同，您就知道它是一个有效链接并且可以抓取它。我希望你能理解我糟糕的英语：D

【讨论】：