【发布时间】:2011-07-01 09:58:01
【问题描述】:
我想创建一个网络爬虫/蜘蛛以迭代地获取网页中的所有链接,包括基于 javascript 的链接 (ajax)、编目页面上的所有对象、构建和维护站点层次结构。我的问题是:
- 哪种语言/技术应该更好(获取基于 javascript 的链接)?
- 那里有开源工具吗?
谢谢
布拉杰什
【问题讨论】:
标签: javascript ajax web-crawler
我想创建一个网络爬虫/蜘蛛以迭代地获取网页中的所有链接,包括基于 javascript 的链接 (ajax)、编目页面上的所有对象、构建和维护站点层次结构。我的问题是:
谢谢
布拉杰什
【问题讨论】:
标签: javascript ajax web-crawler
您可以自动化浏览器。例如,看看http://watir.com/
【讨论】:
获取 ajax 链接是连搜索巨头都没有完成的事情。这是因为,ajax 链接是动态的,并且命令和响应都根据用户的操作而有很大差异。这可能就是为什么现在正在开发 SEF-AJAX(搜索引擎友好 AJAX)。这是一种使网站完全可被搜索引擎索引的技术,当被网络浏览器访问时,它充当网络应用程序。供参考,您可以查看此链接:http://nixova.com
无意冒犯,但我没有看到任何跟踪 ajax 链接的方法。我的知识到此为止。 :)
【讨论】:
您可以使用 php、simple_html_dom 和 java 来实现。让 php 爬虫复制本地机器或网络服务器上的页面,用 java 应用程序(jpane 或其他东西)打开它,将所有文本标记为焦点并抓取它。将其发送到您的数据库或您要存储它的位置。跟踪所有带有 onclick 或 mouseover 属性的标签或标签。检查再次调用它时会发生什么。如果源 html(从服务器返回的文档)大小或 md5 哈希值不同,您就知道它是一个有效链接并且可以抓取它。我希望你能理解我糟糕的英语:D
【讨论】: