【问题标题】:web crawler/spider to fetch ajax based link网络爬虫/蜘蛛获取基于 ajax 的链接
【发布时间】:2011-07-01 09:58:01
【问题描述】:

我想创建一个网络爬虫/蜘蛛以迭代地获取网页中的所有链接,包括基于 javascript 的链接 (ajax)、编目页面上的所有对象、构建和维护站点层次结构。我的问题是:

  • 哪种语言/技术应该更好(获取基于 javascript 的链接)?
  • 那里有开源工具吗?

谢谢

布拉杰什

【问题讨论】:

    标签: javascript ajax web-crawler


    【解决方案1】:

    您可以自动化浏览器。例如,看看http://watir.com/

    【讨论】:

      【解决方案2】:

      获取 ajax 链接是连搜索巨头都没有完成的事情。这是因为,ajax 链接是动态的,并且命令和响应都根据用户的操作而有很大差异。这可能就是为什么现在正在开发 SEF-AJAX(搜索引擎友好 AJAX)。这是一种使网站完全可被搜索引擎索引的技术,当被网络浏览器访问时,它充当网络应用程序。供参考,您可以查看此链接:http://nixova.com

      无意冒犯,但我没有看到任何跟踪 ajax 链接的方法。我的知识到此为止。 :)

      【讨论】:

        【解决方案3】:

        您可以使用 php、simple_html_dom 和 java 来实现。让 php 爬虫复制本地机器或网络服务器上的页面,用 java 应用程序(jpane 或其他东西)打开它,将所有文本标记为焦点并抓取它。将其发送到您的数据库或您要存储它的位置。跟踪所有带有 onclick 或 mouseover 属性的标签或标签。检查再次调用它时会发生什么。如果源 html(从服务器返回的文档)大小或 md5 哈希值不同,您就知道它是一个有效链接并且可以抓取它。我希望你能理解我糟糕的英语:D

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 2010-12-03
          • 2013-11-30
          • 2019-10-26
          • 1970-01-01
          • 1970-01-01
          • 2017-09-11
          • 2013-11-23
          • 1970-01-01
          相关资源
          最近更新 更多