【问题标题】:Crawlers that work with infinite scroll pages使用无限滚动页面的爬虫
【发布时间】:2013-05-31 08:36:09
【问题描述】:

我正在寻找一个爬虫应用程序,它扫描页面的 javascript 以查找 AJAX 请求并查找执行 AJAX 调用的函数,从而从头到尾获取整个内容。

我会自己写一些东西,但我现在真的很忙,我想也许有人已经制作了这样的爬虫。

有吗?

【问题讨论】:

  • 忙?时间管理。总是有效。你应该试试看。
  • 感谢您的建议,但如果有这样的爬虫,我宁愿知道,因为这不会是我第一次浪费已经存在的周末编码工具。

标签: javascript ajax web-crawler infinite-scroll


【解决方案1】:

没有您所要求的东西,因为它对于某个特定站点来说太具体了 - 爬虫没有通用的方法来显示 ajax 生成的内容。

如果网站愿意合作,Google 已经实施了一些使 ajax 生成的页面可抓取的约定。你可以在这里阅读它们:http://support.google.com/webmasters/bin/answer.py?hl=en&answer=174992

【讨论】:

  • 谢谢,我猜这个网站是爬虫友好的,因为它的内容在搜索引擎中非常突出
猜你喜欢
  • 2022-06-15
  • 1970-01-01
  • 2021-09-13
  • 1970-01-01
  • 1970-01-01
  • 2023-03-05
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多