【问题标题】:WebCrawling Dynamic Links网络爬取动态链接
【发布时间】:2011-02-15 08:52:31
【问题描述】:

有人对抓取具有动态页面/查询的网站有任何想法吗?我的意思是,如果我点击某个链接,每次我尝试在网络浏览器中重新加载它时,它都有不同的值。现在我的网络爬虫无法下载这些页面的内容。请指教。

【问题讨论】:

    标签: c# web-crawler


    【解决方案1】:

    即使它是动态的也一样。实际上爬虫只是三件事的母体

    1. 网址
    2. 如果是POST方法则发送给服务器的数据
    3. 需要身份验证时的 cookie

    就是这样,

    做爬虫时的常见问题:

    1. 默认页面 [index.html、index.php、default.aspx 等] 的错误猜测.. 实际上,如果没有它,所有方法 [POST/GET] 都可以工作
    2. 每个字段名称中的一个不准确
    3. ASP.Net 表单视图状态 id 字段(我忘记了名称)但我可以轻松实现
    4. 由 javascript 生成的动态页面。这是最难的部分,大多数情况下即使谷歌仍然存在问题。

    希望有所帮助。

    【讨论】:

      【解决方案2】:

      您可能想查看this 问题,该问题详细说明了如何编写爬虫,或查看包含良好爬虫的http://searcharoo.net/ 的源代码(请参阅here)。

      【讨论】:

      • 嗨,Kane,感谢您的回复,Searcharoo 很有趣,但是,如果有人可以指出如何做到这一点(如何从动态链接下载页面),那将有很大帮助.看看 Searcharoo 的代码,我可能需要一些时间来了解他们的架构。
      猜你喜欢
      • 1970-01-01
      • 2010-10-20
      • 2013-11-23
      • 2016-05-26
      • 2015-09-11
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-04-23
      相关资源
      最近更新 更多