网络爬取动态链接

【问题标题】：WebCrawling Dynamic Links网络爬取动态链接
【发布时间】：2011-02-15 08:52:31
【问题描述】：

有人对抓取具有动态页面/查询的网站有任何想法吗？我的意思是，如果我点击某个链接，每次我尝试在网络浏览器中重新加载它时，它都有不同的值。现在我的网络爬虫无法下载这些页面的内容。请指教。

【问题讨论】：

标签： c# web-crawler

【解决方案1】：

即使它是动态的也一样。实际上爬虫只是三件事的母体

网址
如果是POST方法则发送给服务器的数据
需要身份验证时的 cookie

就是这样，

做爬虫时的常见问题：

默认页面 [index.html、index.php、default.aspx 等] 的错误猜测.. 实际上，如果没有它，所有方法 [POST/GET] 都可以工作
每个字段名称中的一个不准确
ASP.Net 表单视图状态 id 字段（我忘记了名称）但我可以轻松实现
由 javascript 生成的动态页面。这是最难的部分，大多数情况下即使谷歌仍然存在问题。

希望有所帮助。

【讨论】：

【解决方案2】：

您可能想查看this 问题，该问题详细说明了如何编写爬虫，或查看包含良好爬虫的http://searcharoo.net/ 的源代码（请参阅here）。

【讨论】：

嗨，Kane，感谢您的回复，Searcharoo 很有趣，但是，如果有人可以指出如何做到这一点（如何从动态链接下载页面），那将有很大帮助.看看 Searcharoo 的代码，我可能需要一些时间来了解他们的架构。

猜你喜欢

1970-01-01
2010-10-20
2013-11-23
2016-05-26
2015-09-11
1970-01-01
1970-01-01
1970-01-01
2012-04-23

相关资源

下载 2021-06-24
下载 2021-06-05
下载 2023-02-05

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode