【发布时间】:2011-02-02 10:12:21
【问题描述】:
我有一个网络爬虫应用程序。它成功爬取了最常见和最简单的网站。现在我遇到了一些类型的网站,其中 HTML 文档是通过 FORMS 或 javascripts 动态生成的。我相信他们可以被抓取,我只是不知道如何。现在,这些网站不显示实际的 HTML 页面。我的意思是,如果我在 IE 或 firefox 中浏览该页面,HTML 代码与 IE 或 firefox 中的实际内容不匹配。这些站点包含文本框、复选框等...所以我相信它们就是所谓的“Web 表单”。其实我对网络开发不太熟悉,如果我错了,请纠正我。
我的问题是,有没有人和我现在情况相似并且成功解决了这些类型的“挑战”?有人知道有关网络爬虫的书或文章吗?那些属于这些高级类型的网站?
谢谢。
【问题讨论】:
标签: c# javascript windows webforms