【发布时间】:2011-03-19 19:45:52
【问题描述】:
我想做一些有点困难的事情。我想做一个爬虫,除了从链接之外,它还会下载网站的源代码。在这之后,我想做一个程序来搜索源代码每个站点是否存在声明(例如,如果有标题则排除此站点)。
【问题讨论】:
-
这根本不可能,除非您指的是 源 HTML
-
您的问题不是很具体,并且已经针对本网站上的大多数常用语言进行了回答。请使用搜索功能,记住所有网络爬虫都会在某些时候检索页面的“源代码”(html)。这是唯一要检索的东西。
标签: web-crawler