检索网站源代码的网络爬虫答案

【问题标题】：web crawler which retrieves website source code检索网站源代码的网络爬虫
【发布时间】：2011-03-19 19:45:52
【问题描述】：

我想做一些有点困难的事情。我想做一个爬虫，除了从链接之外，它还会下载网站的源代码。在这之后，我想做一个程序来搜索源代码每个站点是否存在声明（例如，如果有标题则排除此站点）。

【问题讨论】：

这根本不可能，除非您指的是 源 HTML
您的问题不是很具体，并且已经针对本网站上的大多数常用语言进行了回答。请使用搜索功能，记住所有网络爬虫都会在某些时候检索页面的“源代码”(html)。这是唯一要检索的东西。

【解决方案1】：

我曾经找到一个类似的 PHP 脚本，但它当然会获取客户端代码（正如 SpyrosP 准确地说的那样）。见http://www.phpclasses.org/package/4616-PHP-Crawl-Web-pages-to-search-for-given-text.html

【讨论】：

【解决方案2】：

这是使用 HttpWebRequest 对象获取信息的 C# 示例。

【讨论】：

【解决方案3】：

您无法从脚本中读取服务器代码。您只能抓取 HTML 或客户端上运行的任何其他内容（即 javascript）。

【讨论】：

【解决方案4】：

你可以通过 jsoup
jsoup 是一个用于处理真实 HTML 的 Java 库。
jsoup - official site link
您可以使用标签检索信息，解析Html。

【讨论】：

【解决方案5】：

我认为你也可以测试。

【讨论】：