【问题标题】:web crawler which retrieves website source code检索网站源代码的网络爬虫
【发布时间】:2011-03-19 19:45:52
【问题描述】:

我想做一些有点困难的事情。我想做一个爬虫,除了从链接之外,它还会下载网站的源代码。在这之后,我想做一个程序来搜索源代码每个站点是否存在声明(例如,如果有标题则排除此站点)。

【问题讨论】:

  • 这根本不可能,除非您指的是 源 HTML
  • 您的问题不是很具体,并且已经针对本网站上的大多数常用语言进行了回答。请使用搜索功能,记住所有网络爬虫都会在某些时候检索页面的“源代码”(html)。这是唯一要检索的东西。

标签: web-crawler


【解决方案1】:

我曾经找到一个类似的 PHP 脚本,但它当然会获取客户端代码(正如 SpyrosP 准确地说的那样)。见http://www.phpclasses.org/package/4616-PHP-Crawl-Web-pages-to-search-for-given-text.html

【讨论】:

    【解决方案2】:

    这是使用 HttpWebRequest 对象获取信息的 C# 示例。

    http://www.csharp-station.com/HowTo/HttpWebFetch.aspx

    【讨论】:

      【解决方案3】:

      您无法从脚本中读取服务器代码。您只能抓取 HTML 或客户端上运行的任何其他内容(即 javascript)。

      【讨论】:

      • html 中没有“if” :) 抓取 html 是每个爬虫都会做的事情,而且很容易做到。
      【解决方案4】:

      你可以通过 jsoup
      jsoup 是一个用于处理真实 HTML 的 Java 库。
      jsoup - official site link
      您可以使用标签检索信息,解析Html。

      【讨论】:

        【解决方案5】:

        您是否使用 linux comando wget 进行了测试? http://m.linuxjournal.com/content/downloading-entire-web-site-wget

        我认为你也可以测试。

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2014-07-31
          相关资源
          最近更新 更多