【问题标题】:What's a good Web Crawler tool [closed]什么是好的网络爬虫工具 [关闭]
【发布时间】:2008-10-07 00:37:54
【问题描述】:

我需要索引很多网页,有什么好的网络爬虫工具?我更喜欢 .NET 可以与之交流的东西,但这不是什么大事。

我真正需要的是可以提供网站 url 的东西,它会跟随每个链接并存储内容以供索引。

【问题讨论】:

    标签: web-crawler robot


    【解决方案1】:

    HTTrack -- http://www.httrack.com/ -- 是一个非常好的网站复制器。效果很好。已经用了很久了。

    Nutch 是一个网络爬虫(爬虫是您要查找的程序类型) -- http://lucene.apache.org/nutch/ -- 它使用一流的搜索实用程序 lucene。

    【讨论】:

      【解决方案2】:

      Crawler4j是一个开源的Java爬虫,它提供了一个简单的网络爬虫界面。您可以在 5 分钟内设置一个多线程网络爬虫。

      您可以设置自己的过滤器访问或不访问页面(网址),并根据您的逻辑为每个爬取的页面定义一些操作。

      选择 crawler4j 的一些理由;

      1. 多线程结构,
      2. 您可以设置要抓取的深度,
      3. 它基于 Java 并且是开源的,
      4. 控制冗余链接(网址),
      5. 您可以设置要抓取的页面数,
      6. 您可以设置要抓取的页面大小,
      7. 足够的文档

      【讨论】:

      【解决方案3】:

      Searcharoo.NET 包含一个爬取和索引内容的蜘蛛,以及一个使用它的搜索引擎。您应该能够找到解决 Searcharoo.Indexer.EXE 代码的方法,以便在下载内容时捕获内容,并从那里添加您自己的自定义代码...

      非常基础(包括所有源代码,在六篇 CodeProject 文章中进行了解释,最近的一篇在这里Searcharoo v6):蜘蛛跟随链接、图像映射、图像,遵循 ROBOTS 指令,解析一些非-HTML 文件类型。它适用于单个网站(而不是整个网络)。

      Nutch/Lucene 几乎可以肯定是一个更强大/商业级的解决方案——但我没有看过他们的代码。不确定您想要完成什么,但您是否也看到过Microsoft Search Server Express

      免责声明:我是 Searcharoo 的作者;只是在这里提供它作为一个选项。

      【讨论】:

        【解决方案4】:

        Sphider 很不错。它是 PHP,但它可能会有所帮助。

        【讨论】:

          【解决方案5】:

          我使用Mozenda's Web Scraping software。您可以轻松地让它抓取所有链接并获取您需要的所有信息,这非常棒 软件的钱。

          【讨论】:

            【解决方案6】:

            我还没用过这个,但this 看起来很有趣。作者从头开始编写并发布了他是如何做到的。它的代码也可供下载。

            【讨论】:

              猜你喜欢
              • 1970-01-01
              • 2011-07-07
              • 1970-01-01
              • 2010-11-23
              • 2023-04-01
              • 1970-01-01
              • 1970-01-01
              • 1970-01-01
              • 2011-05-15
              相关资源
              最近更新 更多