【问题标题】:What is a good Web search and web crawling engine for Java?什么是好的 Java 网络搜索和网络爬虫引擎?
【发布时间】:2010-11-23 23:11:56
【问题描述】:

我正在开发一个需要集成搜索引擎的应用程序。这也应该进行爬行。请推荐一个基于 Java 的优秀搜索引擎。

提前谢谢你。

【问题讨论】:

    标签: java search-engine web-crawler


    【解决方案1】:

    Nutch (Lucene) 是一个开源引擎,应该可以满足您的需求。

    【讨论】:

    • 对不起,我这么晚才添加。首先,我探索了这个选项并使用了它,发现它对我很有用。 Lucene 是最好的选择,可能还有其他像梗犬一样的东西,但我没有探索它,因为我在 Lucene 中找到了所有需要的东西。谢谢
    【解决方案2】:

    过去我曾使用过terrier,这是一个用 Java 编写的搜索引擎:

    Terrier 是一个高度灵活、高效、有效且强大的搜索引擎,可轻松部署在大规模文档集合中。 Terrier 实现了最先进的索引和检索功能。 Terrier 为大规模检索应用的快速开发提供了理想的平台。

    【讨论】:

      【解决方案3】:

      在过去的 2 年里,我一直在使用 C 开发我们自己的高性能搜索引擎。对于 Java,我强烈建议使用 Apache Lucene 作为上面提到的 Ajay。对于 Java,它在速度、相关性和功能方面都是最好的。

      【讨论】:

      • 抱歉,没有阅读您的完整帖子 :P,如果您需要完整的包装,我认为 terrier 更好,因为 lucene 的(Nutch)爬虫还很年轻,几个月前我在测试它时几乎没有崩溃.
      • @John C:您还可以编辑答案以添加其他信息
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-07-08
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多