【问题标题】:Search engine recommendation for 100 sites of about 4000 pages100个网站约4000页的搜索引擎推荐
【发布时间】:2010-04-26 18:08:03
【问题描述】:

我正在寻找一个搜索引擎,它可以定期(每天)扫描大约 100 个页面以查找更改,并在发现自上次扫描以来的更改时索引相关网站。它应该能够处理大约 100 个站点,每个站点平均有 4000 个页面,平均大小约为 5k,每个站点位于不同的服务器上(但只有一个集中式搜索引擎)。这些站点中的每一个都将有一个搜索表单,该表单将被提交到该搜索引擎。返回的结果必须特定于提交它们的站点。我为外部网站创建了模板,因此我可以为搜索表单提供一个隐藏字段,用于指定从哪个站点提交表单。

你会建议我研究什么?

如果可行,我很乐意为此使用基于 Python 的系统。

我目前正在使用名为 iSearch2 的东西。在这个规模上它似乎不太稳定,产品的描述表明它并不是真的打算做多个站点,是用 PHP 编写的(这对我来说不如 Python 舒服),并且对于我的具体情况还有一些其他缺点情况。

【问题讨论】:

  • 这看起来像是一个软件推荐请求,属于超级用户。

标签: python search-engine


【解决方案1】:

如果您正在寻找纯 Python 搜索引擎,您可以查看 whoosh。嗖嗖声的问题在于它速度慢而且功能不全。如果您的网站没有获得太多流量,那很好,但您可能需要更强大的产品来生产。

话虽如此,我喜欢将Xapian 与它的python bindings 一起使用。它非常快速且易于设置。

您也可以使用solr,它有一个python api。 Solr 是用 Java 编写的,但不要让它愚弄你,因为它是这群人中表现最好的。你只需要运行一个 java 服务器来让它工作。

由于我使用 Django,我可以将 haystack 集成到我的项目中,这样可以轻松切换搜索引擎。我将使用 Whoosh 进行开发,因为它设置简单且快速(它可以安装在 virtualenv 中),但根据我的需要使用 Xapian 或 Solr 进行生产部署。

【讨论】:

    【解决方案2】:

    我推荐PyLucene。 PyLucene 是一个用于访问 Java Lucene 的 Python 扩展,并且运行良好且快速。

    【讨论】:

      【解决方案3】:

      +1 用于 Lucene。如果 PyLucene 看起来很复杂,或者你可以查看Solr(这是一个基于 Lucene 的具有 HTTP 接口的搜索服务器。高度可扩展,速度极快,并提供非常好的功能集,例如多面浏览、缓存等。OOTB

      由于 Solr 是基于 HTTP 的,因此您可以使用其 RESTful API 连接到任何语言(包括 Python)。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2013-09-04
        • 2010-11-30
        • 2010-12-25
        • 1970-01-01
        • 2012-02-02
        • 2010-11-16
        • 1970-01-01
        • 2013-11-13
        相关资源
        最近更新 更多