【问题标题】:Article search engine in phpphp中的文章搜索引擎
【发布时间】:2011-02-01 15:39:02
【问题描述】:

我在我的网站上使用 sphinx 作为搜索引擎,它运行良好,我对此没有任何抱怨。它唯一缺少的是,它不允许我搜索查询长度超过 15 个单词的文章。我知道实际上人们不会使用超过 3-4 个单词,我想用它来查找重复的内容。

我想知道是否有任何替代狮身人面像的解决方案。我想处理重复的内容。

我的主要文章表在 innodb 中,但我也将文章缓存到 MyISAM 表中以进行全文搜索,但是当我搜索一篇文章时,执行一次搜索需要很长时间。不是查询问题,我认为mysql缺少全文搜索功能。

谢谢 杰森

【问题讨论】:

  • 您希望构建什么样的查询来帮助您找到重复的内容?
  • 仅供参考,最新版本的 sphinx 中删除了“太多关键字”限制
  • @stereofrog 不,不是,我在 windows 和 centos 上运行最新版本的 sphinx。

标签: php search sphinx


【解决方案1】:

Apache Solr 是另一种选择。它基于 Apache 的 Lucene 项目...

您可能还想查看Lucene

而且由于您使用的是 MySQL,请检查它的全文搜索MySQL Full Text Searching

【讨论】:

  • @stereofrog 你是对的。我有旧的 php api,这就是为什么它不允许我使用完整的查询。谢谢
【解决方案2】:

也检查 Zend_Search_Lucene:http://framework.zend.com/manual/en/zend.search.lucene.html

虽然它比狮身人面像慢。

【讨论】:

    【解决方案3】:

    也许没有帮助,但您能否简单地向 MySQL 字段添加唯一索引以防止插入重复项?

    我在使用的 Sphinx 版本 (0.9.9) 中没有遇到任何查询长度限制,但也许我没有足够努力。

    【讨论】:

    • 我正在尝试查找抄袭的内容,因此添加唯一字段不是一个好的选择。我现在可以在 sphinx 中插入完整的查询,但现在它一直在崩溃:(
    猜你喜欢
    • 2013-09-03
    • 1970-01-01
    • 2011-11-14
    • 2011-03-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-06-12
    • 1970-01-01
    相关资源
    最近更新 更多