【发布时间】:2014-10-01 07:46:19
【问题描述】:
我们想为在线/离线产品构建一个搜索引擎。我们开始在网上冲浪,开始了解倒排索引、TF/IDF 和其他通用搜索相关算法等技术。我们使用了内置所有上述技术的 lucene,我们的基本搜索平台已经准备就绪。
后来我们意识到通用搜索引擎会返回任何类型的输出。 假设我搜索“black shoes”,搜索字符串输出将包含同时包含黑色和鞋子的输出。所以在输出中很可能有一件黑色衬衫,但相关性较小。
所以我们认为产品分类可能是我们的救星。我们将根据产品所具有的属性对产品进行分类,然后我们还将解析查询字符串以挖掘用户正在寻找的内容并直接匹配它们。我不确定这是否是我们应该遵循的方式。
所以我想知道为利基市场构建搜索引擎通常遵循哪些不同的技术?
【问题讨论】:
标签: lucene search-engine