【问题标题】:String search engine - return best restults? [closed]字符串搜索引擎 - 返回最佳结果? [关闭]
【发布时间】:2012-09-10 10:44:44
【问题描述】:

我正在申请,但遇到了问题。

描述应用程序:用户写,让我们在文本框中说一个句子,然后点击进入。应用程序应在文本文件文件夹中搜索句子,并根据该句子返回最相关的文本文件的标题。

那么,我应该根据什么标准选择包含该句子或该句子一部分的最佳文件?我有一些想法,基于出现次数,我正在搜索的文本文件的长度等。这是一个非常有趣的问题。

在互联网上,我找到的最佳链接是:http://www.seomoz.org/blog/search-engine-algorithm-basics

请提供一些想法...

谢谢!

【问题讨论】:

    标签: c# string algorithm search mathematical-optimization


    【解决方案1】:

    常规方法是使用tf-idf model 来确定关键字(术语)与文档的相关程度。

    这个想法是:如果它多次出现在文档中 - 文档就会得到提升。但是,非常常用的词 - 会被降低(对文档的分数不太重要),因为它们很可能出现在所有文档中。

    您还想看看Lucene.NET,它是常用的开源搜索引擎lucene 的.NET 版本。

    您可能还想阅读Information Retrieval。我推荐斯坦福大学的Introduction to Information Retrieval 作为学习该领域的好来源。

    【讨论】:

    猜你喜欢
    • 2012-06-07
    • 2012-10-25
    • 2013-09-24
    • 2012-11-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多