【发布时间】:2017-03-22 20:46:15
【问题描述】:
对于我们构建的应用程序,我们使用一个简单的单词预测统计模型(如Google Autocomplete)来指导搜索。
它使用从大量相关文本文档中收集的 ngram 序列。通过考虑前面的 N-1 个单词,它使用Katz back-off 以概率降序建议 5 个最有可能的“下一个单词”。
我们希望将其扩展到预测短语(多个单词)而不是单个单词。然而,当我们预测一个短语时,我们不希望显示它的前缀。
例如,考虑输入the cat。
在这种情况下,我们希望做出类似the cat in the hat 的预测,但不是the cat in 和the cat in the。
假设:
我们无权访问过去的搜索统计信息
我们没有标记的文本数据(例如,我们不知道词性)
进行此类多词预测的典型方法是什么?我们已经尝试对较长的短语进行乘法和加法加权,但我们的权重是任意的,并且对我们的测试过度拟合。
【问题讨论】:
标签: algorithm autocomplete n-gram phrases