【发布时间】:2013-02-28 16:39:15
【问题描述】:
我正在处理大量文档,并且有一组预定义的类别/标签(可能是短语),它们将以准确或不准确的形式出现在文档的文本中。 我想将每个文档分配给最接近其文本的标签中的一个标签。
请给我一些指导,告诉我应该如何解决这个问题。
【问题讨论】:
标签: indexing
我正在处理大量文档,并且有一组预定义的类别/标签(可能是短语),它们将以准确或不准确的形式出现在文档的文本中。 我想将每个文档分配给最接近其文本的标签中的一个标签。
请给我一些指导,告诉我应该如何解决这个问题。
【问题讨论】:
标签: indexing
您可以查看在索引时标记文档的 lucene 搜索引擎。 Northernlight 搜索引擎曾经执行过您在其搜索方法中提到的类似任务。你可以看看它的实现来获得一个想法。
【讨论】: