【问题标题】:Tagging documents with predefined labels使用预定义的标签标记文档
【发布时间】:2013-02-28 16:39:15
【问题描述】:

我正在处理大量文档,并且有一组预定义的类别/标签(可能是短语),它们将以准确或不准确的形式出现在文档的文本中。 我想将每个文档分配给最接近其文本的标签中的一个标签。

请给我一些指导,告诉我应该如何解决这个问题。

【问题讨论】:

    标签: indexing


    【解决方案1】:

    您可以查看在索引时标记文档的 lucene 搜索引擎。 Northernlight 搜索引擎曾经执行过您在其搜索方法中提到的类似任务。你可以看看它的实现来获得一个想法。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-11-21
      • 1970-01-01
      • 1970-01-01
      • 2018-07-20
      • 1970-01-01
      • 2017-04-17
      相关资源
      最近更新 更多