【发布时间】:2015-09-12 05:10:27
【问题描述】:
我有一组(约 5 万个元素)小文本片段(通常是一个或两个句子),每个片段都标记有一组从约 5 千个单词列表中选择的关键字。
我将如何实现一个系统,从这些示例中学习,然后可以用相同的关键字集标记新句子?我不需要代码,我只是在寻找一些关于如何实现它的指针和方法/论文/可能的想法。
【问题讨论】:
-
我真的认为值得用一个例子来详细说明这一点,因为我不确定你指的是什么。 5K 字很多,涵盖了大部分口语(!);选择关键词的依据是什么?
-
这些句子已被手动标记为描述它们的最相关的关键字,即句子“今天的日落非常美丽”可以被标记为“日落太阳自然”。每个句子都有 1 到 10 个标签,可能的关键字总数约为 5k。现在我想训练一些基于这些例子的东西来学习如何标记新的看不见的句子。
-
您在寻找什么样的结果?一个简单的解决方案会为不同标签的所有单词打分,如果没有其他类似的例子,可能会将 "The jabberwock was very beautiful today" 标记为 sunset在集合中。
-
@roganjosh 5,000 个单词在大多数语言中比一个 6 岁单语儿童的词汇量要少。
标签: machine-learning nlp