标签生成算法[关闭]答案

【问题标题】：Tag Generating Algorithm [closed]标签生成算法[关闭]
【发布时间】：2013-03-31 14:20:18
【问题描述】：

我正在尝试一种算法，它可以搜索一段文本以查找关键字，例如我有一个单词数组：

Sample=['Andy' 'Murray' 'is' 'expecting' 'a' 'difficult' 'test' 'when' 'he' 'faces' 'David' 'Ferrer' 'in' 'the' 'final' 'of' 'the' 'Sony' 'Open' 'on' 'Sunday'];

我想挑选重要的词，如“Andy、Murray、David、Ferrer、Sunday、Open、Final”等，但我对英语技术方面的了解有限，所以我不知道我应该是什么词忽略。

还有其他从文本中查找标签的好方法可以推荐吗？ /你知道我应该忽略的单词类型等

p.s 我希望任何代码都在 c++ 中，但这不是必需的 :)

【问题讨论】：

你写过代码还是只是在寻找算法？标签是什么意思？喜欢推特？
标签我只是指关键字，我建议的重要词。但我基本上只需要丢失“is”、“and”等词我只想知道是否有任何预先构建的算法可以为我处理这个
欢迎来到 StackOverflow。这个问题不适合该网站。这里的问题应该是关于实际代码的具体技术问题。这个问题含糊不清，不是真正的主题，很可能会被关闭。
好吧，如果您有要排除的单词列表，那么它很容易
也就是说，您提出的问题是一个积极研究的问题，因此您应该从寻找关于概率潜在语义分析的论文开始。维基百科页面有一个很好的介绍。 en.wikipedia.org/wiki/PLSA

标签： algorithm parsing text tags

【解决方案1】：

Information Retrieval 领域的经典方法是使用tf-idf model。

tf 组件指示每个术语在文档/句子 - 越多越好 - 因为它在文本中表示重要性。
idf 组件表示集合中有多少文档中有这个词，这个数字越低 - 词越重要（因为如果一个稀有词出现在文本中，它可以帮助你使用这个词来出于直觉，将此文档与其他文档更好地分开 - 单词“the”很可能不会说明文档，并且 idf 值确保其权重很小）。

【讨论】：