【发布时间】:2013-03-31 14:20:18
【问题描述】:
我正在尝试一种算法,它可以搜索一段文本以查找关键字,例如我有一个单词数组:
Sample=['Andy' 'Murray' 'is' 'expecting' 'a' 'difficult' 'test' 'when' 'he' 'faces' 'David' 'Ferrer' 'in' 'the' 'final' 'of' 'the' 'Sony' 'Open' 'on' 'Sunday'];
我想挑选重要的词,如“Andy、Murray、David、Ferrer、Sunday、Open、Final”等,但我对英语技术方面的了解有限,所以我不知道我应该是什么词忽略。
还有其他从文本中查找标签的好方法可以推荐吗? /你知道我应该忽略的单词类型等
p.s 我希望任何代码都在 c++ 中,但这不是必需的 :)
【问题讨论】:
-
你写过代码还是只是在寻找算法?标签是什么意思?喜欢推特?
-
标签我只是指关键字,我建议的重要词。但我基本上只需要丢失“is”、“and”等词我只想知道是否有任何预先构建的算法可以为我处理这个
-
欢迎来到 StackOverflow。这个问题不适合该网站。这里的问题应该是关于实际代码的具体技术问题。这个问题含糊不清,不是真正的主题,很可能会被关闭。
-
好吧,如果您有要排除的单词列表,那么它很容易
-
也就是说,您提出的问题是一个积极研究的问题,因此您应该从寻找关于概率潜在语义分析的论文开始。维基百科页面有一个很好的介绍。 en.wikipedia.org/wiki/PLSA
标签: algorithm parsing text tags