【问题标题】:Tag Generating Algorithm [closed]标签生成算法[关闭]
【发布时间】:2013-03-31 14:20:18
【问题描述】:

我正在尝试一种算法,它可以搜索一段文本以查找关键字,例如我有一个单词数组:

Sample=['Andy' 'Murray' 'is' 'expecting' 'a' 'difficult' 'test' 'when' 'he' 'faces' 'David' 'Ferrer' 'in' 'the' 'final' 'of' 'the' 'Sony' 'Open' 'on' 'Sunday'];

我想挑选重要的词,如“Andy、Murray、David、Ferrer、Sunday、Open、Final”等,但我对英语技术方面的了解有限,所以我不知道我应该是什么词忽略。

还有其他从文本中查找标签的好方法可以推荐吗? /你知道我应该忽略的单词类型等

p.s 我希望任何代码都在 c++ 中,但这不是必需的 :)

【问题讨论】:

  • 你写过代码还是只是在寻找算法?标签是什么意思?喜欢推特?
  • 标签我只是指关键字,我建议的重要词。但我基本上只需要丢失“is”、“and”等词我只想知道是否有任何预先构建的算法可以为我处理这个
  • 欢迎来到 StackOverflow。这个问题不适合该网站。这里的问题应该是关于实际代码具体技术问题。这个问题含糊不清,不是真正的主题,很可能会被关闭。
  • 好吧,如果您有要排除的单词列表,那么它很容易
  • 也就是说,您提出的问题是一个积极研究的问题,因此您应该从寻找关于概率潜在语义分析的论文开始。维基百科页面有一个很好的介绍。 en.wikipedia.org/wiki/PLSA

标签: algorithm parsing text tags


【解决方案1】:

Information Retrieval 领域的经典方法是使用tf-idf model

  • tf 组件指示每个术语在 文档/句子 - 越多越好 - 因为它在文本中表示重要性。
  • idf 组件表示集合中有多少文档中有这个词,这个数字越低 - 词越重要(因为如果一个稀有词出现在文本中,它可以帮助你使用这个词来出于直觉,将此文档与其他文档更好地分开 - 单词“the”很可能不会说明文档,并且 idf 值确保其权重很小)。

【讨论】:

    猜你喜欢
    • 2019-01-18
    • 1970-01-01
    • 2010-10-03
    • 1970-01-01
    • 1970-01-01
    • 2013-03-21
    • 2010-10-27
    • 2012-04-21
    • 2013-11-03
    相关资源
    最近更新 更多