【问题标题】:How to identify tags (key words) automatically from a given text?如何从给定的文本中自动识别标签(关键词)?
【发布时间】:2011-02-03 03:45:07
【问题描述】:

它的行为应该类似于 Firefox 的 Delicious toolbar;它列出了可以点击的标签。效果如下图:

代码应该能够找到文本的关键词。有什么好的算法或者开源项目可以推荐吗?

我找到了this post,但它对于我的特定需求来说有点太笼统了。

【问题讨论】:

  • 好的,我认为您需要更具体一点,而不仅仅是“它列出了可以点击的标签”……delicious 是一项书签服务,您提到的问题是数据挖掘/文本挖掘。你想达到什么目的?
  • 已编辑。我希望这个问题现在更清楚..
  • 我认为这些标签是从其他人已经在此 URL 上添加书签的标签中抽取的。

标签: algorithm full-text-search text-analysis


【解决方案1】:

我认为您正在寻找这些答案之一,

简而言之-您希望从文本中提取以某种方式代表其中概念的一元组-执行此操作的技术称为Pointwise Mutual Information,前两个链接中的示例对此进行了说明。使用 Python NLTK 框架(已经内置了很多这些算法)可能是您开始工作的最佳起点。

祝你好运!

【讨论】:

  • 这是迄今为止对这个问题最有帮助的答案。谢谢。
  • 谢谢!如果您发现答案有用 - 您可能想接受它。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-10-03
  • 1970-01-01
  • 2012-03-14
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多