【问题标题】:Text Mining a single text document文本挖掘单个文本文档
【发布时间】:2014-05-18 02:03:06
【问题描述】:

我是数据挖掘的新手,目前正在 RapidMiner 中撰写来自 TOI 的在线新闻文章。我的目标是获得显示文章中提到的最重要内容的结果,或者找到隐藏在其中的有价值信息。

我已完成文章“TOI manifesto”http://timesofindia.indiatimes.com/home/specials/lok-sabha-elections-2014/news/TOI-manifesto-An-agenda-for-the-new-government/articleshow/31973967.cms 的文档处理。 我已经应用了标记化、过滤和 ngram 并得到了一些结果。

我被困在这里了。我不知道如何进一步进行。我应该在 RapidMiner 中使用哪种技术/算法来获得所需的结果?

【问题讨论】:

  • 不清楚什么是“要求的结果”。也许正在寻找频率最高的词?
  • 我正在寻找提供文章主要信息的句子。有没有办法做到这一点?

标签: data-mining text-mining rapidminer


【解决方案1】:

您不是在寻找数据挖掘。数据挖掘是高级统计方法。

通常侧重于定量分析。

您正在寻找自然语言处理。您没有大型数据库。

您只有一个文档。你不想要定量的结果,而是定性的。您使用了错误的工具。

【讨论】:

  • 感谢您的回复!我现在在 RapidMiner 仪式中使用信息提取插件扩展。会有帮助吗?或者您会为此建议我使用哪种其他工具?
  • @Anony-Mousse:我不同意你的观点。可以将单个文档视为可以转换为更大数据集的数据源。在这种情况下,数据挖掘可能有助于提取文档中的某些模式。
  • RapidMiner 的信息提取扩展在www-ai.cs.uni-dortmund.de/auto?self=$fqhavm6c 有一些文档,以防您没有看到它。命名实体识别 (NER) 被提及不少。
  • 这个网站清楚地说明了巨大的文档collections。如果您处理大量文档,则每个文档的时间都很短,因此只进行最少的分析。这就是为什么这与真正的 NLP 如此不同的原因。我认为您需要一种专门的 NLP 工具,而不是专门用于收集大量文档的工具。也许是斯坦福核心 NLP?
猜你喜欢
  • 2012-05-08
  • 2013-08-02
  • 2019-06-04
  • 2019-05-05
  • 2013-02-09
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-09-21
相关资源
最近更新 更多