文本挖掘单个文本文档答案

【问题标题】：Text Mining a single text document文本挖掘单个文本文档
【发布时间】：2014-05-18 02:03:06
【问题描述】：

我是数据挖掘的新手，目前正在 RapidMiner 中撰写来自 TOI 的在线新闻文章。我的目标是获得显示文章中提到的最重要内容的结果，或者找到隐藏在其中的有价值信息。

我被困在这里了。我不知道如何进一步进行。我应该在 RapidMiner 中使用哪种技术/算法来获得所需的结果？

【问题讨论】：

【解决方案1】：

您不是在寻找数据挖掘。数据挖掘是高级统计方法。

通常侧重于定量分析。

您正在寻找自然语言处理。您没有大型数据库。

您只有一个文档。你不想要定量的结果，而是定性的。您使用了错误的工具。

【讨论】：

感谢您的回复！我现在在 RapidMiner 仪式中使用信息提取插件扩展。会有帮助吗？或者您会为此建议我使用哪种其他工具？
@Anony-Mousse：我不同意你的观点。可以将单个文档视为可以转换为更大数据集的数据源。在这种情况下，数据挖掘可能有助于提取文档中的某些模式。
RapidMiner 的信息提取扩展在www-ai.cs.uni-dortmund.de/auto?self=$fqhavm6c 有一些文档，以防您没有看到它。命名实体识别 (NER) 被提及不少。
这个网站清楚地说明了巨大的文档collections。如果您处理大量文档，则每个文档的时间都很短，因此只进行最少的分析。这就是为什么这与真正的 NLP 如此不同的原因。我认为您需要一种专门的 NLP 工具，而不是专门用于收集大量文档的工具。也许是斯坦福核心 NLP？