【发布时间】:2014-05-18 02:03:06
【问题描述】:
我是数据挖掘的新手,目前正在 RapidMiner 中撰写来自 TOI 的在线新闻文章。我的目标是获得显示文章中提到的最重要内容的结果,或者找到隐藏在其中的有价值信息。
我已完成文章“TOI manifesto”http://timesofindia.indiatimes.com/home/specials/lok-sabha-elections-2014/news/TOI-manifesto-An-agenda-for-the-new-government/articleshow/31973967.cms 的文档处理。 我已经应用了标记化、过滤和 ngram 并得到了一些结果。
我被困在这里了。我不知道如何进一步进行。我应该在 RapidMiner 中使用哪种技术/算法来获得所需的结果?
【问题讨论】:
-
不清楚什么是“要求的结果”。也许正在寻找频率最高的词?
-
我正在寻找提供文章主要信息的句子。有没有办法做到这一点?
标签: data-mining text-mining rapidminer