【发布时间】:2010-10-28 02:37:42
【问题描述】:
我正在开展一个项目,该项目由一个网站组成,该网站连接到 NCBI(国家生物技术信息中心)并在那里搜索文章。问题是我必须对所有结果进行一些文本挖掘。 我正在使用 JAVA 语言进行文本挖掘,并使用带有 ICEFACES 的 AJAX 来开发网站。 我有什么: 从搜索返回的文章列表。 每篇文章都有一个 ID 和一个摘要。 这个想法是从每个抽象文本中获取关键字。 然后比较所有摘要中的所有关键词,找出重复次数最多的关键词。然后在网站上显示搜索的相关词。 有任何想法吗 ? 我在网上搜索了很多,我知道有命名实体识别,词性标记,基因和蛋白质上有 NER 的 GENIA 词库,我已经尝试过词干提取......停用词列表等...... 我只需要知道解决这个问题的最佳方法。 非常感谢。
【问题讨论】:
标签: java nlp text-mining