监督关键词提取 weka 或其他工具答案

【问题标题】：supervised keyphrase extraction weka or other tool监督关键词提取 weka 或其他工具
【发布时间】：2015-10-28 09:47:11
【问题描述】：

如何使用 WEKA 通过监督方法查找关键词。

我必须学习用于提取关键词的模型，所以我有一个用于训练的语料库（每个文档都有一个包含关键词或关键词的对应文件）

我还有一个用于测试监督模型的语料库（没有关键词文件的文档），因此模型应该为每个文档输出关键词列表。

我的问题是如何将文档输入到 weka，我应该为每个文档添加吗

@attribute 文档字符串

@数据 “Docu1…………” “Docu2…………” ... .. “文档…………”

现在如何输入包含每个文档的关键短语的文件以从模型中学习？

【问题讨论】：

标签： weka supervised-learning

【解决方案1】：

首先您需要选择要使用的功能：最基本的算法仅基于 tf-idf 值。 https://code.google.com/p/kea-algorithm/ 但是您也可以将此功能扩展为您的“特定任务”功能。例如短语的第一次出现等。您可以在本文中找到一些可能的功能：http://www.aclweb.org/anthology/S/S10/S10-1040.pdf 然后，您必须选择一种机器学习算法并在您训练数据集时对其进行训练，并在您的测试集上对其进行评估。

【讨论】：

本题类似：stackoverflow.com/questions/20002095/…
感谢我的理解是，在使用机器学习算法对模型进行训练后，系统将能够自动检测关键词并返回关键词列表，你知道最好的算法吗测试
您可以尝试最大熵或基于回归的分类器或贝叶斯。