【问题标题】:supervised keyphrase extraction weka or other tool监督关键词提取 weka 或其他工具
【发布时间】:2015-10-28 09:47:11
【问题描述】:

如何使用 WEKA 通过监督方法查找关键词。

我必须学习用于提取关键词的模型,所以我有一个用于训练的语料库(每个文档都有一个包含关键词或关键词的对应文件)

我还有一个用于测试监督模型的语料库(没有关键词文件的文档),因此模型应该为每个文档输出关键词列表。

我的问题是如何将文档输入到 weka,我应该为每个文档添加吗

@attribute 文档字符串

@数据 “Docu1…………” “Docu2…………” ... .. “文档…………”

现在如何输入包含每个文档的关键短语的文件以从模型中学习?

【问题讨论】:

    标签: weka supervised-learning


    【解决方案1】:

    首先您需要选择要使用的功能:最基本的算法仅基于 tf-idf 值。 https://code.google.com/p/kea-algorithm/ 但是您也可以将此功能扩展为您的“特定任务”功能。 例如短语的第一次出现等。您可以在本文中找到一些可能的功能:http://www.aclweb.org/anthology/S/S10/S10-1040.pdf 然后,您必须选择一种机器学习算法并在您训练数据集时对其进行训练,并在您的测试集上对其进行评估。

    【讨论】:

    • 感谢我的理解是,在使用机器学习算法对模型进行训练后,系统将能够自动检测关键词并返回关键词列表,你知道最好的算法吗测试
    • 您可以尝试最大熵或基于回归的分类器或贝叶斯。
    猜你喜欢
    • 2017-09-04
    • 2020-11-09
    • 2014-07-05
    • 1970-01-01
    • 1970-01-01
    • 2019-06-14
    • 1970-01-01
    • 2017-12-08
    • 1970-01-01
    相关资源
    最近更新 更多