【问题标题】:Weka ,Text Classification on an arff fileWeka,arff 文件上的文本分类
【发布时间】:2015-04-29 19:56:46
【问题描述】:

。这是一个基本问题。我正在尝试将文本文件分类为 20 个不同的类。

因此,我有一个项目结构,其中包含一个名为 train,test 的文件夹。 在 train 文件夹中,我有 20 个不同的文件夹,每个文件夹又有许多与该特定类相关的文件。例如:天气、无神论......等

我现在已经为整个 train 文件夹创建了一个 train.arff 文件。当数据通过可视化时,我只能看到两个属性。 已提供以下链接:

Screen in weka

我的疑问是如何查看这些文件夹下的各种文件并删除停用词、标点符号、词干。我该如何进行预处理。如果有一些好的资源链接可用,请建议并提供必要的链接

【问题讨论】:

  • 你能把这些.arff格式的火车文本发给我吗?我需要这个。谢谢

标签: weka text-classification


【解决方案1】:

当我第一次使用 Weka 进行文本分类时,我发现下面的视频非常有用。你可能想看看。

您可能想使用 StringToWordVector 过滤器来查看每个单词作为属性的效果,这在第一个和最后一个视频中确实有详细描述。在过滤器设置中,您可以提供停用词列表,并在每次运行中选择是否使用它。与词干相同,您也可以更改它。这个documentation 和视频会让您轻松理解它。

【讨论】:

    猜你喜欢
    • 2014-08-12
    • 2015-04-30
    • 2015-06-24
    • 1970-01-01
    • 2013-03-19
    • 2013-10-22
    • 2012-04-08
    • 1970-01-01
    • 2013-11-01
    相关资源
    最近更新 更多