【问题标题】:Classify data-set (stringToWord) filter by weka通过 weka 分类数据集(stringToWord)过滤器
【发布时间】:2023-03-08 18:00:01
【问题描述】:

我是 weka 的新手。

我有一个关于特定公司的数据集(推特数据).. 我使用的过滤器:string to word ..我更改了选项 wordstokeep =100 ,以提高准确性。 然后我应用了分类器: Kstar 55%,随机森林 57%,SMO 58% 这些不是最好的结果..

有什么想法可以帮助我很好地改进它>>

【问题讨论】:

  • 对于 twitter 等多样化的数据,您的训练数据可能太少。

标签: machine-learning classification weka


【解决方案1】:

首先尝试预处理您的数据。 Twitter 数据包含大量噪音。删除:

  1. 网址
  2. 转推
  3. 标签
  4. 特殊字符 您可以做的另一件事是使用 n-gram。尝试不同的 n-gram 并检查哪一个最适合您。我的看法是使用 unigrams +bigrams。

我还建议使用 naiveBayesMultinomial 分类器。它恰好在文本分类和情感分析中效果最佳。另外它也非常快。如果您希望代码对数据进行预处理,请告诉我:)

【讨论】:

    猜你喜欢
    • 2012-07-16
    • 2016-01-15
    • 2022-01-06
    • 2014-06-01
    • 2015-10-25
    • 2015-10-25
    • 2015-01-05
    • 2019-03-10
    • 2019-11-05
    相关资源
    最近更新 更多