【问题标题】:How to get Term Frequency value from Weka?如何从 Weka 获取词频值?
【发布时间】:2014-11-06 16:06:01
【问题描述】:

我正在使用 StringToWordVector 通过推文生成 TDM。这是运行 StringToWordVector 过滤器后的 Instances 输出。

@data

{0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 1,10 1,11 1,15 1,16 1,29 1,30 1,31 1,35 1,36 }

{17 1,18 1,19 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,32 1,3}

{12 1,13 1,14 1,41 1,42 1,43 1,50 1,51 2,52 1,63 1,64 1,65 1,72 1,73 1,74 1,83 1,84 }

如何获得词频值?

谢谢。

【问题讨论】:

    标签: java nlp weka


    【解决方案1】:

    这是 Sparse ARFF 数据部分,非零属性由属性号明确标识,并说明它们的值(该值是词频)。每个实例都用大括号括起来,每个条目的格式为: 其中 index 是属性索引(从 0 开始)。您可以在此处了解更多信息:http://www.cs.waikato.ac.nz/ml/weka/arff.html

    【讨论】:

    • 谢谢。是否可以在数据集中的所有实例中计算这个术语频率?也就是说,我想知道索引 pos 3 标识的属性在数据集中出现了多少次?
    猜你喜欢
    • 1970-01-01
    • 2016-06-21
    • 1970-01-01
    • 2017-09-24
    • 1970-01-01
    • 2012-12-21
    • 2021-08-14
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多