【问题标题】:How does WEKA treat nominal attributes v/s numerical attributes?WEKA 如何处理名义属性与数字属性?
【发布时间】:2012-08-03 10:52:05
【问题描述】:

如果我在数据集中的一列只有 3 个可能的值。即0、1和2,如果我将它们声明为名义v/s数字,WEKA对它们有何不同?

另外,如果我有一列的属性有大量名义值,是否有一种简单的方法来声明这个具有非常高序值的名义属性?

【问题讨论】:

    标签: machine-learning data-mining weka


    【解决方案1】:

    粗略地说(取决于实际算法):

    当被视为数字时,1到2和1到3的差异大约会是两倍大。 (假设没有其他属性)。

    当被视为字符串时,它们可能同样不同,如 '1' != '2' 和 '1' != '3'。 (但是,结果可能取决于数字的频率,例如;分类数据的常见差异度量涉及相对频率)

    【讨论】:

    • 感谢您的直观解释。您能否详细说明您关于频率和分类数据的最后一行?谢谢
    • 我不使用分类数据。您必须自己在文献和 Weka 中查找适当的相似性度量。
    【解决方案2】:

    如何处理数值和分类值取决于您使用的 Weka 中的实际机器学习算法。有些不能同时处理这两类属性,如果您选择了具有错误属性类型的此类算法,Weka 会告诉您。

    一般而言,您应该将属性声明为它们的真实属性,即,如果一个值是数字的,即使只有几个不同的实际值,也要将其声明为数字。同样,如果属性是分类的,即使有许多不同的值,也要声明它。

    关于您的最后一个问题,我认为 Weka 不会将分类值与少数和许多不同的实际值区分开来。它应该与其他所有内容相同。

    【讨论】:

      猜你喜欢
      • 2015-04-08
      • 2014-05-07
      • 1970-01-01
      • 2013-03-16
      • 2011-10-23
      • 2013-04-19
      • 2015-01-24
      • 2018-08-15
      • 2014-09-18
      相关资源
      最近更新 更多