【问题标题】:How much preprocessing Vowpal Wabbit input needs?Vowpal Wabbit 输入需要多少预处理?
【发布时间】:2018-02-08 14:02:37
【问题描述】:

我知道 vw 可以处理非常原始的数据(例如原始文本),但例如,是否应该在将数据提供给 vw 之前考虑缩放数字特征? 考虑以下行:

1 |n age: 80.0 height: 180.0 |c male london |d the:1 cat:2 went:3 out:4

假设典型的年龄范围从 1 到 100,身高(以厘米为单位)可能从 140 到 220,转换/缩放 ageheight 是否更好,以便它们共享一个共同的范围?我认为许多算法可能需要对其输入数据进行这种预处理,例如线性回归。

【问题讨论】:

    标签: r machine-learning data-processing vowpalwabbit


    【解决方案1】:

    vw SGD 与普通的朴素 SGD 相比得到了高度增强,因此不需要预缩放。

    如果您的实例很少(小数据集),预缩放可能会有所帮助。

    vw 通过记住每个特征的范围来自动对比例进行归一化,因此很少需要预缩放来获得良好的结果。

    默认情况下应用规模、稀有度和重要性的标准化。相关的vw 选项是:

    --normalized
    --adaptive
    --invariant
    

    如果其中任何一个出现在命令行上,则不会应用其他的。默认情况下会应用所有三个。

    另请参阅: this stackoverflow answer

    vw 中解释增强型 SGD 算法的论文是:

    Online Importance Weight Aware Updates - Nikos Karampatziakis & John Langford

    【讨论】:

      猜你喜欢
      • 2016-01-05
      • 2016-01-31
      • 2015-07-01
      • 2014-03-12
      • 2018-01-20
      • 2016-04-20
      • 2016-09-21
      • 2013-10-15
      • 2014-11-08
      相关资源
      最近更新 更多