Vowpal Wabbit 输入需要多少预处理？

【问题标题】：How much preprocessing Vowpal Wabbit input needs?Vowpal Wabbit 输入需要多少预处理？
【发布时间】：2018-02-08 14:02:37
【问题描述】：

我知道 vw 可以处理非常原始的数据（例如原始文本），但例如，是否应该在将数据提供给 vw 之前考虑缩放数字特征？考虑以下行：

1 |n age: 80.0 height: 180.0 |c male london |d the:1 cat:2 went:3 out:4

假设典型的年龄范围从 1 到 100，身高（以厘米为单位）可能从 140 到 220，转换/缩放 age 和 height 是否更好，以便它们共享一个共同的范围？我认为许多算法可能需要对其输入数据进行这种预处理，例如线性回归。

【问题讨论】：

【解决方案1】：

vw SGD 与普通的朴素 SGD 相比得到了高度增强，因此不需要预缩放。

如果您的实例很少（小数据集），预缩放可能会有所帮助。

vw 通过记住每个特征的范围来自动对比例进行归一化，因此很少需要预缩放来获得良好的结果。

默认情况下应用规模、稀有度和重要性的标准化。相关的vw 选项是：

--normalized
--adaptive
--invariant

如果其中任何一个出现在命令行上，则不会应用其他的。默认情况下会应用所有三个。

vw 中解释增强型 SGD 算法的论文是：

【讨论】：