【发布时间】:2016-07-12 19:22:23
【问题描述】:
我正在尝试使用 StreamingLogisticRegressionwithSGD 来构建 CTR 预测模型。
提到 numFeatures 应该是常数。
我面临的问题是: 由于我的大多数变量都是分类变量,因此 numFeatures 变量应该是在标记点格式中对分类变量进行编码和解析后的最终变量集。
假设,对于一个分类变量 x1,我在当前窗口中有 10 个不同的值。
但是在下一个窗口中,一些新值/项目被添加到 x1 并且不同值的数量增加。在这种情况下我应该如何处理 numFeatures 变量,因为它现在会改变?
基本上,我的问题是我应该如何处理流模型中分类变量的新值。
谢谢, 昆丹
【问题讨论】:
标签: apache-spark apache-spark-mllib