【发布时间】:2017-10-19 20:53:33
【问题描述】:
在实施机器学习算法时,标准化/规范化数据是必不可少的,如果不是关键的话。在过去的几周里,我一直在努力解决使用 Spark 结构化流实时处理的问题。
在历史数据上使用StandardScaler 估计器((value(i)-mean) /standard deviation) 被证明是很好的,在我的用例中,它是最好的,以获得合理的聚类结果,但我不确定如何将StandardScaler 模型与实时数据。结构化流不允许它。任何建议将不胜感激!
换句话说,如何在 Spark 结构化流中拟合模型?
【问题讨论】:
标签: apache-spark machine-learning spark-streaming normalization spark-structured-streaming