【问题标题】:Real-time data standardization / normalization with Spark structured streaming使用 Spark 结构化流的实时数据标准化/规范化
【发布时间】:2017-10-19 20:53:33
【问题描述】:

在实施机器学习算法时,标准化/规范化数据是必不可少的,如果不是关键的话。在过去的几周里,我一直在努力解决使用 Spark 结构化流实时处理的问题。

在历史数据上使用StandardScaler 估计器((value(i)-mean) /standard deviation) 被证明是很好的,在我的用例中,它是最好的,以获得合理的聚类结果,但我不确定如何将StandardScaler 模型与实时数据。结构化流不允许它。任何建议将不胜感激!

换句话说,如何在 Spark 结构化流中拟合模型?

【问题讨论】:

    标签: apache-spark machine-learning spark-streaming normalization spark-structured-streaming


    【解决方案1】:

    我得到了答案。目前还不可能使用 Spark 结构化流进行实时机器学习,包括标准化;但是,对于某些算法,如果构建/拟合了离线模型,则可以进行实时预测。

    检查:

    JIRA - Add support for Structured Streaming to the ML Pipeline API

    Google DOC - Machine Learning on Structured Streaming

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-07-20
      • 2017-10-05
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-05-04
      • 2019-08-24
      • 1970-01-01
      相关资源
      最近更新 更多