【发布时间】:2015-06-30 16:37:22
【问题描述】:
我想使用 Spark ML Lib 训练模型,然后能够以与平台无关的格式导出模型。本质上,我想解耦模型的创建和使用方式。
我想要这种解耦的原因是我可以在其他项目中部署模型。例如:
- 使用该模型在不依赖 Spark 进行评估的单独独立程序中执行预测。
- 将模型与 OpenScoring 等现有项目一起使用,并提供可利用该模型的 API。
- 将现有模型加载回 Spark 以进行高吞吐量预测。
有人用 Spark ML Lib 做过类似的事情吗?
【问题讨论】:
-
你可以试试jpmml。我没有使用 jpmml 的实际知识,但我认为无论您使用的是 Java 还是 Scala,这都是您所需要的。
-
我正在研究 JPMML,但我没有看到任何将 ML Lib 模型开箱即用地转换为 JPMML 的明确方法
-
你必须阅读文档...
-
你有没有看到以下 Github 问题:github.com/apache/spark/pull/3062#discussion_r19769621
-
@eliasah 您到底指的是什么文档? user1808924 我还没有看到这个问题。该 PR 似乎解决了学习者的序列化问题,而不是转换器的序列化问题,所以看起来我需要为每个额外的特征转换器(缩放、特征提取等)分叉 spark 并开发 PMML 序列化逻辑
标签: hadoop deployment machine-learning apache-spark modeling