【发布时间】:2017-09-15 16:54:30
【问题描述】:
我正在创建一个 Spark 作业,该作业需要使用 Python 编写的函数将一列添加到数据框中。其余的处理是使用 Scala 完成的。
我找到了如何从 pyspark 调用 Java/Scala 函数的示例:
- https://community.hortonworks.com/questions/110844/is-it-possible-to-call-a-scala-function-in-pythonp.html
- http://aseigneurin.github.io/2016/09/01/spark-calling-scala-code-from-pyspark.html
我发现以另一种方式发送数据的唯一示例是使用pipe
我是否可以将整个数据帧发送到 python 函数,让函数处理数据并添加额外的列,然后将生成的数据帧发送回调用 Scala 函数?
如果这不可能,我当前的解决方案是运行 pyspark 进程并调用多个 Scala 函数来操作数据帧,这并不理想。
【问题讨论】:
-
虽然理论上可行(通过 Py4j 回调),但不值得这么忙。 Spark 旨在让客人的互动变得轻松,而不是相反。如果你想让事情变得更简单——只需将整个 Scala 管道整合到一个包装函数中。或者使用 Databricks 或 Zeppelin 之类的笔记本。但是对于单个函数来说,重写它几乎总是更好。
-
不幸的是,重写函数的工作量很大。它利用了一些没有基于 jvm 的等效库。我也已经将管道包装在一个函数中。我希望我错过了什么。 ☹ 看起来我被困在使用 python 作为我的入口点
-
另一种方法是使用腌制对象并从 Java 手动创建
PythonFunction和UserDefinedPythonFunction,但我建议不要这样做。 -
@roblovelock:你找到解决方案了吗?我们需要类似的东西吗?
-
不,很遗憾,我没有。上周我遇到了一个类似的问题,因此决定用 python 编写解决方案。稍后我会看看我是否可以一劳永逸地解决这个问题。
标签: python scala apache-spark pyspark spark-dataframe