【发布时间】:2014-09-29 16:43:32
【问题描述】:
我在 Scala 中使用 Spark 已经有一段时间了。我现在正在研究 pySpark 和 SparkR。我没有看到 PySpark 和 SparkR 提到的流式传输。有谁知道在使用 Python 和 R 时是否可以进行 Spark 流式传输?
【问题讨论】:
标签: apache-spark streaming sparkr
我在 Scala 中使用 Spark 已经有一段时间了。我现在正在研究 pySpark 和 SparkR。我没有看到 PySpark 和 SparkR 提到的流式传输。有谁知道在使用 Python 和 R 时是否可以进行 Spark 流式传输?
【问题讨论】:
标签: apache-spark streaming sparkr
Spark 现在在 1.3 中支持 pySpark 流式传输。在https://github.com/hlin09/spark/tree/SparkR-streaming 中可以找到 SparkR 流的实现。
【讨论】:
目前(从 Spark 1.1 开始),Spark Streaming 仅在 Scala 和 Java 中受支持。如果你想使用特定的 R 程序或 Python 程序,可以查看 RDD 上的管道接口以及 DStream 上的转换函数。这有点尴尬,但它可能是目前在 Spark Streaming 中使用 Python 或 R 代码最简单的方法。
【讨论】:
sparkR 流式传输直到最新版本 apache spark 2.1.1 才可用
但我们可以使用来自 github 的 sparkR 流
https://github.com/hlin09/spark/tree/SparkR-streaming
使用 mvn 构建 spark,然后您就可以进行 sparkR 流式处理了。
【讨论】: