【发布时间】:2016-01-03 16:55:51
【问题描述】:
是否可以通过管道将 Spark RDD 传输到 Python?
因为我需要一个 python 库来对我的数据进行一些计算,但我的主要 Spark 项目是基于 Scala 的。 有没有办法将它们混合使用或让 python 访问相同的 spark 上下文?
【问题讨论】:
-
我建议在 PySpark 中重写您的代码,但并非所有 Python 库都可以使用 rdds。您使用的是哪个 Python 库?
-
您想要 Spark 操作的结果,还是想要在 Python 中操作原始 RDD。前者不仅是可能的,而且在大数据世界中很常见。为 Spark 结果编写 Python 插件需要适当注意细节,但这通常是一个很好的解决方案。你的互联网搜索怎么没有出现这些信息?您使用了哪些搜索词? stackoverflow.com/help/how-to-ask。请发布您的 Spark API 和您想要与之交互的 Python 级别。
-
我想用Jieba进行文本处理,这是一个中文分词库。我使用 Spark Streaming + Kafka 进行数据收集。现在的问题是我需要将原始数据传输到 Python 进行文本处理,然后将结果发送回其他 Scala 代码进行其他分析。
-
你可以在Spark中使用管道。基本上可以通过管道发送数据并获取外部程序的输出作为输入。
标签: python scala apache-spark pyspark spark-streaming