【发布时间】:2019-10-29 11:11:22
【问题描述】:
我在 Spark+AI 峰会上发现了 Koalas,它将 pandas 带到了 Spark。
据我所知,如果我需要 map 第三方函数到 Spark DataFrame,我必须在我的 Spark 集群的每个节点上安装该软件包。
考拉也是这样吗?或者我只需要在我的主节点上运行pip install koalas,然后让 Koalas 和 Spark 来处理其余的事情?
除了pip install koalas之外,我在考拉的Docs中没有发现任何细节。
【问题讨论】:
-
我也在寻找类似的东西。我的印象是我可以在本地机器上安装考拉并告诉它集群在哪里。我根本没想到它必须安装在集群上......
标签: python pandas apache-spark spark-koalas