【问题标题】:How can I run PySpark on a single node and multiple node Hadoop Environment?如何在单节点和多节点 Hadoop 环境中运行 PySpark?
【发布时间】:2022-06-16 17:16:49
【问题描述】:

我需要 docker 上的一个单节点和多节点 hadoop 环境,我需要在这些 hadoop 环境中使用 PySpark 进行一些分析。现在我正在尝试一个节点。我拉了一个 ubuntu 映像,将其容器化并在此容器上安装了 hadoop 环境,但我很困惑 spark 是在已安装的 hadoop 环境上运行还是需要安装自己的 hadoop 环境(也许这句话很复杂,是 spark 建立在 hadoop 上还是spark install hadoop 是自己安装的吗?)。

【问题讨论】:

标签: apache-spark pyspark


【解决方案1】:

我已经使用这个 github repo 解决了在 docker 上设置多节点 hadoop 环境的问题:https://github.com/rubenafo/docker-spark-cluster,你也可以看看这篇文章:https://medium.com/@rubenafo/some-tips-to-run-a-multi-node-hadoop-in-docker-9c7012dd4e26

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-05-18
    • 2011-08-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多