【发布时间】:2022-06-16 17:16:49
【问题描述】:
我需要 docker 上的一个单节点和多节点 hadoop 环境,我需要在这些 hadoop 环境中使用 PySpark 进行一些分析。现在我正在尝试一个节点。我拉了一个 ubuntu 映像,将其容器化并在此容器上安装了 hadoop 环境,但我很困惑 spark 是在已安装的 hadoop 环境上运行还是需要安装自己的 hadoop 环境(也许这句话很复杂,是 spark 建立在 hadoop 上还是spark install hadoop 是自己安装的吗?)。
【问题讨论】:
-
如果您只想在单个节点上运行 Spark,那么您可以
pip install pyspark。如果您想在多个节点上运行,请仅安装 Hadoop。见spark.apache.org/docs/latest/api/python/getting_started/…。 -
请把你的答案写在下面而不是编辑帖子
标签: apache-spark pyspark