如何在单节点和多节点 Hadoop 环境中运行 PySpark？

【问题标题】：How can I run PySpark on a single node and multiple node Hadoop Environment?如何在单节点和多节点 Hadoop 环境中运行 PySpark？
【发布时间】：2022-06-16 17:16:49
【问题描述】：

我需要 docker 上的一个单节点和多节点 hadoop 环境，我需要在这些 hadoop 环境中使用 PySpark 进行一些分析。现在我正在尝试一个节点。我拉了一个 ubuntu 映像，将其容器化并在此容器上安装了 hadoop 环境，但我很困惑 spark 是在已安装的 hadoop 环境上运行还是需要安装自己的 hadoop 环境（也许这句话很复杂，是 spark 建立在 hadoop 上还是spark install hadoop 是自己安装的吗？）。

【问题讨论】：

如果您只想在单个节点上运行 Spark，那么您可以 pip install pyspark。如果您想在多个节点上运行，请仅安装 Hadoop。见spark.apache.org/docs/latest/api/python/getting_started/…。
请把你的答案写在下面而不是编辑帖子

标签： apache-spark pyspark

【解决方案1】：

我已经使用这个 github repo 解决了在 docker 上设置多节点 hadoop 环境的问题：https://github.com/rubenafo/docker-spark-cluster，你也可以看看这篇文章：https://medium.com/@rubenafo/some-tips-to-run-a-multi-node-hadoop-in-docker-9c7012dd4e26

【讨论】：

猜你喜欢

1970-01-01
2021-05-18
2011-08-13
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2023-03-14
下载 2023-01-15
下载 2023-01-04

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode