【发布时间】:2017-03-31 23:50:40
【问题描述】:
我是 pyspark 的新用户。 我刚刚下载并安装了一个 spark 集群(“spark-2.0.2-bin-hadoop2.7.tgz”) 安装后我想访问文件系统(将本地文件上传到集群)。但是当我尝试在命令中输入 hadoop 或 hdfs 时,它会说“找不到命令”。
我要安装 hadoop/HDFS(我以为它是内置在 spark 中的,我不明白)?
提前致谢。
【问题讨论】:
-
在安装 Spark 之前是否安装了 Hadoop?如果未安装 hadoop,则您安装了支持 hadoop 版本的 Spark..Hadoop 命令将不起作用..
-
您可以在独立模式下安装 Apache Spark,也可以在 Apache hadoop 之上安装。我认为您以独立模式安装,这就是您无法访问 hdfs 文件系统的原因。
-
@Bhavesh 合法!我真蠢。谢谢你。我以为我下载的那个是HDFS自带的
-
@css2607 是的,你是对的。谢谢。我要先安装 Apache hadoop,然后使用我下载的那个来设置 spark 集群吗?
标签: hadoop apache-spark hdfs pyspark spark-dataframe