【问题标题】:Spark installed but no command 'hdfs' or 'hadoop' found已安装 Spark,但未找到命令“hdfs”或“hadoop”
【发布时间】:2017-03-31 23:50:40
【问题描述】:

我是 pyspark 的新用户。 我刚刚下载并安装了一个 spark 集群(“spark-2.0.2-bin-hadoop2.7.tgz”) 安装后我想访问文件系统(将本地文件上传到集群)。但是当我尝试在命令中输入 hadoop 或 hdfs 时,它会说“找不到命令”。

我要安装 hadoop/HDFS(我以为它是内置在 spark 中的,我不明白)?

提前致谢。

【问题讨论】:

  • 在安装 Spark 之前是否安装了 Hadoop?如果未安装 hadoop,则您安装了支持 hadoop 版本的 Spark..Hadoop 命令将不起作用..
  • 您可以在独立模式下安装 Apache Spark,也可以在 Apache hadoop 之上安装。我认为您以独立模式安装,这就是您无法访问 hdfs 文件系统的原因。
  • @Bhavesh 合法!我真蠢。谢谢你。我以为我下载的那个是HDFS自带的
  • @css2607 是的,你是对的。谢谢。我要先安装 Apache hadoop,然后使用我下载的那个来设置 spark 集群吗?

标签: hadoop apache-spark hdfs pyspark spark-dataframe


【解决方案1】:

您必须先安装 hadoop 才能访问 HDFS。 关注这个http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/

从 apache 站点选择最新版本的 hadoop。 完成 hadoop 设置后,转到 spark http://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz 下载此文件,提取文件。在 spark-env.sh 中设置 java_home 和 hadoop_home。

【讨论】:

  • 谢谢。好的,然后我将安装hadoop。我需要删除我当前的火花吗?另一个问题是,如果我想为我的 spark 集群使用 HDFS,我是否需要为我的所有节点安装 hadoop?
  • 是的,你可以删除旧的spark,我给你的答案是单节点spark/hadoop,你需要配置多节点hadoop,然后配置spark。
  • 非常感谢!我会试试看效果如何!!
【解决方案2】:

您在 classpath 上没有 hdfshadoop,所以这就是您收到消息的原因:“找不到命令”

如果您运行\yourparh\hadoop-2.7.1\bin\hdfs dfs -ls /,它应该可以工作并显示根目录。

但是,您可以将 hadoop/bin (hdfs, hadoop ...) 命令添加到类路径,如下所示:

export PATH $PATH:$HADOOP_HOME/bin

HADOOP_HOME 是你的环境。带有hadoop installation folder (download and install is required) 路径的变量

【讨论】:

  • 谢谢,我认为 Spark 安装不附带 HDFS。我会尝试下载并安装hadoop,看看效果如何。
猜你喜欢
  • 2021-10-25
  • 1970-01-01
  • 2015-07-09
  • 1970-01-01
  • 2015-08-03
  • 2019-11-29
  • 2012-12-16
  • 1970-01-01
  • 2020-06-08
相关资源
最近更新 更多