【问题标题】:How to run MapReduce script through Hortonworks Sandbox in Python?如何在 Python 中通过 Hortonworks Sandbox 运行 MapReduce 脚本?
【发布时间】:2021-11-08 09:16:06
【问题描述】:

我有 Hortonworks Sandbox 并运行了命令:

ssh root@127.0.0.1 -p 2222;

登录后,我想在位于 Documents 下的 2 个 HDFS 文件 RatinsBreakdown.py 和 u.data 上运行 MapReduce,就像我在这里所做的那样:

python RatingsBreakdown.py -r hadoop hdfs:///user/[username]/u.data --hadoop-streaming-jar /usr/hdp/2.6.2.0-205/hadoop-mapreduce/hadoop-streaming.jar

如何调整上面的命令以在 Hadoop 集群中运行?

[root@sandbox ~]#

【问题讨论】:

    标签: python hadoop mapreduce hortonworks-sandbox


    【解决方案1】:

    如果RatingsBreakdown.pymrjob 进程,那么您显示的该命令可以满足您的所有需求。您可以打开 YARN UI 来验证集群中运行的进程。

    否则,the documentation on Hadoop Streaming 应该将您指向正确的位置

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-08-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-09-18
      • 1970-01-01
      相关资源
      最近更新 更多