【问题标题】:Connect Apache Pig To Hadoop Cluster将 Apache Pig 连接到 Hadoop 集群
【发布时间】:2023-03-23 02:31:01
【问题描述】:

我正在使用 Apache Pig 对 Hadoop 集群进行一些数据分析工作。我在 hadoop 集群中部署了一个集合节点和 32 个从节点。但是,当我使用 Pig 在 mapreduce 模式下运行脚本,连接到那个 Hadoop 集群时,它总是只启动一个 map 和一个 reduce。如何设置 Pig 或 Hadoop 以使用所有 32 个从站?

工作状态如下图:

Job Stats (time in seconds):
JobId   Maps    Reduces MaxMapTime  MinMapTime  AvgMapTime  MedianMapTime   MaxReduceTime   MinReduceTime   AvgReduceTime   MedianReducetime    Alias   Feature Outputs
job_1457865367374_0001  1   1   88  88  88  88  27  27  27  27  1-1,access_grouped,access_summed,cleaned,named,raw,timed,timed_grouped,timed_summedMULTI_QUERY  
job_1457865367374_0002  1   1   5   5   5   5   5   5   5   5   access_ordered  SAMPLER 
job_1457865367374_0003  2   1   10  10  10  10  6   6   6   6   density,density_scored  HASH_JOIN   
job_1457865367374_0004  1   1   5   5   5   5   5   5   5   5   timed_ordered   SAMPLER 
job_1457865367374_0005  1   1   5   5   5   5   5   5   5   5   timed_ordered   ORDER_BY    hdfs://master:54310/user/ubuntu/Data/timed_ordered,
job_1457865367374_0006  1   1   5   5   5   5   5   5   5   5   access_ordered  ORDER_BY    hdfs://master:54310/user/ubuntu/Data/access_ordered,
job_1457865367374_0007  1   1   5   5   5   5   5   5   5   5   density_ordered SAMPLER 
job_1457865367374_0008  1   1   5   5   5   5   5   5   5   5   density_ordered ORDER_BY    hdfs://master:54310/user/ubuntu/Data/density_ordered,

顺便说一句,我在主机上安装了 Apache Pig。

【问题讨论】:

    标签: java hadoop apache-pig


    【解决方案1】:

    SET default_parallel xyz

    在 pig 上面的命令中,可以设置 no。并行任务。但是 hadoop 框架没有检测到。映射器(基于输入拆分的数量)和减速器(可以在 custer 级别或应用程序级别设置。)。您不能设置否。您的应用程序的映射器,但减速器,您可以。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2016-07-23
      • 1970-01-01
      • 2017-10-19
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多