【问题标题】:Hadoop Streaming not encoding characters correctlyHadoop Streaming 未正确编码字符
【发布时间】:2014-06-05 14:41:50
【问题描述】:

我们正在使用 Cloudera CDH(5) 将 Hadoop 集群迁移到新设置,我遇到了我们在旧(非 cloudera)集群上没有的问题。

集群中两台(共十台)机器上的任务发出的任何文本都会发出 ??而不是 è、à 等“fran??ois-mout??”。

我们将 Hadoop Streaming 与 .net Mapper 和使用 Mono 的 Reducer 结合使用。我已将类中的编码设置为 UTF-8,并且所有机器(ubuntu 12.04)上的 $LOCALE 都是相同的 en_GB.UTF-8。

我几乎没有这个错误的原因,真的需要一个解决方案。

谢谢

【问题讨论】:

    标签: linux hadoop cloudera hadoop-streaming


    【解决方案1】:

    感谢http://www.stewh.com/2013/12/working-with-chinese-or-other-utf8-encoded-text-in-hadoop-streaming/,我找到了解决方案

    我需要将 -cmdenv LC_CTYPE=en_GB.UTF-8 添加到我的 hadoop 流式传输命令的末尾。

    我将尝试将其添加到 /etc/default/locale

    ~$ update-locale LC_CTYPE="en_GB.UTF-8"

    永久修复,但目前这是一个很好的解决方案。

    【讨论】:

      猜你喜欢
      • 2012-05-17
      • 2016-04-04
      • 1970-01-01
      • 2016-07-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多