【问题标题】:SparkR DataFrame support for UTF-8 characters (multiple language support)SparkR DataFrame 支持 UTF-8 字符(多语言支持)
【发布时间】:2015-11-21 08:08:15
【问题描述】:

我已经使用 Scala 验证了一个数据帧包含使用 df.show() 的非 ascii UTF-8 字符。 Spark-SQL 也显示了正确的编码。

但是,当我尝试使用 SparkR 的 showDF(df) 时,UTF-8 字符无法正确显示。我们如何让 showDF(df) 显示 UTF-8 字符?

最初是LOCALE="" & LANG="en_US.UTF-8"...

1) 将其设置为 LANG="xx_XX.UTF-8" 其中 X 是适当的语言标识符

2) Sys.setlocale("LC_ALL",locale="xx_XX.UTF-8") 但是 showDF() 仍然没有显示母语字符

【问题讨论】:

  • 你的LOCALELANG 是什么?

标签: r character-encoding apache-spark locale sparkr


【解决方案1】:

我想通了。

1) 运行locale -a 以找出您的系统上生成了哪些语言环境 C C.UTF-8 POSIX en_US.utf8

表示ASCII字符编码和英文UTF-8可用。

2) 为您的语言生成所需的语言环境。为了找出您的操作系统的语言环境,您需要搜索 i18n 支持的语言/编码列表(对于 Ubuntu,它位于 /usr/share/i18n/SUPPORTED

找到编码后,运行sudo locale-gen ru_RU.UTF-8

3) 然后您可以设置LANG 环境变量。对于 bash,export LANG="ru_RU"

4) 从终端运行R,您应该会看到目标语言的提示。

R version 3.1.1 (2014-07-10) -- "Sock it to Me"
Copyright (C) 2014 The R Foundation for Statistical Computing
Platform: x86_64-pc-linux-gnu (64-bit)

R -- это свободное ПО, и оно поставляется безо всяких гарантий.
Вы вольны распространять его при соблюдении некоторых условий.
Введите 'license()' для получения более подробной информации.

R -- это проект, в котором сотрудничает множество разработчиков.
Введите 'contributors()' для получения дополнительной информации и
'citation()' для ознакомления с правилами упоминания R и его пакетов
в публикациях.

Введите 'demo()' для запуска демонстрационных программ, 'help()' -- для

或者,您可以输入错误表达式以查看提示错误的语言。

【讨论】:

    猜你喜欢
    • 2013-03-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-12-02
    • 2011-11-08
    • 1970-01-01
    相关资源
    最近更新 更多