【发布时间】:2019-10-24 18:28:19
【问题描述】:
在 Spark2-Scala 中将数据帧写入 CSV 文件时,如何正确应用 UTF8 编码?我正在使用这个:
df.repartition(1).write.mode(SaveMode.Overwrite)
.format("csv").option("header", true).option("delimiter", "|")
.save(Path)
而且它不起作用:例如:将 é 替换为奇怪的字符串。
谢谢。
【问题讨论】:
-
UTF-8 是 Spark 使用的默认编码。
-
@Shaido 那为什么我的输出中有奇怪的字符?我在 Spark-Shell 中检查了我的 DF,它很好
-
你能把你的外壳和其他的图片贴出来以便更好地理解吗?
-
尝试将
encoding选项显式设置为UTF-8,但如果未设置该选项,这是默认编码。也许 Spark 在不同的语言环境下运行。 -
我的意思是
.option("encoding", "UTF-8")。
标签: scala dataframe apache-spark utf-8