【发布时间】:2018-09-12 15:06:25
【问题描述】:
我正在尝试读取以 UTF-16 编码的 CSV 文件。
val test = spark.read
.format("com.databricks.spark.csv")
.option("header", "true")
.option("inferSchema", "true")
.option("delimiter",";")
.option("dateFormat", "yyyy-MM-dd HH:mm:ss.SSS")
.option("encoding", "UTF-16")
.option("charset", "ISO-8859-1")
.load("...")
结果我得到了额外的行:
Spark 有可能只能使用 UTF-8 编码吗?还是有其他方法可以将 UTF-16 CSV 读入数据帧?
【问题讨论】:
-
使用 iconv 重新编码输入文件怎么样?
-
如果您忽略
charset选项会发生什么? -
@StStojanovic 请分享一些可用于重现它的示例文件内容...
-
@datahack 你有没有想过这个问题?
-
有人知道这个吗?
标签: scala apache-spark apache-spark-sql spark-dataframe databricks