【发布时间】:2017-06-24 18:09:18
【问题描述】:
我正在使用以下代码写入 CSV 文件。
df.coalesce(1).write.format("com.databricks.spark.csv").option("header", "true").option("nullValue"," ").save("/home/user/test_table/")
当我执行它时,我收到以下错误:
java.lang.UnsupportedOperationException:CSV 数据源不支持空数据类型。
有人可以帮忙吗?
【问题讨论】:
-
能否更新附加
df.printSchema()结果的问题? -
你的空值是如何存储的?当我使用 Python 的
None类型作为空对象并进行保存时,它工作正常。df = sqlContext.createDataFrame([ (1.0, "Hi I heard about Spark"), (1.0, "Spark is awesome"), (0.0, None), (0.0, "And I don't know why...") ], ["label", "sentence"]) df.printSchema() df.coalesce(1).write.format("com.databricks.spark.csv")\ .option("header", "true")\ .option("nullValue"," ").save(drive+"/test.csv") -
你找到答案了吗?
标签: python apache-spark pyspark