spark数据帧到csv第一列答案

【问题标题】：spark dataframe to csv first columnspark数据帧到csv第一列
【发布时间】：2016-04-13 01:20:42
【问题描述】：

我正在将 java 中的 spark 数据框导出到 csv 文件。因为我想稍后使用 unix 排序工具对 csv 文件进行排序，所以我需要对列进行重新排序，以便某个列在前。现在我们称之为“sort_index”。我怎样才能做到这一点？目前我正在使用此代码转换为 csv：

DataFrame df = sqlContext.parquetFile(somepath);
df.write()
  .format("com.databricks.spark.csv")
  .option("header", "true")
  .save(somepath);

数据框有一些带引号的字段，因此使用另一个列索引进行排序总是会中断。这就是为什么我需要一些专栏放在第一位。

【问题讨论】：

【解决方案1】：

为避免使用双引号，请使用以下代码： df.write() .format("com.databricks.spark.csv") .option("header", "true") .option("quoteMode,"NONE") .save(somepath);

【讨论】：