【问题标题】:spark dataframe to csv first columnspark数据帧到csv第一列
【发布时间】:2016-04-13 01:20:42
【问题描述】:

我正在将 java 中的 spark 数据框导出到 csv 文件。因为我想稍后使用 unix 排序工具对 csv 文件进行排序,所以我需要对列进行重新排序,以便某个列在前。现在我们称之为“sort_index”。我怎样才能做到这一点?目前我正在使用此代码转换为 csv:

DataFrame df = sqlContext.parquetFile(somepath);
df.write()
  .format("com.databricks.spark.csv")
  .option("header", "true")
  .save(somepath);

数据框有一些带引号的字段,因此使用另一个列索引进行排序总是会中断。这就是为什么我需要一些专栏放在第一位。

【问题讨论】:

  • 最好在 Spark 中排序。
  • 问题是我有多个 parquet 文件,我正在从它们创建一个大的排序 csv 文件,因此目前不能选择在 spark 中排序,因为我必须更改整个现有数据管道。

标签: csv apache-spark export-to-csv spark-dataframe


【解决方案1】:

为避免使用双引号,请使用以下代码: df.write() .format("com.databricks.spark.csv") .option("header", "true") .option("quoteMode,"NONE") .save(somepath);

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-06-02
    • 2020-05-14
    • 2017-04-15
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多