【发布时间】:2016-04-13 01:20:42
【问题描述】:
我正在将 java 中的 spark 数据框导出到 csv 文件。因为我想稍后使用 unix 排序工具对 csv 文件进行排序,所以我需要对列进行重新排序,以便某个列在前。现在我们称之为“sort_index”。我怎样才能做到这一点?目前我正在使用此代码转换为 csv:
DataFrame df = sqlContext.parquetFile(somepath);
df.write()
.format("com.databricks.spark.csv")
.option("header", "true")
.save(somepath);
数据框有一些带引号的字段,因此使用另一个列索引进行排序总是会中断。这就是为什么我需要一些专栏放在第一位。
【问题讨论】:
-
最好在 Spark 中排序。
-
问题是我有多个 parquet 文件,我正在从它们创建一个大的排序 csv 文件,因此目前不能选择在 spark 中排序,因为我必须更改整个现有数据管道。
标签: csv apache-spark export-to-csv spark-dataframe