【发布时间】:2017-03-30 04:42:25
【问题描述】:
我在一个文件夹中有许多 csv 文件要加载到 spark 数据框中。它们都具有相同的标头或标头,该标头是最长标头的子集,但顺序不同。
- 文件 1 标题 -
"a","b","c" - 文件 2 标题 -
"b","c","a" - 文件 3 标题 -
"a","b"
我有一个包含 a,b,c 字段的架构。我正在尝试使用
sqlcontext.read
.format("com.databricks.spark.csv")
.option("delimiter",",")
.option("header","true")
.load("file*.csv")
是否可以将具有相同标题或标题子集的多个 csv 文件以相同或不同的顺序读取到 spark 数据帧中?我不想编辑文件来添加或更改列顺序,而是想在 spark 中处理它。
【问题讨论】:
-
你能解决这个问题吗?我正在寻找类似的东西。
-
我有完全相同的问题要解决。在数据目录中,添加了新的 csvs,并且 spark 作业读取了该目录。新的 csv 可以有更多的列来改变现有列的顺序。我想在 spark 中处理这个问题并适应新字段或以某种方式忽略这些字段。
标签: scala csv apache-spark dataframe