将多个文件加载到数据框中答案

【问题标题】：Load multiple files into dataframe将多个文件加载到数据框中
【发布时间】：2016-06-16 18:17:33
【问题描述】：

是否可以将多个文件作为一个数据帧加载？通常，如果我要加载一个文件，我会调用例如：

file1 = "/a/b/c/folder/file1.csv"
dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(file1)

但我想加载文件夹/a/b/c/folder/*.csv下的所有文件。

【问题讨论】：

如果你尝试dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load("a/b/c/folder/*.csv")会发生什么它会抛出错误吗？有用吗？
我收到“java.lang.ArrayIndexOutOfBoundsException: 18002”错误

【解决方案1】：

我认为sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(folder) 有效。以前我得到的错误是因为我准备好压缩文件，并且与内存相比它们过大

【讨论】：