【发布时间】:2016-06-16 18:17:33
【问题描述】:
是否可以将多个文件作为一个数据帧加载?通常,如果我要加载一个文件,我会调用例如:
file1 = "/a/b/c/folder/file1.csv"
dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(file1)
但我想加载文件夹/a/b/c/folder/*.csv下的所有文件。
【问题讨论】:
-
如果你尝试
dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load("a/b/c/folder/*.csv")会发生什么它会抛出错误吗?有用吗? -
我收到“java.lang.ArrayIndexOutOfBoundsException: 18002”错误
标签: python dataframe io pyspark pyspark-sql