【问题标题】:Load multiple files into dataframe将多个文件加载到数据框中
【发布时间】:2016-06-16 18:17:33
【问题描述】:

是否可以将多个文件作为一个数据帧加载?通常,如果我要加载一个文件,我会调用例如:

file1 = "/a/b/c/folder/file1.csv"
dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(file1)

但我想加载文件夹/a/b/c/folder/*.csv下的所有文件。

【问题讨论】:

  • 如果你尝试dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load("a/b/c/folder/*.csv")会发生什么它会抛出错误吗?有用吗?
  • 我收到“java.lang.ArrayIndexOutOfBoundsException: 18002”错误

标签: python dataframe io pyspark pyspark-sql


【解决方案1】:

我认为sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(folder) 有效。以前我得到的错误是因为我准备好压缩文件,并且与内存相比它们过大

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-02-16
    • 2021-12-20
    • 2021-05-29
    • 2017-06-03
    • 2018-05-23
    • 2015-05-18
    • 1970-01-01
    • 2014-03-29
    相关资源
    最近更新 更多