【问题标题】:Spark: reading many files with read.csvSpark:使用 read.csv 读取许多文件
【发布时间】:2018-03-22 03:00:46
【问题描述】:

我想从位于同一目录中的许多小文件创建一个 DataFrame。我打算使用来自 pyspark.sql 的read.csv。我了解到,在 RDD 世界中,textFile 函数是为读取少量大文件而设计的,而wholeTextFiles 函数是为读取大量小文件而设计的(例如,参见this thread)。 read.csv 是否在后台使用 textFilewholeTextFiles

【问题讨论】:

  • 最好的方法是阅读代码。最好的部分是 Spark 是开源的
  • 我试图阅读 read.csv 的源代码,目前我还没有找到答案。

标签: apache-spark pyspark apache-spark-sql spark-dataframe


【解决方案1】:

是的,这是可能的只需给出直到父目录的路径

df = spark.read.csv('path until the parent directory where the files are located')

您应该将所有文件读入一个数据帧如果文件的 csv 行数不同,则列数是文件中的列数,即一行中的最大字段数

【讨论】:

  • 感谢您的快速回复。我知道read.csv 可以读取很多文件。问题是关于read.csv 的内部结构。
猜你喜欢
  • 2017-03-09
  • 2021-03-17
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多