Spark：使用 read.csv 读取许多文件答案

【问题标题】：Spark: reading many files with read.csvSpark：使用 read.csv 读取许多文件
【发布时间】：2018-03-22 03:00:46
【问题描述】：

我想从位于同一目录中的许多小文件创建一个 DataFrame。我打算使用来自 pyspark.sql 的read.csv。我了解到，在 RDD 世界中，textFile 函数是为读取少量大文件而设计的，而wholeTextFiles 函数是为读取大量小文件而设计的（例如，参见this thread）。 read.csv 是否在后台使用 textFile 或 wholeTextFiles？

【问题讨论】：

最好的方法是阅读代码。最好的部分是 Spark 是开源的！
我试图阅读 read.csv 的源代码，目前我还没有找到答案。

标签： apache-spark pyspark apache-spark-sql spark-dataframe

【解决方案1】：

是的，这是可能的，只需给出直到父目录的路径为

df = spark.read.csv('path until the parent directory where the files are located')

您应该将所有文件读入一个数据帧。 如果文件的 csv 行数不同，则列数是文件中的列数，即一行中的最大字段数。

【讨论】：

感谢您的快速回复。我知道read.csv 可以读取很多文件。问题是关于read.csv 的内部结构。