【发布时间】:2018-03-22 03:00:46
【问题描述】:
我想从位于同一目录中的许多小文件创建一个 DataFrame。我打算使用来自 pyspark.sql 的read.csv。我了解到,在 RDD 世界中,textFile 函数是为读取少量大文件而设计的,而wholeTextFiles 函数是为读取大量小文件而设计的(例如,参见this thread)。 read.csv 是否在后台使用 textFile 或 wholeTextFiles?
【问题讨论】:
-
最好的方法是阅读代码。最好的部分是 Spark 是开源的!
-
我试图阅读 read.csv 的源代码,目前我还没有找到答案。
标签: apache-spark pyspark apache-spark-sql spark-dataframe