【发布时间】:2019-05-02 13:19:52
【问题描述】:
在 Amazon S3 中,我有一个包含大约 30 个子文件夹的文件夹,每个子文件夹中包含一个 csv 文件。
我想要一种从所有子文件夹中读取每个 csv 文件的简单方法 - 目前,我可以通过指定路径 n 次来做到这一点,但我觉得必须有更简洁的方法。
例如dataframe = sqlContext.read.csv([ path1, path2, path3,etc..], header=True)
【问题讨论】:
-
你试过通配符
*吗? -
另外,如果你需要比通配符更复杂的东西,这个答案有更多你可以做的例子:stackoverflow.com/a/31784292/5054505
标签: python apache-spark amazon-s3 pyspark