【发布时间】:2019-04-10 13:19:24
【问题描述】:
我有一个目录,其中包含以下文件。
文件:输入/目录/input_data_Export_20190405121071.csv 文件:输入/目录/data_Export_20190406081001.csv 文件:输入/目录/input_Export_20190406161241.csv 文件:输入/目录/raw_data_Export_20190407121041.csv 文件:输入/目录/input_data_Export_20190407101101.csv
我如何检索以“2019040712”开头的文件,并且它应该使用 Python 具有最新的时间戳。例如 "input_data_Export_20190407101101.csv" 是我要检索的文件。
【问题讨论】:
-
您是否要在 spark 集群上获取此文件?
-
是的,我在 pyspark cluster@cronoik 上获取这些文件
-
这些文件是否在所有节点上都可用?如果它们并非在所有节点上都可用,并且您有多个节点,则您永远无法确定您的代码是否在保存这些文件的节点上执行。您应该考虑使用 hadoop 作为分布式文件系统。