使用文件的时间戳在目录中查找文件答案

【问题标题】：To find file in the directory using Timestamp of file使用文件的时间戳在目录中查找文件
【发布时间】：2019-04-10 13:19:24
【问题描述】：

我有一个目录，其中包含以下文件。

文件：输入/目录/input_data_Export_20190405121071.csv 文件：输入/目录/data_Export_20190406081001.csv 文件：输入/目录/input_Export_20190406161241.csv 文件：输入/目录/raw_data_Export_20190407121041.csv 文件：输入/目录/input_data_Export_20190407101101.csv

我如何检索以“2019040712”开头的文件，并且它应该使用 Python 具有最新的时间戳。例如 "input_data_Export_20190407101101.csv" 是我要检索的文件。

【问题讨论】：

您是否要在 spark 集群上获取此文件？
是的，我在 pyspark cluster@cronoik 上获取这些文件
这些文件是否在所有节点上都可用？如果它们并非在所有节点上都可用，并且您有多个节点，则您永远无法确定您的代码是否在保存这些文件的节点上执行。您应该考虑使用 hadoop 作为分布式文件系统。

标签： python regex pyspark

【解决方案1】：

此代码为您提供具有最新时间戳的文件名。您必须将 [$YOUR_PATH] 替换为文件所在目录的路径。

import glob

timestamp_temp = 0

for filename in glob.glob("[$YOUR_PATH]/input_data_Export_2019040712*.csv"):
    timestamp = filename[-18:-4] 
    if int(timestamp) > int(timestamp_temp):
        file=filename
        timestamp_temp=timestamp

print(file)

【讨论】：