【问题标题】:To find file in the directory using Timestamp of file使用文件的时间戳在目录中查找文件
【发布时间】:2019-04-10 13:19:24
【问题描述】:

我有一个目录,其中包含以下文件。

文件:输入/目录/input_data_Export_20190405121071.csv 文件:输入/目录/data_Export_20190406081001.csv 文件:输入/目录/input_Export_20190406161241.csv 文件:输入/目录/raw_data_Export_20190407121041.csv 文件:输入/目录/input_data_Export_20190407101101.csv

我如何检索以“2019040712”开头的文件,并且它应该使用 Python 具有最新的时间戳。例如 "input_data_Export_20190407101101.csv" 是我要检索的文件。

【问题讨论】:

  • 您是否要在 spark 集群上获取此文件?
  • 是的,我在 pyspark cluster@cronoik 上获取这些文件
  • 这些文件是否在所有节点上都可用?如果它们并非在所有节点上都可用,并且您有多个节点,则您永远无法确定您的代码是否在保存这些文件的节点上执行。您应该考虑使用 hadoop 作为分布式文件系统。

标签: python regex pyspark


【解决方案1】:

此代码为您提供具有最新时间戳的文件名。您必须将 [$YOUR_PATH] 替换为文件所在目录的路径。

import glob

timestamp_temp = 0

for filename in glob.glob("[$YOUR_PATH]/input_data_Export_2019040712*.csv"):
    timestamp = filename[-18:-4] 
    if int(timestamp) > int(timestamp_temp):
        file=filename
        timestamp_temp=timestamp

print(file)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2011-10-15
    • 1970-01-01
    • 1970-01-01
    • 2016-07-19
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多