【问题标题】:DataLake Files - Last Modified date timeDataLake 文件 - 上次修改日期时间
【发布时间】:2021-10-08 04:03:30
【问题描述】:

想要使用 Synapse 笔记本 (pyspark) 获取数据湖中文件的最后更新日期时间。 我们有什么开箱即用的选项吗?

【问题讨论】:

  • 我正在使用 mssparkutils.fs.ls 来获取给定位置的文件列表。获取此列表按文件修改日期排序的任何线索都会有所帮助。
  • 您是否限制使用 Synapse 笔记本?如果适合您,也可以使用 Azure 数据工厂来完成。

标签: python azure-data-lake azure-synapse


【解决方案1】:

您不能将输出分配给数据框并对其进行排序吗?

df = mssparkutils.fs.ls(path)
sorted(df(sortcolumn))

https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.DataFrame.sort.html

也许是这样的? How do you get a directory listing sorted by creation date in python?

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-05-28
    • 1970-01-01
    • 2017-01-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多