【问题标题】:Spark SQL query to get the last updated timestamp of a Athena table stored as CSV in AWS S3Spark SQL 查询以获取在 AWS S3 中存储为 CSV 的 Athena 表的最后更新时间戳
【发布时间】:2021-10-03 18:39:49
【问题描述】:

是否可以使用 Spark SQL 查询获取以 CSV 文件格式存储在 S3 位置的 Athena 表的最后更新时间戳。

如果是,请有人提供更多信息。

【问题讨论】:

    标签: amazon-web-services amazon-s3 pyspark apache-spark-sql amazon-athena


    【解决方案1】:

    有多种方法可以做到这一点。

    1. 使用 athena jdbc 驱动程序并在格式为 jdbc 的情况下执行 spark 读取。在此阅读中,您将提供“从表中选择最大值(时间戳)”查询。然后作为下一步,只需将 spark 数据帧保存到 s3 fcro
    2. 您可以完全跳过 jdbc 读取,只需使用 boto3 运行上述查询。它将是 start_query_execution 和 get_query_results 的组合。然后,您也可以将其保存到 s3。

    【讨论】:

      猜你喜欢
      • 2019-02-02
      • 1970-01-01
      • 2020-09-19
      • 2019-01-16
      • 2018-06-20
      • 2020-05-16
      • 1970-01-01
      • 1970-01-01
      • 2020-04-28
      相关资源
      最近更新 更多