【问题标题】:How to Convert Great Expectations DataFrame to Apache Spark DataFrame如何将 Great Expectations DataFrame 转换为 Apache Spark DataFrame
【发布时间】:2021-12-23 23:35:53
【问题描述】:

以下代码会将 Apache Spark DataFrame 转换为 Great_Expectations DataFrame。如果我想将 Spark DataFrame spkDF 转换为 Great_Expectations DataFrame,我会执行以下操作:

ge_df = SparkDFDataset(spkDF)

谁能告诉我如何将 Great_Expectation 数据帧转换为 Spark 数据帧。

那么我需要做什么才能将新的 Great_Expectations 数据帧 ge_df 转换回 Spark 数据帧?

【问题讨论】:

    标签: apache-spark pyspark great-expectations


    【解决方案1】:

    根据official documentationSparkDFDataset 类保存了原始的 pyspark 数据帧:

    这个类拥有一个属性spark_df,它是一个spark.sql.DataFrame。

    所以您应该可以通过以下方式访问它:

    ge_df.spark_df
    

    【讨论】:

    • 谢谢黑主教。这实际上回答了我的问题,但我希望我可以使用相同的方法将验证结果从 Great_Expectations 转换为数据框。例如,如果我要编写 validation_result.spark_df 我会收到以下错误消息AttributeError: 'ExpectationSuiteValidationResult' object has no attribute 'spark_df' Traceback (most recent call last): AttributeError: 'ExpectationSuiteValidationResult' object has no attribute 'spark_df'
    • @Patterson 哦,我明白了。不确定您是否可以直接执行此操作。我是你可以在ExpectationSuiteValidationResult 上使用to_json_dict 来获得python dict 的结果,然后从中创建pyspark 数据框。
    • 请问您可以提供一些指导
    • 或者你认为我应该提出另一个问题吗?
    • @Patterson 我现在无法尝试,但自己测试应该很容易。首先,得到 dict result_dict = validation_result.to_json_dict() 的结果。然后创建spark dataframe using the dict:df = spark.createDataFrame(result_dict)
    猜你喜欢
    • 2017-03-17
    • 2021-03-26
    • 2017-12-31
    • 2018-07-10
    • 1970-01-01
    • 1970-01-01
    • 2017-08-10
    • 2023-03-28
    • 1970-01-01
    相关资源
    最近更新 更多