【问题标题】:I'm getting an unexpected failed assertion error when joining Spark Dataframe - Found duplicate rewrite attributes加入 Spark Dataframe 时出现意外的失败断言错误 - 发现重复的重写属性
【发布时间】:2020-12-01 08:11:37
【问题描述】:

当我运行下面的代码时,我收到错误 java.lang.AssertionError: assertion failed: Found duplicate rewrite attributes。在更新我们的 databricks 运行时之前,它运行顺利。

  1. top10_df 是列表groups 中具有唯一键的数据的数据框。

  2. res_df 是 top10_df 中具有最小和最大日期的唯一键的聚合。

  3. 一旦 res_df 被创建并持久化,它就会重新加入到组中唯一键上的 top10_df 中。

groups = ['col1','col2','col3','col4']
min_date_created = fn.min('date_created').alias('min_date_created')
max_date_created = fn.max('date_created').alias('max_date_created')

res_df = (top10_df
            .groupBy(groups)
            .agg(min_date_created
            ,max_date_created
            )
         )
res_df.persist()
print(res_df.count())

score_rank = fn.row_number().over(w.partitionBy(groups).orderBy(fn.desc('score')))
unique_issue_id = fn.row_number().over(w.orderBy(groups))

out_df = (top10_df.alias('t10')
                    .join(res_df.alias('res'),groups,'left')
                    .where(fn.col('t10.date_created')==fn.col('res.max_date_created'))
                    .drop(fn.col('t10.date_created'))
                    .drop(fn.col('t10.date_updated'))
                    .withColumn('score_rank',score_rank)
                    .where(fn.col('score_rank')==1)
                    .drop('score_rank'
                          ,'latest_revision_complete_hash'
                          ,'latest_revision_durable_hash'
                         )
                    .withColumn('unique_issue_id',unique_issue_id)
                   .withColumnRenamed('res.id','resource_id')
                  )

out_df.persist()
print(out_df.count())

【问题讨论】:

    标签: apache-spark pyspark databricks


    【解决方案1】:

    代替:

     out_df = (top10_df.alias('t10')
                    .join(res_df.alias('res'),groups,'left')
    

    在加入之后,选择右侧 df 中的所有列并为其设置别名以消除重复属性的歧义:

    out_df = (
        top10_df.alias('t10')
        .join(
            res_df.alias('res').select(
                fn.col('groups').alias('groups'),
                fn.col('min_date_created').alias('min_date_created'),
                fn.col('max_date_created').alias('max_date_created')
            ),
            groups,
            'left'
        )
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-03-26
      • 1970-01-01
      • 1970-01-01
      • 2020-01-30
      • 2017-08-14
      • 2018-12-26
      相关资源
      最近更新 更多