将列从数据框（df1）添加到另一个数据框（df2）答案

【问题标题】：Adding column from dataframe(df1) to another dataframe (df2)将列从数据框（df1）添加到另一个数据框（df2）
【发布时间】：2020-01-12 20:12:35
【问题描述】：

我需要一些关于这个 Apache Spark (pyspark) 问题的帮助。

我有一个数据帧（df1），它有单列和单行，它包含 max_timestamp

+------------------+ |max_timestamp | +-------------------+ |2019-10-24 21:18:26| +-------------------+

我有另一个 DataFrame，其中包含 2 列 - EmpId 和时间戳

masterData = [(1, '1999-10-24 21:18:23',), (1, '2019-10-24 21:18:26',), (2, '2020-01-24 21:18:26',)]
df_masterdata = spark.createDataFrame(masterData, ['dsid', 'txnTime_str'])
df_masterdata = df_masterdata.withColumn('txnTime_ts', col('txnTime_str').cast(TimestampType())).drop('txnTime_str')

df_masterdata.show(5, False)

+----+-------------------+
|dsid|txnTime_ts         |
+----+-------------------+
|1   |1999-10-24 21:18:23|
|1   |2019-10-24 21:18:26|
|2   |2020-01-24 21:18:26|
+----+-------------------+

对象是根据条件 txnTime_ts 过滤第二个 Dataframe 中的记录

我正在尝试做什么 -> 将“max_timestamp”列添加到第二个 DataFrame，并通过比较两个值来过滤记录。

df_masterdata1 = df_masterdata.withColumn('maxTime', maxTS2['TEMP_MAX'])

Pyspark 不允许我将 maxTS2 中的列添加到 dataFrame - df_masterdata

错误 -

AnalysisException: 'Resolved attribute(s) TEMP_MAX#207255 missing from dsid#207263L,txnTime_ts#207267 in operator
!Project [dsid#207263L, txnTime_ts#207267, TEMP_MAX#207255 AS maxTime#207280].;;\n!Project [dsid#207263L,
txnTime_ts#207267, TEMP_MAX#207255 AS maxTime#207280]\n+- Project [dsid#207263L, txnTime_ts#207267]\n   +- Project
[dsid#207263L, txnTime_str#207264, cast(txnTime_str#207264 as timestamp) AS txnTime_ts#207267]\n      +- LogicalRDD
[dsid#207263L, txnTime_str#207264], false\n'

关于如何解决此问题的任何想法？

【问题讨论】：

标签： dataframe pyspark

【解决方案1】：

如果您实际上有一个包含单行/列的 DF，完成此操作的最有效方法是从数据框中提取值，然后针对它过滤 df_masterdata。如果您仍然需要在数据框的上下文中执行此操作，您应该使用我们 join ，例如：

df_masterdata1 = df_masterdata.join(df1, df_masterdata.txnTime_ts <= df1.max_timestamp)

【讨论】：