【发布时间】:2026-01-28 10:20:06
【问题描述】:
所以我有一个像这样的 pyspark 数据框,我们称它为数据框 a:
+-------------------+---------------+----------------+
| reg| val1| val2 |
+-------------------+---------------+----------------+
| N110WA| 1590030660| 1590038340000|
| N876LF| 1590037200| 1590038880000|
| N135MH| 1590039060| 1590040080000|
还有一个像这样,我们称它为数据框 b:
+-----+-------------+-----+-----+---------+----------+---+----+
| reg| postime| alt| galt| lat| long|spd| vsi|
+-----+-------------+-----+-----+---------+----------+---+----+
|XY679|1590070078549| 50| 130|18.567169|-69.986343|132|1152|
|HI949|1590070091707| 375| 455| 18.5594|-69.987804|148|1344|
|JX784|1590070110666| 825| 905|18.544968|-69.990414|170|1216|
有没有办法创建一个 numpy 数组或 pyspark 数据帧,其中对于数据帧 a 中的每一行,数据帧 b 中的所有行在 val 1 和 val 2 之间具有相同的 reg 和 posttime?
【问题讨论】:
-
如果您正在寻找类似的东西,请检查一下并告诉我吗?
标签: pyspark apache-spark-sql amazon-emr