【发布时间】:2019-06-16 21:01:24
【问题描述】:
我一直在 Python 上构建我的应用程序,但由于某种原因我需要将它放在分布式环境中,所以我正在尝试构建和应用程序
使用 Spark,但无法像 Pandas 中的 shift 一样快速编写代码。
mask = (df['name_x'].shift(0) == df['name_y'].shift(0)) & \
(df['age_x'].shift(0) == df['age_y'].shift(0))
df = df[~mask1]
在哪里
mask.tolist()
给予
[True, False, True, False]
最终结果df 将仅包含两行(第 2 行和第 4 行)。
基本上试图删除 [name_x,age_x]col 重复的行(如果存在于 [name_y,age_y]col 上)。
以上代码位于 Pandas 数据框上。什么是最接近的 PySpark 代码,它同样高效但没有导入 Pandas?
我在 Spark 上检查了Window,但不确定。
【问题讨论】:
标签: apache-spark pyspark pyspark-sql