【发布时间】:2023-04-08 22:38:01
【问题描述】:
我需要将 Spark 数据框的一列转换为以后用于 matplotlib 的列表
df.toPandas()[col_name].values.tolist()
看起来这个操作需要大约 18 秒的高性能开销 还有其他方法可以做到这一点或提高性能吗?
【问题讨论】:
-
我猜性能开销是在 toPandas() 中,因为这是链中的第一个操作。
-
@JiriS 我能做些什么呢?
-
那一列有多少数据? Spark 必须将这一列的所有数据发送给驱动程序(加上序列化/反序列化开销)。你在使用 kryo 序列化吗?如果不启用它。
标签: python performance pandas apache-spark pyspark