【发布时间】:2020-07-20 17:14:35
【问题描述】:
我正在尝试使用 collect 函数将一列 pyspark 数据框存储到 python 列表中。 例如
list_a = [row[column_name] for dataset_name.collect()中的行]
但这是一个非常缓慢的过程,对于 3 列和 27 行的数据帧需要超过 10 秒。
有没有更快的方法?
我尝试在此步骤之前缓存数据。使用此步骤,上述查询将在 2 秒内执行,但缓存步骤本身需要大约 7-8 秒,因此我减少时间的目的并未完全实现。
而且我的代码是这样的,我需要在此步骤之前每次都重建数据帧,因此需要再次进行缓存,因此这一步(缓存数据帧)对缩短时间没有太大帮助。
提前致谢!
【问题讨论】:
标签: python python-3.x pyspark apache-spark-sql