【发布时间】:2018-08-14 23:48:30
【问题描述】:
我有一个 DataFrame,其中一列有逗号分隔的数据。
例如:数据如下所示: [{value:1}, {value:2, value:3}, {some value}, {somevalue, othervalue}]
该列是字符串数据类型。我想将其转换为 List 并应用一些功能。 现在我有一个函数可以将 String 列转换为 List 和其他应用逻辑。
但是哪个函数会更好和优化,因为我们有 2 个类似的探测函数 mapPartitions 和 foreachPartitions,它是否具有完全相同的性能以及在哪个函数中使用场景??
【问题讨论】:
标签: apache-spark pyspark pyspark-sql