当数据大小大于内存时，PySpark 是否提供优势？

【问题标题】：Does PySpark offer advantage when data size is bigger than memory?当数据大小大于内存时，PySpark 是否提供优势？
【发布时间】：2014-02-01 20:15:50
【问题描述】：

在处理太大而无法完全加载到内存中的数据时，PySpark 是否提供任何优势？我正在尝试将此（和其他功能）与基于 IPy Parallel 的方法进行比较。

【问题讨论】：

【解决方案1】：

spark-shell（使用 scala）/ pyspark 用于超高速集群计算。

这完全取决于集群的大小，尤其是您要分配给每个工作人员的 SPARK_WORKER_MEMORY。

如果您的数据更多地适合内存，spark 将有效地利用 DISK（连同内存）。

希望这会有所帮助:)

【讨论】：