【发布时间】:2014-02-01 20:15:50
【问题描述】:
在处理太大而无法完全加载到内存中的数据时,PySpark 是否提供任何优势?我正在尝试将此(和其他功能)与基于 IPy Parallel 的方法进行比较。
【问题讨论】:
标签: apache-spark
在处理太大而无法完全加载到内存中的数据时,PySpark 是否提供任何优势?我正在尝试将此(和其他功能)与基于 IPy Parallel 的方法进行比较。
【问题讨论】:
标签: apache-spark
spark-shell(使用 scala)/ pyspark 用于超高速集群计算。
这完全取决于集群的大小,尤其是您要分配给每个工作人员的 SPARK_WORKER_MEMORY。
如果您的数据更多地适合内存,spark 将有效地利用 DISK(连同内存)。
希望这会有所帮助:)
【讨论】: