【问题标题】:Does PySpark offer advantage when data size is bigger than memory?当数据大小大于内存时,PySpark 是否提供优势?
【发布时间】:2014-02-01 20:15:50
【问题描述】:

在处理太大而无法完全加载到内存中的数据时,PySpark 是否提供任何优势?我正在尝试将此(和其他功能)与基于 IPy Parallel 的方法进行比较。

【问题讨论】:

    标签: apache-spark


    【解决方案1】:

    spark-shell(使用 scala)/ pyspark 用于超高速集群计算。

    这完全取决于集群的大小,尤其是您要分配给每个工作人员的 SPARK_WORKER_MEMORY。

    如果您的数据更多地适合内存,spark 将有效地利用 DISK(连同内存)。

    希望这会有所帮助:)

    【讨论】:

    • + 根据您的要求选择 RDD Persistence storagelevel
    猜你喜欢
    • 2015-01-29
    • 2018-06-24
    • 2014-07-04
    • 1970-01-01
    • 2011-02-04
    • 1970-01-01
    • 2021-11-22
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多