Spark 系统是分布式批处理系统和分析挖掘引擎 ; AMP LAB 贡献到 Apache 社区的开源项目,是 AMP 大数据栈的基础组件;做什么 数据处理( Data Processing ):可以用来快速处理数据,兼具容错性和可扩展性。迭代计算( Iterative Computation ):支持迭代计算,有效应对多步的数据处理逻辑。 数据挖掘 ( Data Mining ):在海量数据基础上进行复杂的挖掘分析,可支持各种数据挖掘和 机器学习 算法。作者详细介绍了Spark的特点、数据共享机制、弹性分布式数据集、容错机制、Lineage。并分享了几个案例,在具体操作中代码的结构。
Spark 原理与实践
Spark 原理与实践
Spark 原理与实践
Spark 原理与实践
Spark 原理与实践
Spark 原理与实践
Spark 原理与实践
Spark 原理与实践
Spark 原理与实践
Spark 原理与实践
Spark 原理与实践
Spark 原理与实践
Spark 原理与实践
Spark 原理与实践原文https://www.slidestalk.com/s/Spark_Principle_and_Practice
Spark 原理与实践

相关文章: