Spark完善的生态圈

Apache Spark 完善的生态圈
目前,Spark已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目

  • Spark Core:实现了 Spark 的基本功能,包含RDD、任务调度、内存管理、错误恢复、与存储系统交互等模块。
  • Spark SQL:Spark 用来操作结构化数据的程序包。通过 Spark SQL,我们可以使用 SQL操作数据。
  • Spark Streaming:Spark 提供的对实时数据进行流式计算的组件。提供了用来操作数据流的 API。
  • Spark MLlib:提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据导入等额外的支持功能。
  • GraphX(图计算):Spark中用于图计算的API,性能良好,拥有丰富的功能和运算符,能在海量数据上自如地运行复杂的图算法。
  • 集群管理器:Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。

相关文章:

  • 2021-09-27
  • 2021-08-11
  • 2021-11-01
  • 2021-12-26
  • 2021-12-05
  • 2021-09-20
猜你喜欢
  • 2021-10-29
  • 2021-08-29
  • 2021-07-10
  • 2021-05-06
  • 2021-09-20
  • 2022-01-19
  • 2022-12-23
相关资源
相似解决方案