spark

我的Spark学习笔记

一、架构设计 Driver根据用户代码构建计算流图,拆解出分布式任务并分发到 Executors 中去;每个Executors收到任务,然后处理这个 RDD 的一个数据分片子集 DAGScheduler根据用户代码构建 DAG;以 Shuffle 为边界切割 Stages;基于 Stages 创建 ... »

Spark简单介绍,Windows下安装Scala+Hadoop+Spark运行环境,集成到IDEA中

一、前言 近几年大数据是异常的火爆,今天小编以java开发的身份来会会大数据,提高一下自己的层面! 大数据技术也是有很多: Hadoop Spark Flink 小编也只知道这些了,由于Hadoop,存在一定的缺陷(循环迭代式数据流处理:多 并行运行的数据可复用场景效率不行)。所以Spark出来了, ... »

wang1221

Spark中的数据读取保存和累加器实例详解

目录 数据读取与保存 Text文件 Sequence文件 Object对象文件 累加器 累加器概念 系统累加器 数据读取与保存 Text文件 对于 Text文件的读取和保存 ,其语法和实现是最简单的,因此我只是简单叙述一下这部分相关知识点,大家可以结合demo具体分析记忆。 »

Spark基本知识

Spark基本知识 Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 spark与hadoop的区别 Hadoop Hadoop 是由 java 语言编写的,在分布式服务器集群上存储海量数据并运行分布式 分析应用的开源框架 作为 Hadoop 分布式文件系统,HDFS 处于 Ha ... »

bfy0221 Spark

Databricks 上的 Apache Spark

Databricks 上的 Apache Spark | AWS 上的 Databricks这是 [截至 2022 年 10 月 25 日] 的翻译。 本文件为删节译文,不保证内容的准确性。具体内容请参考原文。 本文档解释了 Apache Spark、Databricks 和 Databri »

Spark GraphX 分布式图处理框架图算法详解

目录 正文 Graphx图结构 1. 最短路径 示例数据 可视化数据 计算最短路径 2. 网页排名 数据可视化 pagerank算法测试 算法结果 3. 连通域(连通组件) 加载图测试连通域 生成图测试 图实例的形态展示 强连接域的计算 4. 三角计数 代码测试 测试结果 5. 标 »

Spark临时表tempView的注册/使用/注销/注意事项(推荐)

目录 createTempView运作原理 低效做法 缓存临时表方式: 方式1 创建 方式2 方式3 临时表生命周期 createTempView运作原理 先说一个众人皆知的知识:Spark中的算子包含transformation算子和action算子,transformation是 »

大规模数据分析统一引擎Spark最新版本3.3.0入门实战

本篇先了解Spark和Hadoop的关系与区别,进一步了解特性和相关组件架构;通过实战部署了Spark最新版本3.3.0的Local、Standalone+历史服务+HA、Yarn的部署完成操作步骤,并通过不同提交方式的示例和WebUI查看加深多Spark多种作业提交原理的理解,并拉开了使用Spar... ... »

itxiaoshen

Spark基础入门(01)—RDD

1,基本概念 RDD(Resilient Distributed Dataset) :弹性分布式数据集 它是Spark中最基本的数据抽象,是编写Spark程序的基础。简单的来讲,一个Spark程序可以概括为: <输入> => [转换] => <输出> 输入和输出是必须要有的,转换是大部分情况下都有的 ... »

skyseavae

技术专家说 | 如何基于 Spark 和 Z-Order 实现企业级离线数仓降本提效?

【点击了解更多大数据知识】 市场的变幻,政策的完善,技术的革新……种种因素让我们面对太多的挑战,这仍需我们不断探索、克服。 今年,网易数帆将持续推出新栏目「金融专家说」「技术专家说」「产品专家说」等,聚集数帆及合作伙伴的数字化转型专家天团,聚焦大数据、云原生、人工智能等科创领域,带来深度技术解读及其 ... »

163yun

客户流失?来看看大厂如何基于spark+机器学习构建千万数据规模上的用户留存模型 ⛵

如何在海量用户中精准预测哪些客户即将流失?本文结合音乐流媒体平台 Sparkify 数据,详细讲解一个客户流失建模预测案例的全流程:探索性数据分析 EDA、数据处理、进一步数据探索、建模优化、结果评估。【代码与数据集亲测可运行】 ... »

Spark: Cluster Computing with Working Sets

本文是对spark作者早期论文《Spark: Cluster Computing with Working Sets》做的翻译(谷歌翻译),文章比较理论,阅读起来稍微有些吃力,但读完之后总算是对spark有了一个初步的认知,对于后续学习使用spark还是很有帮助的。 摘要 MapReduce及其各种 ... »

Kafka与Spark案例实践

1.概述 Kafka系统的灵活多变,让它拥有丰富的拓展性,可以与第三方套件很方便的对接。例如,实时计算引擎Spark。接下来通过一个完整案例,运用Kafka和Spark来合理完成。 2.内容 2.1 初始Spark 在大数据应用场景中,面对实时计算、处理流数据、降低计算耗时等问题时,Apache S ... »

推荐系统-协同过滤在Spark中的实现

本文以经典的协同过滤为切入点,重点介绍了被工业界广泛使用的矩阵分解算法,从理论与实践两个维度介绍了该算法的原理,通俗易懂,希望能够给大家带来一些启发。 ... »

vivotech

0基础就可以上手的Spark脚本开发-for Java

前言 最近由于工作需要,要分析大几百G的Nginx日志数据。之前也有过类似的需求,但那个时候数据量不多。一次只有几百兆,或者几个G。因为数据都在Hive里面,当时的做法是:把数据从Hive导到MySQL,然后写代码查询MySQL并处理。如果你的处理逻辑比较简单,或只是查询统计,不会设计上游的服务调用 ... »

详解SQL中Groupings Sets 语句的功能和底层实现逻辑

摘要:本文首先简单介绍 Grouping Sets 的用法,然后以 Spark SQL 作为切入点,深入解析 Grouping Sets 的实现机制。 本文分享自华为云社区《深入理解 SQL 中的 Grouping Sets 语句》,作者:元闰子。 前言 SQL 中 Group By 语句大家都很熟 ... »

spark 存取mysql

1.先上代码,存入mysql val spark = SparkSession.builder() .appName(&quot;jdbc&quot;) .getOrCreate() import spark.implicits._ val pathcsv = &quot;/user/xxx/private/moviecsv&quot; val csvdf = spark.read.fo »

Learning Spark中文版--第六章--Spark高级编程(2)

以每个分区为基础处理数据使我们可以避免为每个数据项重做配置工作。如打开数据库连接或者创建随机数生成器这样的操作,我们希望避免为每个元素重做配置工作。Spark有分区版本的map和foreach,通过让RDD的每个分区只运行一次代码,可帮助降低这些操作的成本。 回到我们的呼号例子中,有一个无线电台呼号的在线数据库,我们可以查询联系日志的公共列表。通过使用基于分区的操作,我们可以分享数据库的连接池来避 »