图解Spark排序算子sortBy的核心源码
原创/朱季谦 一、案例说明 以前刚开始学习Spark的时候,在练习排序算子sortBy的时候,曾发现一个有趣的现象是,在使用排序算子sortBy后直接打印的话,发现打印的结果是乱序的,并没有出现完整排序。 例如,有一个包含多个(姓名,金额)结构的List数据,将这些数据按照金额降序排序时,代码及打印 ... »
原创/朱季谦 一、案例说明 以前刚开始学习Spark的时候,在练习排序算子sortBy的时候,曾发现一个有趣的现象是,在使用排序算子sortBy后直接打印的话,发现打印的结果是乱序的,并没有出现完整排序。 例如,有一个包含多个(姓名,金额)结构的List数据,将这些数据按照金额降序排序时,代码及打印 ... »
Apache Hudi的DeltaStreamer是一种以近实时方式摄取数据并写入Hudi表的工具类,它简化了流式数据入湖并存储为Hudi表的操作,自 `0.10.0` 版开始,Hudi又在DeltaStreamer的基础上增加了基于Debezium的CDC数据处理能力,这使得其可以直接将Debez ... »
 原创/朱季谦 第一次写这么长的graphx源码解读,还是比较晦涩,有较多不足之处,争取改进。 ### 一 ... »
 ## 一、场景案例 在一张社区网络里,可能需要查询出各个顶点邻接关联的顶点集合,类似查询某个人关系比较 ... »
原创/朱季谦 RDD(弹性分布式数据集)中的数据就如final定义一般,只可读而无法修改,若要对RDD进行转换或操作,那就需要创建一个新的RDD来保存结果。故而就需要用到转换和行动的算子。 Spark运行是惰性的,在RDD转换阶段,只会记录该转换逻辑而不会执行,只有在遇到行动算子时,才会触发真正的运 ... »
当特征数量或者模型数量很多的时候,使用`PySpark`去计算相关指标会节省很多的时间。网上关于使用`PySpark`计算相关指标的资料较少,这里抛砖引玉,写了三个风控常用的指标AUC,KS和PSI相关的计算方法,供参考。 # AUC AUC的相关概念网上已经有很多的很好的文章,这里不在赘述,AUC ... »
摘要:本篇文章将从一个实际项目出发,分享如何使用 Spark 进行大规模日志分析,并通过代码演示加深读者的理解。 本文分享自华为云社区《【实战经验分享】基于Spark的大规模日志分析【上进小菜猪大数据系列】》,作者:上进小菜猪。 随着互联网的普及和应用范围的扩大,越来越多的应用场景需要对海量数据进行 ... »
目录 起因 分析 环境 参数 问题所在 优化结果 起因 新接触一个spark集群,明明集群资源(core,内存)还有剩余,但是提交的任务却申请不到资源。 分析 环境 spark 2.2.0 基于yarn集群 参数 spark任务提交参数中最重要的几个: spa »
目录 写在前面 第1题:Spark SQL 基本操作 主程序代码 主程序执行结果 第2题:编程实现将 RDD 转换为 DataFrame 题目 主程序代码 主程序执行结果 第3题:编程实现利用 DataFrame 读写 MySQL 的数据 题目 主程序代码 主程序执行结果 写在前 »
目录 写在前面 1. 安装Flume 安装命令 2.使用Avro数据源测试Flume 题目描述 Flume配置文件 执行命令 执行结果如下 3. 使用netcat数据源测试Flume 题目描述 编写Flume配置文件 4. 使用Flume作为Spark Streaming数据源 题目描述 »
一、贝叶斯定理 贝叶斯定理是关于随机事件A和B的条件概率,生活中,我们可能很容易知道P(A|B),但是我需要求解P(B|A),学习了贝叶斯定理,就可以解决这类问题,计算公式如下: P(A)是A的先验概率 P(B)是B的先验概率 P(A|B)是A的后验概率(已经知道B发生过了) P(B|A)是B的后验 ... »
目录 1.1、小文件危害 1.2、产生小文件过多的原因 1.3、如何解决这种小文件的问题呢? 1.3.1、调优参数 1.1、小文件危害 大量的小文件会影响Hadoop集群管理或者Spark在处理数据时的稳定性: 1.Spark SQL写Hive或者直接写入HDFS,过多的小文件会对Na »
目录 前言 一、Spark概述 (一)Spark是什么 (二)Spark的四大特点 (三)Spark的风雨十年 (四)Spark框架模块 (五)Spark通信框架 总结 前言 本篇文章开始介绍Spark基础知识,包括Spark诞生的背景,应用环境以及入门案例等,还是Spark学习之旅 »
随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在一些不同之处。 ... »
起因 新接触一个spark集群,明明集群资源(core,内存)还有剩余,但是提交的任务却申请不到资源。 分析 环境 spark 2.2.0 基于yarn集群 参数 spark任务提交参数中最重要的几个: spark-submit --master yarn --driver-cores 1 --dr ... »
起因 新接触一个spark集群,明明集群资源(core,内存)还有剩余,但是提交的任务却申请不到资源。 分析 环境 spark 2.2.0 基于yarn集群 参数 spark任务提交参数中最重要的几个: spark-submit --master yarn --driver-cores 1 --dr ... »
任务需求:已知RDD[(query:String, item_id:String, imp:Int, clk:Int)],要求找到每个query对应的点击最多的前2个item_id,即:按照query分组,并按照clk降序排序,每组取前两个。 例如: (连衣裙,1234, 22, 13) »
任务需求:已知RDD[(query:String, item_id:String, imp:Int, clk:Int)],要求找到每个query对应的点击最多的前2个item_id,即:按照query分组,并按照clk降序排序,每组取前两个。 例如: (连衣裙,1234, 22, 13) »
目录 引言 数据序列化 内存调优 内存管理概述 确定内存消耗 调整数据结构 RDD序列化存储 GC的调整 测量GC的影响 高级GC调优 其他考虑因素 并行度水平 输入路径上的并行Listing Reduce任务的内存使用情况 广播大型变量 数据位置 小结 引言 本文是关于Sp »
目录 引言 数据序列化 内存调优 内存管理概述 确定内存消耗 调整数据结构 RDD序列化存储 GC的调整 测量GC的影响 高级GC调优 其他考虑因素 并行度水平 输入路径上的并行Listing Reduce任务的内存使用情况 广播大型变量 数据位置 小结 引言 本文是关于Sp »