flink

Apache Flink系列-④有状态函数

有状态函数:独立于平台的有状态无服务器堆栈 这是一种在现代基础设施上创建高效、可扩展且一致的应用程序的简单方法,无论规模大小。 有状态函数是一种API,它通过为无服务器架构构建的运行时简化了分布式有状态应用程序的构建。它结合了有状态流处理的优点——处理延迟低、资源受限的大型数据集——以及为支持位置透 ... »

suprising

11.Flink实时项目之支付宽表

支付宽表的目的,最主要的原因是支付表没有到订单明细,支付金额没有细分到商品上, 没有办法统计商品级的支付状况。 所以本次宽表的核心就是要把支付表的信息与订单明细关联上。 ... »

从容器化到资源池化,数栈云原生技术实践探索之路

导读: 近些年随着云计算和云原生应用的兴起,容器技术可以很好地解决许多问题,所以将大数据平台容器化是一种理想的方案。本文将结合袋鼠云数栈在Flink on Kubernetes的实践让您对大数据平台容器化的操作和价值有初步的了解。 你可以看到 »

DTinsight

flink调优之RocksDB设置

一、开启监控 RocksDB是基于LSM Tree实现的,写数据都是先缓存到内存中,所以RocksDB的写请求效率比较高。RocksDB使用内存结合磁盘的方式来存储数据,每次获取数据时,先从内存中blockcache中查找,如果内存中没有再去磁盘中查询。使用 RocksDB时,状态大小仅受可用磁盘空 ... »

10.Flink实时项目之订单维度表关联

在上一篇中,我们已经把订单和订单明细表join完,本文将关联订单的其他维度数据,维度关联实际上就是在流中查询存储在 hbase 中的数据表。但是即使通过主键的方式查询,hbase 速度的查询也是不及流之间的 join。外部数据源的查询常常是流式计算的性能瓶颈,所以我们在查询hbase维度数据的基础上... ... »

flink内存模型详解与案例

任务提交时的一些yarn设置(通用客户端模式) 指定并行度 -p 5 \ 指定yarn队列 -Dyarn.application.queue=xxx \ 指定JM总进程的大小 -Djobmanager.memory.process.size=1024mb \ 指定每个TM的总进程大小,一般是 2-8 ... »

Flink不止于计算,存算一体才是未来

​ “伴随着实时化浪潮的发展和深化,Flink 已逐步演进为实时流处理的领军技术和事实标准。Flink 一方面持续优化其流计算核心能力,不断提高整个行业的流计算处理标准,另一方面沿着流批一体的思路逐步推进架构改造和应用场景落地,但是,随着计算流批统一的逐渐完善的同时,Flink存储的流批统一缺陷显得 ... »

一,Flink快速上手

1.依赖配置 1.1 pom文件 <properties> <maven.compiler.source>8</maven.compiler.source> <maven.compiler.target>8</maven.compiler.target> <flink.version>1.13.0< ... »

Flink域名处理

概述 最近做了一个小任务,要使用Flink处理域名数据,在4GB的域名文档中求出每个域名的顶级域名,最后输出每个顶级域名下的前10个子级域名。一个比较简单的入门级Flink应用,代码很容易写,主要用到的算子有FlatMap、KeyBy、Reduce。但是由于Maven打包问题,总是提示找不到入口类, ... »

9.Flink实时项目之订单宽表

订单是统计分析的重要的对象,围绕订单有很多的维度统计需求,比如用户、地区、商品、品类、品牌等等。为了之后统计计算更加方便,减少大表之间的关联,所以在实时计算过程中将围绕订单的相关数据整合成为一张订单的宽表。那究竟哪些数据需要和订单整合在一起? ... »

Flink水印机制(watermark)

Flink流处理时间方式 EventTime 时间发生的时间,例如:点击网站上的某个链接的时间 IngestionTime 某个Flink节点的source operator接收到数据的时间,例如:某个source消费到kafka中的数据 ProcessingTime 某个Flink节点执行某个operation的时间,例如:timeWindow接收到数据的时间 »

Flink学习笔记-新一代Flink计算引擎

说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程:  Flink大数据项目实战:http://t.cn/EJtKhaz 新一代Flink计算引擎 (1) Flink概述 目前开源大数据计算引擎有很多的选择,比如流处理有Storm、Samza、Flink、Spark等,批处理有Spark、Hive、Pig、Flink等。 »

趣头条基于 Flink 的实时平台建设实践

本文由趣头条实时平台负责人席建刚分享趣头条实时平台的建设,整理者叶里君。文章将从平台的架构、Flink 现状,Flink 应用以及未来计划四部分分享。 一.平台架构 1.Flink 应用时间线 首先是平台的架构,2018 年 3 月之前基本都是基于 Storm 和 Spark Streaming 来做的。目前,基本已经把 Spark Streaming 和 Storm 淘汰了,主要都是 Flin »

Flink – SlotSharingGroup

  SlotSharingGroup 表示不同的task可以共享slot,但是这是soft的约束,即也可以不在一个slot 默认情况下,整个StreamGraph都会用一个默认的“default” SlotSharingGroup,即所有的JobVertex的task都可以共用一个slot /** * A slot sharing units defines which dif »

Flink重启策略

戳更多文章: 1-Flink入门 2-本地环境搭建&amp;amp;构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Flink中的窗口 9-Flink中的Time Flink时间戳和水印 Broadcast广播变量 FlinkTable&amp;amp;SQL Flink实战项目实时热销排行 Flink写入RedisSink 1 »

Pinpoint完整集群实现,包括flink集群的加入

  Pinpoint是韩国人开发的一套基于java的Apm(应用性能监控),具有低延迟、实时监控、拓扑发现、低性能损耗的特点(官方预估是3%),同事有一个完善的web后台,一目了然查看应用拓扑。 安装使用前我搜索了网上一堆的文档,几乎都是半路货或是比较旧,一半靠官网,一半靠摸索理解,还好感谢官网的协助,最终全部搭建成功。为了方便以后其它人的使用,我用ansible搭建成大部分的初始化部分,但剩下几 »

关于30大洋看的一篇帖子(为什么我的Flink任务正常运行,UI上却不显示接收和发送的数据条数呢?)

最近发现有好几个同学问我这个问题,为什么我的Flink任务正常运行,数据也可以打印,而且都保存到数据库了,但是UI上面却不显示数据接收和发送的条数,我都快被问疯了,今天就给大家详细说一下这个小问题. 首先先来复现一下这个问题,我们先看下面的代码(只是一部分代码) def main(args: Array[String]): Unit = { val env = StreamExecution »