flink

Flink基础概念入门

Flink 概述 什么是 Flink Apache Apache Flink 是一个开源的流处理框架,应用于分布式、高性能、高可用的数据流应用程序。可以处理有限数据流和无限数据,即能够处理有边界和无边界的数据流。无边界的数据流就是真正意义上的流数据,所以 Flink 是支持流计算的。有边界的数据流就 ... »

Flink 侧流输出源码示例解析

目录 Flink 侧流输出源码解析 源码解析 TimestampedCollector#collect CountingOutput#collect BroadcastingOutputCollector#collect RecordWriterOutput#collect ProcessOpe »

flink-cdc同步mysql数据到hive

本文首发于我的个人博客网站 等待下一个秋-Flink 什么是CDC? CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到 ... »

data-magnifier

flink-cdc同步mysql数据到hbase

本文首发于我的个人博客网站 等待下一个秋-Flink 什么是CDC? CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到 ... »

data-magnifier

flink-cdc同步mysql数据到kafka

本文首发于我的个人博客网站 等待下一个秋-Flink 什么是CDC? CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到 ... »

data-magnifier

flink-cdc实时同步mysql数据到elasticsearch

本文首发于我的个人博客网站 等待下一个秋-Flink 什么是CDC? CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到 ... »

data-magnifier

Flink SQL 子图复用逻辑分析

子图复用优化是为了找到SQL执行计划中重复的节点,将其复用,避免这部分重复计算的逻辑。先回顾SQL执行的主要流程 parser -> validate -> logical optimize -> physical optimize -> translateToExecNode。 而子图复用的逻辑就 ... »

Aitozi

使用Apache Flink 和 Apache Hudi 创建低延迟数据湖管道

近年来出现了从单体架构向微服务架构的转变。微服务架构使应用程序更容易扩展和更快地开发,支持创新并加快新功能上线时间。但是这种方法会导致数据存在于不同的孤岛中,这使得执行分析变得困难。为了获得更深入和更丰富的见解,企业应该将来自不同孤岛的所有数据集中到一个地方。 AWS 提供复制工具,例如 AWS D ... »

leesf456

新一代分布式实时流处理引擎Flink入门实战之先导理论篇-上

基于JDK11的Flink最新版本v15.1,以官网最新文档入手,从为何选择使用Flink为引导线,介绍实时数仓的演变历程,对比Flink和Spark的差异和竞争力。进一步剖析其系统架构、通过***和有界数据理解,加深对流式分析的认识,了解三大运行模式适用场景,最后理解作业提交完整流程,为下一篇Fli... ... »

8000字讲透OBSA原理与应用实践

摘要:OBSA项目是围绕OBS建立的大数据和AI生态,其在不断的发展和完善中,目前有如下子项目:hadoop-obs项目和flink-obs项目。 文章作者:存储服务产品部开发者支持团队 OBS存储服务概述 华为云OBS存储服务提供了“对象存储服务”和”并行文件系统服务”。 1.对象存储服务:提供传 ... »

Flink Window&Time 原理

Flink 中可以使用一套 API 完成对有界数据集以及***数据的统一处理,而***数据集的处理一般会伴随着对某些固定时间间隔的数据聚合处理。比如:每五分钟统计一次系统活跃用户、每十秒更新热搜榜单等等 这些需求在 Flink 中都由 Window 提供支持,Window 本质上就是借助状态后端缓存着一 ... »

Flink SQL 连接hive

最近在调研flink sql连接hive,初次使用踩了许多坑,记录一下。 首先idea运行需要Windows上安装Hadoop环境,并配置好环境变量,否则报$HADOOP_HOME找不到的错误。 配置完成后进入到Linux服务器上已有的Hadoop环境,将core-site.xml文件和hdfs-s ... »

如何优雅的升级 Flink Job?

Flink 作为有状态计算的流批一体分布式计算引擎,会在运行过程中保存很多的「状态」数据,并依赖这些数据完成任务的 Failover 以及任务的重启恢复。 那么,请思考一个问题:如果程序升级迭代调整了这些「状态」的数据结构以及类型,Flink 能不能从旧的「状态」文件(一般就是 Savepoint ... »

关于 Flink 状态与容错机制

Flink 作为新一代基于事件流的、真正意义上的流批一体的大数据处理引擎,正在逐渐得到广大开发者们的青睐。就从我自身的视角看,最近也是在数据团队把一些原本由 Flume、SparkStreaming、Storm 编写的流式作业往 Flink 迁移,它们之间的优劣对比本篇暂不讨论。 近期会总结一些 F ... »

Table API 和 Flink SQL—第五章 函数(Functions)

Flink Table 和 SQL 内置了很多 SQL 中支持的函数;如果有无法满足的需要,则可以实现用户自定义的函数(UDF)来解决。   5.1      系统内置函数   Flink Table API 和 SQL 为用户提供了一组用于数据转换的内置函数。SQL 中支持的很多函数,Table API 和 SQL 都已经做了实现,其它还在快速开发扩展中。 以下是一些典型函数的举例,全部的内置函 »

flink hadoop yarn

    新一代大数据处理引擎 Apache Flink https://www.ibm.com/developerworks/cn/opensource/os-cn-apache-flink/ 沈 钊伟2015 年 12 月 28 日发布       大数据计算引擎的发展 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 »

flink入门

POM文件需要导入的依赖: <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-java_2.12</artifactId> <version>${fl »

Flink基础(54):FLINK-SQL函数(17) 内置函数(12)字符串函数(三)

REPEAT 语法   VARCHAR REPEAT(VARCHAR str, INT n) 入参   参数 数据类型 说明 str VARCHAR 重复字符串值。 n INT 重复次数。 功能描述 返回以字符串值为str,重复次数为N的新的字符串。如果参数为null时,则返回null。如果重复次数为0或负数,则返回空串。 示例 测试数据   st »

flink系列-7、窗口函数 & Windows 的 Operator demo

代码地址:https://gitee.com/xiexiandong/abc_bigdata.git 在定义了窗口分配器之后,我们需要为每一个窗口明确的指定计算逻辑,这个就是窗口函数要做的事情,当系统决定一个窗口已经准备好执行之后,这个窗口函数将被用 来处理窗口中的每一个元素(可能是分组的)。  1.ReduceFunction 含义:ReduceFunction定义了如何把两个输入的元素 »