知识点
Flink介绍 1、无界数据-->数据不断产生 2、有界数据-->最终不再改变的数据 3、有界数据集是无界数据集的一个特例 4、有界数据集在flink内部是以一种终态数据集进行处理的 5、在flink中,有界和无界的差别非常小 6、使用同一套流计算引擎上的API操作两种数据类型 流计算: 数据不断产生,就一直处于计算状态 批处理: 完成一定时间段的计算任务后,就释放资源 Flink特性: 结果精准,即使是无序数据或者延迟到达的数据 有状态以及容错。 有状态,表示一直保存计算结果,以便往后传递计算值 实现精准一次计算的应用状态 大规模计算,几千台节点上运算,高吞吐和低延迟的特点 Flink通过检查点机制实现精准一次的计算保证,在故障时可以体现出来 flink支持流计算以及窗口化操作 flink支持灵活的基础时间的窗口计算 flink容错是轻量级的,保证零数据丢失。
1、下载并安装
官网安装步骤:https://ci.apache.org/projects/flink/flink-docs-release-1.8/tutorials/local_setup.html
2、本人安装版本
1、flink-1.7.2-bin-hadoop24-scala_2.11.tgz 2、tar -xzvf flink-1.7.2-bin-hadoop24-scala_2.11.tgz
3、mv flink-1.7.2 /usr/local/flink
3、运行flink
./bin/start-cluster.sh
4、web ui查看flink界面
http://ip:8081
5、查看日志信息
查看flink启动日志信息 log/flink-root-standalonesession-0-localhost.localdomain.log 查看job任务启动信息 log/flink-root-taskexecutor-0-localhost.localdomain.log
查看job任务输出信息 tail -100f flink-root-taskexecutor-0-localhost.localdomain.out
6、编写wordcout程序,这个可以查看官网
a)pom.xml , 注意将<scope>provided</scope>注释,否则找不到dataset类
<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.ywj</groupId> <artifactId>flink.test</artifactId> <version>1.0-SNAPSHOT</version> <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-core --> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-core</artifactId> <version>1.7.2</version> </dependency> <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-streaming-java --> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-java_2.12</artifactId> <version>1.7.2</version> <!--<scope>provided</scope>--> </dependency> </dependencies> </project>