Kafka 实时缓存机制入门

1、缓存策略

2、Kafka特性

3、Kafka实时数据缓存

4、Kafka的优点

5、kafka集群图解

6、实时计算架构

1、缓存策略

数据分析主要分为离线数据处理和实时数据处理：

结构图大致如下：

离线数据处理流程图：

一般是对历史数据进行处理

Kafka 实时缓存机制入门

实时数据处理流程图：

Kafka 实时缓存机制入门

由以上两个流程图可以发现，kafka是一种可用于处理实时数据的高吞吐量的分布式发布订阅消息系统：

官方解释：

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

2、Kafka特性

通过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
高吞吐量：即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。
支持通过Kafka服务器和消费机集群来分区消息。
支持Hadoop并行数据加载。

3、Kafka实时数据缓存

kafka的实施缓存机制类似于微信公众号：

Kafka 实时缓存机制入门

4、Kafka的优点

解耦：各司其职避免出现连锁问题
扩展性：可以增加数据的处理过程
灵活：面对访问量剧增，不会因为超负荷请求而完全瘫痪
可恢复：一部分组件失效，不会影响整体系统，可恢复
缓冲：控流
顺序保证：有序，先进先出
异步通讯

5、kafka集群图解

Kafka 实时缓存机制入门

图中名词解释：

Broker

Kafka集群包含一个或多个服务器，这种服务器被称为broker
Topic

每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。（物理上不同Topic的消息分开存储，逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处）
Partition

Partition是物理上的概念，每个Topic包含一个或多个Partition.
Producer

负责发布消息到Kafka broker
Consumer

消息消费者，向Kafka broker读取消息的客户端。
Consumer Group

每个Consumer属于一个特定的Consumer Group（可为每个Consumer指定group name，若不指定group name则属于默认的group）。

6、实时计算架构

Kafka 实时缓存机制入门

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
Storm是一个分布式的、高容错的实时计算系统。
Flink是一个纯流式计算引擎
Spark是一个实现快速通用的集群计算平台
Redia是一种支持Key-Value等多种数据结构的存储系统。可用于缓存，事件发布或订阅，高速队列等场景。该数据库使用ANSI C语言编写，支持网络，提供字符串，哈希，列表，队列，集合结构直接存取，基于内存，可持久化。