Kafka快速入门系列(6) | Kafka生产过程的分析及分区策略-伙伴云

Kafka 快速入门系列(6) | Kafka生产过程的分析及分区策略

网友投稿 946 2022-05-28

本篇博主带来的是Kafka生产过程的分析。

1. 写入方式

2. 分区（Partition）

3. 副本（Replication）

4. producer写入消息流程

1. 写入方式

producer采用推（push）模式将消息发布到broker，每条消息都被追加（append）到分区（patition）中，属于顺序写磁盘（顺序写磁盘效率比随机写内存要高，保障kafka吞吐率）。

2. 分区（Partition）

消息发送时都被发送到一个topic，其本质就是一个目录，而topic是由一些Partition Logs(分区日志)组成，其组织结构如下图所示：

我们可以看到，每个Partition中的消息都是有序的，生产的消息被不断追加到Partition log上，其中的每一个消息都被赋予了一个唯一的offset值。

1. 分区的原因

（1）方便在集群中扩展，每个Partition可以通过调整以适应它所在的机器，而一个topic又可以有多个Partition组成，因此整个集群就可以适应任意大小的数据了；

（2）可以提高并发，因为可以以Partition为单位读写了。

2. 分区的原则

我们需要将producer发送的数据封装成一个ProducerRecord对象。

（1）指明 partition 的情况下，直接将指明的值直接作为 partiton 值；

（2）没有指明 partition 值但有 key 的情况下，将 key 的 hash 值与 topic 的 partition数进行取余得到 partition 值；

（3）既没有 partition 值又没有 key 值的情况下，第一次调用时随机生成一个整数（后面每次调用在这个整数上自增），将这个值与topic 可用的 partition 总数取余得到 partition 值，也就是常说的 round-robin 算法。

DefaultPartitioner类 public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) { List partitions = cluster.partitionsForTopic(topic); int numPartitions = partitions.size(); if (keyBytes == null) { int nextValue = nextValue(topic); List availablePartitions = cluster.availablePartitionsForTopic(topic); if (availablePartitions.size() > 0) { int part = Utils.toPositive(nextValue) % availablePartitions.size(); return availablePartitions.get(part).partition(); } else { // no partitions are available, give a non-available partition return Utils.toPositive(nextValue) % numPartitions; } } else { // hash the keyBytes to choose a partition return Utils.toPositive(Utils.murmur2(keyBytes)) % numPartitions; } }

3. 副本（Replication）

同一个partition可能会有多个replication（对应 server.properties 配置中的 default.replication.factor=N）。没有replication的情况下，一旦broker 宕机，其上所有 patition 的数据都不可被消费，同时producer也不能再将数据存于其上的patition。引入replication之后，同一个partition可能会有多个replication，而这时需要在这些replication之间选出一个leader，producer和consumer只与这个leader交互，其它replication作为follower从leader 中复制数据。

4. producer写入消息流程

1.producer先从zookeeper的 "/brokers/…/state"节点找到该partition的leader

2.producer将消息发送给该leader

3.leader将消息写入本地log

4.followers从leader pull消息，写入本地log后向leader发送ACK

5.leader收到所有ISR中的replication的ACK后，增加HW（high watermark，最后commit 的offset）并向producer发送ACK

本次的分享就到这里了,

看完就赞，养成习惯！！！ \color{#FF0000}{看完就赞，养成习惯！！！} 看完就赞，养成习惯！！！^ _ ^ ❤️ ❤️ ❤️

码字不易，大家的支持就是我坚持下去的动力。后不要忘了关注我哦！

Kafka

elasticsearch入门 系列">elasticsearch入门 系列

946 2022-05-28

快速跳到我想要的那一页（怎么快速到下一页）">怎么快速跳到我想要的那一页（怎么快速到下一页）

946 2022-05-28

深入浅出etcd系列】3. 日志同步">【深入浅出etcd系列】3. 日志同步

946 2022-05-28

Kafka 快速 入门 系列(6) | Kafka生产过程的分析及分区策略

elasticsearch入门 系列">elasticsearch入门 系列

快速跳到我想要的那一页（怎么快速到下一页）">怎么快速跳到我想要的那一页（怎么快速到下一页）

深入浅出etcd系列】3. 日志同步">【深入浅出etcd系列】3. 日志同步

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

进销存库存管理盘点">简单进销存库存管理盘点

电子表格，居家办公更轻松">用在线电子表格，居家办公更轻松

友情链接

Kafka快速入门系列(6) | Kafka生产过程的分析及分区策略

微信扫一扫：分享

elasticsearch入门系列">elasticsearch入门系列

快速跳到我想要的那一页（怎么快速到下一页）">怎么快速跳到我想要的那一页（怎么快速到下一页）

深入浅出etcd系列】3. 日志同步">【深入浅出etcd系列】3. 日志同步

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

进销存库存管理盘点">简单进销存库存管理盘点

电子表格，居家办公更轻松">用在线电子表格，居家办公更轻松

友情链接

Kafka 快速入门系列(6) | Kafka生产过程的分析及分区策略