前言、Zookeeper 在 Kafka 中的作用

1、Broker注册

Broker是分布式部署并且相互之间相互独立，但是需要有一个注册系统能够将整个集群中的Broker管理起来，此时就使用到了Zookeeper。在Zookeeper上会有一个专门用来进行Broker服务器列表记录的节点：

/brokers/ids

每个Broker在启动时，都会到Zookeeper上进行注册，即到/brokers/ids下创建属于自己的节点，如/brokers/ids/[0...N]。

Kafka使用了全局唯一的数字来指代每个Broker服务器，不同的Broker必须使用不同的Broker ID进行注册，创建完节点后，每个Broker就会将自己的IP地址和端口信息记录到该节点中去。其中，Broker创建的节点类型是临时节点，一旦Broker宕机，则对应的临时节点也会被自动删除。

2、Topic注册

在Kafka中，同一个Topic的消息会被分成多个分区并将其分布在多个Broker上，这些分区信息及与Broker的对应关系也都是由Zookeeper在维护，由专门的节点来记录，如：

/borkers/topics

Kafka中每个Topic都会以/brokers/topics/[topic]的形式被记录，如/brokers/topics/login和/brokers/topics/search等。Broker服务器启动后，会到对应Topic节点（/brokers/topics）上注册自己的Broker ID并写入针对该Topic的分区总数，如/brokers/topics/login/3->2，这个节点表示Broker ID为3的一个Broker服务器，对于"login"这个Topic的消息，提供了2个分区进行消息存储，同样，这个分区节点也是临时节点。

3、生产者负载均衡

由于同一个Topic消息会被分区并将其分布在多个Broker上，因此，生产者需要将消息合理地发送到这些分布式的Broker上，那么如何实现生产者的负载均衡，Kafka支持传统的四层负载均衡，也支持Zookeeper方式实现负载均衡。

(1) 四层负载均衡，根据生产者的IP地址和端口来为其确定一个相关联的Broker。通常，一个生产者只会对应单个Broker，然后该生产者产生的消息都发往该Broker。这种方式逻辑简单，每个生产者不需要同其他系统建立额外的TCP连接，只需要和Broker维护单个TCP连接即可。但是，其无法做到真正的负载均衡，因为实际系统中的每个生产者产生的消息量及每个Broker的消息存储量都是不一样的，如果有些生产者产生的消息远多于其他生产者的话，那么会导致不同的Broker接收到的消息总数差异巨大，同时，生产者也无法实时感知到Broker的新增和删除。

(2) 使用Zookeeper进行负载均衡，由于每个Broker启动时，都会完成Broker注册过程，生产者会通过该节点的变化来动态地感知到Broker服务器列表的变更，这样就可以实现动态的负载均衡机制。

4、消费者负载均衡

与生产者类似，Kafka中的消费者同样需要进行负载均衡来实现多个消费者合理地从对应的Broker服务器上接收消息，每个消费者分组包含若干消费者，每条消息都只会发送给分组中的一个消费者，不同的消费者分组消费自己特定的Topic下面的消息，互不干扰。

5、分区与消费者的关系

消费组 (Consumer Group)：
consumer group 下有多个 Consumer（消费者）。
对于每个消费者组 (Consumer Group)，Kafka都会为其分配一个全局唯一的Group ID，Group 内部的所有消费者共享该 ID。订阅的topic下的每个分区只能分配给某个 group 下的一个consumer(当然该分区还可以被分配给其他group)。
同时，Kafka为每个消费者分配一个Consumer ID，通常采用"Hostname:UUID"形式表示。

在Kafka中，规定了每个消息分区只能被同组的一个消费者进行消费，因此，需要在 Zookeeper 上记录消息分区与 Consumer 之间的关系，每个消费者一旦确定了对一个消息分区的消费权力，需要将其Consumer ID 写入到 Zookeeper 对应消息分区的临时节点上，例如：

/consumers/[group_id]/owners/[topic]/[broker_id-partition_id]

其中，[broker_id-partition_id]就是一个消息分区的标识，节点内容就是该消息分区上消费者的Consumer ID。

6、消息消费进度Offset 记录

在消费者对指定消息分区进行消息消费的过程中，需要定时地将分区消息的消费进度Offset记录到Zookeeper上，Kafka 官网最新版[0.10.1.1]，已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的Topic中。以便在该消费者进行重启或者其他消费者重新接管该消息分区的消息消费后，能够从之前的进度开始继续进行消息消费。

1.Offset在Zookeeper中由一个专门节点进行记录，其节点路径为:

/consumers/[group_id]/offsets/[topic]/[broker_id-partition_id]

节点内容就是Offset的值。

2.__consumer_offsets

7、消费者注册

消费者服务器在初始化启动时加入消费者分组的步骤如下

注册到消费者分组。每个消费者服务器启动时，都会到Zookeeper的指定节点下创建一个属于自己的消费者节点，例如/consumers/[group_id]/ids/[consumer_id]，完成节点创建后，消费者就会将自己订阅的Topic信息写入该临时节点。

对消费者分组中的消费者的变化注册监听。每个消费者都需要关注所属消费者分组中其他消费者服务器的变化情况，即对/consumers/[group_id]/ids节点注册子节点变化的Watcher监听，一旦发现消费者新增或减少，就触发消费者的负载均衡。

对Broker服务器变化注册监听。消费者需要对/broker/ids/[0-N]中的节点进行监听，如果发现Broker服务器列表发生变化，那么就根据具体情况来决定是否需要进行消费者负载均衡。

进行消费者负载均衡。为了让同一个Topic下不同分区的消息尽量均衡地被多个消费者消费而进行消费者与消息分区分配的过程，通常，对于一个消费者分组，如果组内的消费者服务器发生变更或Broker服务器发生变更，会发出消费者负载均衡。

二、admin

该目录下znode只有在有相关操作时才会存在，操作结束时会将其删除

2.1 preferred_replica_election

2.1.1 结构

{

"fields": [{

"name": "version",

"type": "int",

"doc": "version id"

}, {

"name": "partitions",

"type": {

"type": "array",

"items": {

"fields": [{

"name": "topic",

"type": "string",

"doc": "topic of the partition for which preferred replica election should be triggered"

}, {

"name": "partition",

"type": "int",

"doc": "the partition for which preferred replica election should be triggered"

}],

}

"doc": "an array of partitions for which preferred replica election should be triggered"

}

}]

}

Example:

{

"version": 1,

"partitions": [{

"topic": "topic1",

"partition": 8

}, {

"topic": "topic2",

"partition": 16

}]

}

2.1.3 描述

某个Partition的Replica列表叫作AR（Assigned Replicas），AR中的第一个Replica即为“Preferred Replica”。创建一个新的Topic或者给已有Topic增加Partition时，Kafka保证Preferred Replica被均匀分布到集群中的所有Broker上。理想情况下，Preferred Replica会被选为Leader。以上两点保证了所有Partition的Leader被均匀分布到了集群当中，这一点非常重要，因为所有的读写操作都由Leader完成，若Leader分布过于集中，会造成集群负载不均衡。但是，随着集群的运行，该平衡可能会因为Broker的宕机而被打破，该节点就是用来帮助恢复Leader分配的平衡。

事实上，每个Topic从失败中恢复过来后，它默认会被设置为Follower角色，除非某个Partition的Replica全部宕机，而当前Broker是该Partition的AR中第一个恢复回来的Replica。因此，某个Partition的Leader（Preferred Replica）宕机并恢复后，它很可能不再是该Partition的Leader，但仍然是Preferred Replica。

下面介绍下恢复leader分配的平衡

1. 在ZooKeeper上创建/admin/preferred_replica_election节点，并存入需要调整Preferred Replica的Partition信息。

2. Controller一直Watch该节点，一旦该节点被创建，Controller会收到通知，并获取该内容。

3. Controller读取Preferred Replica，如果发现该Replica当前并非是Leader并且它在该Partition的ISR中，Controller向该Replica发送LeaderAndIsrRequest，使该Replica成为Leader。如果该Replica当前并非是Leader，且不在ISR中，Controller为了保证没有数据丢失，并不会将其设置为Leader。

改分配的触发条件有两种

1.手动运行$KAFKA_HOME/bin/kafka-preferred-replica-election.sh 工具

2.可通过将auto.leader.rebalance.enable设置为true开启

它将周期性检查Leader分配是否平衡，若不平衡度超过一定阈值则自动由Controller尝试将各Partition的Leader设置为其Preferred Replica。检查周期由leader.imbalance.check.interval.seconds指定，不平衡度阈值由leader.imbalance.per.broker.percentage指定。

2.2 reassign_partitions

2.2.1 结构

{

"fields": [{

"name": "version",

"type": "int",

"doc": "version id"

}, {

"name": "partitions",

"type": {

"type": "array",

"items": {

"fields": [{

"name": "topic",

"type": "string",

"doc": "topic of the partition to be reassigned"

}, {

"name": "partition",

"type": "int",

"doc": "the partition to be reassigned"

}, {

"name": "replicas",

"type": "array",

"items": "int",

"doc": "a list of replica ids"

}],

}

"doc": "an array of partitions to be reassigned to new replicas"

}

}]

}

Example: {

"version": 1,

"partitions": [{

"topic": "topic3",

"partition": 1,

"replicas": [1, 2, 3]

}]

}

2.2.2 描述

/admin/reassign_partitions用于将一些Partition分配到不同的broker集合上。对于每个待重新分配的Partition，Kafka会在该znode上存储其所有的Replica和相应的Broker id。该znode由管理进程创建并且一旦重新分配成功它将会被自动移除。

2.3 delete_topics

2.3.1 结构

Schema: {

"fields": [{

"name": "version",

"type": "int",

"doc": "version id"

}, {

"name": "topics",

"type": {

"type": "array",

"items": "string",

"doc": "an array of topics to be deleted"

}

}]

}

Example: {

"version": 1,

"topics": ["topic4", "topic5"]

}

2.3.2 描述

用于删除Topic操作，Topic工具会将该Topic名字dmin/delete_topics。若delete.topic.enable为true，则Controller注册在/admin/delete_topics上的Watch被fire，Controller通过回调向对应的Broker发送StopReplicaRequest，若为false则Controller不会在/admin/delete_topics上注册Watch，也就不会对该事件作出反应。

三、broker

3.1 topics

3.1.1 topics/[topic]数据结构

Schema: {

"fields": [{

"name": "version",

"type": "int",

"doc": "version id"

}, {

"name": "partitions",

"type": {

"type": "map",

"values": {

"type": "array",

"items": "int",

"doc": "a list of replica ids"

},

"doc": "a map from partition id to replica list"

},

}]

}

Example: {

"version": 1,

"partitions": {

"12": [6],

"8": [2],

"4": [6],

"11": [5],

"9": [3],

"5": [7],

"10": [4],

"6": [8],

"1": [3],

"0": [2],

"2": [4],

"7": [1],

"3": [5]

}

3.1.2 /brokers/topics/[topic]/partitions/[partitionId]/state

Schema: {

"fields": [{

"name": "version",

"type": "int",

"doc": "version id"

}, {

"name": "isr",

"type": {

"type": "array",

"items": "int",

"doc": "an array of the id of replicas in isr"

}

}, {

"name": "leader",

"type": "int",

"doc": "id of the leader replica"

}, {

"name": "controller_epoch",

"type": "int",

"doc": "epoch of the controller that last updated the leader and isr info"

}, {

"name": "leader_epoch",

"type": "int",

"doc": "epoch of the leader"

}]

}

Example: {

"controller_epoch": 29,

"leader": 2,

"version": 1,

"leader_epoch": 48,

"isr": [2]

}

3.1.3 描述

topics/[topic]存储该topic的所有partition的所有replica所在的broker id，第一个replica即为preferred replica，对一个给定的partition，它在同一个broker上最多只有一个replica,因此broker id可作为replica id。

partition state存储该partition当前isr列表，leader位置，以及controller和leader的选举次数

3.2 ids

3.2.1 结构

Schema: {

"fields": [{

"name": "version",

"type": "int",

"doc": "version id"

}, {

"name": "host",

"type": "string",

"doc": "ip address or host name of the broker"

}, {

"name": "port",

"type": "int",

"doc": "port of the broker"

}, {

"name": "jmx_port",

"type": "int",

"doc": "port for jmx"

}]

}

Example: {

"jmx_port": -1,

"host": "node1",

"version": 1,

"port": 9092

}

3.2.2 描述

存储“活着”的broker信息，包括jmx端口，host地址，broker端口及version

3.3 seqid

broker启动时检查并确保存在

四、controller

/controller -> int (broker id of the controller)存储当前controller的信息-中央选举器信息

Schema: {

"fields": [{

"name": "version",

"type": "int",

"doc": "version id"

}, {

"name": "brokerid",

"type": "int",

"doc": "broker id of the controller"

}]

}

Example: {

"version": 1,

"brokerid": 8

}

五、controller_epoch

直接以整数形式存储controller epoch，此值为一个数字,kafka集群中第一个broker第一次启动时为1，以后只要集群中center controller中央控制器所在broker变更或挂掉，就会重新选举新的center controller，每次center controller变更controller_epoch值就会 + 1;

六、config

config下包含client,topic,changes三个子节点，分别表示客户端特有的配置，topic配置，修改过后的配置

七、consumers（offset存储在zk才有,0.9版本默认改为topic存储）

7.1 ids

7.1.1 结构

Schema:

{

"version": 版本编号默认为1,

"subscription": { //订阅topic列表

"topic名称": consumer中topic消费者线程数

},

"pattern": "static",

"timestamp": "consumer启动时的时间戳"

}

Example:

{

"version": 1,

"subscription": {

"open_platform_opt_push_plus1": 5

},

"pattern": "static",

"timestamp": "1411294187842"

}

7.1.2 描述

每个consumer都有一个唯一的ID(consumerId可以通过配置文件指定,也可以由系统生成),此id用来标记消费者信息.

/ids/[consumerIdString]

String consumerIdString = config.groupId + "_" + consumerUuid;

7.2 owners

7.2.1 /consumers/[groupId]/owners/[topic]/[partitionId]结构

值为 consumerIdString + threadId索引编号

7.2.2 描述

消费组下面针对topic-parttionId的消费线程号

此节点的变动因为consumers rebalance，变动情况见ha机制

7.3 offsets

7.3.1 结构

/consumers/[groupId]/offsets/[topic]/[partitionId] -> long (offset)

7.3.2 描述

用来跟踪每个consumer目前所消费的partition中最大的offset

此znode为持久节点,可以看出offset跟group_id有关,以表明当消费者组(consumer group)中一个消费者失效,

重新触发balance,其他consumer可以继续消费.

消费者追踪它们在每个分区消费的最大offset，如果offsets.storage=zookeeper，那此值就存在zookeeper的目录中。

可以将offest转为kafka管理

在消费者配置设置offsets.storage=kafka和dual.commit.enabled=true。

八、isr_change_notification

ISR列表收缩和扩容的同时,都会通过ReplicaManager::recordIsrChange来记录有变化的 TopicAndParition;

ReplicaManager在启动时还会启动一个周期性任务maybePropagateIsrChanges, 来定期将ISR在变化的TopicAndParition信息写入zk的/isr_change_notification节点;

KafkaController会监控zk的/isr_change_notification节点变化, 向所有的broker发送MetadataRequest;

原文链接：https://blog.csdn.net/u012693823/article/details/122586360

前言、Zookeeper 在 Kafka 中的作用

1、Broker注册

2、Topic注册

3、生产者负载均衡

4、消费者负载均衡

5、分区 与 消费者 的关系

6、消息 消费进度Offset 记录

7、消费者注册

二、admin

2.1 preferred_replica_election

2.1.1 结构

2.1.3 描述

2.2 reassign_partitions

2.2.1 结构

2.2.2 描述

2.3 delete_topics

2.3.1 结构

2.3.2 描述

三、broker

3.1 topics

3.1.1 topics/[topic]数据结构

3.1.2 /brokers/topics/[topic]/partitions/[partitionId]/state

3.1.3 描述

3.2 ids

3.2.1 结构

3.2.2 描述

3.3 seqid

四、controller

五、controller_epoch

六、config

七、consumers（offset存储在zk才有,0.9版本默认改为topic存储）

7.1 ids

7.1.1 结构

7.1.2 描述

7.2 owners

7.2.1 /consumers/[groupId]/owners/[topic]/[partitionId]结构

7.2.2 描述

7.3 offsets

7.3.1 结构

八、isr_change_notification

5、分区与消费者的关系

6、消息消费进度Offset 记录