Kafka 工作流程及文件存储机制

一、Kafka 工作流程

Kafka 中用 topic 对消息进行分类，生产者和消费者都面向 topic 处理数据。
一个 topic 会分成多个 partition，放到不同的 broker 上用于提高吞吐量。
同一个 partition 内部又会拆分成多个 segment，防止数据过多时单文件过大。

二、文件存储结构

硬盘上文件存储类似于：

├── my-topic-0
│   ├── 00000000000000000000.index
│   ├── 00000000000000000000.log
│   ├── 00000000000000000000.timeindex
│   ├── 00000000003432423452.index
│   ├── 00000000003432423452.log
│   ├── 00000000003432423452.timeindex
│   └── leader-epoch-checkpoint
├── your-topic-1
│   ├── 00000000001237987534.index
│   ├── 00000000001237987534.log
│   ├── 00000000001237987534.timeindex
│   ├── 00000000006732746781.index
│   ├── 00000000006732746781.log
│   ├── 00000000006732746781.timeindex
│   └── leader-epoch-checkpoint

每个文件夹对应一个 topic 分区，文件夹命名规则

[topic name]-[partition id]

文件夹内是对应的 segment，每个 segment 主要包含 .log 和 .index 文件。后续每个Segment文件名为上一个Segment文件最后一条消息的offset值，数值大小为64位，20位数字字符长度。

00000000000000000000.index
00000000000000000000.log
00000000000000000000.timeindex
00000000003432423452.index
00000000003432423452.log
00000000003432423452.timeindex
leader-epoch-checkpoint

Segment文件的详细内容：
索引文件存储的元数据指向数据文件中的 message 的物理偏移地址

三、如何读取数据

以上图为例，要读取offset=170418的消息。

先通过二分查找确定在哪个 segment
到对应的 index 文件中查询 offset=170418 的物理偏移地址
根据物理偏移地址，到 log 文件中读取对应的数据

Kafka 工作流程及文件存储机制

一、Kafka 工作流程

二、文件存储结构

三、如何读取数据

大数据王小皮

引用和评论

【Flink入门修炼】2-3 Flink Checkpoint 原理机制

【Hadoop】HDFS架构解析

【Hadoop】HBase系统解析及适用场景

基于 pyflink 的算法工作流设计和改造

MCP+Hologres+LLM 搭建数据分析 Agent

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅

Kafka 工作流程及文件存储机制

一、Kafka 工作流程

二、文件存储结构

三、如何读取数据

大数据王小皮

引用和评论

【Flink入门修炼】2-3 Flink Checkpoint 原理机制

【Hadoop】HDFS架构解析

【Hadoop】HBase系统解析及适用场景

基于 pyflink 的算法工作流设计和改造

MCP+Hologres+LLM 搭建数据分析 Agent

某全球领先网络解决方案提供商 基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈