使用 Tansu 轻松将 Kafka 消息转换为 Apache Parquet:一步一步指南

主要观点:Tansu 可无缝为基于多种模式(Protocol Buffer、Apache Avro、JSON)的主题编写 Apache Parquet 记录批次,能将结构化数据自动转换为列存储 Parquet 格式,与 Apache Kafka 完全兼容,无需更改现有客户端代码。
关键信息

  • 用 Protocol Buffer 表示出租车行程数据并发送到 Tansu,自动转换为 Parquet 文件。
  • Tansu 支持 broker 端验证,通过 S3 桶共享模式,可指定主题的 Key 和 Value 模式。
  • 通过创建.env 文件简化命令行使用,设置存储引擎、数据湖和模式注册位置等。
  • Tansu 支持多种存储引擎,如 S3、PostgreSQL 和内存,示例中使用 S3 存储 Parquet 文件。
  • 用 tansu cat 编码并发送消息到 Tansu,可使用 DuckDB 验证生成的 Parquet 文件,也可使用 Kafka API 消费消息并转换为 JSON。
    重要细节
  • 示例中的 Protocol Buffer 模式为 taxi.proto,定义了枚举 Flag 和消息 Value 的结构。
  • 消息由键和/或值组成,可指定主题的 Key 和 Value 模式。
  • 存储引擎相关:STORAGE_ENGINE 存储 Kafka 元数据,DATA_LAKE 存储 Parquet 文件,SCHEMA_REGISTRY 存储模式。
  • 发送消息时,将 JSON 对象转换为指定主题的模式,消费消息时将二进制 Protobuf 数据转换为 JSON。
阅读 27
0 条评论