主要观点:Tansu 可无缝为基于多种模式(Protocol Buffer、Apache Avro、JSON)的主题编写 Apache Parquet 记录批次,能将结构化数据自动转换为列存储 Parquet 格式,与 Apache Kafka 完全兼容,无需更改现有客户端代码。
关键信息:
- 用 Protocol Buffer 表示出租车行程数据并发送到 Tansu,自动转换为 Parquet 文件。
- Tansu 支持 broker 端验证,通过 S3 桶共享模式,可指定主题的 Key 和 Value 模式。
- 通过创建.env 文件简化命令行使用,设置存储引擎、数据湖和模式注册位置等。
- Tansu 支持多种存储引擎,如 S3、PostgreSQL 和内存,示例中使用 S3 存储 Parquet 文件。
- 用 tansu cat 编码并发送消息到 Tansu,可使用 DuckDB 验证生成的 Parquet 文件,也可使用 Kafka API 消费消息并转换为 JSON。
重要细节: - 示例中的 Protocol Buffer 模式为 taxi.proto,定义了枚举 Flag 和消息 Value 的结构。
- 消息由键和/或值组成,可指定主题的 Key 和 Value 模式。
- 存储引擎相关:STORAGE_ENGINE 存储 Kafka 元数据,DATA_LAKE 存储 Parquet 文件,SCHEMA_REGISTRY 存储模式。
- 发送消息时,将 JSON 对象转换为指定主题的模式,消费消息时将二进制 Protobuf 数据转换为 JSON。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。