主要观点:从一个 OLAP 数据库迁移到另一个难度很大,用户常因对新架构效果不确定而犹豫,需要有经验者分享。Apache Doris 可弥补其他数据库的不足,如电商 SaaS 提供商将 ClickHouse 等迁移至 Doris,介绍了迁移过程中的 SQL 语句、数据摄取方法等变化,以及压力测试结果和未来方向。
关键信息:
- 原数据架构中各组件存在问题,如 Apache Kylin 增加维度需创建新数据 cube,ClickHouse 不适合多表处理,Apache Druid 不支持数据更新删除等。
- 迁移从 ClickHouse 开始,通过工具将其 SQL 语句转换为 Doris 语句,数据摄取采用多种方法如 Stream Load、Spark Load 等。
- 压力测试中,Apache Doris 在 SQL 和 join 查询性能上多数优于 ClickHouse,在不同规模数据测试中表现稳定,且 CPU 和内存消耗稳定。
重要细节: - SQL 语句转换包括字段类型映射、设置历史分区数、确定桶数等。
- 数据摄取方法多样,实时数据采用 Stream Load 从 NSQ 和 Kafka 摄取,离线数据测试了 Insert Into、Stream Load、Spark Load 等方法。
- 压力测试中对不同规模主表和维度表的 full join 和 filtering join 查询进行测试,Doris 在多数情况下性能更优,且在大表测试中表现稳定。
- 用户与 Doris 社区合作,其反馈促成了 Apache Doris 2.0.0 的发布,期待其统一数据平台的建成。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。