下列内容仅做个人整理,实际情况以文档为准

未完待续

一种较少成本做实时数仓,不用Hadoop,
mysql+bifrost+clickhouse+metabase 用 dolphinscheduler 定时调度clickhouse-视图ETL

另外一种
mysql + seatunnel | datax + dolphinscheduler + Doris + powerbi(需考虑刷新频率) 也是相对hadoop较重的另外一种思路

实时数仓技术
Doris
image.png
image.png

在接口方面,Apache Doris 采用 MySQL 协议,支持标准 SQL,与 MySQL 方言高度兼容。用户可以通过各种客户端工具访问 Doris,支持与 BI 工具无缝对接。Doris 目前支持多种主流 BI 产品,包括但不限于 SmartBI、DataEase、FineBI、Tableau、Power BI、SuperSet 等。只要 BI 工具支持 MySQL 协议,Doris 就可以作为数据源提供查询支持。

image.png

数据同步
seatunnel
https://juejin.cn/post/7310033153903837199
image.png

任务管理
dolphinscheduler
image.png


starrocks

image.png

StarRocks 是新一代极速全场景 MPP (Massively Parallel Processing) 数据库。StarRocks 的愿景是能够让用户的数据分析变得更加简单和敏捷。用户无需经过复杂的预处理,就可以用 StarRocks 来支持多种数据分析场景的极速分析。

StarRocks 兼容 MySQL 协议,支持标准 SQL 语法,易于对接使用,全系统无外部依赖,高可用,易于运维管理。StarRocks 还兼容多种主流 BI 产品,包括 Tableau、Power BI、FineBI 和 Smartbi。

适用场景:OLAP 多维分析,实时数据仓库,高并发查询,统一分析

架构设计
image.png

FE 是 StarRocks 的前端节点,负责管理元数据,管理客户端连接,进行查询规划,查询调度等工作。
BE 是 StarRocks 的后端节点,负责数据存储、SQL执行等工作。

部署要求

FE 节点主要负责元数据管理、客户端连接管理、查询计划和查询调度。
对于 StarRocks 生产集群,建议您至少部署三个 Follower FE 节点,以防止单点故障。
建议您为每个 FE 节点分配 8 个 CPU 内核和 16 GB RAM。

BE 节点负责数据存储和 SQL 执行。
对于 StarRocks 生产集群,建议您至少部署三个 BE 节点,这些节点会自动形成一个 BE 高可用集群,避免由于发生单点故障而影响数据可靠性和服务可用性。
建议您为每个 BE 节点分配 16 个 CPU 内核和 64 GB RAM。

导入数据
Mysql实时同步需要使用 SMT、 Flink、Flink CDC connector、flink-starrocks-connector

其他数据导入如下
image.png

数据湖结合
StarRocks 查询 Hive 数据时,支持 Parquet、ORC 和 CSV 三种文件格式

image.png

其他程序使用

参考文档:https://docs.starrocks.io/zh-cn/latest/introduction/what_is_s...
https://juejin.cn/post/7130264194426863623

其他内容:
什么是 RisingWave​RisingWave 是一款基于 Apache 2.0 协议开源的分布式流数据库。RisingWave 让用户使用操作传统数据库的方式来处理流数据。通过创建实时物化视图,RisingWave 可以让用户轻松编写流计算逻辑,并通过访问物化视图来对流计算结果进行及时、一致的查询。
图片


s8fh26h3
18 声望1 粉丝