下列内容仅做个人整理,实际情况以文档为准
未完待续
一种较少成本做实时数仓,不用Hadoop,
mysql+bifrost+clickhouse+metabase 用 dolphinscheduler 定时调度clickhouse-视图ETL
另外一种
mysql + seatunnel | datax + dolphinscheduler + Doris + powerbi(需考虑刷新频率) 也是相对hadoop较重的另外一种思路
实时数仓技术
Doris
在接口方面,Apache Doris 采用 MySQL 协议,支持标准 SQL,与 MySQL 方言高度兼容。用户可以通过各种客户端工具访问 Doris,支持与 BI 工具无缝对接。Doris 目前支持多种主流 BI 产品,包括但不限于 SmartBI、DataEase、FineBI、Tableau、Power BI、SuperSet 等。只要 BI 工具支持 MySQL 协议,Doris 就可以作为数据源提供查询支持。
数据同步
seatunnel
https://juejin.cn/post/7310033153903837199
任务管理
dolphinscheduler
starrocks
StarRocks 是新一代极速全场景 MPP (Massively Parallel Processing) 数据库。StarRocks 的愿景是能够让用户的数据分析变得更加简单和敏捷。用户无需经过复杂的预处理,就可以用 StarRocks 来支持多种数据分析场景的极速分析。
StarRocks 兼容 MySQL 协议,支持标准 SQL 语法,易于对接使用,全系统无外部依赖,高可用,易于运维管理。StarRocks 还兼容多种主流 BI 产品,包括 Tableau、Power BI、FineBI 和 Smartbi。
适用场景:OLAP 多维分析,实时数据仓库,高并发查询,统一分析
架构设计
FE 是 StarRocks 的前端节点,负责管理元数据,管理客户端连接,进行查询规划,查询调度等工作。
BE 是 StarRocks 的后端节点,负责数据存储、SQL执行等工作。
部署要求
FE 节点主要负责元数据管理、客户端连接管理、查询计划和查询调度。
对于 StarRocks 生产集群,建议您至少部署三个 Follower FE 节点,以防止单点故障。
建议您为每个 FE 节点分配 8 个 CPU 内核和 16 GB RAM。
BE 节点负责数据存储和 SQL 执行。
对于 StarRocks 生产集群,建议您至少部署三个 BE 节点,这些节点会自动形成一个 BE 高可用集群,避免由于发生单点故障而影响数据可靠性和服务可用性。
建议您为每个 BE 节点分配 16 个 CPU 内核和 64 GB RAM。
导入数据
Mysql实时同步需要使用 SMT、 Flink、Flink CDC connector、flink-starrocks-connector
其他数据导入如下
数据湖结合
StarRocks 查询 Hive 数据时,支持 Parquet、ORC 和 CSV 三种文件格式
其他程序使用
参考文档:https://docs.starrocks.io/zh-cn/latest/introduction/what_is_s...
https://juejin.cn/post/7130264194426863623
其他内容:
什么是 RisingWaveRisingWave 是一款基于 Apache 2.0 协议开源的分布式流数据库。RisingWave 让用户使用操作传统数据库的方式来处理流数据。通过创建实时物化视图,RisingWave 可以让用户轻松编写流计算逻辑,并通过访问物化视图来对流计算结果进行及时、一致的查询。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。