数据库存储业务关键数据,重点在于存储(通常是行式存储)、查询(需要有索引),OLTP(Online Transaction Processiong),需要支持事务。
数据仓库存储海量数据,包括业务数据、行为数据和日志,通常是列式存储,一般不直接修改数据,如hive表中不易修改数据,OLAP(Online Analysis Processing)特点是处理/计算数据,如使用大数据计算框架(MR,Hive,Spark,Flink等),从数据中挖掘有价值的信息。
数据库:保证全部业务的正常运行
数据仓库:通过统计/算法从海量事实/行为数据中挖掘有价值的信息,为经营决策提供支持。
数据仓库用哪些技术实现:
分布式文件系统:hdfs、aws、oss、cos等
非关系型分布式数据库:HBase(灵活存储多个变化的列),存储海量数据,基于HDFS
资源和存储:Hadoop等可以为计算框架分配资源的
计算引擎:Hive,Spark,Flink等
Kafka:作为分布式消息队列
Doris:一个基于 MPP(Massively Parallel Processing) 架构的高性能、实时的分析型数据库
不依赖Hadoop,Hive这些。
ClickHouse:分析型数据库,出自俄罗斯,不依赖其它。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。