目前比较流行的数据分层:ODS数据运营层, DW数据仓库层, ADS数据服务层.

一、数据运营层ODS
数据运营层:Operation Data Store 数据准备区,也称为贴源层。数据源中的数据,经过抽取、洗净、传输,也就是ETL过程之后进入本层。

这层的数据是后续数据仓库加工数据的来源。数据来源的方式:
业务库:sqoop定时抽取数据;实时方面考虑使用canal监听mysql的binlog日志,实时接入即可
埋点日志:日志一般是以文件的形式保存,可以选择使用flume来定时同步;可以使用spark streaming或者Flink、Kafka来实时接入
消息队列:来自ActiveMQ、Kafka的数据等.

二、数据仓库层DW
数据仓库层从上到下,又可以分为3个层:数据细节层DWD、数据中间层DWM、数据服务层DWS。

数据细节层DWD
数据细节层:data warehouse details =>DWD
该层是业务层和数据仓库的隔离层,保持和ODS层一样的数据颗粒度;主要是对ODS数据层做一些数据的清洗和规范化的操作,比如去除空数据、脏数据、离群值等。
为了提高数据明细层的易用性,该层通常会才采用一些维度退化方法,将维度退化至事实表中,减少事实表和维表的关联。

数据中间层DWM
数据中间层:Data Warehouse Middle =>DWM;
该层是在DWD层的数据基础上,对数据做一些轻微的聚合操作,生成一些列的中间结果表,提升公共指标的复用性,减少重复加工的工作。
简答来说,对通用的核心维度进行聚合操作,算出相应的统计指标

数据服务层DWS
数据服务层:Data Warehouse Service =>DWS;
该层是基于DWM上的基础数据,整合汇总成分析某一个主题域的数据服务层,一般是宽表,用于提供后续的业务查询,OLAP分析,数据分发等。
一般来说,该层的数据表会相对较少;一张表会涵盖比较多的业务内容,由于其字段较多,因此一般也会称该层的表为宽表。

三、数据应用层ADS
数据应用层:Application Data Service => ADS

该层主要是提供给数据产品和数据分析使用的数据,一般会存放在ES、Redis、PostgreSql等系统中供线上系统使用;也可能存放在hive或者Druid中,
供数据分析和数据挖掘使用,比如常用的数据报表就是存在这里的。

事实表 Fact Table
事实表是指存储有事实记录的表,比如系统日志、销售记录等。事实表的记录在不断地增长,比如电商的商品订单表,就是类似的情况,所以事实表的体积通常是远大于其他表。

维表层Dimension
维度表(Dimension Table)或维表,有时也称查找表(Lookup Table),是与事实表相对应的一种表;它保存了维度的属性值,可以跟事实表做关联,
相当于将事实表上经常重复出现的属性抽取、规范出来用一张表进行管理。维度表主要是包含两个部分:

高基数维度数据:一般是用户资料表、商品资料表类似的资料表,数据量可能是千万级或者上亿级别.
低基数维度数据:一般是配置表,比如枚举字段对应的中文含义,或者日期维表等;数据量可能就是个位数或者几千几万。

总结:
Hive理论上分为三层:ODS数据运营层,DW数据仓库层,ADS数据服务层,

数据运营层(ODS):原始数据:
ODS:Operation Data Store 数据准备区,也称为贴源层。数据仓库源头系统的数据表通常会原封不动的存储一份,这称为ODS层,是后续数据仓库加工数据的来源。
ODS层数据的来源方式:
1.业务库: 经常会使用sqoop来抽取,例如每天定时抽取一次。实时方面,可以考虑用canal监听mysql的binlog,实时接入即可。
2.埋点日志: 日志一般以文件的形式保存,可以选择用flume定时同步可以用spark streaming或者Flink来实时接入
3.kafka消息队列:即来自ActiveMQ、Kafka的数据等.

数据仓库层(DW):数据清洗:
1.DWD:data warehouse details 细节数据层,是业务层与数据仓库的隔离层。主要对ODS数据层做一些数据清洗和规范化的操作。
数据清洗:去除空值、脏数据、超过极限范围的.
2.DWB:data warehouse base 数据基础层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。
3.DWS:data warehouse service 数据服务层,基于DWB上的基础数据,整合汇总成分析某一个主题域的服务数据层,一般是宽表。用于提供后续的业务查询,OLAP分析,数据分发等。

数据服务层/应用层(ADS):出报表:
ADS:application Data Service应用数据服务,该层主要是提供数据产品和数据分析使用的数据,一般会存储在ES、mysql、clickhouse等系统中供线上系统使用。


goper
413 声望25 粉丝

go 后端开发