Chap 1 认识 ETL
focus on :
Know What's ETL?
Know ETL 在 BI 开发中注意的细节
1-1 ETL 简介
ETL 是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。
ETL 是构建 DW 的重要一环,用户从数据源抽取出数据,经 数据清洗,按照预定义好的 DW模型,将数据加载到 DW 中去。
ETL 是将业务系统的数据经过抽取、清洗转换之后加载到 DW 的过程,目的是将企业中的分散零乱、标准不统一的数据到一起,为企业的决策提供分析依据。
ETL 是 BI 项目中一个重要环节。
ETL的设计分三个部分:
数据抽取
数据的清洗转换
数据的加载
下面看流程图:
一、数据抽取
首先要搞清楚数据是从几个业务系统中来,各个业务系统的数据库服务器运行的是何种DBMS,是否存在手工数据, 非结构化数据等。
二、数据清洗与转换
数据仓库分为ODS,DW连部分。通常的做法是从业务系统到ODS做清洗,将脏数据和不完整的数据过滤掉,在ODS到过程中转换,进行一些业务规则的计算和聚合。
1. 数据清洗
主要是过滤那些不符合要求的数据。
不完整的数据
错误的数据
重复的数据
2. 数据转换
数据转换的任务主要进行不一致的数据转换、数据粒度的转换
三、数据的加载
一般在数据清洗完了之后直接写入DW
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。