2

Chap 1 认识 ETL

focus on :

  1. Know What's ETL?

  2. Know ETL 在 BI 开发中注意的细节

1-1 ETL 简介

  1. ETL 是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。

  2. ETL 是构建 DW 的重要一环,用户从数据源抽取出数据,经 数据清洗,按照预定义好的 DW模型,将数据加载到 DW 中去。

  3. ETL 是将业务系统的数据经过抽取、清洗转换之后加载到 DW 的过程,目的是将企业中的分散零乱、标准不统一的数据到一起,为企业的决策提供分析依据。

  4. ETL 是 BI 项目中一个重要环节。

ETL的设计分三个部分:

  1. 数据抽取

  2. 数据的清洗转换

  3. 数据的加载

下面看流程图:
图片描述

一、数据抽取

首先要搞清楚数据是从几个业务系统中来,各个业务系统的数据库服务器运行的是何种DBMS,是否存在手工数据, 非结构化数据等。

二、数据清洗与转换

数据仓库分为ODS,DW连部分。通常的做法是从业务系统到ODS做清洗,将脏数据和不完整的数据过滤掉,在ODS到过程中转换,进行一些业务规则的计算和聚合。

1. 数据清洗

主要是过滤那些不符合要求的数据。

  1. 不完整的数据

  2. 错误的数据

  3. 重复的数据

2. 数据转换

数据转换的任务主要进行不一致的数据转换、数据粒度的转换

三、数据的加载

一般在数据清洗完了之后直接写入DW


blair
209 声望31 粉丝

我是 Blair