数据仓库 - SegmentFault 思否

15. 数据仓库分层之DWS层、ADS层--本周回流用户数

2020-02-06

阅读 2 分钟

2.2k

本周活跃用户数即不是新注册用户且上周未登录的用户。所以：本周回流用户数=本周活跃用户数-本周新增用户数-上周活跃用户数 DWS层使用日活跃设备明细表dws_uv_detail_wk、dws_new_mid_day作为DWS层数据。 ADS层新建表ads_back_count {代码...} 插入数据 {代码...} 查询结果 {代码...}

15. 数据仓库分层之DWS层、ADS层--沉默用户数

独揽月下萤火

2020-02-06

阅读 1 分钟

2.4k

沉默用户数：只在安装当天启动过，且启动时间在一周（或月）前。 DWS层使用日活明细表作为数据 ADS层沉默设备数表。 {代码...} 导入数据 {代码...} 查询 {代码...}

15. 数据仓库分层之DWS层、ADS层--用户留存主题

独揽月下萤火

2020-02-05

阅读 2 分钟

5.4k

留存用户：某段时间新增（活跃）用户隔段时间后再次使用。留存率：留存用户占当时新增用户的比例。分析 DWS层创建每日留存用户表dws_user_retention_day {代码...} 插入数据 {代码...} 查看结果 {代码...} ADS层创建留存用户数表 {代码...} 插入数据 {代码...} 查询数据 {代码...}

15. 数据仓库分层之DWS层、ADS层--每日新增设备

独揽月下萤火

2020-02-05

阅读 2 分钟

在经过了ODS层的加载数据、DWD层的解析数据后。这一节将具体分析特定指标，DWS层将对DWD层数据轻度汇总，ADS层将统计数据。用户每日新增设备表每日新增设备分析。 DWS层新建表dws_new_mid_day {代码...} 插入数据 {代码...} ADS层统计每日新增设备表ads_new_mid_count {代码...} 插入数据 {代码...} 查询结果 {代...

15. 数据仓库分层之DWS层、ADS层--用户活跃主题

独揽月下萤火

2020-02-04

阅读 8 分钟

6.1k

在经过了ODS层的加载数据、DWD层的解析数据后。这一节将具体分析特定指标，DWS层将对DWD层数据轻度汇总，ADS层将统计数据。用户活跃主题 DWS层目标：统计当日、当周、当月活动的每个设备明细。每日活跃设备明细建表语句 {代码...} 插入数据 {代码...} 查看结果 {代码...} 每周活跃设备明细建表语句 {代码...} 插...

14. 数据仓库分层之DWD层（2）

独揽月下萤火

2020-02-04

阅读 14 分钟

2.7k

DWD层：对ODS层数据进行清洗（去除空值，脏数据，超过极限范围的数据，行式存储改为列存储，改压缩格式）接上一节内容。在事件表解析成功后，我们需要将事件表中的数据详细解析。以字段“en”来判断事件名称，最后具体到确定的表。商品点击表。建表语句 {代码...} 导入数据 {代码...} 测试 {代码...} 商品详情页表建表...

14. 数据仓库分层之DWD层（1）

独揽月下萤火

2020-02-03

阅读 10 分钟

DWD层：对ODS层数据进行清洗（去除空值，脏数据，超过极限范围的数据，行式存储改为列存储，改压缩格式）。 DWD层启动表数据解析创建启动表dwd_start_log {代码...} 向启动表中插入数据。 {代码...} 测试 {代码...} 使用脚本将所有数据导入数仓。（脚本在笔记） DWD层事件表数据解析创建事件日志基础明细表dwd_base_ev...

13. 数据仓库分层之ODS层

独揽月下萤火

2020-02-03

阅读 2 分钟

接下来几节将详细介绍各层如何实现各自功能。ODS层：存放原始数据，直接加载原始日志、数据。启动hadoop集群，启动Hive。 {代码...} 创建数据库 {代码...} 分析字段并建创建启动日志表。 {代码...} 加载数据。 {代码...} 分析字段并建创建事件日志表。 {代码...} 加载数据 {代码...} 查看数据是否存在。 {代码...} 可以...

12. 数据仓库分层

独揽月下萤火

2020-02-03

阅读 1 分钟

1.9k

为什么要分层把复杂问题简单化。减少重复开发。隔离原始数据。作用 ODS层原始数据层。存放原始数据，不对数据进行任何处理。 DWD层明细数据层。使得结构和维度与原始数据保持一致。 DWS层服务数据层。对数据进行轻度汇总。 ADS层数据应用层。为各种数据提供报表服务。各层详细说明 ODS层：存放原始数据，直接加...

11. 安装Hive及MySQL

独揽月下萤火

2020-02-02

阅读 7 分钟

2.9k

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

10. 安装Kafka集群

独揽月下萤火

2020-01-31

阅读 2 分钟

1.8k

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

9. 安装Flume集群并采集数据

独揽月下萤火

2020-01-30

阅读 7 分钟

5.2k

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

8. 生成数据

独揽月下萤火

2020-01-30

阅读 1 分钟

1.4k

日志启动将上一节中打包好的数据（带依赖）使用Xftp工具到hadoop151和hadoop152上，按照最开始集群规划，这两个节点为数据采集节点。在hadoop151、hadoop152上执行生成的数据。 {代码...} 在“/tmp/logs”下查看文件。 {代码...} 可以使用脚本文件快速生成两台虚拟机上的数据。详情见笔记。可以使用集群分发脚本将文件...

7. 使用Java代码创造埋点数据

独揽月下萤火

2020-01-30

阅读 40 分钟

7.5k

数据埋点是一种良好的私有化部署数据采集方式。这些数据可以在私下帮助个人或企业完成针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。

6. Zookeeper集群安装

独揽月下萤火

2020-01-29

阅读 1 分钟

1.2k

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

5. 安装Hadoop集群

独揽月下萤火

2020-01-29

阅读 4 分钟

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。它实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。其框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

4. 安装JDK

独揽月下萤火

2020-01-29

阅读 1 分钟

1.2k

JDK是 Java 语言的软件开发工具包，主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心，它包含了JAVA的运行环境（JVM+Java系统类库）和JAVA工具。Linux系统会自带一个的JDK，有时开发人员需要使用特定版本的JDK，因此首先要卸载系统自带的JDK。

3. 配置SSH免密登录

独揽月下萤火

2020-01-28

阅读 1 分钟

2.5k

进入“~/.ssh”目录，在该目录下键入： {代码...} 键入后按三次回车。此时该目录下会生成两个新文件“id_rsa”和“id_rsa.pub”

集群规划服务器 hadoop151 hadoop152 hadoop153 HDFS NameNode √ DataNode √ √ √ SecondaryNameNode √ Yarn ResourceManager √ NodeManager √ √ √ 创建CentOS操作系统启动VMware Workstation Pro，新建虚拟机。下一步，在“自定义”->“安装客户机操作系统”中选择“稍后安装操作系统”。在“选择客户端操作系统”中选择“...

1. 数据仓库简介

独揽月下萤火

2020-01-26

阅读 1 分钟

1.2k

数据仓库，英文名称为 Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库并不是数据的最终目的地...