数仓分层详解

9 月 18 日
阅读 1 分钟
168
一、为什么要分层?将复杂的系统拆分成多层,每一层负责单一的步骤,方便定位问题。每一层数据都有它的作用域,在使用表的时候能方便地查找和理解。中间层的数据能够为下游任务复用,减少计算量。数据血缘的追踪,如果一张表出问题了,借助血缘关系能快速定位问题,并清楚问题的范围。二、分为哪些层呢?ods(Operationa...

命令行/指令操作

9 月 17 日
阅读 1 分钟
177
Linux命令行操作Windows命令行操作Java命令行操作Hadoop命令行操作Spark命令行/SQL操作Hive 命令行/SQL操作Flink命令行/SQL操作MySQL命令行/SQL操作Redis命令行操作Elasticsearch指令操作Oracle命令行操作Maven命令行操作Git命令行操作Zookeeper指令操作Kafka命令行操作HBase命令行操作ClickHouse命令行操作Flume操作Sqo...

数据库和数据仓库的区别?

9 月 11 日
阅读 1 分钟
117
数据库存储业务关键数据,重点在于存储(通常是行式存储)、查询(需要有索引),OLTP(Online Transaction Processiong),需要支持事务。数据仓库存储海量数据,包括业务数据、行为数据和日志,通常是列式存储,一般不直接修改数据,如hive表中不易修改数据,OLAP(Online Analysis Processing)特点是处理/计算数据,...

数据库3范式

9 月 10 日
阅读 1 分钟
71
一、第一范式(1NF):列的原子性第一范式是指数据库表中的每个字段都是原子性的,即不可再分的,不存在两个数据在一个cell的情况。二、第二范式(2NF):在满足1NF的前提下,表中不存在部分依赖,非主键列要完全依赖于主键。(主要是说在联合主键的情况下,非主键列不能只依赖于主键的一部分)表中主键为学生ID和课程ID,...