Data Analysis 常见的组件

Flink: Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。

Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

Streaming：Streaming基于开源Storm，是一个分布式、实时计算框架。

Storm：Storm是Twitter开源的分布式实时大数据处理框架

ClickHouse：(不基于Hadoop集群，可独立安装)列式数据库，主要用于实时数据仓库，这个也是基于内存的，特点就是快。

HBase:
HBase是一个分布式,版本化,面向列的开源数据库. 典型的NoSQL、分布式存储的数据库，速度够快。
HBase是基于Hdfs的列式存储的分布式数据库。

Hive: Hive软件本身承担的是SQL语法解析编译称为MapReduce的功能职责。
Hive是构建在Hadoop HDFS上的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能，
其本质是将SQL转换为MapReduce或者Spark任务进行运行,对存储在HDFS中的数据进行分析和管理.

Hadoop大数据分析
HDFS：分布式文件存储系统，大数据环境的基石.（数据存储）
MapReduce(MR)：基于磁盘计算，主要用于大量数据的批处理计算.（计算）
YARN：用于作业调度和集群资源管理的框架。（资源调度）

Spark(RDD)：基于内存计算
SparkSQL：一般情况都是基于离线数据处理
Spark Streaming：一般情况是基于微批(实时)处理

Flink 流式计算引擎
Flink SQL：类似SparkSQL，可以写SQL，更快的使用批处理操作
Flink Streaming：流式数据，(开发思路)生产库产生数据一部分发送至kafka、一部分落库，后续Filnk对接kafka中的Topic ，
实时对kafka中数据进行去重、清洗、汇总、计算，维度可以存放至redis中。

Data Analysis 常见的组件

goper

引用和评论

golang 开发小工具