Flink: Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。

Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

Streaming:Streaming基于开源Storm,是一个分布式、实时计算框架。

Storm:Storm是Twitter开源的分布式实时大数据处理框架

ClickHouse:(不基于Hadoop集群,可独立安装)列式数据库,主要用于实时数据仓库,这个也是基于内存的,特点就是快。

HBase:
HBase是一个分布式,版本化,面向列的开源数据库. 典型的NoSQL、分布式存储的数据库,速度够快。
HBase是基于Hdfs的列式存储的分布式数据库。

Hive: Hive软件本身承担的是SQL语法解析编译称为MapReduce的功能职责。
Hive是构建在Hadoop HDFS上的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,
其本质是将SQL转换为MapReduce或者Spark任务进行运行,对存储在HDFS中的数据进行分析和管理.

Hadoop大数据分析
HDFS:分布式文件存储系统,大数据环境的基石.(数据存储)
MapReduce(MR):基于磁盘计算,主要用于大量数据的批处理计算.(计算)
YARN:用于作业调度和集群资源管理的框架。(资源调度)

Spark(RDD):基于内存计算
SparkSQL:一般情况都是基于离线数据处理
Spark Streaming:一般情况是基于微批(实时)处理

Flink 流式计算引擎
Flink SQL:类似SparkSQL,可以写SQL,更快的使用批处理操作
Flink Streaming:流式数据,(开发思路)生产库产生数据一部分发送至kafka、一部分落库,后续Filnk对接kafka中的Topic ,
实时对kafka中数据进行去重、清洗、汇总、计算,维度可以存放至redis中。


goper
413 声望25 粉丝

go 后端开发