Spark Learn 3 BDAS Brief Introduction

8 BDAS Brief Introduction

AMPLab Spark Team created a big data company Databricks, 提供 Spark 的产品化支持.

sparkhadoop05

One Framework to Rule Them All 利用 Spark 一站式构建自己的数据分析流水线

8.1 SQL on Spark

AMPLab Big data 分析负载分为三大类型 :

批量数据处理
交互式查询
实时流处理

大数据分析栈中需要满足用户 ad-hoc、reporting、iterative 等类型的查询需求。

Spark SQL and Shark 是轻量级 Hive SQL 在 Spark 上的实现。

开源分布式大数据查询引擎

Spark SQL
Shark

Hive 社区启动了 Hive on Spark 项目, 将 Spark 作为 Hive 除 MapReduce 和 Tez 之外的新执行引擎。

hive01

Hive on Spark 帮助现有 Hive 用户迁移到 Spark

8.1.1 Spark SQL 产生原因

由于 MapReuce 是进程级并行
例如: Hive 在不同的进程空间会使用一些 static 变量, 当在同一进程空间并行执行多线程时, 多线程同时写同名称 static 变量，会产生一致性问题。

AMPLab 和 Databricks 利用 Catalyst 开发了 Spark SQL。在 Spark 1.0 发布 Spark SQL

8.1.2 Spark SQL 架构分析

DBMS ：查询优化器 + 执行器

Spark SQL ： 查询优化 Catalyst + Spark执行引擎

使用 Spark SQL

8.1.3 Hive on Spark

Hive on Spark 会全面支持现有的 Hive, Hive 生态系统的组件可以过渡到 Spark 作为执行引擎。

Hive on Spark 设计方向和潜在的问题如下 :

数据表以 RDD 方式存储
Shuffle 和 Join

Spark 的 Shuffle 不进行分组排序
线程安全问题 ：

Spark 执行任务和分区是在一个 JVM 空间执行多线程，传统的 Hive 的 Map 端操作树将任务的每个线程分在不同的 JVM， Hive 操作中有静态变量，引发线程安全的问题
Java API

Hive on Spark 需要社区提供 Job监控和 RDD 扩展的 API。

8.1.4 未来展望

Spark SQL 提供了对 RDD 的 SQL 支持，同时支持其他数据源。如 : Parquet 文件和 Hive table。

Databricks 和 AMPLab 会继续投资 Spark SQL， SQL on Spark 发展具有想象空间。

8.2 Spark Streaming

Spark Streaming 是一个批处理的流式计算框架, 执行引擎是 Spark, 适合处理实时数据与历史数据混合的场景, 并保证容错性。

8.3 GraphX

GraphX 是 Spark 一个重要的子项目，它利用 Spark 为计算引擎，实现了大规模图计算和功能，并提供了累死 Pregel 的编程接口。

8.4 MLlib

MLlib 常用的机器学习算法和库在 Spark 平台上的实现, 是 AMPLab 在研发机器学习项目 MLBase 的底层组件。

MLBase 是一个机器学习平台
MLI 是一个接口层
MLlib 是底层算法实现层.

mlbase01

Mllib 在 Spark1.0 中包含分类、回归、聚类、协同过滤、数据降维组件以及底层的优化库

MLlib 充分利用 Spark 内存计算和适合迭代的特性, 使分布式系统与并行机器学习算法完美结合。

Spark Learn 3 BDAS Brief Introduction

8 BDAS Brief Introduction

8.1 SQL on Spark

8.1.1 Spark SQL 产生原因

8.1.2 Spark SQL 架构分析

8.1.3 Hive on Spark

8.1.4 未来展望

8.2 Spark Streaming

8.3 GraphX

8.4 MLlib

blair

引用和评论

EF level 02

PySpark一：Windows10环境搭建

【活动回顾】StarRocks Singapore Meetup #2 @Shopee

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

最佳实践 | 在 EMR Serverless Spark 中实现 StarRocks 读写操作

最佳实践 | 在 EMR Serverless Spark 中实现 Doris 读写操作

鹰角：EMR Serverless Spark 在《明日方舟》游戏业务的应用