前言

  • 本文是《Spark 权威指南》的学习笔记
# 英文原著
《Spark: The Definitive Guide》
Bill Chambers/Matei Zaharia著
2018年2月第一版

# 中文译著
《Spark 权威指南》
张岩峰/王方京/陈晶晶译
2020年4月第一版
  • 《Spark 权威指南》大部分内容使用 Spark 2.2 编写

目录

第 I 部分 大数据与 Spark 概述
第1章 Spark 是什么?本文
第2章 Spark 浅析
第3章 Spark 工具集介绍

第 II 部分 结构化 API——DataFrame、SQL和Dataset
第4章 结构化API概述
第5章 基本的结构化操作
第6章 处理不同的数据类型
第7章 聚合操作
第8章 连接操作
第9章 数据源
第10章 Spark SQL
第11章 Dataset

第 III 部分 低级 API
第12章 弹性分布式数据集
第13章 高级RDD
第14章 分布式共享变量

第 IV 部分 生产与应用
第15章 Spark 如何在集群上运行
第16章 开发 Spark 应用程序
第17章 部署 Spark
第18章 监控与调试
第19章 性能调优

第 V 部分 流处理
第20章 流处理基础
第21章 结构化流处理基础
第22章 事件时间和有状态处理
第23章 生产中的机构化流处理

第 VI 部分 高级分析与机器学习
第24章 高级分析和机器学习概览
第25章 预处理和特征工程
第26章 分类
第27章 回归
第28章 推荐系统
第29章 无监督学习
第30章 图分析
第31章 深度学习

第 VII 部分 生态系统
第32章 语言支持:Python(PySpark)和R(SparkR和Sparklyr)
第33章 生态系统和社区

第1章 Spark 是什么?

  • 本书的大部分内容都是使用 Spark 2.2 编写的,因此应该下载 2.2 或更高版本。
  • 在云平台上运行 Spark
如果你想有个更简单的交互式体验来学习 Spark,你可能更喜欢使用 Databricks Community Edition。如前所述,Databricks 是由伯克利团队创立的公司,创立了 Spark,并提供免费的基于云服务的 Community Edition 作为学习环境。Databricks Community Edition 包含了本书的所有数据和代码示例,你可以快速运行。要使用 Databricks Community Edition,请按照 https://github.com/databricks... 的操作说明,你将通过 Web 界面使用 Scala,Python,SQL 或 R 来运行 Spark 程序,也可以得到处理结果可视化。
  • 本书中使用的数据
我们将在本书中使用一些数据集作为示例,如果想在本地运行代码,你可以从 https://github.com/databricks... 上下载它们。你需要首先下载数据,然后将其放在一个文件夹中,并运行本书中的代码片段。
本文出自 qbit snap

qbit
271 声望279 粉丝