SparkSession 介绍 - SegmentFault 思否

SparkSession 介绍

发布于 2018-12-05

主要观点：

Spark 2.0 是 Apache Spark 的下一个主要版本，带来了 Spark API 和库的抽象级别变化，主要讨论了 SparkSession。
之前 Spark 的入口点是 sparkContext，用于访问 Spark 集群等功能，创建 sparkContext 需要 SparkConf。
在 Spark 2.0 中，引入了新的入口点 SparkSession，它是 SQLContext、HiveContext 和 streamingContext 的组合，包含了实际计算所需的 sparkContext。

关键信息：

Spark 2.0 之前的入口点为 sparkContext，可通过 SparkConf 创建，用于多种操作。
SparkSession 可用于创建、读取数据、执行 SQL 查询、设置配置选项、操作元数据等。
创建 SparkSession 的代码示例及各参数含义，如 master 设置连接的 Spark 主 URL，appName 设置应用名称等。
可使用 SparkSession 读取 CSV 数据，执行 SQL 语句并获取结果为 DataFrame，还能设置运行时配置选项和直接操作元数据。
SparkSession.sparkContext 可获取底层的 sparkContext 用于创建 RDD 和管理集群资源。

重要细节：

资源管理器可为 SparkStandalone、YARN、Apache Mesos。
在创建 SparkSession 时，可通过 enableHiveSupport 启用 Hive 支持。
配置选项设置后可在 SQL 中使用变量替换。
通过 catalog 方法可操作元数据，如获取表列表、表的列等。

Introduction to SparkSession

https://dzone.com/articles/introduction-to-spark-session

阅读 1

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。