SparkSession 介绍

主要观点:

  • Spark 2.0 是 Apache Spark 的下一个主要版本,带来了 Spark API 和库的抽象级别变化,主要讨论了 SparkSession。
  • 之前 Spark 的入口点是 sparkContext,用于访问 Spark 集群等功能,创建 sparkContext 需要 SparkConf。
  • 在 Spark 2.0 中,引入了新的入口点 SparkSession,它是 SQLContext、HiveContext 和 streamingContext 的组合,包含了实际计算所需的 sparkContext。

关键信息:

  • Spark 2.0 之前的入口点为 sparkContext,可通过 SparkConf 创建,用于多种操作。
  • SparkSession 可用于创建、读取数据、执行 SQL 查询、设置配置选项、操作元数据等。
  • 创建 SparkSession 的代码示例及各参数含义,如 master 设置连接的 Spark 主 URL,appName 设置应用名称等。
  • 可使用 SparkSession 读取 CSV 数据,执行 SQL 语句并获取结果为 DataFrame,还能设置运行时配置选项和直接操作元数据。
  • SparkSession.sparkContext 可获取底层的 sparkContext 用于创建 RDD 和管理集群资源。

重要细节:

  • 资源管理器可为 SparkStandalone、YARN、Apache Mesos。
  • 在创建 SparkSession 时,可通过 enableHiveSupport 启用 Hive 支持。
  • 配置选项设置后可在 SQL 中使用变量替换。
  • 通过 catalog 方法可操作元数据,如获取表列表、表的列等。
阅读 1
0 条评论