主要观点:
- Spark 2.0 是 Apache Spark 的下一个主要版本,带来了 Spark API 和库的抽象级别变化,主要讨论了 SparkSession。
- 之前 Spark 的入口点是 sparkContext,用于访问 Spark 集群等功能,创建 sparkContext 需要 SparkConf。
- 在 Spark 2.0 中,引入了新的入口点 SparkSession,它是 SQLContext、HiveContext 和 streamingContext 的组合,包含了实际计算所需的 sparkContext。
关键信息:
- Spark 2.0 之前的入口点为 sparkContext,可通过 SparkConf 创建,用于多种操作。
- SparkSession 可用于创建、读取数据、执行 SQL 查询、设置配置选项、操作元数据等。
- 创建 SparkSession 的代码示例及各参数含义,如 master 设置连接的 Spark 主 URL,appName 设置应用名称等。
- 可使用 SparkSession 读取 CSV 数据,执行 SQL 语句并获取结果为 DataFrame,还能设置运行时配置选项和直接操作元数据。
- SparkSession.sparkContext 可获取底层的 sparkContext 用于创建 RDD 和管理集群资源。
重要细节:
- 资源管理器可为 SparkStandalone、YARN、Apache Mesos。
- 在创建 SparkSession 时,可通过 enableHiveSupport 启用 Hive 支持。
- 配置选项设置后可在 SQL 中使用变量替换。
- 通过 catalog 方法可操作元数据,如获取表列表、表的列等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。