上海Spark+AI线下沙龙第17次聚会

背景

Apache Spark自2009年诞生与加州大学伯克利分校的AMPLab实验室，历经10年的发展，超过1400位来自全球300多家企业和组织的工程师为其贡献代码，使其成为当今最炙手可热的开源技术框架之一，也是大数据处理领域事实上的业界标杆。Apache Spark在大数据分析和新型硬件加速支持等生态建设上，也得到了越来越多的基础设施创新型企业的投入。
本次线下技术沙龙，我们带来业界在Apache Spark生态的最新进展和部分优秀成果展示，期待与您在现场深入交流!

活动地址

上海市徐汇区裕德路126号（氪空间徐家汇社区）
周边交通：

1号线上海体育馆站8号口步行10分钟
4号线上海体育馆站4号口步行10分钟
3号线宜山路站2号口步行13分钟
9号线宜山路站3号口步行11分钟

议程安排

13:00 - 13:30 活动签到
13:30 - 13:40 开场白
13:40 - 14:20 借助Intel 傲腾DC持久内存构建高性能HDFS 缓存加速大数据分析
14:20 - 15:00 百度Spark 和BigSQL 优化实践分享
15:00 - 15:30 茶歇&自由交流
15:30 - 16:10 Apache Spark生态圈的2019年报告：Apache Spark 3.0, Delta Lake and Koalas
16:10 - 16:50 Apache Arrow-Based Spark Native SQL Engine
16:50 - 17:20 抽奖与自由交流

讲师风采

议题介绍

开场白
余志东，Intel大数据技术研发总监，负责Intel大数据分析平台软件的研发工作。他和他领导的跨国团队致力于优化软件的性能、开发能有效利用新兴硬件的关键技术，以及研发新的软件方案来推动大数据生态的完善和发展。作为领域专家，他的团队也会影响硬件的早期架构设计和路线。余志东于2003年加入Intel，多年来一直从事系统软件在Intel平台上的性能分析和优化工作，历经数据库、Java中间件、虚拟化、到云计算等不同领域。

议题一：借助Intel 傲腾DC持久内存构建高性能HDFS 缓存加速大数据分析
张建，Intel软件工程经理。
议题简介：HDFS缓存是一种集中式缓存机制，用户可以通过指定要缓存的文件的路径的方式来加速常用数据访问速度。但是，由于HDFS缓存是基于DRAM的，会与用户程序竞争内存资源，同时在数据节点重启的场景下需要重新预热缓存，所以其使用场景受到很多限制。持久化内存代表了一种新型的存储器和存储技术，它以可承受的价格提供更高性能，更大容量，同时提供数据持久性。本次分享将介绍如何借助持久化内存构建高性能HDFS 缓存方案。我们将首先介绍HDFS持久性内存缓存设计与实现，然后介绍其性能优势，最后将探讨持久化内存在其他大数据分析场景中的应用。

议题二：百度Spark和BigSQL优化实践分享
李豪，百度基础架构部分布式计算团队研发工程师，专注基于Spark的分布式计算服务研发和优化。
杜日鹏，百度基础架构部分布式计算团队研发工程师，专注基于Spark的分布式计算服务研发和优化。
议题简介：Hadoop MapReduce具有多年的发展历史并且在多种应用场景和数据规模下得到了验证，Spark在性能方面相对Hadoop具有明显的优势，如何能够平滑地将存量Hadoop作业迁移至Spark，并保证迁移之后的稳定性，具有重要意义。本次分享将会介绍百度在这方面实践经验。SQL查询是Spark的重要应用场景，为提供高效稳定的查询服务，百度建设了大数据统一查询平台BBS（Baidu BigSQL），本次分享还将介绍BBS基于SparkSQL的服务实现以及利用Spark查询加速组件OAP（Optimized Analytics Package）和新硬件优化即席查询性能的实践。

议题三：Apache Spark 生态圈的2019年报告：Apache Spark 3.0, Delta Lake and Koalas
李潇，现就职于Databricks，管理两组跨国团队，专注于Apache Spark和 Databricks Runtime的开发和建设。他是 Apache Spark项目Committer & PMC。本科毕业于南京理工大学，后在佛罗里达大学（University of Florida）获计算机博士学位，曾就职于 IBM，获发明大师称号（Master Inventor），在数据处理领域发表专利十余篇。（Github: gatorsmile）
议题简介：2019, Spark 迎来了它第十个年头。本次演讲将着重介绍Spark生态圈的最新动向。我们首先介绍Spark 3.0预览版的众多特性。特别是，我们将深入讲解动态和静态的查询优化是如何让Spark更加容易使用并且快速执行。我们也将介绍Delta Lake这个最新的Spark data source是如何解决Spark的各种痛点。最后，我们还将demo最新的Koalas，看它是如何可以取代pandas，来帮助科学家们更快地分析和洞察数据的。

议题四：Apache Arrow-Based Spark Native SQL Engine
杨宾伟，Intel软件架构师。
议题简介：许多研究和企业应用已经证明AVX在数据库查询引擎中能带来明显的性能提升，然而Spark作为应用广泛的大数据查询分析平台，Spark SQL到目前并没有有效使用AVX指令，这是对CPU资源的一个很大的浪费。其原因首先在于Spark当前在内存中采用横格式存储数据，其次SQL Engine的实现仍然基于JVM。在这个议题中我们将会介绍实现一个采用生成native代码，基于Apache Arrow的SQL引擎，实现基本的数据库查询操作，然后将其集成到SparkSQL的引擎中。将Arrow格式作为Spark SQL内部的基本数据格式，实现查询，存储和Shuffle。

主办方

本次活动由Intel大数据团队主办，示说网协办

上海Spark+AI线下沙龙第17次聚会

上海Spark+AI线下沙龙第17次聚会

活动介绍

背景

活动地址

议程安排

讲师风采

议题介绍

主办方

组织者