NASAC 2019开源大数据系统软件社区资深管理员论坛

论坛简介

大数据系统软件是一类非常典型且重要的领域系统软件，以Hadoop、Spark为代表的大数据系统支撑着经济、社会等众多领域的大数据应用，具有很高的研究意义和应用价值。过去的10余年中，我们见证了大数据开源生态系统从Hadoop MapReduce/HDFS系统的兴起，演进到HBase、Hive等Hadoop生态系统的辉煌，再发展到Spark、Alluxio、Flink新型系统的成熟。经过这么多年的积淀，开源社区在计算和存储层面上分别涌现了一批国际主流的大数据开源系统软件，它们在工业界和学术界均产生了重大的影响。大数据系统软件：风云激荡十载，华人弄潮争峰！本次论坛有幸邀请到了主流大数据开源系统的部分知名华人社区管理员给大家分享这些大数据系统的发展历程、架构原理、未来方向以及应用案例。

活动时间

2019年11月23日（周六）下午13:20-17:20

地点

浙江省杭州市宝盛水博园大酒店雅叙厅

门票说明

方式一：http://nasac2019.zju.edu.cn （通过会议官网统一购买）
方式二：示说网渠道报名（免费，仅11/23日下午的分论坛），审核较严，请务必认真填写个人信息

论坛议程

13:20-14:00 Apache Hadoop 3.x新特性介绍与社区最新进展 堵俊平 腾讯/ Apache Hadoop PMC & Committer
14:00-14:40 Alluxio数据存储编排架构演进与案例介绍 毛宝龙 阿里巴巴/ Alluxio PMC
14:40-15:20 Apache HBase 2.x架构演进与社区最新进展 张铎 小米/ Apache HBase Chairman & PMC
15:20-15:30 茶 歇
15:30-16:10 Apache Spark+AI开源社区进展&实际案例分享 黄晟盛 英特尔/ Apache Spark PMC & committer
16:10-17:00 Apache Flink 系统的过去，现在和未来 杨克特 阿里巴巴/ Apache Flink PMC
17:00-17:20 Panel环节。嘉宾：堵俊平（腾讯）、毛宝龙（阿里）、黄晟盛（英特尔）、杨克特（阿里）

论坛主席

顾荣，南京大学计算机系副研究员，研究方向大数据处理系统，国内高校唯一当选的开源大数据存储系统Alluxio PMC Member & Maintainer，现任中国计算机学会系统软件专委会委员、江苏省计算机学会大数据专家委员会秘书长，入选2019年江苏省科协青年科技人才托举工程。顾荣已在TPDS、JPDC、ICDE、Parallel Computing、IPDPS、ICPP等前沿国际期刊会议发表录用论文20余篇，主编出版专著1部，获授权国家发明专利6项（已有1项1转化）；先后主持国家自然科学基金青年基金项目、江苏省自然科学基金青年基金项目、知名大型IT公司校企委托研发项目，相关成果应用于英特尔、百度、苏宁、字节跳动等公司和国际开源大数据系统Spark、Alluxio；获得2018年度江苏省科学技术一等奖、2017年度江苏省教学成果二等奖、第五届中国“互联网+”大学生创新创业大赛金奖。顾荣曾在Microsoft Research、Intel、Baidu从事过大数据系统相关的研发工作，多次受邀在业界知名技术大会上进行技术演讲。

论坛嘉宾

报告题目1：Apache Hadoop 3.x新特性介绍与社区最新进展
报告摘要：Hadoop HDFS 作为业界标准的大数据存储方案，在经历了 10 余年的发展之后，在云计算与机器学习等新应用场景下也面临不少的挑战，例如缺乏对海量小文件以及对象存储接口的支持等。Apache OZone 是 Hadoop 社区重点投入开发的下一代存储引擎，它不仅可以很好的支持对象存储接口以及海量小文件，还可以和大数据计算引擎做无缝的结合，并有 Data Locality 机制等保证。腾讯大数据与Cloudera等公司在Hadoop社区密切合作，深度参与了Ozone项目的开发工作。在本次分享中，我们将介绍 Ozone 的架构，技术，场景以及腾讯大数据的研发实践工作。

个人简介：堵俊平，腾讯公司大数据海量计算、存储以及数据湖技术负责人，专家研究员，腾讯开源联盟（TOSA）主席，Apache开源基金会 Member, Apache Hadoop项目PMC和Committer。

报告题目2：Alluxio数据存储编排架构演进与案例介绍
报告摘要：分布式文件系统处于大数据系统中基础地位，在行业大数据应用中发挥着重要作用。Alluxio（原名Tachyon）是世界上首个以内存为中心的层次化分布式文件系统。它为上层计算框架和底层存储系统构建了桥梁，应用可以通过Alluxio提供的统一数据访问方式访问底层任意存储系统中的数据。在本报告中我将介绍Alluxio系统，具体内容包括：1、介绍Alluxio系统的起源及其解决的问题、系统整体架构及架构演进过程；2、Alluxio主要的功能特性介绍及实现原理；3、Alluxio应用场景模型及用例介绍；4、Alluxio社区目前工作重点及发展方向。

个人简介：毛宝龙（神龙），阿里云数据库产品事业部工程师，从事数据传输、数据备份、数据订阅、数据重删等数据相关工作。加入阿里巴巴之前，毛宝龙是京东大数据分布式存储负责人，他主导研发了京东万台规模大数据分布式文件存储。毛宝龙热爱开源技术，并积极投入开源社区。

报告题目3：Apache HBase 2.x架构演进与社区最新进展
报告摘要：Apache HBase是Hadoop Database的缩写，是一个分布式的，可扩展的大数据存储，支持海量数据的随机读写，对于OLTP和OLAP都可以很好的支持。本报告主要介绍Apache HBase从1.x到2.x演进过程中的一些关键决定和选择、新特性介绍，以及开源社区对未来方向的一些规划。

个人简介：张铎，毕业于清华大学计算机科学与技术系，长年从事开源软件的开发与维护。2015年成为Apache HBase项目的Committer，2016年成为Apache HBase项目在大陆的第一位PMC成员，2019年7月成为Apache HBase项目的主席。2018年，在Apache软件基金会全球近7000名Committer中，贡献数量排名第三。目前在小米公司云平台部负责存储相关工作。

报告题目4：Apache Spark + AI开源社区进展&实际案例分享
报告摘要：近年来，AI/ML领域有了长足发展，不断有新模型和算法在各种基准数据集上取得更好的成绩，工业界应用AI/ML的积极性也水涨船高。但要把AI/ML应用到生产，单单模型和算法好是远远不够的。从实验室模型到可扩展和健壮的工业级部署，这中间存在很多繁杂又易错的环节，经常导致很多实际的困难和问题，从而阻碍了AI/ML的大规模应用。这两年，为了构建更好用的、统一的分析和AI的平台，开源社区围绕Apache Spark及周边生态系统进行了一系列的工作。在这个报告中，我们会介绍近期开源社区的相关进展，包括Intel在开源社区中的相关工作，同时也会分享我们在搭建Spark + AI工业级应用中的经验和真实案例。

个人简介：黄晟盛是Intel大数据和AI方向的资深软件架构师，在大数据领域工作超过10年，在AI领域工作超过5年。她是Apache Spark的committer和PMC member，也是Big Data + AI开源项目Analytics-Zoo (https://github.com/intel-analytics/analytics-zoo)和BigDL (https://github.com/intel-analytics/BigDL) 的重要贡献者。目前，她在Intel AnalyticsZoo团队主要带领自然语言处理，时间序列分析和强化学习相关的新功能开发和解决方案构建。

报告题目5：Apache Flink系统的过去，现在和未来
报告摘要：Apache Flink是目前最火热的大数据计算框架之一，它的核心计算理念是基于Stream Processing的抽象范式，支持不同的具体计算模式，如流计算、批处理以及在线服务等多种场景。报告首先将从技术和开源社区的角度对ApacheFink的历史做简要的回顾。然后围绕Apache Flink流批统一的计算理念，重点介绍其在过去一年间技术和架构上的发展和变化。最后分享一下Apache Flink的未来发展方向，如流批计算的自动切换，更好的支持事件驱动的在线服务场景。

个人简介：杨克特，2011年浙江大学硕士毕业后加入阿里巴巴，目前任高级技术专家一职。这几年先后从事了搜索引擎，调度系统，OLAP查询引擎等核心系统的设计和研发。从2015年开始接触Apache Flink，致力于推进高性能SQL引擎以及流批一体化技术的研究和开发。目前是Flink和Druid这两个Apache项目的PMC成员。