阿里云大数据+AI技术沙龙上海站

导语

数据成为人工智能时代新的石油，其价值愈发弥足珍贵，它赋予了我们洞察真实世界的能力。伴随海量数据指数级激增和计算场景更加多样化，软硬件基础设施建设面临巨大的技术挑战，应用系统运维成本也节节攀高，如何消除数据通向 AI 的鸿沟，大数据服务云化和上云作为有效措施成为一个必然趋势。
阿里云 EMR 团队，致力于为客户提供开源大数据 Hadoop/Spark 生态基于云端的一站式，高可用弹性计算平台。EMR 团队在国内运营最大的 Spark 社区，为了更好地传播和分享业界最新技术和最佳实践，现在联合Intel及开源社区同行，打造一个纯粹的技术交流线下沙龙《大数据 + AI》，定期为大家做公益分享。

时间：2019年11月16日（周六）下午
地点：上海市徐汇区裕德路126号（氪空间徐家汇社区）。
周边交通：

1号线 上海体育馆站8号口 步行10分钟
4号线 上海体育馆站4号口 步行10分钟
3号线 宜山路站2号口 步行13分钟
9号线 宜山路站3号口 步行11分钟

1. 活动日程

13:00 - 13:30  活动签到
13:30 - 13:40  开场白 / 暖场
13:40 - 14:20  基于Spark打造高效云原生数据分析引擎
14:20 - 15:00  使用分布式自动机器学习进行时间序列分析 
15:00 - 15:30  茶歇 & 自由交流
15:30 - 16:10  云上大数据的存储方案设计和选择
16:10 - 16:50  从Python 到Java ，Pyboot加速大数据和AI的融合
16:50 - 17:00  活动抽奖环节
17:00 - 与EMR / Intel团队技术专家自由交流讨论。

2. 活动福利

报名时请先关注Intel Analytics Zoo开源社区，并加入Apache Spark中国技术交流社区钉钉群，相关资料也会在钉钉群内共享。
钉钉群：

Analytics Zoo社区：
http://github.com/intel-analytics/analytics-zoo (记得帮我们star哦)

现场签到处，会提供100份礼品，先到先得；每个议题后也都有隐藏礼物，更有和专家大咖一对一交流机会哦！

3. 讲师风采

4. 议题看点

议题一：基于 Spark 打造高效云原生数据分析引擎
辛庸，阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop，Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作，专注于计算引擎、存储结构、数据库事务等内容。
议题简介：由阿里巴巴 EMR 团队提交的 TPC-DS 成绩在九月份的榜单中取得了排名第一的成绩。这个成绩背后离不开 EMR 团队对 Spark 执行引擎持续不断的优化。
本次分享将选取一些有代表性的优化点，深入到技术细节做详细介绍，包括但不限于动态过滤、CBO增强、TopK排序等等。
议题二：使用分布式自动机器学习进行时间序列分析
喻杉，Intel大数据分析团队软件工程师。她目前专注于在analytics-zoo大数据和人工智能平台上开发自动机器学习组件。在加入intel前，她在浙江大学获得了学士和硕士学位。
内容简介：时间序列指的是一组按照时间发生顺序排列的数据点序列。时间序列预测是利用过去一段时间内事件的特征来预测未来时间上该事件的特征。很多真实世界的应用（如Telcos网络质量分析，数据中心操作的日志分析，对于昂贵设备可预测性维护等）均使用到时间序列预测。时间序列预测也可以作为异常检测的前期步骤，当实际值和预测值相差过大时进行预警。
传统的时间序列预测方法通常基于可描述性（统计）模型进行曲线外插。此类方法通常包含对于数据模式的假设，将时间序列分解成构成要素，如周期性，趋势，噪声等。新的机器学习方法对数据可以假设更少更宽松，尤其是神经网络模型，通常将时间序列预测处理为序列建模问题，且近期已经成功应用于时间序列分析。
另一方面，对于时间序列预测搭建机器学习应用的过程非常繁琐且需要大量经验。为了提供一个简单易用的时间序列预测工具，我们将自动机器学习应用于时间序列预测，将特征生成，模型选择和超参数调优等过程实现自动化。我们的工具基于Ray（UC Berkeley RISELab开源的针对高级AI 应用的分布式框架，并作为Analytics zoo（由intel开源的统一的大数据分析和人工智能平台）的一部分功能提供给用户。
议题三：云上大数据的存储方案设计和选择
姚舜扬，花名辰山，阿里巴巴计算平台事业部 EMR 高级开发工程师，目前从事大数据存储方面的开发和优化工作；苏昆辉，花名抚月，阿里巴巴计算平台事业部 EMR 高级工程师, 曾就职于华为、网易. Apache HDFS committer. 对Hadoop、HBase等有深入研究, 对分布式存储、高性能优化有丰富经验. 目前从事大数据云化相关工作.
议题简介：上云拐点已来，开源大数据上云是业界共识。如何满足在云上低成本存储海量数据的同时又实现高效率弹性计算的潜在需求？放眼业界，都有哪些成熟存储方案和选择？各自适用的存储和计算场景是什么？背后的技术关键和考虑因素都有哪些？欢迎大数据技术爱好者面对面交流和探讨！
议题四：从Python 到Java ，Pyboot加速大数据和AI的融合
郑锴，花名铁杰，阿里巴巴高级技术专家，Apache Hadoop PMC，Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年，目前专注于在阿里云上提供更好用更有弹性的 Hadoop/Spark 大数据平台； 孙大鹏，花名诚历，阿里巴巴计算平台事业部 EMR 技术专家，Apache Sentry PMC，Apache Commons Committer，目前从事开源大数据存储和优化方面的工作；
议题简介：Python 代表机器学习生态，而以 Hadoop/Spark 为核心的开源大数据则以 Java 为主。前者拥有数不清的算法库和程序，后者承载着海量数据和大量的企业应用。除了 SQL 这个标准方式和各种五花八门的协议接口，还有没有更高效的一手数据通道，将两个生态对接起来，乃至深度融合？Pyboot 是我们在这个方向上的探索。有兴趣的同学欢迎现场观摩演示和技术交流。

5. 合作伙伴

title=
title=

6. 社区支持

title=

7. 媒体支持

title=