Ray是 UC Berkeley RISELab针对机器学习领域开发的一种新计算框架,用于构建任意规模的分布式应用。「Ray Meetup上海站」邀约Ray项目核心开发者与Ray应用先行者共聚一堂,探讨下一代高性能计算,解析Ray的核心设计,分享在真实场景中的实践经验和应用案例。
活动安排
时间 | 议程 |
---|---|
13:30 - 13:40 | 开场介绍 |
13:40 - 14:20 | Ray的发展历程与展望-张喆 |
14:20 - 15:00 | 使用RayDP-Spark on Ray构建端到端的大数据分析和人工智能应用-Carson Wang |
15:00 - 15:20 | 中场休息 |
15:20 - 16:00 | 使用 Ray 构建高可用和可扩展的在线应用-蔡腾纬 |
16:00 - 16:40 | 使用Ray作为Spark SQL UDF的执行引擎-祝威廉 |
议题介绍
1.Ray的发展历程与展望-张喆
这个议题会分享三个要点:1)什么是Ray(包括Ray项目的简史,和基本的框架以及API);2)为什么我们认为Ray是下一代云计算的计算架构(包括灵活和强大的分布式开发,活跃的生态,和对Serverless模式的支持);3)我们接下来会做什么(包括介绍新开发的Dataset,Workflow模块)
张喆 目前领导Anyscale公司开源工程团队。此前,他在LinkedIn公司,负责大数据与人工智能计算团队(提供Hadoop/Spark/TensorFlow服务)。从2014年开始,张喆的工作就与开源紧密相关,他是Apache Hadoop Committer和PMC,也是Apache软件基金会成员。
2.使用RayDP-Spark on Ray构建端到端的大数据分析和人工智能应用-Carson Wang
对于一个复杂的端到端数据分析和人工智能应用,通常需要用到多个分布式的框架,比如使用Apache Spark来做数据的预处理,使用XGBoost,PyTorch,Tensorflow等框架来做分布式的模型训练。一个常规的做法是使用独立的大数据集群和模型训练的集群,将整个工作流中的不同阶段分别提交到不同的集群上,并且使用胶水代码来连接它们。其它的方案包括使用Apache Spark作为统一的平台来运行数据处理和模型训练,使用任务调度框架来连接一个工作流中不同阶段等。这些做法都有他们各自的局限性。在本次分享中,我们将介绍使用Ray作为一个统一的分布式平台,使用RayDP在Ray上运行Spark的程序,并且通过Ray的分布式内存存储,高效地和Ray上的机器学习框架进行数据交换。我们将演示通过RayDP和Ray生态中的其它组件,如何在一个Python程序中高效地开发复杂的端到端的数据分析和人工智能应用。
Carson Wang 英特尔高性能数据分析研发团队负责人,专注于研发和优化开源大数据,分布式机器学习框架,开发大数据和人工智能融合解决方案。他目前领导以下一些开源项目包括RayDP-Spark on Ray, OAP MLlib-高性能版Spark机器学习算法库。此前,他主导研发了Spark SQL自适应执行引擎,HiBench-大数据基准测试工具等项目。
3.使用 Ray 构建高可用和可扩展的在线应用-蔡腾纬
这个分享会介绍蚂蚁团队如何在 Ray 上打造一个高可用、可扩展的在线平台,满足业务的在线分布式服务和模型服务等场景,并在双十一、新春红包得到应用。这些技术细节包括但不限于跨集群架构、状态持久化、原地更新等等。
蔡腾纬 蚂蚁集团 Ray 调度和服务团队负责人,专注于 Ray 在 K8S/Yarn 上的调度,以及基于 Ray 的服务系统研发。此前,他参与了蚂蚁在线数据引擎和大数据产品方向的研发。
4.使用Ray作为Spark SQL UDF的执行引擎-祝威廉
这次分享我们会重点介绍如何基于Ray使用Python实现Spark SQL UDF函数,进一步的,我们使用该技术实现有状态的UDF函数,从而能够将常见的Python算法模型转换成 SQL UDF函数进而被更广泛的使用。利用Ray强大的分布式编程能力,我们完美解决算法模型包装成SQL函数面临的两大难题,1. 函数需要一个初始化过程,2. 函数有一定的python环境要求。
祝威廉 现就职于Kyligence,资深数据架构师,拥有10+年研发经验。最近六年专注于数据管理,商业分析,机器学习的统一平台的设计和开发。个人热衷于开源产品的设计和研发,MLSQL(mlsql.tech)为其主要开源作品。
关于活动
主办方
- anyscale
- 示说网
特别赞助
微软Reactor
合作伙伴
- 蚂蚁集团
- mlsql
- 英特尔
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。