「龙蜥社区“走进系列”MeetUp」是由龙蜥社区与生态合作伙伴联合主办的系列月度活动,每期走进一家企业,聚焦龙蜥社区和合作伙伴的技术、产品和创新动态,展示硬核技术,共建繁荣生态。

12 月 6 日(本周五),龙蜥社区“走进系列”MeetUp第 14 期将携手 Arm 举办一场以「驱动性能提升:Arm平台的AI与系统优化加速龙蜥生态落地」为主题的研讨会。本次活动邀请了来自 Arm 的技术专家、龙蜥社区 Arm ARCH SIG 的核心成员及合作伙伴,共同探讨 AI 技术、Arm 平台优化、最新特性和最佳实践等话题。基于本次活动,与会者可了解到,如何加速基于龙蜥和企业平台的 Arm 系统开发与部署进程,助力性能提升和场景落地,期待与伙伴一起打造 Arm 软件生态供应链。

本次 MeetUp,现场不仅有干货满满的技术分享,更有大疆航拍无人机、Airpods第四代蓝牙耳机、MCHOSE 机械键盘等重磅礼品等你来拿,快快点击原文一键直达报名参加,一起相聚上海,共同探讨前沿技术。

报名链接:https://openanolis.mikecrm.com/vlAOIyy

本次 MeetUp 演讲亮点一览:

主题:为RTP-LLM提供ArmCPU后端,助力ArmAI软件生态持续发展

嘉宾:李天羽,Arm公司资深软件工程师,专注机器学习与硬件加速的结合,致力于优化在Arm CPU上运行的大模型工作负载。

简介:随着大规模语言模型(LLM)的普及与应用,AI计算需求快速增长。许多LLM模型运行在基于GPU的硬件上,但随着ARM架构在数据中心和边缘设备中的日益流行,如何让RTP-LLM(实时推理框架)有效支持ArmCPU平台变得尤为重要。通过优化LLM在Arm平台的推理性能,可以进一步提升功耗效率和模型部署的灵活性。

主题:阿里巴巴生态应用在Arm平台性能优化实践

嘉宾:张权,阿里云程序语言与编译器团队高级工程师,致力于JVM编译优化、性能分析、快速启动等方向的工作,对阿里巴巴生态应用在Arm平台的性能优化拥有丰富经验。

简介:Arm平台以其独特的优势吸引广大开发者的兴趣,最近阿里巴巴生态核心应用在Arm上部署后却遇到较大的性能差异,通过分析发现主要是CPU前端瓶颈,因此我们在JVM层面进行了针对性优化,提出的代码压缩、热代码集中分配等技术方案在落地后补齐了性能短板,给后续更大规模的部署提供了信心;同时,Arm平台也拥有丰富的性能分析工具,比如Coresight提供了指令流分析的能力,基于这些信息我们发现了JVM中编译阈值对profile采集准确性的影响,针对性调整后达到了更佳的性能效果。

主题:Arm64架构调用链性能数据采集原理

嘉宾:李成栋,码题诗科技创始人,在性能优化领域深耕多年,积累了大量软硬件协同优化经验。擅长Arm服务器平台的软硬件适配与优化工作。

简介:调用链(Callchain)是软硬件事件上下文信息之一,对性能优化和故障排具有非常重要的作用。如著名的火焰图(Flamegraph)就是对调用链信息汇总统计和可视化的结果。但是在调用链收集的过程中,工程师往往因为不了解底层的采集原理导致调用链收集不完整,采集开销不可控等问题。本议题核心介绍了在Arm64架构下调用链采集的原理,比较它们之间的不同和阐述适用场景。同时对对Linux内核态和eBPF调用链采集做了一些简单介绍。

主题:PAS工具分享 - FrameScope与RTRadar

嘉宾:刘依男,阿里云工程师,工作内容主要为性能优化方向,包括系统级性能优化,OS产品性能优化,性能工具研发等。
苏峰,阿里云工程师,工作内容主要为性能分析、性能工具研发。

简介:云计算服务的主营业务之一便是资源售卖,云厂商会采购不同平台、不同型号的服务器,通过池化技术整合机器资源,再将不同规格的资源弹性售卖给开发者。对开发者而言,是否能够在这众多的云服务器产品中选择出能运行目标程序最佳性能的产品,同时能够在此基础上进一步优化程序性能从而充分压榨云资源的性能,是提升上云性价比的第一要务,而FrameScope——函数粒度微架构性能分析工具可以协助您快速应对上述场景。

事务执行延迟是应用性能评估的重要指标之一,随着分布式架构的广泛应用,厂商可通过分布式链路跟踪技术(例如Dapper)将延迟瓶颈定位到单节点上(物理机、虚拟机、容器),然而深入分析单节点上复杂的事务延迟时,现有工具往往显得不足。针对以上问题,我们自研了一套工具:RTRadar——单节点系统级事务延迟分析工具,通过采集事务关键事件以及内核系统事件,重建事务执行过程、分析依赖关系、量化各影响因素对整体延迟的贡献占比,从而定位延迟瓶颈。

主题:Perf Arm-spe 介绍与使用

嘉宾:张菁,阿里云高级工程师,关注PMU/SPE 等性能剖析机制及Linux内核perf 子系统领域。

简介:SPE是ARMv8.2引入一种性能剖析机制,可以提供更加细节的CPU 运行时采样信息。本次分享主要介绍如何在倚天710平台上利用Arm-SPE 特性定位伪共享问题、分析内存访问、分析指令延时以及监控访存延时等功能。

主题:高效可靠的处理器微体系结构性能测量技术

嘉宾:刘通宇,华东师范大学数据科学与工程学院系统优化实验室(SOLE)博士研究生,研究方向是处理器微体系结构性能测量与性能分析。

简介:近年来,由于Arm平台软硬件生态日渐成熟,Arm架构处理器逐渐走进数据中心。应用的跨平台迁移及处理器设计研发均依赖于处理器微体系结构的性能数据,准确、可靠的性能测量是性能工程的重要基础。本次报告将围绕性能测量这一主题,分享我们的两项工作。第一项工作是关于如何高效地复用硬件性能计数器进行可靠测量,此项工作主要针对现有工具在复用硬件性能计数器测量时存在的低效行为,通过研究Linux内核性能事件的调度机制,提出一种自适应的性能事件分组方法提高性能计数器的复用效率。第二项工作是关于Arm架构处理器实时内存带宽的通用测量方法,Arm架构IP授权的模式赋予了各硬件厂商定制处理器的能力,包括内存控制器在内的Uncore单元存在碎片化现象,此项工作探索了Arm架构下实时内存带宽测量通用方案的可能性。

主题:Spark SQL向量化执行引擎框架Gluten-Velox在Arm64使能和优化

嘉宾:顾煜祺,Arm公司资深软件工程师,关注大数据生态在Arm服务器上的优化。

简介:Apache Spark是当前流行的开源数据处理引擎,Spark SQL为用户提供可靠的查询计算解决方案。近期,Gluten项目作为基于Apache Arrow 的原生SQL引擎正式亮相,旨在增强Spark SQL计算性能。与此同时,多个向量化SQL引擎和更加活跃的开源社区也纷纷涌现。其中Velox项目尤为引人注目,它提供了向量化数据库加速库。本议题将简要介绍Gluten-Velox框架的概况和原理,同步Gluten-Velox社区在Arm64平台上的使能状态,并通过一个Velox的优化案例,展示此Spark SQL 向量化执行引擎框架在Arm64上的潜力。

更多详细议程见下方海报:
图片


龙蜥社区
40 声望12 粉丝

OpenAnolis龙蜥社区由国内外头部企业联合建立的操作系统开源社区。