头图

在算力产业发展时,算力供给的服务化、云原生化,以及算力应用的智能化,对系统软件支撑层提出了高要求。在这种情况下,浪潮信息提出了“以应用为导向、以系统设计为核心”的系统理念。在 2023 龙蜥操作系统大会浪潮信息分论坛上,浪潮信息系统软件产品部总经理苏志远分享了《智算创新 云峦同行》的主题演讲,从产业背景、云峦创新以及产业实践等三个方向介绍了龙蜥操作系统商业发行版云峦  KeyarchOS(以下简称“KOS”),以下为演讲全文:

图片

产业背景

整个系统软件最终是要服务算力产业、赋能智算。在算力产业发展时,算力供给的服务化、云原生化,以及算力应用的智能化,对系统软件支撑层提出了高要求。在这种情况下,浪潮信息提出了“以应用为导向、以系统设计为核心”的系统理念。服务器是一台硬件盒子,与系统结合才真正具有灵魂,从而对上支撑业务、对下管理算力资源,这就是“以系统设计为核心”的关键技术理念。

图片

在“以系统设计为核心”的技术理念中,操作系统处于一个尤为重要的位置。硬件经过操作系统内核驱动或者外置 OOT 驱动的支撑,才能将能力发挥出来,而应用无论是开发环节还是运行环节都要依赖于操作系统提供的北向标准的接口。因此,操作系统在系统设计中至关重要,与硬件、应用软件构成了系统设计的关键。

图片

操作系统产业的发展,严格依赖于社区的良性发展。社区汇聚了所有厂商的创新能力,是一个天然的汇聚体,也是操作系统产业永葆活力的关键。

在 IT 产业、数据中心领域,其发展是开源社区慢慢主导整个技术发展的过程,也是开放理念逐渐取代封闭理念的过程。在最早的大机时代,IBM Z 系统从上到下是垂直的,应用程序都是自己开发。到小机时代,芯片收敛到 Unix 架构,操作系统基本上遵循了 Linux 标准,小机也曾辉煌一时。随着 X86 等更加开放的架构设计以及开源 Linux 软件的兴起,原来 Unix 小机的位置逐步被取代。

开源开放大趋势是操作系统本身永葆活力的关键。操作系统社区还是很丰富的,龙蜥、debian 等社区都是发展整个产业的关键力量。

图片

我国当前操作系统产业现状具有特殊性。CentOS 停更的全球性问题,加上 2+8+N 的行业替代,中国作为最大的算力应用市场,对系统软件和操作系统有着更深的要求,其要求有自主的根社区支撑发展。

目前做操作系统的厂商大概分为三类,一类是传统的软件厂商,一类是整机厂商,还有运营商、大型互联网厂商。大家做操作系统的目的可能有所不同,但只要把技术路线收敛到社区之后,无论出于什么目的,都可以促进操作系统产业的技术创新和生态繁荣。

云峦创新

2022 年,浪潮信息联合龙蜥社区正式推出了服务器操作系统商业发行版云峦 KOS。从 2008、2009 年开始,KOS 主要用于内部支撑,2022 年我们面向通用市场正式推出了商业发行版。在小机方面的研究经验,覆盖全球的售后服务能力,以及依托整机所积累的二三十年的生态,是浪潮信息做操作系统的核心优势。从整个运行体制和运营机制上来讲,龙蜥社区是一个非常开放中立的社区,这是我们选择龙蜥操作系统开发商业发行版的重要考虑因素。龙蜥社区理事长单位阿里云是典型的应用厂商,其应用品类可能是最多的,这符合我们“以应用为导向”的技术理念。龙蜥操作系统经历了“双 11”等极端考验,因此我们对龙蜥操作系统有充分的技术信心,联合社区推出了商业发行版。

图片

下图是过去十年浪潮信息研究操作系统的发展历程。最早是支持安腾架构,后来面向 Power、X86 进行了专门的优化、支持。在 V1、V2、V3、V4 四个版本的时候,操作系统研发以支持内部业务优化为主。龙蜥大会浪潮信息展区展示了自己的云、存储、边缘计算、AI 智算软件栈,均在系统软件层次进行了深度融合与优化。围绕操作系统,浪潮信息有主打的技术方向,首先是稳定可靠,也就是“能用”;其二是软硬协同,也就是“好用”;其三是智能化运维、安全可信,这是保证“可用”的关键标签。我们围绕能用、可用到好用的主线,构建产品的技术标签与核心能力。

图片

在稳定可靠方面,操作系统很难看到大的技术迭代和革命性更新,但在优化方面有很多工作要做,或许一个点优化完之后,可以让业务系统每年少宕机一些时间。在 Servers 可维护性方面,KOS 具备内核热补丁、内核热升级等能力,在尽量少影响业务的情况下,实现系统的持续稳定迭代。如果内核升级时需要重启系统,肯定会造成业务中断,且影响时间比较长。在内核热升级基础之上不停机,redis 业务基本呈现出秒级切换。我们做过统计,在服务器的故障场景中,内存故障占到所有故障场景的 80%。在全国芯片市场体系下,可能故障率会更高。在庞大的、几十万条经验库的支撑下,通过内存故障预测、内存故障容错等提升操作系统的稳定可靠属性,LTP 测试用例通过率达到了 98%,在业界具有非常高的水准。

图片

在软硬协同方面 KOS 也有相应优势。KOS 非常关注硬件方面能力,希望把算力充分发挥出来。浪潮信息与 Intel 合作,用最新的 QAT 技术提升整个传输性能,在网络通信占比高的场景下 Redis 性能提升了 40%。异步 IO 可以提升操作系统的读写性能,来源于社区的创新技术在产品中使能,包括 CXL 内存分层优化、安全加固,这是安全方面的特性。性能提升eBPF也是当前非常热门的技术点,我们联合龙蜥社区发布了《eBPF 技术实践白皮书》(关注龙蜥公众号【OpenAnolis龙蜥,后台回复关键字“白皮书”即可获取下载链接】)。eBPF 目前是操作系统领域相对比较新、比较热门的点,它可以在网络、安全、可观测性方面全面增强对于操作系统的使用能力。

图片

使用操作系统还需要搭配一些工具,否则纯命令行很难将操作系统用好。KOS 在运维工具开发方面进行了全面的布局,在运维方面,浪潮信息本身具有 InManage 服务器管理套件,其包含了很多工具。这一服务器管理套件在单一集群中可以管理 10 万节点,累计管理超过 400 万节点,这是在金融领域中最大的一个管理软件,也是 KOS 构建工具能力的核心。在稳定性和性能优化方面,KOS 利用 Ktuning 实现数智化调优,利用 KSysAK 实现故障快速定位,这两个软件也给到内部的云、数、存储产品线,获得一致好评。安全可信方面,后面将专门介绍无侵入病毒检测等相关工作。

图片

在《国产服务器操作系统发展报告(2023)》中,根据信通院面向用户群体的调研显示,龙蜥操作系统位列用户意愿迁移系统的首位。KOS 基于龙蜥操作系统增加了新的特性,构建了 X2Keyarch 迁移工具,高效支撑 CentOS 迁移。当前,我们也邀请了很多中立的开发者体验迁移能力,将镜像、环境提供给开发者,他们基于真实的应用进行迁移体验,并形成一些感受和建议。我们将开发者所写的技术文章,原汁原味地形成了《开发者说案例手册》,让更多的人了解迁移工具是不是好用,是不是足够兼容,是否足够支撑业务稳定运行。

图片

安全是操作系统永恒的话题。浪潮信息一直在安全可信、安全加固方面投入研究,研究历史可以追溯到 2008、2009 年。那时候浪潮信息就开始做安全相关工具,只不过当时工具仅作为操作系统的一部分,没有单独大规模推广,但在过程中浪潮信息积累了深厚的安全研发能力。作为中关村可信联盟副理事长单位,浪潮信息之前有可信服务器,在可信评估方面有一些先进的成果。我们在 2022 年底发布的产品,今年就拿到了安全操作系统等级保护的四级,也就是最高级。目前国内只有三个厂商拿到了网络安全产品专用等级保护证书。

图片

对来自 Linux 内核的各类操作系统产品而言,北向的接口开发都差不多,所以在应用软件的识别上,只要是 Linux 系的,没有什么严重的、难以解决的问题。难点主要在硬件方面的兼容性,如果缺乏部件厂商的配合协同,可能操作系统都装不上。在这一点上,浪潮信息具有明显的优势,能够拉通上游的器部件厂商、板卡厂商,协同支撑龙蜥操作系统。在此基础之上,2023 年增加了一个举措,浪潮信息内部所有的产品基础测试环节,将以 KOS 为基础系统,在产品上市前解决所有的硬件兼容性问题,这将为国内操作系统硬件生态做出重要的贡献,同时解决客户在使用龙蜥发行版时对硬件兼容性的担忧。浪潮信息拥有业内最全的服务器硬件产品线,覆盖了业内最全的、各种各样的芯片、板卡,因此,浪潮信息服务器能够兼容的龙蜥发行版,基本上业内所有服务器都可以兼容。

图片
生态方面,浪潮信息正式向大家发起生态招募,无论是南向硬件还是北向应用,欢迎大家加入龙蜥社区与 KOS 生态圈。产业实践最后简单给大家分享几个创新实践,分享一下 KOS 在教育、广电、金融方面的案例。
图片

首先是教育领域的案例。KOS 支撑了某高校的科学计算集群,目前已经有 600 节点。在整个过程中,操作系统替换只是第一步。在此基础上,我们联合科学计算团队,进行了整体调优,从框架层到编译库层进行全方位的性能升级。优化升级后,整体超算性能比原来的 CentOS 提升了 20% 以上。

图片

上图是广电行业案例。预装后不用担心兼容性问题,是这一案例中最吸引用户的点。原先运行在 CentOS 上的应用无缝切换到 KOS 上,展现出天生良好的兼容性。

图片

这是金融领域的案例。依托云平台,KOS 稳定支撑了省级银行的业务执行,经过操作系统、虚拟化与上层的云平台联合调优后,整体稳定性提升了 50% 以上。

图片

面向 2024 年,浪潮信息将依托联合实验室,在技术、生态、商业、运营等方面全面投入龙蜥社区的建设,推动国内操作系统产业发展创新。


龙蜥社区
40 声望12 粉丝

OpenAnolis龙蜥社区由国内外头部企业联合建立的操作系统开源社区。