当数据与AI的协同链路被打通,如何让算力真正成为驱动数智升级的核心引擎,释放AI的终极潜能?

无问芯穹正是其中深耕AI芯片与算力优化的玩家,在第三届AIGC产业峰会上,无问芯穹联合创始人兼CEO夏立雪博士分享了最新行业心得:

要实现“算力即生产力”,让算力成为标准化、高转化率的“拎包入住”基础设施。让算力像水电煤一样流入到千行百业,流入到千家万户。

无问芯穹夏立雪:让算力像水电煤一样成为标准化、高附加值的“拎包入住”基础设施|中国AIGC产业峰会

夏立雪博士毕业于清华大学电子工程系,长期致力于深度学习系统与AI芯片的前沿研究,入选AI2000人工智能全球最具影响力学者榜单(芯片方向Top100)、斯坦福学科Top2% 科学家榜单。他在大语言模型的压缩加速、生成式AI模型芯片等领域的相关工作,是世界首个面向深度学习语音合成领域的定制化硬件设计,在国际上处于领先地位。

为了完整体现夏立雪的思考,在不改变原意的基础上,量子位对其演讲内容进行了编辑整理,希望能给你带来更多启发。

中国AIGC产业峰会是由量子位主办的AI领域前沿峰会,20余位产业代表与会讨论。线下参会观众超千人,线上直播观众320万+,累计曝光2000万+。

话题要点

  • 推理范式变化带来百倍算力需求增长:Deepseek问世引发巨大关注,进一步帮助千行百业快速把更智能化模型能力应用在自己的场景里,带来超百倍的算力需求增长。
  • 高质量、高性价比算力仍供不应求:在算力需求上,最终推理落地所带来需求场景和需求方式的变化,供给侧还有很大的优化空间。
  • 算力生态方需提供更专业化的服务能力和精细化运营能力:相当于在裸金属服务集群上叠加上运营交付能力、深度服务客户业务的算力服务能力,这才是我们在这个时代应强化的能力。
  • 最终我们希望实现 “算力即生产力”:让算力成为标准化、高转化率的“拎包入住”基础设施。

以下为夏立雪演讲全文:

Deepseek推理模型兴起,算力需求暴涨

今天非常荣幸能够在这里和非常多的行业伙伴们一起探讨中国AIGC未来的发展。我今天的演讲题目是《算力即是生产力——数智升级的核心引擎》。

我们本身依托清华大学电子系的基因,一直在解决怎么把算法和硬件更好更高效连接,今天非常高兴能够把最近的成果、行业观察,还有我们的一些进展和大家做一个分享。

我相信在座的各位已经对人工智能的发展有非常深的理解,今天不从上世纪讲起,我们讲最近三年看到的一些现象。 大模型真正走入“全民”视野,算是以2022年的ChatGPT火爆为源头。

如果把当时的算力需求作为一个基线,可以看到经过这几年的发展,最近又有了两个重要的变化。

第一是在2023年的时候,一方面,OpenAI把GPT-4更优秀的能力引入到ChatGPT,整个AI应用火爆全球;另一方面,像Llama这样的一些开源生态方也进一步帮助大家把使用AI的成本降到更低,激发了2023年整个产业对于“怎么把好的开源模型进一步部署在自己场景里”的需求。

在全产业层面带来了30倍左右的算力增长的需求。

无问芯穹夏立雪:让算力像水电煤一样成为标准化、高附加值的“拎包入住”基础设施|中国AIGC产业峰会

事情在2024到2025年间进一步发生变化。

o1推理模型兴起,除了预训练模型之外,在推理过程中可以引入长思考、慢思考方式,进一步发挥有限数据的价值。

像今年年初,Deepseek引发巨大关注,推理能力是它的长项,同样它也是非常优秀的开源模型,进一步帮助了千行百业快速把更智能化模型能力应用在自己的场景里,进一步带来超过百倍的算力需求增长。 有很多产业方在这样时代发展的过程中,也逐渐把AI真正集成在自己的实际生产中,也有一些非常令人激动的数据。

首先从全球来看,2024年李飞飞教授的一份report中有一个统计,在2023—2024年这一年里面,全球生成式AI部署热度达到非常高的增长态势,在一年时间里,从2023年55%的状态快速增长到78%,将近五分之四的企业组织表示已部分将AI能力部署到自己的组织中。

无问芯穹夏立雪:让算力像水电煤一样成为标准化、高附加值的“拎包入住”基础设施|中国AIGC产业峰会

中国作为全球最大的应用市场、应用场景方,一直走在“怎么把好技术用在真实场景里”的最前沿,以亿级用户规模的APP生态为观测样本,当前超过70%亿级用户APP都已经在做“AI转型”,大家也在不断备案自己有特色有场景能力的算法模型。

以我们的客户美图为典型范例,随着AI转型的深入,美图接入AI功能之后,其付费用户实现了快速增长,达到历史新高1200万量级,证明了AI在真实场景中能产生相当大的价值。

算力需求供给侧比较粗放式

同时我们也看到了新的问题。

在算力需求上,最终推理落地所带来需求场景和需求方式的变化,供给侧还是没有做到很好的支持

推理和训练的区别大家也都知道,推理是一种不可预测的流式任务,任务量跟实际的业务体量有非常大的相关性。

大家做一个业务的时候常常需要规划考虑未来业务突然增长起来算力怎么办?目前在供给侧,常用的解决方案还是临时应对和准备,整个供给侧算力供给还是比较粗放式的,主要是以数取胜。

无问芯穹夏立雪:让算力像水电煤一样成为标准化、高附加值的“拎包入住”基础设施|中国AIGC产业峰会

如果未来业务有可能在一个月内快速增长1倍,但我又不想为这部分波动提前支付,也不想等业务起量后再来慌慌张张临时准备,现在应该采用什么样的算力方案?目前大多数运营商很难有非常好的服务能力。 另一方面,训练和推理在延时和功能上的要求也是完全不一样的

推理要求反应速度非常快,运营商不能说请你等一下,等我把你的请求和别人的请求拼一起,一天之后再给你出结果。所以在算力使用技术上,训练追求高吞吐量和大批次处理的效率优化,而推理部署则要求低延迟、高并发和实时响应能力。若简单沿用传统算力优化手段,将难以满足用户对毫秒级响应、动态资源调度的需求,甚至可能因批量等待导致服务体验下降。

两者之间的差距最终导致实际使用中算力成本变高,成本压力传导到性能上形成瓶颈,最终性价比不划算,会进一步阻碍有应用能力的伙伴真正把AI技能用起来。

过去整个算力供给市场如果用当年城市化的例子比喻,供给侧更像是粗放式的 “高端毛坯房”,只能期待优质大客户“自带装修能力”包下毛坯房。

但现在市场要求算力面向更多创新应用伙伴,算力供给需要做到帮助他们快速落地创业想法,就像商户能轻松入驻“成熟商业广场”一样使用算力

无问芯穹夏立雪:让算力像水电煤一样成为标准化、高附加值的“拎包入住”基础设施|中国AIGC产业峰会

作为算力生态方,我们需要提供更专业化的服务能力和精细化运营能力,区别于以往算力供给只提供“算力毛坯房”,现在我们要在裸金属服务集群上叠加上运营交付能力、深度服务客户业务的算力服务能力,这才是我们在这个时代应强化的能力。

无问芯穹希望团结更多合作伙伴,集中加速能力,唤醒沉睡的算力。如何把不同地方的零散算力、异构算力统一成像水电煤一样“开箱即用、拎包入住”的标准化服务

我们一直致力于把裸金属升级成更好的一站式AI平台,面向AI开发者,甚至直接以大模型服务的方式支撑AI创业团队,最终让中国建设的强大算力更好地被下游AI应用使用。

让算力成为可“拎包入住”的基础设施

这部分最近我们也做了一些新的努力,取得了新的进展。

首先在最底层激活各种多元异构算力,面对中国特色的市场环境,将国产芯片及国内不同小算力集群进行标准化统一。

一方面通过软硬协同优化,让算法与硬件更好结合;另一方面让不同算力协同完成复杂大任务,从而“抹平”算力生态壁垒,以标准化方式使服务能力在应对弹性扩展和高性价比需求时更具支撑力。

最终我们希望大家享受到更加易用、更加廉价且性能更优的算力服务,这对性能提出了更高要求。

无问芯穹夏立雪:让算力像水电煤一样成为标准化、高附加值的“拎包入住”基础设施|中国AIGC产业峰会

大模型推理部署分为云和端两个场景,端侧在智能终端和硬件领域存在广泛需求,我们推出了名为SpecEE的加速技术。

简单来说,SpecEE能让同类型模型在终端运行得更快更好,以3B模型为例,不同结构和计算量分配会导致硬件计算效率差异,推理中可能存在大量算力等待与浪费,而该技术通过算法与硬件结构的深度匹配解决这一问题。

实测显示,在真实AI PC场景中,其加速比达70%至2倍以上,助力笔记本、手机等端侧设备更好地部署AI。

无问芯穹夏立雪:让算力像水电煤一样成为标准化、高附加值的“拎包入住”基础设施|中国AIGC产业峰会

视频链接:https://mp.weixin.qq.com/s/g0...

云侧则聚焦“省钱”,让相同算力实现更多产出。我们研发的推理引擎/框架针对大模型的Prefill(预填充)和Decode(解码)环节(简称PD),结合PD分离与融合模式,形成semi-PD方案,显著加速计算推理输出。

无问芯穹夏立雪:让算力像水电煤一样成为标准化、高附加值的“拎包入住”基础设施|中国AIGC产业峰会

从优化结果可见,直观体现了加速效果,这里面隐含了一些更深的技术。

同时,我们在计算和通信Overlap上也做了非常多的工作。

针对大模型参数庞大导致的计算与通信硬件数据传输等待问题,我们开发了FlashOverlap功能,通过触发式信号实现计算与通信的低成本覆盖,让硬件持续运行无闲置,使消费级与生产级显卡实现约1.5倍加速,有力推动多类推理场景落地。

上述后端技术旨在让客户更好地利用算力,同时,我们还推出系列工具与工具链,通过WorkFlow封装和托管服务降让产业用户更好地把AI平台能力直接使用起来。

以生图社区为例,开发者可将平时开发生图的工作流一键部署至生产环境,无需深入了解AI部署细节,我们以黑盒模式处理底层复杂操作,让开发者低成本将创意转化为稳定服务,一键调用算力能力完成应用开发。

我们在算力规模化使用、部署加速及易用性等方面进行了多重优化,并将能力整合为平台化服务,集成合作伙伴的优化成果,以统一平台助力创业者和行业快速拓展应用,避免算力成为业务发展瓶颈。

目前,这些能力已集成至上海及各地公共算力平台,为孵化器、创业者和本地企业提供支持。

最终,我们希望实现 “算力即生产力”让算力成为标准化、高附加值的“拎包入住”基础设施。算力像水电煤一样流入到千行百业,流入到千家万户


量子位
53 声望20k 粉丝

一家专注于人工智能与前沿科技领域的产业服务平台。