2025,当AIGC技术进入全面落地阶段,Agent为核心的智能应用成为行业发展新焦点,一个关键瓶颈问题浮出水面:技术虽然可行,但成本过高限制了大规模普及。
在第三届AIGC产业峰会上,PPIO派欧云联合创始人兼CEO姚欣提出了“让免费成为可能”的产业命题,直面当下AI应用面临的最大挑战。
他以移动互联网发展历程为镜鉴,指出AI行业同样需要经历一场“提速降费”的洗礼,才能真正实现应用爆发。而要实现这一目标,需要在三年内完成“千倍降本”的行业壮举。
这不仅是一个愿景,更是PPIO正在用技术落地验证的发展路径。在全球Token消耗量呈指数级增长的背景下,如何用创新的技术架构实现成本的大幅下降,或将决定整个AI产业能否真正迎来普及之年。
为了完整体现姚欣的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。
中国AIGC产业峰会是由量子位主办的AI领域前沿峰会,20余位产业代表与会讨论。线下参会观众超千人,线上直播观众320万+,累计曝光2000万+。
话题要点
- 2025年行业焦点已从大模型本身转向应用落地,特别是以Agent为核心的应用体系发展。
- 虽然技术上可行,但智能体任务的Token消耗比传统对话高出数百甚至上千倍,导致成本大幅增加。
- 中国互联网用户习惯了免费模式,约95%的用户不愿意付费,这对AI应用普及提出了严峻挑战。
- AI时代需要提速降费,类比移动互联网发展过程,行业需要实现“三年千倍降本”才能促进大规模普及。
以下为姚欣演讲全文:
Agent落地成本百倍增加,中国付费用户习惯难买单
谢谢各位,很荣幸能够来参加2025年AIGC的产业峰会。我今年的演讲主题就是“免费”,让免费成为可能。
2025年大家好像形成了一致的观点:如果去年还在讲大模型、应用能力等,可能今年整个行业的关注度都开始转向到应用落地,而这里面也在展望着下一代的应用体,特别是以Agent为核心的整个使用、发展、落地,这可能是2025年我们行业内最关注的领域。
年初一系列新的应用,从DeepSeek的出圈到Manus的落地,我们也能看到一点AI应用落地曙光,但其实成本是不可忽视的存在,也是应用落地时代我们必须得面对的一件事情,技术上能达成,但是不是能不能大规模使用,成本非常关键。
为什么会有这样的变化?同样都是基于这些模型底层能力,但今天我们要想做一个智能体,完成一次智能体的任务调用,它所需要使用Token的数量,比之前做一次文字的对话,这个数量可能提升了上百倍,甚至上千倍之多。
左边这张图也是上个月中旬的时候,英伟达GTC大会,黄仁勋演示的图像,他讲的是reasoning模型,比如像DeepSeek的R1这种模型,它去回答一个问题,它需要消耗Token的数量是传统LLM模型将近20倍之多,这仅仅只是回答一个简单的问题。我们试想智能体是要代替人去执行很多的网页的读取、任务流的拆解,还做很多逻辑的分析和判断。由此可知,整个Agent任务体的消耗也是非常夸张的数字。
右边这张图我们看到了很多reasoning模型,因为今天智能体的底座很重要是要看这些reasoning模型的使用成本。
在这之中,价格最低的DeepSeek也要达到88美金,最高的OpenAI的API要再贵几十倍以上。巨量消耗必然带来成本提升,这也很正常,因为今天要想获得更好的效果总得有所付出。这让我想到在20年前做PPTV的时候,那个时候面临最大的问题——当年的互联网还停留在文字门户时代,主要是用于大家看看网络新闻。当你要用视频的时候,你发现最大的瓶颈是基础设施,基础设施根本跟不上应用的发展。我觉得今天的应用开发者应该有类似的感受。
第二个原因,我们来看看需求侧、使用者的心理。我自己也是一名普通的用户,曾经是一名知名APP的开发者,我觉得最后必须屈服的一件事情是中国互联网用户的使用习惯已经被固化了。再准确讲,我们的胃口已经被养得非常刁钻了,“免费”基本上是过去20年从PC互联网到移动互联网,中国互联网愿意接受大规模应用的一个前提。
即使在移动互联网时期,开始有很多的付费模式,内容付费、知识付费。如果你放到亿万的用户群体,做一个Super App的话,你会发现真正的付费用户还是少数,可能只有3%~5%,95%以上的用户使用免费的商业模式——通过看广告、或者使用上面一些增值业务,这种方式去使用,这可能是主力。即使在我们公认最强劲的内容领域、游戏领域,付费率依然如此。
只有AI基建提速降费,才能助推Agent大规模使用
今天大家都在关心AI应用能不能普及。我觉得AI应用普及的一个前提是,我们必须让95%以上的用户免费使用AI。这样用户行为才会是真正大规模使用的用户行为。
2025年中国AI应用要怎么迎来爆发?背后关键是:AI时代需要提速降费。
提速降费,在移动互联网时代,就是一个非常重要的名词。我们的互联网,包括手机的资费流量,经过了国家主导多年的提速降费。
在2014年,想要使用移动流量,在手机上看个视频、新闻,当时1个GB的流量成本达到了上百块钱。到了2021年,整个成本实现了90%+的下降,降到了以前的个位数。
这件事情极大助推了整个移动互联网的普及,移动互联网的使用流量也实现了数千倍的提升。
基础通信资费的提速降费过程中,一系列应用迎来爆发,走到了今天。这是移动互联网的经验。我觉得今天AI的应用普及也得经历一个类似的过程。
斯坦福刚刚发布的AI报告里提到,以2022年推出的ChatGPT-3.5为例,到了2024年,Llama-3.1的8B版本已经可以与之打平,整个使用成本也从当时的20美金降到了现在的7美分。
从这样的数字比例来讲,同样性能的模型在这两年多的时间里面,整体使用价格大概降到了原来的1/280。这个指标挺惊人的。
但值得关注的是,今天模型的性能还在不断提升,单位模型或者任务里面的token消耗,在成千倍、上万倍地同步增长。这样的情况下,我们意识到,成本还需要下降得更多。
PPIO认为,这个行业平均每一年同类模型的性价比,或者说使用成本,要降至上一年的1/10。从去年开始,我们看到的是未来三年千倍降本的趋势,280多倍,才只是走到了半山腰。
软硬一体化才能实现千倍降本
这里让我想到了乔布斯,乔布斯在2007年推出第一代iPhone,引用了硅谷先驱Alan Kay的一段话:那些真正热爱软件的人,总会设法打造自己的硬件。
我们想想2007年诞生的iPhone,那是第一台真正意义上的智能手机,同等性能的智能手机能大规模普及要等到几年以后,为什么2007年就能够诞生一个超出当时时代的智能手机?最重要的地方是苹果这家公司,它不仅仅做硬件很优秀,做软件也很优秀,更为难得的是能实现软硬一体化。由此,它能领先安卓阵营四五年,推出一款足够震撼的智能手机。
对应来看,今天如果要想实现AI大规模应用和大规模的降本,今天的AI Infra公司必须要成为最懂上层模型和应用的底层的硬件基础设施公司,这就是PPIO的定位,我们要成为性价比最高的Infra公司,我们要为这个行业带来极高弹性的性价比。
当然我们也把整个业务类别和技术栈不藏私地给大家做介绍和分享,介绍一下我们怎么看今天的AI降本。
当下AI降本不仅只是简单的某一个软件技术,做模型压缩、使用一整套开源推理框架,或者说具备充足算力、买到了最先进的卡。仅仅实现这些单项能力不足以让你实现千倍的降本,要实现它必须具备端到端全栈能力。
目前迭代最快的应该还是上层模型、软件,我们团队在两年多前开始追踪第一代开源大模型,持续跟进和积累。PPIO也跟一系列的主流开源推理框架,包括vLLM、SGLang等达成了战略合作。我们也在开源的肩膀上进行更多的模型的整合。最近推动包括将DeepSeek向主流开源框架进行融合,让更多开源模型跑在更多的开源框架,适配更多硬件,实现成本进一步地优化。
仅仅只是实现模型的推理加速还远远不够,今天你要实现大规模的用户调用,用户的需求是从全球各地、全国各地,海量弹性产生的,根本无法预知哪里流量多,哪里流量少。
这意味着必须有一整套全局分布式的算力调度系统,而且这种算力调度系统应对的可能是海量用户请求,千万级、甚至上亿次用户请求在快速产生。
今年年初当大家在过春节的时候,我们这一系列云公司过了很多个不眠夜,DeepSeek-R1选择春节期间发布,把我们所有工程师难倒了。而且春节期间内,DeepSeek自己的官方应用,七天时间实现了1亿次用户下载。但是我们也看到它的官方应用遇到了巨大挑战。基本上每天到了下午和晚上的时候,这个服务是不可用的。后来从DeepSeek官方公布的流量图可以看到,几乎全天流量都是100%占满。100%的使用率意味着什么?意味着可能大量用户请求已经被丢弃掉了。
我们团队脱胎于4.5亿用户的APP,有10多年的云和大规模应用的服务经验。所以PPIO利用大型弹性能力、公有云能力和分布式算力调度网络,在春节期间,在平台上实现了商业托管DeepSeek服务99.9%的可用性。这在行业里面来看是保持绝对领先的。
这一系列能力的实现,也离不开底层的资源和积累。跟大多数的云计算公司都是自建的数据中心不一样,PPIO派欧云的定位是去跟大量的数据中心闲置资源进行对接。
我国是一个基建大国,数据中心的数量可能是全球之最,大量的城市,甚至包括很多企业都建设了大量的数据中心、智算中心。这些智算中心的平均利用率只有50%左右,甚至更低。
所以PPIO不生产或者不用制造更多的算力,我们会去跟今天已有的算力提供方对接,把他们的闲置算力和未充分使用的算力融合进来。现在我们已经对接了4000+算力节点,覆盖1200+城市,可以给全国用户提供10毫秒的算力响应。
我们也在上层实现了优化和降本的策略,包括刚才提到的算力的分时调度、分区域调度,将更多东部的请求调度到能源价格更加低廉的中西部地区,包括在一个省内进行调度、一个市内进行调度,将更多的需求调给这些闲置的资源。
其次我们也会利用好今天大量的硬件。做推理跟做训练,对算力的要求截然不同。我们希望最快速完成训练,一定用最先进的卡、最好的服务,千卡万卡并联。但是做推理,很多时候是单机就可以实现的。即使是DeepSeek(671B)这样的模型,两台服务器、16张卡也可以实现最基础的推理。
因此大量老旧的训练卡,比如像A100等,其实可以用来做很好的推理。如何去挖掘这些今天还在发光发热的老旧硬件,把它的性能用于更优化的推理,也是我们重点攻关的方向。
基于这样的特性,我们能看到在过去两年时间,PPIO派欧云提供的整个AI推理服务,每一年都能实现9-10倍的成本的下降。
最后讲一个案例,也算是我们整个成本下降的曲线,比如以去年6月份发布的Llama-8B模型为例,刚上线的时候我们定价是0.1美金,到去年年底,价格已经降到了4分钱,差不多在未来两三个月内会降到1分钱,一年时间里面将它的使用成本打到1/10。
在这样的能力下,我们也支持非常多的Super APP,为海内外很多优秀的应用和AIGC开发者提供服务。包括我们跟著名的招聘网站、做小说推文的APP进行合作,也大幅降低了他们的使用成本。同时也支撑住了百万、甚至千万用户级的涌入和增长,实现了成本和增长的平衡。
到今天我们平台每天Token消耗量已经突破了千亿次,而且每个月还在保持超过50%的增长。
我相信这张图也会像移动互联网早期一样,在未来3年画出非常陡峭的曲线。PPIO也希望凭借努力能让免费的行业模式走到更多AI应用企业里去,通过三年千倍的降本开启AI时代的提速降费。
谢谢大家!
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。