网易云商冯旻伟：“大模型是下一代信息系统的大脑”

编者按

AIGC时代，大模型在智能客服领域的应用一直备受关注，其不断演进的技术给用户体验和业务效率带来了全新的可能性。

近日，我们有幸采访了网易云商AI技术线的负责人冯旻伟，深入了解了他们在智能客服方面的创新和实践。从文字交互到语音交互，AIGC的应用正在为用户提供更智能、高效的服务。在未来，随着大模型的多模态能力持续完善，AI将为智能营销与智能客服业务注入更多活力。

以下是这场专访的一些精彩片段，一同探讨AIGC在智能客服中的发展现状、技术演进与未来展望，稿件分为以下四部分：

1.文字or语音交互，孰易孰难？

2.被告知机器人身份后，语音的拟人化还有意义吗？

3.多模态的智能客服何时成为现实？

4.GPU资源受限，如何完成模型训练？

采访对象/冯旻伟

策划、编辑/李美涵

采访对象

冯旻伟，2017年加入网易，担任网易云商AI技术线负责人，负责自然语言处理和语音算法能力建设及产品赋能。拥有十余年AI算法行业从业经验，曾就职于德国亚琛工大人类语言研究所、IBM Watson 实验室、阿里巴巴达摩院。拥有丰富的工业界AI项目经验，参与的项目领域包括AI原子能力PaaS服务、企业SaaS、智能语音导航系统、智慧屏、车机交互系统等。

1 文字or语音交互，

孰易孰难？

”

LiveVideoStack：旻伟老师好，在访谈开始时，请简单介绍一下自己和您团队目前专注的产品及业务吧？

冯旻伟: 你好，我目前在网易云商担任 AI 技术线负责人。网易云商是网易智企旗下的服务营销一体化平台，整合云计算、大数据、人工智能等技术，形成了七鱼智能客服、智能洞察、私域增长三大产品体系。

从技术角度来讲，研发工作主要是两个方向：1. NLP （编者注：Natural Language Processing ，自然语言处理）；2. 语音，对应到产品形态上分别是文本机器人和语音交互机器人。

从业务角度来讲，我们为企业提供服务营销一体化的 SaaS （编者注：Software as a Service ，软件运营服务）服务，包括例如智能客服、智能外呼、问卷调研。

LiveVideoStack：您在做文本和语音交互机器人时，技术上有什么不同或者是偏重吗？哪方面遇到的技术挑战会更多一点？

冯旻伟: 挑战的话两者都有，但直接比较难度不太合适，因为它们两个不是一个维度上的事情。

NLP 的核心任务或者说技术难点是消除歧义与意图理解。另外客服场景文本机器人的知识提取与表征往往是一个难点。智能客服需要代替人去回答问题、处理投诉，这些都需要知识，在这个过程中要根据特定行业与客户的需求进行知识提取并转化为软件系统可处理的形态。在实际应用落地过程中，这往往是一个难点。

语音方面的挑战主要在于系统的鲁棒性。在现实中，输入的语音不可能都是清晰普通话，各类方言，口音轻重，不同环境的噪音，性别年龄，录音设备等因素都会显著增加语音信息的处理难度。

LiveVideoStack：那我们先来聊一聊语音交互，我比较好奇的一个点，在您进行模型训练的时候，方言理解的这个问题是怎样进行解决的？

冯旻伟:方言是个挺复杂的问题，我们可以分情况来看。

有些方言本质上是另外一种语言。比如藏语、维语，它和普通话是完全不同的两种语言。这种情况下通常是独立搭建一套该方言的语音识别系统。

还有些方言，接近普通话，大家都能听懂，比如中国北方的一些方言。这种情况下方言问题更多表现为口音的变化，那么我们可以通过搜集范围更广的训练数据来提升系统的处理能力。

相较而言，实际中第二种情况更普遍，一则社会进步，大家的普通话越来越标准，大家对在正式场合讲普通话也形成共识；二来单独建一套方言处理系统的成本很高。

目前AI正朝着通用人工智能的方向发展，最新的技术会把多种方言甚至不同语种放在一个大模型里统一处理。

LiveVideoStack：当作为“新语言”的方言模型训练完成，比如说理解藏语的模型，在真正投入使用之前会经过哪些步骤，才会上线？

冯旻伟:跟普通话是一样的。采用多种手段，包括外部采购，内部标注，TTS 生成，现有系统伪标签等手段构建训练数据，精准标注业务场景的测试数据。然后就是模型训练与评估，在测试数据上的准确率符合要求后会进行性能方面的测试。在测试数据的识别正确率方面，我们会设置一个需要达到的预定要求。这个要求是根据应用场景来设定的。通常取决于下游应用场景，要求不高的场景， 85% 正确率就可以了。有些复杂场景，比如涉及多轮对话的语义理解，有时候正确率要到 95% 以上。

达到预定要求后，就会开始上线流程。这方面 Web 服务已经有比较成熟的方案来实现高可用。

2 被告知机器人身份后，

语音的拟人化还有意义吗？

”

LiveVideoStack：大家在生活中，已经开始接到很多由智能外呼拨打的电话了。有一个问题是，我们很容易辨别出电话另一端的是 AI 而非真人。我们应该如何平衡 AI 技术和用户服务的问题，避免用户产生负面情绪或是被打扰的感觉？

冯旻伟:首先，这涉及到监管的问题。就目前的监管态势来看，AIGC 生成的内容应该告知用户该内容的生产者是 AI，这是一个大的趋势，也是总体性的要求。无论是算法生成的文字、声音还是图像，或者是算法驱动的机器人，未来大概率会强制要求告知用户。

对于智能外呼场景，最合适也是最方便告知用户的方式是通过提示词，比如大家接到的（智能外呼）电话，在对话开始时，它就会告诉你，“我是 XX 公司的智能助理”。之所以现在没有百分之百做到这一点，是因为这些提示词通常是客户自行设置的，实践中监管还有一定的难度。但是 AIGC 和相关政策的完善都是一个进行时的状态。因此你说的很容易辨别出是 AI 而非真人应该是一种正常现象，是监管的要求，本来就应该如此。

其次，一个电话打过来让你产生了负面情绪或者觉得被打扰，我想更多的可能是两种情况：一是你不想接到这个电话，你不想去沟通，但电话还是打了过来，特别是在你挂断后反复打来，带来骚扰的感觉；二是你其实有需求，比如这个需求是想投诉，买东西或者参加活动，但经过 AI 的电话沟通，并没有解决问题，让你产生沮丧感，觉得浪费时间。

这背后的原因也是两方面的。首先还是在技术上， AI 的意图理解能力不足。算法可能没有正确理解意图，特别是需要结合上下文来理解你的回复或者你的回复中包含多种意图的复杂场景。另外，则是涉及到业务上的回复逻辑。例如说你需要退货，但是机器人一直在兜圈子，真实的原因可能是商家原本就是不想为你退货，只不过选择用个机器人来搪塞你。极端情况下，这个电话本身目的就可能涉及诈骗或者其他不合法活动。那这种情况本质上是一个业务问题或合规性问题而不是技术问题，是电话的发起者设计的业务策略原本就是这样子。

LiveVideoStack：了解。在进行智能语音技术演进的时候，团队在语音的拟人化方向上有多少的投入，您是怎么看待这个问题的？

冯旻伟: 业界对 TTS （编者注：语音合成技术）的评估主要采用 MOS 打分方式，这个分数包含了拟人性，连贯性，韵律感等多方面的因素。通过持续不断的投入，云商目前使用的 TTS 的 MOS 分数是 4 分以上（中国信通院 CAICT 评测数据，满分为 5 分）。

另一方面也涉及到了之前讨论的监管。如果所有的智能语音机器人都强制要求显著提示自己的非人类身份，那么相对而言在客服场景，拟人化的要求是可以降低一些。但是在另外一些场景，比如娱乐、短视频、电影配音等场景，对拟人化的要求可能还是很高，那些场景下的基本要求是越像人越好，达到以假乱真的程度。

还有一些场景下，会有音色的定制化需求。比如说游戏、社交娱乐、导航等一些场景，有时会希望播放声音接近某位明星，产生某种娱乐性效果，这种情况下当然 TTS 的音色越接近目标对象商业效果越好。另外当你的用户群体比较明确时，可以通过技术针对性地设计一些音色。例如用户以女性群体为主，可能希望听到有磁性的男性的声音。目前最先进的技术，基于比较大尺寸模型、深度神经网络的，生成语音的效果已经达到优秀水平。

3 多模态的智能客服

何时成为现实？

”

LiveVideoStack：根据您的观察，就目前的智能语音技术的发展现状来看，未来可能进行技术突破的方向可能有哪些？

冯旻伟: 经过很多年的发展，智能客服的技术框架已经趋于稳定。语音交互从流程上看，信号进来后会先做语音活性检测（编者注：目的为检测语音信号是否存在），区分语音片段和非语音片段，接着语音片段经过语音增强提升语音质量，降低噪声干扰。然后，信号送入语音识别进行解码，语音识别一般也包括预处理，特征提取，语音编码，文字解码几个大的步骤。识别出来的文字，再输入到 NLP 模块去做意图理解和对话交互管理。传统的方法意图理解和对话管理是分离的。

商业上看明年很可能有两个爆点：AI Agent 和多模态。传统语音交互架构经过这些年的发展，已经非常成熟。接下来如果有什么大的变化，可能就要换到整个架构上来看，升级成为所谓的 AI Agent 。这是最近非常火的概念。AI Agent 强调自主性和主动性，把意图理解和系统动作以及环境的反馈结合起来交由大模型统一处理，并且通常会使用很长的记忆。核心技术挑战还是大模型本身的能力，特别是处理长输入的能力。另外一个维度就是你说的多模态。

用户的输入方面，除了文字以外、还可以接受语音和图像。系统能够根据你的指令对整体输入信息进行理解。多模态大模型是通向通用人工智能的必经之路，随着这个方向的成熟，会有越来越多的机器人出现在我们生活中。

LiveVideoStack：刚才您谈到了多模态。我们知道先进的大模型已经具备了多模态能力，例如 ChatGPT 4.0 ，用户向 AI 发送一张自行车的照片，AI 可以根据照片识别关键的零件并指导用户维修车辆。您刚才也提到了文本、语音的交互，在向多模态演进的进程中，智能客服的图片交互是一个方向吗？

冯旻伟: 智能客服的话现在图文结合的方向还是比较看好的，因为大量的知识还是以视觉信息存在，如果访客问题的答案存在于或者部分存在于视觉信息中，那么需要系统具备图文信息的统一处理能力。另外一个是文本和语音的多模态，比如不转化成文字，直接对语音进行内容检索或者情绪识别。最终这三个通道，视觉、听觉与文本肯定还是会融合在一起的。这样才能实现更高级的应用，例如人形机器人来做客服。

LiveVideoStack：考虑到智能客服增加图像识别甚至是编辑的功能，必然要增加现有模型的算力成本，您觉得未来多久会有这样 To B 的 SaaS 产品出现？

冯旻伟:会很快，我们已经尝试针对家电、汽车等产品，增加智能客服文档问答的能力，文档经常自带图像信息，特别是各类产品说明书中通常包含大量图片，这些图片也往往是访客问题的答案的一部分。还有很多场景包括很多结构化的图片信息，比如你想做人员查询系统，那么系统如果能直接处理名片信息会效率很高，或者你的客服系统用于医院检查报告的问答场景，图片信息的处理也是很自然的需求。目前处在逐渐铺开使用的阶段，速度会很快的。因为能大幅提升效率，需求还是很旺盛的。

4 GPU资源受限，

如何完成模型训练？

”

LiveVideoStack：我们说回文本交互，您提到智能客服的一大难点在于知识处理。所以想请教您，因为智能客服的实际工作中会遇到不同的行业、不同的应用场景，您是怎么看待如何优化大模型以匹配客户需求的这个问题？

冯旻伟: 这肯定是一个本质的要求, To B 赛道本来就是要面向不同行业服务的。

优化的思路之一是做垂直领域的大模型。如果客户比较集中在某个特定行业，我们可以定向地去收集一些高质量的数据，然后进行标注（标注这方面的负担可能会比较大）。标注完成后对大模型基座模型进行微调训练，微调后的领域模型会很像该领域的专家。同时训练数据的文风会比较符合客服行业的规范，微调后的模型会像一个真人客服那样说话。

另一个思路是直接借助 prompt 进行所谓的 in-context learning 。因为大模型的能力越来越强，可以处理的输入信息长度也越来越大（虽然对应的就是运算成本的上升，但是我们姑且不考虑这部分）。大模型在理论上可以处理几万字、甚至数十万字的输入，这样子的话完全可以将领域信息直接作为输入 prompt 的一部分。例如 HRSSC 场景，你可以把整个公司的规章制度，员工守则之类的信息作为 prompt 直接输入，这些所有的相关信息都可以是领域知识。AI 最后根据以上提供的全部信息，来回答这个问题，也是一种优化方案。

第三种思路是设计成 AI Agent 。AI Agent 具备自主搜索查找领域知识的能力，并根据查找结果调用大模型进行分析和总结，形成最后的答案。用的比较多的检索增强生成就属于这一类方案。

LiveVideoStack：引出下一个我们比较关心的问题，如果要取得商业收益的话，我们就必须要进行算力上的节约。如果模型的参数变得很庞大的话，如何平衡我们的商业上的盈利？

冯旻伟: AIGC ，包括整个大模型从去年 12 月底 ChatGPT 出来引起全世界关注以后直到现在，总体上还处于投入期。一般的理解，哪怕是 OpenAI 自己都还没有赚到钱。

这是一个大的背景，另外无论是知识界还是资本界目前都盯着 AI，因为有大量优秀的人参与其中，这必定是一个急速变化的领域。总体上大家目前关注更多的是 AI 的效果，特别是通往 AGI （通用人工智能）的进展，而非即刻去实现商业变现。而且国内目前有个更加特殊的情况，（英伟达的）高性能 GPU 被美国“禁运”了。要等国产的平替，例如华为等厂商的芯片出来，特别是能量产，才能（解决芯片紧张的问题），这部分的压力其实是非常大的。最先进的 GPU 我们用不到，所以想训练更大的模型变得非常困难，整体研发进展受到很大影响。国内各家公司都是这个情况。但从 AI 自身发展规律来说，根据国内外理论分析和实验结果，模型都必须向“大”的方向发展，模型参数量大、训练数据量大。然而这两个“大”的实现都要求有对应的强有力的硬件支撑。

LiveVideoStack：在面对芯片“卡脖子”导致的训练资源受限，您是怎么解决技术上遇到的种种障碍？

冯旻伟: 资源和预算是有限的，现实中总是根据现有条件去搭建最好的实验环境。换句话说，有多少投入你就能撑起多大的模型。在一定范围内，我们可以尝试一些降级方案，比如，以前是打游戏用的消费级显卡，现在在很多地方已经被拿来用于大模型推理甚至训练了。

技术上比较普遍的降级方案是量化与算法魔改。量化现在也是一种算法，不是简单地把所有参数的精度降下来，是需要通过算法去计算，哪一些参数相对不那么重要，把精度降下来，到 int4 甚至更低，而那些重要的参数还是需要保持着高精度，比如 FP16。这些最新技术能够把模型对显卡内存的要求显著降低。

但如果说要做一些高阶的应用，需要逻辑推理，需要能处理很长的输入，那么还是要把模型的参数量提上去，就仍然要面临比较被动的局面，这点确实是卡脖子的，绕不开。

LiveVideoStack：底层的算力也好，大模型的演进也好，纵观整个 AIGC 技术生态的完善，您觉得大概需要多少年？

冯旻伟: 这个如果放眼全球的话，从硬件到软件，已经比较成熟，同时新技术与新模式层出不穷，所以也很年轻。全球范围，大家担心不是 AI 发展太慢，而是太快，让很多人心生恐惧。但是算力的话，主要就国内的情况来讲，我个人认为国内最好的量产芯片比“禁运”的高端芯片，比如英伟达的 H200，差个两代左右。我们也都清楚国内的厂商在夜以继日地追赶，这方面还是要有一点耐心的，等到国内的芯片达到世界一线水平，那么目前的一些问题就迎刃而解了。大模型说到底还是卖算力。

LiveVideoStack：所以没有一个相对明确的可以展望的期限？

冯旻伟: 时间的话，现在分析也比较多，可能会是三到五年的尺度。许多观点认为 3 至 5 年后的国产 GPU 的问题有望得到根本性解决。但是这里还有一方面因素，我们一直在聊技术，忽略了商业方面的考量。预设最终 3、5 年后我们能生产出最先进的芯片，但对于国外厂商来说，可以在这段时间内占领世界范围内的市场，而国内的企业由于模型的质量还是有差距，产品缺乏竞争力。等到我们解决了芯片问题，研发出最好的模型，想要卖到世界上去的时候，发现竞争对手已经都把这个市场抢占了，如何翻盘就会变成一个很有杀伤力的难题。所以我希望不需要 3-5 年的时间，应该在更短的时间内解决芯片问题，这也是关乎这次科技革命我们究竟是主导者，参与者还是看客，关乎国运的。

网易云商冯旻伟：“大模型是下一代信息系统的大脑”

1

文字or语音交互，

孰易孰难？

”

2

被告知机器人身份后，

语音的拟人化还有意义吗？

”

3

多模态的智能客服

何时成为现实？

”

4

GPU资源受限，

如何完成模型训练？

”

LiveVideoStack

引用和评论

AIGC时代下阿里云视频云媒体内容生产技术实践

三分钟掌握音视频处理 | 在 Rust 中优雅地集成 FFmpeg

三分钟掌握视频分辨率修改 | 在 Rust 中优雅地使用 FFmpeg

CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛全球第一

三分钟掌握音视频信息查询 | 在 Rust 中优雅地集成 FFmpeg

【harmonyOS NEXT 下的前端开发者】WAV音频编码实现

什么是抖动以及如何使用抖动缓冲区来减少抖动？