家人们,又有好玩儿的AI出现了——
火山引擎发布豆包·播客模型!
来来来,我们直接听一段:
音频地址:https://mp.weixin.qq.com/s/qZ...
如何?是不是有亿点点被惊艳到了?
两个AI的对话不论是语气、停顿、口语化,简直跟真人没有差别。
男生AI在讲解故事的过程中,女生AI会时不时穿插“嗯”、“没错”、“对”这样的词儿来应和。
我们甚至拿着这个demo问了一圈身边的人,他们竟然清一色没有发觉这是AI!
而且操作上也非常简单,咱们只需来到豆包PC版,打开文章的网页,一个点击“网页播客”的动作即可:
视频地址: https://mp.weixin.qq.com/s/qZ...
不仅如此,生成的速度也是极快,大约5秒以内就能搞定。
并且还是有字幕的那种哦~
除了豆包PC版之外,豆包·播客模型目前也已经在扣子空间(space.coze.cn)上线,我们还可以通过Prompt的方式来生成播客。
整体体验下来,除了“真人、AI,傻傻分不清”的特点之外,它还具备易操作、够实时、有观点等特性。
如此好玩的AI,我们必须安排一波实测了(文末有彩蛋哦~)。
万物皆可AI播客
例如在实时性方面,我们就拿微博热搜话题来测一下。
Prompt就是简单一句话:
帮我根据今天的微博热搜话题“亚朵酒店致歉”,生成一个播客。
音频地址: https://mp.weixin.qq.com/s/qZ...
对话的自然度依旧保持真人水准,但在这个热搜demo中,我们更能感受到的是AI有态度。
例如对话过程中,男生AI表达了这么一句:
他们这个回应啊,就是看起来很官方,但是其实并没有真正地解决这个问题,就是你只是说会核实会有专员处理。
但是,这个到底什么时候能解决或者说这个问题到底出在哪?其实,客人还是一头雾水。
虽然采取了一些措施,也获得了客人的谅解,但是他们在这个管理的环节上面确实还是存在一些漏洞的。
嗯,可以说是具备“实时热点讲解员”的实力了。
说到这个维度的能力,就离不开最近超火的苏超联赛:
帮我根据首届苏超联赛,结合赛事、网友热议点等,生成一个播客。
音频地址: https://mp.weixin.qq.com/s/qZ...
不得不说啊,关于这场赛事的独特性、纯粹性,以及江苏13太保们的梗,妥妥拿捏到位了。
那如果面对的是超长文本呢?豆包播客模型是否也能hold住?
来,有请大火的互联网女皇340页AI报告:
音频地址: https://mp.weixin.qq.com/s/qZ...
这一次,豆包·播客模型直接一口气生成了长达7分钟的音频内容。
别看这个报告长达340页,豆包·播客模型从话题角度,精准地将大纲分为用户增长、计算成本、全球竞争和行业影响等板块。
并且通过双人对话的方式,深入浅出地把每个板块关键信息点给讲解了出来。
所以,如果以后遇到超长的报告、论文或者小说,不妨丢给豆包·播客模型,先听听它讲的通俗版内容。
那么对于实时且开放式话题,豆包·播客模型的效果又会如何?
请听题:
根据《歌手2025》中单依纯演唱的《爱情沙拉拉拉》,生成一个reaction的播客。
音频地址: https://mp.weixin.qq.com/s/qZ...
不得不说,和网上很多乐评人制作的reaction视频的感觉颇为相似。
由此可见,不论是什么样的形式,豆包·播客模型都可以轻松hold住,是有种万物皆可AI播客的感觉了。
怎么做到的?
在听完效果之后,再来聊聊豆包·播客模型背后的技术;为此,我们也和字节跳动语音中台产品负责人郑炜明进行了一番交流。
首先需要强调的一点是,豆包·播客模型从技术角度来看并非是一蹴而就,相反,是字节跳动语音技术团队技术方面长期耕耘之下的产物。
具体而言,正是基于今年一月份发布的端到端实时语音模型,当时就已经取得了国内第一、媲美GPT-4o的成绩,甚至在中文语音交互上超越了GPT-4o。
“真正的端到端”,就是豆包·实时语音模型最大的亮点。
这种方式和传统的语音对话技术截然不同,是直接在语音模态上进行理解和推理。
而在此之前,业界比较常用的方法是一种级联的模式:
需要先将用户输入语音通过ASR(Automatic Speech Recognition,自动语音识别)转写成文本,再送入LLM生成对话文本,最后依靠TTS(Text to Speech,文本转语音)转成语音输出。
但它存在诸多不足,尚无法实现真人级别的语音对话交互,例如对用户情感及副语言信息的理解能力有限、语音情感表达不够自然、难以准确响应语音指令、系统延迟较高等。
而豆包端到端语音交互模型的框架实现了多模态输入和输出效果,极大提升了语音对话的效率和质量。
在预训练阶段,团队对各模态交织数据进行深入训练,精准捕捉并高效压缩海量语音信息;通过Scaling理念,最大程度实现语音与文本能力深度融合和能力涌现。
在这个过程中,模型学习到了丰富多样的输入输出模式,包括S2S(语音到语音)、S2T(语音到文本)、T2T(文本到文本)等,为后续的能力提升奠定了坚实基础。
在后训练阶段,团队使用高质量数据与RL算法,进一步提升模型的高情商对话能力与安全性。
团队精心筛选并整理了大量包含丰富情感的语音数据,涵盖各种场景与情绪状态,让模型学习情感特征;通过真实与高质量合成的语音对话数据优化模型,使其能够实现高情商共情式对话。
例如,当用户表现出不开心时,模型会以安慰语气回应;用户情绪高涨时,模型以快乐语气积极回应。同时,后训练阶段引入多种安全机制,对潜在非安全内容进行有效压制和过滤,降低安全风险。
由此,豆包·实时语音模型在多个维度上实现了能力上的突破:
- 拟人化情感承接:以情感表现力、理解、承接及拟人化语音为核心,通过数据收集、预训练及后训练优化,模型能深度理解人类情感。在亲子场景中,展现拟人化共情与角色代入能力,提供温暖陪伴,超越传统AI。
- 声音控制与情感演绎:支持复杂指令,实现专业级情绪切换与表现力。通过角色语音学习,可生动切换角色/状态,增强交互趣味与沉浸感。方言/口音表现体现强大泛化能力。
- 智商与表现力平衡:深度理解用户输入,输出真实有用且表现力逼近真人的语音(含副语言特征)。通过多模态数据优化与动态评测维持平衡,并支持实时联网获取最新信息。
- 丝滑交互与超低延迟:联合建模语音生成与理解,提升生成准确性与自然度,同时优化打断/判停能力,实现真人级流畅对话,解决级联系统延迟问题。
我们可以通过下面的这段实时对话的例子来感受一下:
视频地址: https://mp.weixin.qq.com/s/qZ...
豆包·播客模型背后的技术,是基于端到端的实时语音交互模型进行的场景拓展,具备强大的文本理解与高表现力语音生成能力。
为了营造出逼真的双人对谈感觉,团队对大量播客内容进行了细致的体验拆解,分析真人对话的节奏、自然度、信息密度以及口语化表现等维度,并找了专业的播客内容创作者进行充分碰撞和优化,在后续数据生产、模型效果、评测标准上进行了细致打磨。
在端到端语音交互模型的预训练环节,字节跳动语音技术团队还添加了大量语音跟文本充分对齐的数据,让模型学习到正常人交互的模式以及在播客题材下应采用的语音播报形式。
在SFT(Supervised Fine – Tuning)阶段,团队基于数据生产层面进行精细的内容微调,针对想要的风格进行上层调整。通过大量细致的标注,使模型能够理解如何让整个听感更像真人,从而在播客场景下激发出具体效果。
除此之外,豆包·声音复刻模型方面也进行了框架的升级。
以往行业内的复刻模型虽能通过少量Prompt输入复刻用户声音,但只能学到 “形”,难以学到 “神”。
豆包·声音复刻模型不仅能复刻音色,还能根据对话上下文给予更加动态的回复,在情绪层面进行匹配,甚至能够让复刻声音实现原本发音人不能实现的能力,如唱歌、唱Rap等,使声音更加拟人、灵动。
音频地址: https://mp.weixin.qq.com/s/qZ...
据了解,豆包·实时语音模型即将在马上到来的火山引擎Force大会中全量上线;更多播客的玩法也会陆续在豆包PC版中上线。
总而言之,火山引擎在AI语音上的发力,尤其是豆包·播客模型,不仅仅是增添了AI新玩法,更是可以更高效、更个性化的通过“听”获取信息,同时把音频创作这件事的门槛再次打了下去。
One More Thing:
最后,我们还将这篇文章“投喂”给了豆包·播客模型,让它自己对自己做了一期播客。
来听一下效果吧~
音频地址: https://mp.weixin.qq.com/s/qZ...
扣子空间的体验地址放下面了,目前豆包PC端也能体验“网页播客”的功能,感兴趣的小伙伴快去感受一下吧~
扣子空间地址: space.coze.cn
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。