腾讯推出端到端语音通话模型「混元 Voice」，1.6 秒响应；实时转录工具集体爆发丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01 有话题的技术

1、腾讯混元 Game：工业级 AIGC 游戏制作引擎发布

腾讯混元发布游戏视觉生成平台，即一站式 AIGC 游戏内容生产引擎，同时推出面向工业级游戏资产生成的 AIGC 系列大模型 Hunyuan-Game。

现在，腾讯混元游戏视觉生成平台已有四大能力上线：AI 美术管线、实时画布、AI 2D 美术（包括文生图、图生图能力）、专业角色多视图生成。用户可快速将灵感概念产出为高质量的图片、3D 建模多视图。比如实时生成设计游戏角色形象、对草图和黑白稿一键上色，还能生成各种特效风格和修改材质等。

除此之外，混元游戏视觉生成团队表示，还有更多正在内部研发和测试的能力暂未上线，本次以技术报告的方式面向行业详尽展示和分享了一系列游戏图像和视频视觉生成大模型。

腾讯混元 AI 官网： https://hunyuan.tencent.com/game/home （@量子位）

2、谷歌 Veo 3 首次实现音画同步

5 月 21 日，谷歌正式发布 Veo 3。一句提示词就能 AI 打造电影质感短片，还能通过文本实现原生的音画同步生成。Veo 3 不仅能生成高质量视频，还能理解视频中的原始像素，自动生成与画面同步的对话，同时还能精准捕捉画面情绪，渲染氛围音效。

长提示词理解与事件流生成方面，Veo 3 同样出色。Veo 3 能理解长句子，完成一个完整、时间有序、逻辑清晰的小片段。生成的视频能够包含动作变化、对白插入、镜头切换、logo 渐隐等。

目前 Veo 3 仅面向美国 Ultra 订阅用户开放，定价为 249.99 美元/月。这是谷歌专为专业创作者、开发者推出的高阶会员服务。（@机器之心、@量子位）

3、腾讯新推出端到端语音通话模型——混元 Voice

5 月 21 日，腾讯新推出端到端语音通话模型混元 Voice，该模型能够实现低延迟语音通话，相比级联方案，响应速度提升超过 30%，降至 1.6 秒，拟人性和情绪应用能力也有明显提升，目前已在腾讯元宝 App 灰度上线。实时视频通话 AI 体验也将在近期推出。

腾讯云副总裁、腾讯混元大模型技术负责人王迪表示，混元正加速向智能化的深度与广度迈进，为 AI 普惠与产业升级提供坚实支撑。混元坚定拥抱开源，持续推进多尺寸、多场景的全系模型开源。（@腾讯混元）

02 有亮点的产品

1、Inkr 2.0（华人 Builder）：集成实时转录与智能搜索的生产力工具

（图片来源：Inkr 官网）

Inkr 2.0 是一款实时智能转录工具，通过 AI 将音频快速转化为结构化笔记并实现智能搜索。其核心价值在于整合实时转录、语义分析和知识管理，提供端到端的内容处理工作流。目标用户主要为记者、内容创作者及高频会议参与者，解决传统转录工具延迟高、信息碎片化及检索效率低的痛点。产品通过无需注册的即时使用模式和 50%折扣策略降低体验门槛。

核心功能亮点包括：

毫秒级实时转录引擎，支持多语言混合输入；
AI 增强的智能笔记模板，自动提取关键词并生成摘要；
跨会话的语义搜索系统，支持自然语言查询历史记录。差异化优势体现在将「转录-编辑-检索」全流程压缩至同一界面完成，相比传统工具减少 3个以上操作环节。用户体验设计强调零学习曲线，通过浮动控制栏和智能快捷键实现单手操作。

团队信息：据领英公开信息，Yifei Gao（Kaylee Gao）是 Timeless Lab 的 UX 设计主管，深度参与了 Inkr 2.0 的产品设计与上线，负责用户体验优化和产品迭代。曾在阿里巴巴集团担任 UX Designer，负责饿了么零售业务的 To B 产品体验设计。

链接：https://inkr.app（@Z Potentials、@Product Hunt）

2、字节 Pippit AI 登顶 Product Hunt，支持 AI 视频生成、数字人、产品图设计等

Pippit AI 是字节跳动推出的一款面向营销场景的 AI 智能内容创作平台，最近在 Product Hunt 榜单登顶。这款产品整合了多种功能模块，包括 AI 视频生成、数字人、产品图设计等，几乎覆盖了营销内容创作的所有环节。

从功能上看，Pippit 集成了多个领域顶级产品的核心功能，例如 VidAU 和 Creatify 的「Link to Video」功能、HeyGen 的数字人生成能力以及 LinkFox 的产品图工作室等。尤其值得一提的是，Pippit 能解析更多电商平台的产品链接，甚至可以将 OpenAI 官网转化为营销视频，展现了强大的解析能力和定制化选项。

AI 会说话的照片：将图像转换为具有自然运动合成的逼真会说话视频；
输入网页链接，点击几下，可生成多个视频；
定制专属数字人，支持多种语言，能够快速将脚本转换为视频；
支持替换商品背景图和批量创作图片。

体验链接：https://pippit.capcut.com/（@新智讯、@Product Hunt）

3、Shadow：实现会议转录、任务分配与执行追踪一体化

Shadow 是一款无须机器人介入的 AI 会议助手，实现会议转录、任务分配与执行追踪一体化。

Shadow 定位为无侵入式 AI 会议效率工具，核心价值在于通过后台自动化处理会议内容，将讨论直接转化为可执行任务，消除传统会议记录与跟进的断层。目标用户聚焦于销售、项目管理及咨询等高频会议场景的专业人士，解决机器人介入导致的会议干扰、隐私顾虑及手动任务分配效率低下等痛点。市场机会源于混合办公模式下企业对非侵入式协作工具的需求增长。

产品核心功能包括：

无机器人参会模式下自动转录与实时摘要生成；
AI 自动识别行动项并关联 CRM/协作工具分配任务；
端到端加密的本地语音处理保障隐私安全；
差异化优势体现在「隐形」工作模式与全链路自动化，相比同类工具减少 60%人工操作步骤。

网站链接：https://www.shadow.do（@Z Potentials、@Product Hunt）

4、Audible 正利用 AI 进行文本转音频的制作，并计划推出 AI 翻译服务

亚马逊旗下的有声书服务平台 Audible 日前宣布，将通过与部分出版社的合作，利用人工智能（AI）技术将纸质书与电子书转化为 AI 朗读的有声书。

通过亚马逊强大的 AI 技术支持，出版社可选择超过 100 种 AI 生成的语音，包括英语、法语、西班牙语和意大利语等多种语言，并提供多样化的口音与方言选项。未来，Audible 还将逐步丰富语音库，为用户带来更定制化的聆听体验。与此同时，Audible 计划在今年晚些时候推出 AI 翻译功能的测试版，支持从英语到西班牙语、法语、意大利语和德语的文本翻译和语音翻译服务。出版商还可选择由专业语言专家审核翻译结果，以确保准确性。（@数图笔记、@AI 之星网）