头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq,@鲍勃

01有话题的技术

**1、清华、东大等发布 EMAGE:音频自动生成动作丰富的视频
东京大学、清华大学、庆应义塾大学等研究人员联合开发了创新模型——EMAGE。**

EMAGE 可以根据音频自动生成连贯、逼真、一致的全身动作、面部表情和手部动作的共语手势视频。例如,上传一段歌曲或者旁白的音频,就能生成一个带丰富动作的视频。这可以帮助数字人等应用生成更精准的动作手势和表情。

此外,研究人员还发布了目前最大的「共语手势」 数据集 BEAT2。该数据集整合了 SMPLX 人体模型和 FLAME 面部模型,将原始的动作、面部捕捉数据转换为高质量的全身三维网格序列,总时长超过 60 小时。

EMAGE 主要通过遮罩手势重建特征以增强人体提示编码能力,并与音频特征相结合,生成面部表情、手部动作和身体动作一致的共语手势。
(@ AIGC 开放社区)

2、Kyutai 发布实时同声传译语音模型 Hibiki,小模型版本可在 iPhone 运行

Kyutai 推出了一款先进的实时同声传译语音模型——Hibiki,旨在提供接近人类同声传译的效果。该模型能够同时输出语音和文字翻译,保留说话者的声音特征,并自动调整语速以适应源语言的语义内容。目前,Hibiki 支持法语到英语的实时翻译。

Hibiki 的「小模型」版本——Hibiki-M,甚至能够在设备上实时运行,且具备 17 亿参数,是完整模型的蒸馏版本。Hibiki-M 能够在 iPhone 16 Pro 上运行超过一分钟,显示出其强大的实时处理能力。

Hibiki 基于 Moshi 的多流音频-文本语言模型(LM)构建,能够同时处理源语言和目标语言的语音,类似于 Moshi 处理对话的方式。此外,Moshi 的「内心独白」(Inner Monologue)功能帮助改善口语翻译,提供了更加流畅的实时同声传译体验。(@ kyutai@X)

3、RIME 发布 TTS 模型重大更新 Mist v2

RIME 兴奋地宣布其旗舰 TTS 模型的重大更新——Mist v2,具备以下特点:

  • 增强的真实感和对话韵律
  • 多语言,从西班牙语开始
  • 高度直观的发音控制
  • 低延迟 + 本地部署(70 毫秒)
  • 更多声音多样性

该技术目前已为每月数百万次互动提供支持,且用户增长迅速。(@ lily clifford@X)

02有亮点的产品

1、ChatGPT :公开 o3 思维链,但不完整

DeepSeek 带来的压力已经传递给了每一个科技公司。最近一段时间,很多生成式 AI 产品正在加速更新技术。

今天凌晨,OpenAI 为 ChatGPT 上线了多项更新,其中之一是让用户可以更详细地查看 o3-mini、o3-mini-high 的思维链内容。

但遗憾的是,ChatGPT 向用户展示的并非完整的思维链,而是经过总结的版本(而且这个总结版有时候还是错误的)。

相较之下,今年 1 月份推出的 DeepSeek R1 可以展示其完整的思维过程。在 AI 社区的很多人看来,展示完整的思维链不仅有助于科学研究,而且在很多时候也能为用户创造更好的使用体验,帮助用户引导模型的思考过程,从而得到满意的结果。

科技媒体 TechCrunch 从 OpenAI 获悉,为 o3-mini 更新思维链的目的是「让人们更容易理解模型的思维方式。通过此更新,你将能够跟踪模型的推理,从而更清晰、更有信心地理解其响应。」

而 OpenAI 之所以选择展示总结版本,而不是完整的思维链,部分原因是竞争。该公司表示其找到了一个平衡:o3-mini 可以「自由思考」,然后将其「思维」组织成某个总结版本。(@机器之心)

2、Mistral AI 推出全新聊天机器人应用 「Le Chat」:基础版免费

Mistral AI 近日在苹果 App Store 上架了一款全新的聊天机器人应用 「Le Chat」。这款应用的推出让用户能够更加方便地进行自然语言对话、实时网页搜索、文档分析以及图像生成等多种功能。

目前,用户可以免费下载基础版,享受基本的聊天功能;此外,用户也可以选择每月 14.99 美元的 Pro 订阅,体验更为专业的模型。

Mistral AI 是一家总部位于法国的人工智能公司,由多位曾在谷歌和 Meta 工作的工程师共同创办。该公司专注于开发开源的大型语言模型,而 「Le Chat」 则是其推出的一款独立应用,旨在为用户提供便捷的 AI 聊天体验。之前,「Le Chat」 已在网页上开放使用,而此次上线的移动应用则是基于浏览器的客户端,暂时只支持 iPhone 和 iPad,不支持 macOS 系统。

「Le Chat」 应用的功能设计十分实用,用户可以利用该应用进行自然语言的交流,AI 能够理解并生成相关的回应。此外,应用还支持实时网页搜索,让用户能够迅速获取所需信息。文档分析功能则帮助用户更好地处理和理解各种文档内容,而图像生成能力则为用户带来了全新的视觉体验。(@ AIbase 基地)

3、AI Chat-avatar:一款多模态智能对话助手


(图片来源:Product Hunt)

AI Chat-avatar 是 Pitch Avatar 推出的对话式人工智能助手,定位于需要提升客户互动效率的 B2B 企业,主要服务于销售团队、客户成功部门及培训机构。其核心价值在于通过角色化行为引擎,使虚拟助手能自动适配销售代表、客户经理等不同岗位的沟通策略,解决传统客户互动中个性化不足、响应滞后等痛点。产品差异化体现在多模态交互能力,支持在对话中实时调用幻灯片、图片、视频等动态内容,结合 5 种预置角色模板快速部署。功能亮点包括基于岗位自动调整话术、兼容 6 种文件格式以及对通过主动提问推进业务流程。体验设计强调低代码配置,提供实时会话分析看板与话术优化建议。(@ Z Potentials)

4、Stella AI :集成于即时通讯工具的智能行政助理


(图片来源:Product Hunt)

Stella AI 是一款面向个人用户和中小企业的智能生产力工具,通过与 WhatsApp 和 iMessage 的深度集成,将复杂的行政任务简化为自然语言对话。产品定位于需要高效时间管理但缺乏专职行政团队的创业者、自由职业者和职场人士,核心价值在于通过 AI 技术将日程安排、邮件处理、待办管理等高频任务转化为即时通讯场景中的对话式操作。Stella AI 解决了传统效率工具使用门槛高、多平台切换繁琐等痛点,为用户提供一站式的行政事务管理解决方案。在功能设计上,Stella AI 突出了智能日程管理和多语言支持两大特点。智能日程管理系统能自动识别时间冲突并提供调整建议,大幅提升用户的时间管理效率。多语言支持(覆盖 50+种语言)则满足了国际化团队的沟通需求。

产品的差异化优势主要体现在其原生嵌入即时通讯工具的交互模式,通过对话式指令交互显著降低了用户的操作复杂度。(@ Z Potentials)

03有态度的观点

1、木头姐:DeepSeek 只是加速了降本进程;堪比大萧条时期的极端集中市场格局将改变


(图片来源:Bloomberg Television)

木头姐(Cathie Wood)在发言中提到,专注于 AI 推理的公司,例如云计算服务提供商、边缘计算公司以及 AI 应用企业,可能将迎来强劲的市场需求增长。她还强调,未来的监管措施将逐步放宽,尤其是 AI 领域的监管。她认为,比特币和区块链技术正在成为金融服务行业重大革命的核心,同时比特币正逐步融入全球货币体系。

木头姐指出,未来最强劲的牛市应当是广泛覆盖各个行业的市场,而不仅仅由少数几只股票主导。她认为这一趋势与「成本正在大幅下降」这一观点相符。她进一步解释,成本本就处于下降轨道,而 DeepSeek 则加速了这一进程。(@ Z Potentials)

更多 Voice Agent 学习笔记:

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?

2024 语音模型前沿研究整理,Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
658 声望972 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。