头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

01有话题的技术

1、小米开源多模态大模型「Xiaomi MiMo-VL」,MiMo-VL-7B 超越 GPT-4o,成为开源模型第一

5 月 30 日,Xiaomi MiMo-VL 接过 MiMo-7B 的接力棒,在图片、视频、语言的通用问答和理解推理等多个任务上,大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,并且在 GUI Grounding 任务上比肩专用模型。

MiMo-VL-7B 在保持 MiMo-7B 纯文本推理能力的同时,在多模态推理任务上,仅用 7B 参数规模,在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)大幅领先 10 倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越闭源模型 GPT-4o。
在评估真实用户体验的内部大模型竞技场中,MiMo-VL-7B 超越 GPT-4o,成为开源模型第一。

MiMo-VL-7B 全面的视觉感知能力得益于高质量的预训练数据以及创新的混合在线强化学习算法(Mixed On-policy Reinforcement Learning, MORL):

  • 多阶段预训练:收集、清洗、合成了高质量的预训练多模态数据,涵盖图片-文本对、视频-文本对、GUI 操作序列等数据类型,总计 2.4T tokens。通过分阶段调整不同类型数据的比例,强化长程多模态推理的能力。
  • 混合在线强化学习:混合文本推理、多模态感知 + 推理、RLHF
    等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升模型推理、感知性能和用户体验。

MiMo-VL-7B 已开源 RL 前后两个模型至https://huggingface.co/XiaomiMiMo

GitHub:https://github.com/XiaomiMiMo/lmms-eval

技术报告:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf (@Xiaomi MiMo)

2、Resemble AI 开源 TTS Chatterbox ,支持实时合成,延迟低于 200ms

Chatterbox 是由 Resemble AI 开发的开源 TTS 模型,采用 MIT 许可证,基于 0.5B Llama 架构,性能媲美 ElevenLabs 等闭源系统,广泛应用于视频、游戏、AI Agent 等场景。它是首个支持情绪夸张控制的开源 TTS 模型,可通过 Hugging Face Gradio 应用体验。

亮点提要:

  • Chatterbox 基于 0.5B 规模的 LLaMA 架构,训练数据超 50 万小时,盲测中63.75%的听众更偏好其真实感和流畅度;
  • 支持实时合成,延迟低于 200ms,且具备零样本语音克隆与情感夸张控制功能,为开发者提供高度灵活性;
  • 开源特性降低门槛,同时嵌入水印技术确保内容可追溯,展现开源与商业化的双轨战略。

GitHub 链接:https://github.com/resemble-ai/chatterbox

Hugging Face: https://huggingface.co/spaces/ResembleAI/Chatterbox

Podonos: https://podonos.com/resembleai/chatterbox(@AI 启蒙小伙伴、@AIbase 基地)

3、Hume.ai 发布第三代语音模型 EVI 3:精准识别用户 53 种情绪(如钦佩、讽刺等),情感智能显著提升

纽约初创公司 Hume.ai 推出第三代语音语言模型 EVI 3,其情感智能能力显著提升,可精准识别用户 53 种情绪(如钦佩、讽刺等),并通过语调、音高变化实时调整回应。

EVI 3 基于百万级跨文化情感交互数据训练,响应速度比竞品快 30%,多语言支持覆盖 32 种语言及方言,远超 OpenAI Whisper 的 99 种语言表现。

EVI 3 可以即时生成新的声音和个性。例如,用户可以与平台上已创建的超过 100,000 个自定义声音中的任何一个对话。无论是哪种声音,都能以丰富的情感或风格回应。

为实现这一功能, Hume 团队没有依赖于使用小型精选数据集对单个说话者的声音和个性微调,而是开发了方法,将人类声音和说话风格的全部范围整合到一个模型中。随后,通过强化学习方法训练 EVI 3 识别并优化任何人声的偏好特质。最后,团队开发了一种流式处理方法,使 EVI 3 能够以对话级延迟响应。

该模型通过 API 服务企业客户,已在智能客服、心理治疗等领域落地,合作伙伴包括软银等 2000 余家机构。

体验链接:https://demo.hume.ai/

Blog:https://www.hume.ai/blog/introducing-evi-3(@AI 智前沿、@Hume 官方 Blog)

4、Odyssey:支持最高 30 帧/秒流式传输的实时互动 AI 视频

Odyssey 推出了一种可以实时观看和互动的 AI 视频,其核心是一种新的世界模型,支持最高 30 帧/秒流式传输视频,完全没有游戏引擎的影子。现可以点击链接免费体验。


https://odyssey.world/introducing-interactive-video

体验链接:https://experience.odyssey.world/ (@odysseyml@X、@bilawalsidhu@X)

02有亮点的产品

1、字节发布图像 Agent「小云雀 AI」,已上线安卓客户端,iOS 版本预计 6 月发布

字节跳动推出了全新的图像 Agent「小云雀 AI」,这款智能创作工具能够通过简单的指令快速生成高质量的视频和图片,降低了内容创作的技术门槛。功能类似 Lovart,用户一句指令即可生成爆款视频与图片,零门槛创作。其依托 「云雀」 大模型,现仅安卓端可下载,iOS 版 6 月上线。

亮点提要:

  • 用户只需一句指令,「小云雀 AI」就能主动思考并生成爆款视频与图片,实现「灵感即所得」;
  • 基于字节自研「云雀」大模型,融合深度学习与多模态技术,提供强大的图像生成与视频编辑能力;
  • 当前已上线安卓客户端,iOS 版本预计 6 月发布,有望推动 AI 创作向更广泛应用场景发展。

(AIbase 基地、程序员老鬼)

2、Amie:原生集成日历/邮件系统、支持 99 种语言的精准转录

Amie 是一款 AI 驱动的会议生产力工具,旨在通过自动化摘要、任务管理和智能工作流,取代传统的手动记录方式,帮助团队充分释放会议价值。其核心优势在于无侵入性,让团队无需改变现有习惯即可享受 AI 带来的效率提升。

目标用户主要为高频会议场景下的科技团队、销售部门及远程协作组织,尤其适合需要精准追踪行动项与客户沟通细节的 B2B 企业。Amie 解决了传统会议工具记录碎片化、后续跟进低效及多平台数据孤岛等痛点,抓住了 AI 重构工作流效率的市场机遇。

功能亮点包括:

  • 无机器人介入的智能录制,支持 Zoom、Teams 等主流平台;基于上下文的 AI摘要生成,自动提炼行动项并关联历史会议数据;自动化工作流引擎,实现邮件起草、任务分配与日程更新的无缝衔接。
  • 差异化优势体现在原生集成日历/邮件系统、支持 99 种语言的精准转录,以及通过私有笔记引导 AI 生成定向摘要的能力。
  • 用户体验方面,Amie 通过极简控制台和智能预测功能降低使用门槛,自动化看板实时同步进展,深度集成 HubSpot/Notion等工具保障工作流连贯性,使团队专注决策而非事务性操作。

网站链接:https://amie.so/ (@Z Potentials)

3、National Gallery Mixtape:谷歌 Labs 推出名画音乐生成器

谷歌推出的 AI 工具 National Gallery Mixtape,是由伦敦国家美术馆携手 Google Arts & Culture 打造的音乐实验,可以把经典艺术画作转化为独特的音乐作品。其利用 Gemini 模型分析名画并生成对应音乐,展示多模态 AI 创新应用。

该工具汇集了伦敦国家美术馆精选的 200 幅世界名画,涵盖从文艺复兴时期到现代的各种风格和主题,比如梵高的《向日葵》、扬・凡・艾克的《阿尔诺菲尼夫妇像》等。

谷歌的多模态 AI 模型 Gemini 会对所选画作的色彩、主题、情感和历史背景等元素深入分析并进行描述,然后将这些描述发送给 MusicFX DJ,由后者实时为每张图像生成配乐。

比如,一幅充满活力的红色画作可能会被关联到激昂的旋律,而一幅柔和的蓝色画作则可能生成舒缓的音符。还可以通过调整音乐片段的音量、顺序和叠加方式,创造出属于自己的个性化音乐混音。平台还提供各种音乐风格、乐器和心情标签等工具,可以进一步定制音乐的风格和氛围,比如我们选择 「热闹的」、「精力充沛的」、「好玩的」、「流行音乐」 等标签来为画作添加特定的声音色彩。

Google Labs: https://labs.google/experiments?category=all

体验链接:https://artsandculture.google.com/experiment/iwHPaSXS-zrryg(@机器之心)

03有态度的观点

1、前月之暗面海外产品创始人:做 AI 代码社区是为了激发用户创作欲

日前,前月之暗面海外产品 Noisee 创始人明超平接受《晚点》采访,通过其团队近期宣布的 AI coding 社区型产品 YouWare,来畅聊了 AI 产品的发展。

明超平将 YouWare 定位为氛围编程者的社区,旨在让非代码专业的人士也能创作出属于自己的作品。明超平也透露,团队希望通过社区,给用户「动机」和「触发器」——因为 YouWare 内有创意分享、内容参考和创作者间的互相帮助。同时团队也更希望激发用户更多的创作。

同时,明超平也分享了部分 YouWare 的发展之路。其表示,YouWare 选择 coding 和社区这两个方向,一方面能够让代码能够分享,实现「可复用」,同时这也能帮助 AI 能用更快速度、更大带宽 24 小时持续写代码,明超平认为「这是巨大的智能-生产力转化和商业机会」。

另一方面,代码是模型最擅长输出的内容。明超平表示,不管哪国人写出来的代码都是一样的,因此代码信息熵低、表达标准统一、验证成本低,而引入强化学习后,模型的代码能力还在加速提升。其表示,社区则进一步放大了代码的价值,并且当一个 vibe coding 作品被放到社区,不仅能被复用,还能激发其它人的创作和消费。

明超平还提到了 Agent 的未来:可能有两种,一种是调度型,像一个操作系统,面向用户;另一种则是被调度的,按需被调度用来完成具体任务。明超平还透露,自己很想做调度型 Agent,哪怕成功率也许只有 0.0001%。(@APPSO)

更多 Voice Agent 学习笔记:

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
668 声望976 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。