头图


开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq、@鲍勃

01 有话题的技术

1、MiniMax 推全新图像生成模型 Image-01,使用成本仅为 1/10

日前,AI 科技公司 MiniMax 宣布推出其首款文本到图像生成模型 ——Image-01,用户现在可以通过 MiniMax 的 API 平台访问这一服务。

Image-01 的几个主要特点令人瞩目。 该模型具有精确的提示控制能力 ,基于 MiniMax 在开发 Hailuo AI Video-01 系列中的行业领先经验,Image-01 能够提供优越的提示与图像之间的保真度。

另外,Image-01 在视觉构图方面表现出色。用户可以将其概念想法转化为引人注目的图像,模型能够细腻地表现光影交错带来的深度感,丰富的环境细节则营造出栩栩如生的世界。

此外,Image-01 在人物与物体的真实性方面也取得了显著进展。该模型可以渲染出逼真的皮肤纹理和自然的表情,复杂的产品细节和丰富的材质也同样得到了精准还原。用户可以自由选择所有标准的纵横比进行创作,包括 16:9、4:3、3:2、2:3、3:4、9:16 和 21:9,每个输出都保持清晰的分辨率和高像素。

在高批量效率方面,Image-01 支持强大的批处理功能,用户每次请求可以生成多达 9 幅图像,优化系统可以处理每分钟 10 个请求或每分钟 60 个 token。用户的创作效率得到了大幅提升,最多可以一次性生成 90 幅图像。

MiniMax 方面表示,其以极具竞争力的价格推出这一服务,用户仅需花费同类优质替代品的十分之一,即可体验 Image-01 提供电影级质量的图像,具有很高的提示到图像保真度,可以在任何画布尺寸下创建详细的场景和角色。(@AIbase 基地)

2、阿里巴巴开源 ViDoRAG:视觉文档理解领域迎来突破

ViDoRAG:视觉文档理解的革新

近日,阿里巴巴通义实验室宣布开源其创新研发成果——ViDoRAG,这是一款专门针对视觉文档理解所设计的检索增强生成(RAG)系统。ViDoRAG 在 GPT-4o 模型上的测试结果显示,其准确率达到了令人印象深刻的 79.4%,相比于传统 RAG 系统提升了超过 10%。

多智能体框架:赋能视觉文档理解

ViDoRAG 并非传统的单一模型,而是采用了创新性的多智能体框架设计。据介绍,该系统整合了动态迭代推理代理(Dynamic Iterative Reasoning Agents)和基于 GMM(高斯混合模型)的混合检索技术。这种独特的方法使得 ViDoRAG 在处理包含图像和文本的视觉文档时,能够更加精确地提取和推理关键信息。

性能飞跃:准确率提升 10%以上

该系统在 GPT-4o 上的准确率达到 79.4%,这一数据不仅突显了其卓越的性能,还与传统的 RAG 系统形成了鲜明对比。虽然传统 RAG 系统在文本生成任务中表现良好,但在处理视觉文档时,往往受到单一模态检索能力的限制,准确率通常较低。而 ViDoRAG 通过引入视觉信息与文本信息的深度融合,成功地将准确率提升了超过 10 个百分点。
(@AI TOP100)

3、Stability AI 生成速度提高 30 倍,优化音频生成模型,在 Arm 芯片上运行

AI 初创公司 Stability AI 已与芯片制造商 Arm 合作,将 Stability 的 Stable Audio Open(一种可以生成音效的音频的 AI 模型)带到运行 Arm 芯片的移动设备上。

许多 AI 驱动的应用程序可以生成音频,比如 Suno 和 Udio,但大多数都依赖云端处理,这意味着它们无法离线使用。

此外,一些音频生成模型是在受版权保护的内容上训练的,这带来了知识产权风险。 Stability 声称 Stable Audio Open 的训练,完全由免版税的音频和歌曲组成。

Stable Audio Open 在 Arm 芯片上运行,本周将在巴塞罗那的世界移动通信大会上进行演示。

它可以根据文本描述生成声音,例如「日落时分的轻柔海浪声」。 Stability 表示,他们与 Arm 合作优化并「提炼」了 Stable Audio Open,将生成速度提高了 30 倍。在 Armv9 CPU 上生成一段 11 秒的音频样本大约需要 8 秒钟。

需要明确的是,优化后的 Stable Audio Open 模型目前还不能下载。但在声明中,Stability 的 CEO Prem Akkaraju 暗示,Stability 未来将努力将其模型(包括 Stable Audio Open)引入消费者应用和设备中。

该公司表示,正在与 Arm 合作,进一步优化和微调 Stable Audio Open 以适应移动设备。( @Z Potentials)

02、有亮点的产品

1、微软发布医疗 AI 助手 Dragon Copilot

今天凌晨,微软发布了医疗界首个用于临床工作流程的 AI 助手 Microsoft Dragon Copilot。

Dragon Copilot 是基于语音+文本的混合架构,能够将医生的语音或临床口述内容实时转换为文本。例如,医生可以通过语音输入患者的病历信息、医嘱或诊断结果,Dragon Copilot 会自动将其转换为 EHR 的文本格式。

在将语音转换为文本后,Dragon Copilot 可做进一步处理自动生成专业的医嘱、病历、总结临床摘要、转诊信等,并将内容自动录入到专业的医疗系统中,极大简化了医疗流程解放医生双手。(@AIGC 开放社区)

2、口红试色拍给 AI 看?Gemini AI 逆天功能让手机秒变 24 小时在线私人助理

谷歌的 Gemini AI 最近又升级了,这次它学会了两个新技能:视频提问和屏幕共享。

谷歌在巴塞罗那举行的 2025 年世界移动通信大会 (MWC) 上放大招!旗下 AI 助手 Gemini 新增「视频提问」和「屏幕共享」功能,就像给你的手机装了实时视频通话的智能大脑。现在连陶瓷师傅选花瓶釉料、购物时纠结搭配,都能直接对着手机边拍边问。

更懂你的 AI 私人助理

两周前刚更新的「记忆对话」功能,现在还能记住你上次问过的装修风格、健身计划。就像有个 24 小时在线的私人助理,连三个月前咨询过的旅行攻略都能随时调取。

总而言之,新功能最大的好处就是让我们的生活变得更简单、更高效。

  • 更清楚地表达问题:有时候,我们遇到的问题很难用文字描述清楚,但通过视频和屏幕共享,Gemini 就能立刻明白你的意思,帮你解决问题。
  • 更快地找到答案:Gemini 可以根据你提供的视频和屏幕内容,快速给出最准确的答案,节省你的时间。
  • 更好的学习体验:在学习和工作中,屏幕共享功能可以让你获得更有针对性的建议,让学习和工作变得更轻松。(@算讯息)

03、有态度的观点

1、AMD 苏姿丰:AI 的未来是渗透到生活每一部分

近期,AMD CEO 苏姿丰在斯坦福商学院的一次演讲中,分享了 AMD 与 AI 时代相结合的发展方向,同时特畅聊了她对 AI 未来的预测。提到生成式、推理式 AI 时,苏姿丰认为目前 AI 还很难融入到各行各业中,因此她结合现状以及未来的预测,认为未来将不只是一种人工智能的体现,届时 AI 将渗透到大众生活中的每一部分。苏姿丰强调,AMD 的愿景是能够让每个人在每一个场景都能使用到相对应匹配的大模型。在谈及开放源代码软件这一方面,苏姿丰表示,为了适应 AI 的快速发展,AMD 采用了开放源代码软件策略,以促进技术的广泛采用和创新。这种策略旨在吸引开发者生态系统,并与行业合作伙伴紧密合作,以提供适应不同应用场景的 AI 解决方案。

最后,苏姿丰也畅聊了她对 AI 未来的看法。其看好 AI 技术的未来,尤其是在提高生产力、促进业务模式创新以及解决全球性问题(如医疗保健、药物研发和气候变化)方面的潜力。并且她鼓励 AMD 继续投资于 AI 领域,以保持在技术前沿的竞争力。(@APPSO)

04、Demo 分享

1、Voice+Visual Agent:语音对话与视觉互动元素结合

来自开发者 Gustavo Garcia:

语音很好,但与用户界面和互动元素结合时会更出色。

这是我对视觉智能体(visual agent)的首次基本尝试。它从回应中提取选项,并允许用户通过语音或直接点击来进行回答。我把它添加到了 openai-realtime-agents 的 demo 中。

接下来,我将尝试添加除了选项和按钮之外的其他视觉元素。
https://github.com/ggarber/openai-realtime-agents

(@Gustavo Garcia@X)

更多 Voice Agent 学习笔记:

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
658 声望973 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。