开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq,@鲍勃
01 有话题的技术
1、Ultravox v0.5 发布:端到端语音模型,语音理解超越 GPT-4o 和 Gemini 1.5 Flash
Ultravox v0.5 开源语音语言模型在去年发布 v0.4.1 的基础上,v0.5 大幅提升了语音理解能力、多语言支持以及在真实场景中的适应能力。该版本在语音理解基准测试中超越了 OpenAI 的 GPT-4o Realtime 和 Google 的 Gemini 1.5 Flash,同时保留了开源模型的灵活性和透明性。模型权重现已发布,可通过 Hugging Face 获取。
技术亮点:
- CoVoST-2 & Big Bench Audio 领先: 在多语言语音翻译和基于语音的推理任务中表现卓越。
- 转录性能大幅提升: 在 LibriSpeech、CommonVoice 和 Fleurs 的 82 个评估集上,单词错误率 (WER) 降低 60%。
- 语音问答能力增强: 在命名实体识别等任务中,性能提升 18%。
- 广泛的多语言支持: 支持 42 种语言,并具备动态语言切换能力。
- 端到端处理: 直接处理原始语音输入,避免了传统级联系统 (ASR → LLM → TTS) 的误差累积,在嘈杂环境或低质量麦克风条件下表现更佳。
Ultravox Realtime 服务已上线: 立即构建和扩展实时语音 AI 应用。定价: $0.05/分钟 ( 新用户 30 分钟免费试用) 。(@ultravox.ai)
2、字节跳动突破高分辨率视频生成瓶颈,FlashVideo 引领高效生成新时代
近年来,文本到视频(T2V)生成技术取得了显著进展,尤其是扩散模型(Diffusion Models)的应用。然而,高质量的视频生成依然面临以下挑战:
- 高计算成本: 生成高分辨率视频需要大模型参数和大量函数评估(NFEs),导致计算资源消耗巨大。
- 细节与运动一致性: 在保持内容与运动对齐的同时,生成丰富的视觉细节是一个难题。
- 实时性差: 现有方法生成 1080p 视频可能需要数百秒甚至上千秒,用户体验受限。
为了解决这些问题, 香港大学、香港中文大学与字节跳动联合团队 提出了一种全新的两阶段框架—— FlashVideo ,在保证高质量生成的同时,大幅提升了计算效率。
核心亮点:
- 两阶段设计: 通过将生成任务分为「低分辨率优先」和「高分辨率增强」,有效平衡了生成质量和计算效率。
- 流匹配技术: 创新性地使用流匹配(Flow Matching)技术,仅需 4 步即可完成高分辨率细节生成,相比传统方法提速显著。
- 用户友好: 支持快速预览功能,用户可以在 30 秒内获得初步结果,再决定是否继续生成高分辨率视频。(@Safphere)
02 有亮点的产品
1、雷朋 Meta 眼镜视觉识别功能开放测试
海外博主实测 Meta AI 的最新功能, Live AI Video 。当博主指着一个东西说「告诉我这是什么」时, Live AI Video 能够马上准确回答出这是一个「棕色皮包」;当博主问「墙上写的是什么」时,它能识别墙上写的文字并回答墙上写的是「嗨爸爸,我爱你」。除此之外,说出画里有什么和识别台灯的颜色等都不在话下。(@XR-Vision)
2、Resend 推出 new.email:用自然语言构建电子邮件的新方式
Resend 团队今日宣布推出 new.email,这是一个全新的电子邮件构建平台。它允许用户使用自然语言创建美观、响应式且跨平台的电子邮件。
核心亮点:
- 自然语言生成:用户无需编写代码,只需使用自然语言描述,即可生成电子邮件模板。
- 面向所有人:不仅仅是开发人员,市场营销、产品或设计团队也能轻松使用。
- 一致性与美观:确保电子邮件在外观和风格上与产品保持一致,提升品牌形象。
- 响应式和跨平台:自动适配不同设备和邮件客户端,提供最佳阅读体验。
- 基于 LLM:利用大型语言模型技术,结合 Resend 在邮件发送方面的经验,实现智能化生成。
- 高质量组件库:训练 LLM 生成基于包含 54 个高质量电子邮件组件的库。
用户现在可以加入等待名单,以获得早期访问权限。https://new.email/
(@Resend@X)
3、曝国行苹果 AI 敲定与阿里合作, DeepSeek 曾被考虑
据 The Information 报道,苹果公司已经与阿里巴巴达成合作,为国行版的 iPhone 用户提供 AI 功能,消息来源为一位知情人士。
据悉,苹果与阿里巴巴共同开发的国行 AI 功能已提交给国内相关部门审核。两位对该项目有直接了解的人士称,苹果在 2023 年开始测试来自中国开发者的不同 AI 模型,并一度选择百度作为主要合作对象,但由于百度在为苹果智能开发模型方面的进展未达到美国公司的标准,因此该合作后来被取消。苹果最近几个月开始考虑其他选项,评估腾讯、字节跳动、阿里巴巴以及 Deepseek 开发的模型。报道还提到,苹果最终放弃了最近呼声很高的 DeepSeek ,因为 DeepSeek 团队缺乏支持像苹果这样的大客户所需的人力和经验。
日前,苹果向开发者发送了关于「利用苹果智能的力量」开发者活动的相关邮件。值得关注的是,本次活动将于 3 月 25 日 10:00 至 12:00 在上海举行,活动主题将围绕苹果智能和机器学习两个方面。而这一举动,也暗示在中国大陆的苹果智能 AI 功能或将上线。(@APPSO)
03 有态度的观点
1、百川智能 CEO:AGI 的尽头是生命科学
近日,百川智能创始人兼 CEO 王小川接受晚点对话的采访,表示「不是文本创作、不是物理模型,AGI 的尽头是生命科学」。采访中,王小川提到,之所以坚定了公司方向聚焦医疗,是因为大模型是造人的,而医生是人类职业中最复杂的之一,所以它可以成为一个标尺。并且他认为,大模型能造出医生时,就是达到了 AGI。同时,王小川对 DeepSeek 的「火爆全球」表示振奋,一方面他认为 DeepSeek 改变了行业格局,中国离实现 AGI 和应用爆发更近,另一方面,他觉得 DeepSeek 的出圈让更多人体验到了 AI,教育了整个行业。在谈及训练医疗大模型费用时,王小川认为医疗模型有更高的价值,它关系生命健康,因此不能按 token 来算钱。王小川还预测了未来的技术发展趋势。AI 通过学会使用工具,一步步学习制造工具,最后形成循环,AI 写完代码自己运行,AI 自己造工具自己用。(@APPSO)
04 社区项目推荐
1、Peeches:实时系统音频转录与翻译
来自@leon7hao:因为想方便一边打代码一边听别的应用的英文播客,纯 Rust 弄了一个本地的实时转录应用 Peeches。监听系统音频并翻译为中文。如果有英文会议应该也很有用。
Peeches:实时系统音频转录与翻译
主要特性
🎙️ 实时转录系统音频
🤖 完全本地化的 AI 模型
🎵 歌词式文本显示
🦀 纯 Rust 编写
🍎 目前仅支持 macOS
🌐 目前仅支持英文转中文
模型
- Whisper: https://huggingface.co/ggerganov/whisper.cpp
- Opus-MT-en-zh: https://huggingface.co/Helsinki-NLP/opus-mt-en-zh
致谢
- Tauri: 用于构建更小、更快、更安全的桌面和移动应用程序,并提供 Web 前端。
- Whisper-rs: https://github.com/ggerganov/whisper.cpp 的 Rust 绑定。
- Candle: 极简 Rust 机器学习框架。
更多 Voice Agent 学习笔记:
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
2024 语音模型前沿研究整理,Voice Agent 开发者必读
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。