头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq、@鲍勃

01 有话题的技术

1、Meta 推出 Llama 4 系列 :单卡 H100 能跑,千万上下文,还有 2 万亿「巨兽」

Meta 放出了 Llama 4 系列的首批模型,按照官推的说法这次发布是对 Llama 系列的一次 彻底重新设计

  • 核心变化: Llama 4 全系采用混合专家(MoE)架构,并且是原生多模态训练,不再是 Llama 3 那样的纯文本模型了。这次发布了 Llama 4 ScoutLlama 4 Maverick ,同时还有最强大的 Llama 4 Behemoth 预览。

Llama 4 Scout

  • 定位: 性能最强的小尺寸模型;
  • 参数: 17B 激活参数,16 个专家,总参数量 109B;
  • 亮点: 速度极快,原生支持多模态,拥有业界领先的 1000 万+ Token 多模态上下文窗口(相当于处理 20 多个小时的视频!),并且能在单张 H100 GPU 上运行(Int4 量化后)。

Llama 4 Maverick

  • 定位: 同级别中最佳的多模态模型;
  • 性能: 在多个主流基准测试中击败了 GPT-4o 和 Gemini 2.0 Flash,推理和编码能力与新发布的 DeepSeek v3 相当,但激活参数量不到后者一半
  • 参数: 17B 激活参数,128 个专家,总参数量 400B,上下文窗口 100 万+;
  • 性价比: 提供了同类最佳的性能成本比。其实验性聊天版本在 LMArena 上 ELO 评分达到 1417,排名第二;
  • 部署: 可以在 单个主机 上运行。

Llama 4 Behemoth (预览,训练中)

  • 定位: Meta 迄今最强模型,全球顶级 LLM 之一;
  • 性能: 在多个 STEM 基准上优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro;
  • 参数: 288B 激活参数,16 个专家,总参数量高达 2 万亿 (2T)
  • 训练细节: 使用 FP8 精度,在 32000 块 GPU 上训练了 30 万亿 多模态 Token;
  • 角色: 作为 Maverick 模型进行代码蒸馏时的教师模型。

技术亮点解读

  • 原生多模态: 所有模型都采用早期融合(early fusion)策略,将文本、图像、视频 Token 无缝整合到统一的模型骨干中;
  • 训练流程优化: 采用了 轻量级 SFT → 在线 RL → 轻量级 DPO 的后训练流程。开发者强调,过度使用 SFT/DPO 会过度约束模型,限制在线 RL 阶段的探索能力,所以要保持「轻量」。(@AI 寒武纪)

2、Meta Llama 4 被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车

上周六,Meta 发布了最新 AI 模型系列 ——Llama 4,并一口气出了三个款,分别是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。

据官方介绍,在大模型竞技场中,它们的排名相当不赖。

就拿 Llama 4 Maverick 来说,总排名第二,成为第四个突破 1400 分的大模型。其中开放模型排名第一,超越了 DeepSeek;在困难提示词、编程、数学、创意写作等任务中排名均为第一。

然而,不少网友体验后反馈,Llama 4 似乎是一个糟糕的编码模型。

@deedydas 发帖称,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基准测试中表现不佳,不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基准测试专注于编程任务,例如代码生成和代码补全。比如小球在旋转六边形中跳跃的测试中,Llama 4 的表现并不理想。

据科技媒体 TechCrunch 报道,Meta 新 AI 模型基准测试存在误导性。

尽管 Maverick 在 LM Arena 测试中排名第二,但不少研究人员发现,公开可下载的 Maverick 与托管在 LM Arena 上的模型在行为上存在显著差异。LM Arena 上的版本似乎使用了大量表情符号,并给出了极为冗长的回答。

Meta 在公告中提到,LM Arena 上的 Maverick 是「实验性聊天版本」,与此同时官方 Llama 网站上的图表也透露,该测试使用了「针对对话优化的 Llama 4 Maverick」。

LM Arena 作为衡量 AI 模型性能的指标一直存在争议。尽管如此,AI 公司通常不会为提高 LM Arena 分数而定制模型,至少没有公开承认过。

将模型针对基准测试进行优化、保留优化版本,然后发布一个「普通」版本的问题在于,这使得开发者难以准确预测模型在特定场景下的表现,存在误导性。理想情况下,尽管基准测试存在不足,但它们至少可以提供一个模型在多种任务上的优缺点的概况。(@机器之心)

3、Gladia 发布全新多语种 STT 模型 Solaria

语音 AI 公司 Gladia 近日发布了其最新的语音转文本 STT 模型 Solaria,该模型支持超过 100 种语言,并具备出色的语言自动检测功能,旨在为全球化应用场景提供高效、便捷的语音解决方案。

Solaria 在法语语音智能体构建领域引起了广泛关注。该模型不仅能够高精度地转录单一语言,它还支持将多种语言混合的语音内容转录为单一目标语言。

Solaria 的核心优势包括:

  • 卓越的转录精度: 实时语音转录的准确率高达 94%,确保信息准确捕捉。
  • 广泛的语言覆盖: 支持超过 100 种语言,其中包括 Solaria 独有的 42 种语言,并提供媲美母语的音质。
  • 极低的延迟: 延迟仅为 270 毫秒,保证对话的流畅性和自然度。(@ Gladia.io@X)

02 有亮点的产品

1、亚马逊上线「Buy for Me」服务,用 AI 帮用户从其他电商平台代购商品

4 月 5 日,亚马逊宣布在美国市场向拥有 Prime 订阅的顾客逐步推出一项「Buy for Me」服务,主要帮助用户从其他电商平台代购商品。亚马逊声称相应代购服务完全由 AI 进行操作,以便保持用户隐私性。

用户可直接在亚马逊 App 中进行搜索,即可搜索到来自其他电商平台的产品,用户仅需输入收货地址等信息,即可下单要求亚马逊代购相应产品。

亚马逊声称,虽然该公司能够帮助用户代购商品,但该公司不对这些代购的商品质量负责,只负责交付,用户需要联系商品品牌本身进行退换货。(@IT 之家)

2、米哈游蔡浩宇新游戏 Whispers From The Star 释出新 demo

《Whispers From The Star》在 X 账户@404Stella 里分享了最新的玩家试玩 demo。demo 中,AI 角色会根据语音内容生成对应的口型。因为采用「跨星际」的数据传输形式,非常巧妙的规避了语音对话的延迟问题。

视频中,玩家说自己「感觉恋爱了」,官方 X 账户回复:「他只是开玩笑地表白,但我却是认真的。」

《Whispers From The Star》主角是一个天体物理系女生 Stella,她意外坠落在了一个外星星球上,玩家是她唯一能联系的人,同时玩家的任务是帮助她生存下去,并离开 GAIA 星球。该游戏最大亮点就是 Stella 的对话是 AI 实时生成,根据玩家输入的对话内容,Stella 会给出不固定的回答、情绪和动作。《Whispers From The Star》主打以 AI 驱动角色的实时对话,为玩家提供开放、个性化,并且身临其境的游玩体验。该游戏或为 Anuttacon 的实验产品,旨在验证多模态模型驱动下,实时交互的表现,因此《Whispers From The Star》的画面为 100% 实时演算。

值得关注的是,《Whispers From The Star》主要平台为手机,目前已向 iOS12 以上的 iPhone 开启内测。《Whispers From The Star》的开发公司 Anuttacon,是由米哈游创始人蔡浩宇宣布从公司卸任「退休」后所打造的首个 AI 创业项目。(@404Stella@X、APPSO)

3、语音 AI 平台 Phonic 获 400 万美元种子轮融资,Lux Capital 领投

Phonic,一家由麻省理工学院毕业生 Moin Nadeem 和 Nikhil Murthy 创立的语音 AI 公司,致力于解决企业对现有 AI 语音技术可靠性的担忧。与 Vapi 和 Rounded 等公司采用拼接独立 AI 模型的方式不同,Phonic 专注于构建端到端的自主语音技术栈,通过自主模型训练,针对口音、模糊语音等复杂场景进行优化,显著提升模型的鲁棒性,从而提供更可靠的解决方案。

近日,Phonic 完成了由 Lux Capital 领投的 400 万美元种子轮融资。Replit 创始人 Amjad Masad、Hugging Face 联合创始人 Clem Delangue、Applied Intuition 联合创始人 Qasar Younis 和 Modal Labs 创始人 Erik Bernhardsson 等知名创业者也参与了本轮投资。Lux Capital 合伙人 Grace Isford 评价称,Phonic 凭借自主模型训练和技术创新,在激烈的市场竞争中脱颖而出。

据悉,Phonic 目前正与保险和医疗保健公司展开合作,并计划在未来几个月内正式推出产品,同时开放官网体验,让潜在客户亲身感受其领先的语音 AI 技术。Phonic 的目标是为企业提供更稳定、更高效的语音 AI 解决方案。( @TechCrunch)

4、Midjourney V7 重磅上线,「草稿模式」支持语音交互

Midjourney 带着 V7 Alpha 回来了!兑现了周一放出的一些图片预热。

Midjourney 强调这次 V7 有两大更新:

  • V7 是第一个默认开启模型个性化设置的模型。

    • 就是在生成图像前,必须解锁个性化设置才能使用。这大约需要 5 分钟。相当于更好的「定制化」,让模型提前了解用户的喜好和审美。
  • 另一个是「草稿模式」,被 V7 称为旗舰功能。

    • 草稿模式的价格只有标准模式的一半,渲染图片的速度却快了 10 倍。它的速度快到你可以通过对话来控制它。

点击「草稿模式」,再点麦克风按钮,就能开启「语音模式」——你可以大声思考,图像就像流动的梦境一样在你眼前生成。(@新智元)

03 有态度的观点

1、微软首席技术官:2030 年 AI 将负责 95% 代码工作

日前,微软首席技术官 Kevin Scott 参加了播客 20VC 的访谈节目,前者在交流中,分享了对未来「人类与 AI 共存的工作环境、状态」的预测。整个访谈中,Kevin Scott 提到了很令人震惊的一点:到了 2030 年,将有 95% 的编程代码由 AI 生成。虽然观点很不可思议,但 Kevin Scott 随后也解释称,但这并不意味着软件工程的工作完全由 AI 接管。他认为,在 AI 霸占「写代码」这件事上,人类将会由编译者变为指令引导者,简单来说就是化身为指挥家,命令 AI「干活」。Kevin Scott 还表示,AI 并不会取代开发者,而是能从根本改变开发者的工作方式:开发者将不再像以前那样逐行编写代码,而是通过 AI 工具,运用提示词和指令生成对应所需的代码。Kevin Scott 表示,在这种新的工作模式下,开发人员将专注于引导 AI 而非手动编程。此外,Kevin Scott 也承认了目前 AI 仍有十分多局限性(尤其是记忆能力)。但 Scott 仍愿意相信「这些局限性只是暂时的」,他预测未来的 AI 工具将在个性化和上下文感知方面做得更好,并且能够通过学习过去的互动来提升性能,未来一年,AI 的记忆能力将大幅提升。(@APPSO)

更多 Voice Agent 学习笔记:

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
663 声望973 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。