头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

01.有话题的技术

1、DeepSeek-R1T-Chimera:推理能力与 token 效率的完美结合

TNG Technology Consulting 最新开源的 DeepSeek-R1T-Chimera LLM,巧妙融合了 DeepSeek R1 的推理能力和 DeepSeek V3-0324 的高效 token 效率。

现在可以在 openrouter 上免费使用(@三花 AI)

2、谷歌升级 Music AI Sandbox:新增 Lyria 2 模型及 RealTime 功能

Music AI Sandbox 平台新增 Lyria 2 模型,能够生成专业级别的 48kHz 高保真立体声音频,适应多种音乐风格;此外扩展 Lyria RealTime 模型,支持实时创作和调整音乐。

该平台还新增了「Create」功能,通过文本描述或用户歌词生成音乐片段;「Extend」功能基于现有音频片段生成延续内容;「Edit」功能通过预设或文本提示调整音频情绪与风格,还能融合不同音乐段落。(@AI 小讯)

3、阶跃星辰开源图像编辑模型 Step1X-Edit:一键改图大师,性能达到开源 SOTA

阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit,性能达到开源 SOTA。该模型总参数量为 19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持 11 类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。

Step1X-Edit 采用 MLLM(Multimodal LLM)+ Diffusion 的解耦式架构,分别负责自然语言理解与高保真图像生成,相比现有图像编辑模型,该架构在指令泛化能力与图像可控性上更具优势。

  • MLLM 模块负责处理自然语言指令与图像内容,具备多模态语义理解能力,可将复杂编辑需求解析为 latent 控制信号;
  • Diffusion 模块作为图像生成器(Image Decoder),根据 MLLM 生成的 latent 信号完成图像的重构或局部修改,确保图像细节保真与风格统一。

这一结构打破了传统 pipeline 模型中「理解」和「生成」各自为政的问题,使模型在执行复杂编辑指令时具备更高的准确性与控制力。(@ Founder Park)

4、开源 AI 玩具方案 ElatoAI: 基于 ESP32+OpenAI Realtime API 打造

ElatoAI 用 ESP32 微控制器和 OpenAI Realtime API 打造,让玩具秒变聪明又贴心的 AI 小伙伴。不仅能连续聊上 10 分钟以上,语音识别和回应还特别自然流畅。只需要在网上购买基础的硬件并按照教程配置软件,即可实现家里的泰迪熊突然能用不同的声音和性格与你聊天,讲故事,甚至教你新知识。通过前端界面,你可以创建各种有趣的 AI 角色,并且允许设置 AI 角色的声音特征和情感基调。


应用场景:

  • 给孩子的智能伙伴:孩子毛绒恐龙现在会讲恐龙知识和睡前故事;
  • 老人的贴心伴侣:给老人做一个会聊天的毛绒猫,每天陪她聊天;
  • 语言学习助手:自己用它练习日语,比单纯的语言 APP 有趣多了

设置完成后,使用非常简单:

  1. 将设备固定在玩具上(魔术贴)
  2. 在网页应用中选择你创建的 AI 角色
  3. 按下设备上的按钮开始对话,全球范围内的延迟不到 1 秒,音质清晰(使用 24kbps 的 Opus 编解码器)。(@AI 启蒙小伙伴)

02.有亮点的产品

1、饿了么推出骑手智能 AI 助手「小饿」,具备语音交互、主动服务和个性化分析功能,提供实时风险提醒和收入预估分析

饿了么于 4 月 25 日正式发布骑手端智能助手「小饿」,这是国内首个基于大模型技术打造的配送场景智能体。该系统通过自然语言处理、多模态交互和实时数据分析等技术,为骑手提供全方位的智能辅助,显著提升配送效率和服务体验。

具备三大核心功能模块:智能预警系统、路径优化引擎和语音交互界面。系统能够实时监测天气变化、交通状况等外部环境因素,提前向骑手推送暴雨、大风等极端天气预警,以及道路施工、临时管制等路况信息。在实际测试中,该功能帮助骑手规避了约 23%的潜在配送风险。

骑手可以通过自然语言与系统对话,查询订单详情、导航路线等信息,全程无需手动操作手机。系统支持多轮对话理解,能够准确捕捉骑手在配送过程中的各类需求。这种交互方式大大降低了骑手在行驶过程中使用手机的安全风险。

无锡骑手黄晓琴的实际体验印证了这点:「以前下雨天要脱手套操作手机,现在喊声「小饿」就能接单。」(@蜂耘网、牛新社)

2、AI Presentation Narrator:为 PPT 提供智能配音

通过为演示幻灯片提供脚本,AI Presentation Narrator 能将任何演示变成引人入胜的视频。非常适合在线学习、销售材料和快速讲解。

只需在幻灯片的演讲者注释中输入您的脚本,Plus AI 演示文稿解说员就会使用文本转语音技术将您的脚本转化为演示文稿的配音。( @Product Hunt)

3、CreateWise AI:自动删除填充词和沉默,生成节目注释和亮点

CreateWise AI 是一款人工智能播客编辑器: 一键自动删除填充词和静默,生成节目注释和亮点,创建社交媒体短片。从单个音频生成 100+ 内容素材。

  • 消除噪音和口癖:自动检测并消除 「嗯」、「呃」、突兀的停顿和重复音;
  • 分析并优化音频内容,将数小时的编辑工作缩短至几分钟;
  • 查找亮点并创建可共享的视频片段,完美用于社交媒体;
  • 生成节目注释、标题和摘要;
  • 为您的作品集创建社交媒体帖子和博客。(@ Product Hunt)

4、凯叔推出 AI 故事玩偶「鸡飞飞」

早在 2023 年,鸡飞飞 IP 形象的故事机就已经在凯叔的硬件矩阵出现,彼时其故事机主要是以内置《口袋神探》前三季的内容加上一部分的 AI 对话功能为主。

此次的新品则是在旧的形态之上推出的纯 AI 故事机。凯叔讲故事创始人王凯在新品介绍视频中称其为「凯叔家的 AI 智能体」。

根据王凯在视频中的介绍,其团队对鸡飞飞的差异化设定主要在:

  • 以「故事」为圆心的解决方案,用故事锻炼逻辑能力

相较于单纯的故事机,王凯强调这款产品更像是一个解决方案,即 AI 在满足故事内容提供的同时,还可以提供基于逻辑演绎推理法等框架下的探案剧情,「在探案的过程当中学会了知识,学会了逻辑推理」。在案件故事中,鸡飞飞会通过案件启动-思维训练(抛出关键问题、引导深入思考、拓展提问、进一步引导、验证与总结)-推理总结的节奏来进行思维能力的训练。

  • 根据不同场景提供不同服务

鸡飞飞的形态其实还是延续了凯叔故事机矩阵的一贯风格,轻便、简单,可以满足各个场景的使用自由。王凯介绍,在联网在线时,鸡飞飞会自动实时更新,基于 AI 训练和日常使用的数据积累,会越来越了解孩子并且在孩子所喜欢的方向提供陪伴。在联网时,AI 会调用故事;在不联网时,提供《口袋神探》前三季内容。

  • 养成系 AI 陪伴者

在「探案任务」中培养逻辑思维之外,鸡飞飞还提供如「你说我猜」、「故事共创」等等的 AI 陪伴,会基于日常的互动情况更加了解孩子的取向,实时调整,进而成为懂孩子的陪伴者。(@多知)

03.有态度的观点

1、Meta CTO:AI 可能彻底颠覆现有的 APP

Meta 首席技术官 Andrew Bosworth 近日与 a16z 风投合伙人 David George 进行了一场深度对谈,详细阐述了 Meta 对「后手机时代」的战略规划。

Bosworth 认为,十年后人们获取内容的方式将发生根本性变化,不再仅限于拿出手机。「AR(增强现实)眼镜是真正可能实现的,它将为我们提供更自然的交互方式,通过眼睛和耳朵获取信息,不再依赖键盘或触摸屏,」。Meta 的愿景是创造一个「眼镜」能够替代智能手机的世界。

Bosworth 认为 AI 可能彻底颠覆现有的 APP。「现在,如果我想播放音乐,首先想到的是「我要用哪个提供商——Spotify 还是 Tidal?」但这不是我真正想要的。我想要的只是播放音乐。」

他设想在未来,用户只需表达意图,由 AI 自行决定如何完成任务。关于开源,Bosworth 强调了 Meta 开源 AI 模型 Llama 的战略意义:「对我们来说,将基础模型商品化是有利的商业决策。有大量价格具有竞争力或几乎免费的模型有助于整个生态系统发展。它帮助初创公司、学术界,也帮助我们成为平台提供商。」

尽管愿景宏大,Bosworth 也坦承实现「后手机时代」面临多重挑战,包括技术发明风险、社会接受度和生态系统建设。「手机是我们生活的中心。这是我操作家庭、汽车和工作的方式。世界已经适应了手机。」(@ APPSO)

2、新行政命令:特朗普要求全美国学校教 AI

美国白宫官网消息,特朗普发布了新的行政命令——《推动美国青少年的 AI 教育》

特朗普要求全美国的 K12(从幼儿园到高中)学校的老师、学生深度学习、使用 AI,为下一世代的工作方式、创造力培养人才奠定竞争基础。

以下是美国白宫的部分原文内容:

根据美利坚合众国宪法和法律赋予我作为总统的权力,现命令如下:

专注于 AI 教育的专业发展计划将使教育工作者有信心引导学生穿越这一复杂且不断发展的领域。

教育工作者、行业领袖和依赖 AI 技能劳动力的雇主应合作创建教育项目,为学生提供所有学习路径中的基本 AI 技能和能力。虽然从幼儿园到十二年级(K-12)的 AI 教育至关重要,但美国也必须为终身学习者提供资源,使其为不断变化的劳动力发展新技能。

通过建立一个将学生早期接触、全面的教师培训和其他劳动力发展资源相结合的强大框架,我们可以确保每个美国人都有机会从教育旅程的最早阶段到中学后教育阶段学习 AI,培养创新和批判性思维文化,巩固美国在 AI 驱动的未来中的领导地位。(@AIGC 开放社区)

更多 Voice Agent 学习笔记:

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络


RTE开发者社区
663 声望973 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。