ElatoAI：开源 ESP32 AI 语音 AI 玩具方案；凯叔推出 AI 故事玩偶「鸡飞飞」丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01.有话题的技术

1、DeepSeek-R1T-Chimera：推理能力与 token 效率的完美结合

TNG Technology Consulting 最新开源的 DeepSeek-R1T-Chimera LLM，巧妙融合了 DeepSeek R1 的推理能力和 DeepSeek V3-0324 的高效 token 效率。

现在可以在 openrouter 上免费使用（@三花 AI）

2、谷歌升级 Music AI Sandbox：新增 Lyria 2 模型及 RealTime 功能

Music AI Sandbox 平台新增 Lyria 2 模型，能够生成专业级别的 48kHz 高保真立体声音频，适应多种音乐风格；此外扩展 Lyria RealTime 模型，支持实时创作和调整音乐。

该平台还新增了「Create」功能，通过文本描述或用户歌词生成音乐片段；「Extend」功能基于现有音频片段生成延续内容；「Edit」功能通过预设或文本提示调整音频情绪与风格，还能融合不同音乐段落。（@AI 小讯）

3、阶跃星辰开源图像编辑模型 Step1X-Edit：一键改图大师，性能达到开源 SOTA

阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit，性能达到开源 SOTA。该模型总参数量为 19B （7B MLLM + 12B DiT），具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力；支持 11 类高频图像编辑任务类型，如文字替换、风格迁移、材质变换、人物修图等。

Step1X-Edit 采用 MLLM（Multimodal LLM）+ Diffusion 的解耦式架构，分别负责自然语言理解与高保真图像生成，相比现有图像编辑模型，该架构在指令泛化能力与图像可控性上更具优势。

MLLM 模块负责处理自然语言指令与图像内容，具备多模态语义理解能力，可将复杂编辑需求解析为 latent 控制信号；
Diffusion 模块作为图像生成器（Image Decoder），根据 MLLM 生成的 latent 信号完成图像的重构或局部修改，确保图像细节保真与风格统一。

这一结构打破了传统 pipeline 模型中「理解」和「生成」各自为政的问题，使模型在执行复杂编辑指令时具备更高的准确性与控制力。(@ Founder Park)

4、开源 AI 玩具方案 ElatoAI：基于 ESP32+OpenAI Realtime API 打造

ElatoAI 用 ESP32 微控制器和 OpenAI Realtime API 打造，让玩具秒变聪明又贴心的 AI 小伙伴。不仅能连续聊上 10 分钟以上，语音识别和回应还特别自然流畅。只需要在网上购买基础的硬件并按照教程配置软件，即可实现家里的泰迪熊突然能用不同的声音和性格与你聊天，讲故事，甚至教你新知识。通过前端界面，你可以创建各种有趣的 AI 角色，并且允许设置 AI 角色的声音特征和情感基调。

应用场景：

给孩子的智能伙伴：孩子毛绒恐龙现在会讲恐龙知识和睡前故事；
老人的贴心伴侣：给老人做一个会聊天的毛绒猫，每天陪她聊天；
语言学习助手：自己用它练习日语，比单纯的语言 APP 有趣多了

设置完成后，使用非常简单：

将设备固定在玩具上（魔术贴）
在网页应用中选择你创建的 AI 角色
按下设备上的按钮开始对话，全球范围内的延迟不到 1 秒，音质清晰（使用 24kbps 的 Opus 编解码器）。（@AI 启蒙小伙伴）

02.有亮点的产品

1、饿了么推出骑手智能 AI 助手「小饿」，具备语音交互、主动服务和个性化分析功能，提供实时风险提醒和收入预估分析

饿了么于 4 月 25 日正式发布骑手端智能助手「小饿」，这是国内首个基于大模型技术打造的配送场景智能体。该系统通过自然语言处理、多模态交互和实时数据分析等技术，为骑手提供全方位的智能辅助，显著提升配送效率和服务体验。

具备三大核心功能模块：智能预警系统、路径优化引擎和语音交互界面。系统能够实时监测天气变化、交通状况等外部环境因素，提前向骑手推送暴雨、大风等极端天气预警，以及道路施工、临时管制等路况信息。在实际测试中，该功能帮助骑手规避了约 23%的潜在配送风险。

骑手可以通过自然语言与系统对话，查询订单详情、导航路线等信息，全程无需手动操作手机。系统支持多轮对话理解，能够准确捕捉骑手在配送过程中的各类需求。这种交互方式大大降低了骑手在行驶过程中使用手机的安全风险。

无锡骑手黄晓琴的实际体验印证了这点：「以前下雨天要脱手套操作手机，现在喊声「小饿」就能接单。」（@蜂耘网、牛新社）

2、AI Presentation Narrator：为 PPT 提供智能配音

通过为演示幻灯片提供脚本，AI Presentation Narrator 能将任何演示变成引人入胜的视频。非常适合在线学习、销售材料和快速讲解。

只需在幻灯片的演讲者注释中输入您的脚本，Plus AI 演示文稿解说员就会使用文本转语音技术将您的脚本转化为演示文稿的配音。( @Product Hunt)

3、CreateWise AI：自动删除填充词和沉默，生成节目注释和亮点

CreateWise AI 是一款人工智能播客编辑器：一键自动删除填充词和静默，生成节目注释和亮点，创建社交媒体短片。从单个音频生成 100+ 内容素材。

消除噪音和口癖：自动检测并消除「嗯」、「呃」、突兀的停顿和重复音；
分析并优化音频内容，将数小时的编辑工作缩短至几分钟；
查找亮点并创建可共享的视频片段，完美用于社交媒体；
生成节目注释、标题和摘要；
为您的作品集创建社交媒体帖子和博客。(@ Product Hunt)

4、凯叔推出 AI 故事玩偶「鸡飞飞」

早在 2023 年，鸡飞飞 IP 形象的故事机就已经在凯叔的硬件矩阵出现，彼时其故事机主要是以内置《口袋神探》前三季的内容加上一部分的 AI 对话功能为主。

此次的新品则是在旧的形态之上推出的纯 AI 故事机。凯叔讲故事创始人王凯在新品介绍视频中称其为「凯叔家的 AI 智能体」。

根据王凯在视频中的介绍，其团队对鸡飞飞的差异化设定主要在：

以「故事」为圆心的解决方案，用故事锻炼逻辑能力

相较于单纯的故事机，王凯强调这款产品更像是一个解决方案，即 AI 在满足故事内容提供的同时，还可以提供基于逻辑演绎推理法等框架下的探案剧情，「在探案的过程当中学会了知识，学会了逻辑推理」。在案件故事中，鸡飞飞会通过案件启动-思维训练（抛出关键问题、引导深入思考、拓展提问、进一步引导、验证与总结）-推理总结的节奏来进行思维能力的训练。

根据不同场景提供不同服务

鸡飞飞的形态其实还是延续了凯叔故事机矩阵的一贯风格，轻便、简单，可以满足各个场景的使用自由。王凯介绍，在联网在线时，鸡飞飞会自动实时更新，基于 AI 训练和日常使用的数据积累，会越来越了解孩子并且在孩子所喜欢的方向提供陪伴。在联网时，AI 会调用故事；在不联网时，提供《口袋神探》前三季内容。

养成系 AI 陪伴者

在「探案任务」中培养逻辑思维之外，鸡飞飞还提供如「你说我猜」、「故事共创」等等的 AI 陪伴，会基于日常的互动情况更加了解孩子的取向，实时调整，进而成为懂孩子的陪伴者。（@多知）

03.有态度的观点

1、Meta CTO：AI 可能彻底颠覆现有的 APP

Meta 首席技术官 Andrew Bosworth 近日与 a16z 风投合伙人 David George 进行了一场深度对谈，详细阐述了 Meta 对「后手机时代」的战略规划。

Bosworth 认为，十年后人们获取内容的方式将发生根本性变化，不再仅限于拿出手机。「AR（增强现实）眼镜是真正可能实现的，它将为我们提供更自然的交互方式，通过眼睛和耳朵获取信息，不再依赖键盘或触摸屏，」。Meta 的愿景是创造一个「眼镜」能够替代智能手机的世界。

Bosworth 认为 AI 可能彻底颠覆现有的 APP。「现在，如果我想播放音乐，首先想到的是「我要用哪个提供商——Spotify 还是 Tidal？」但这不是我真正想要的。我想要的只是播放音乐。」

他设想在未来，用户只需表达意图，由 AI 自行决定如何完成任务。关于开源，Bosworth 强调了 Meta 开源 AI 模型 Llama 的战略意义：「对我们来说，将基础模型商品化是有利的商业决策。有大量价格具有竞争力或几乎免费的模型有助于整个生态系统发展。它帮助初创公司、学术界，也帮助我们成为平台提供商。」

尽管愿景宏大，Bosworth 也坦承实现「后手机时代」面临多重挑战，包括技术发明风险、社会接受度和生态系统建设。「手机是我们生活的中心。这是我操作家庭、汽车和工作的方式。世界已经适应了手机。」(@ APPSO)

2、新行政命令：特朗普要求全美国学校教 AI