月暗开源 Kimi-Audio，单一框架执行多种语音任务；照片秒变可对话数字人，LemonAI 推出 Slice Live丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01.有话题的技术

1、百度推出文心 4.5 Turbo 和深度思考模型 X1 Turbo

4 月 25 日，在面向开发者的 Create 大会重磅推出两款全新模型：文心 4.5 Turbo 和深度思考模型 X1 Turbo。

两款模型主打多模态、强推理和低成本。百度旗下新搜索智能助手文小言也宣布全面接入，免费向用户开放，即日起用户打开文小言 APP 即可使用。

文心大模型 4.5 Turbo 进一步强化了多模态能力。在多个基准测试集中，文心 4.5 Turbo 多模态能力已与 GPT-4.1 持平，甚至在部分维度优于 GPT-4o。

而文心大模型 X1 Turbo 则在 4.5 Turbo 的基础上进行了「深度思考」升级。无论是问答能力、内容创作、逻辑推理，还是工具调用、多模态处理，X1 Turbo 均实现全方位增强，整体表现领先于 DeepSeek R1 和最新版本 V3。(@APPSO)

2、GPT-4o 模型再次升级

4 月 5 日，OpenAI 称对 GPT 4o 模型进行了升级。

OpenAI CEO Sam Altman 发文宣布 GPT-4o 迎来能力改进，具体如下：

新升级的 GPT 4o 模型个性化更强，优化了模型保存「记忆」的时机，并增强其在 STEM 领域的问题解决能力，还对其响应方式进行了细微的调整，使其更加主动，能够更好地引导对话走向富有成效的结果，同时对回复的细节进行了微调，让 GPT-4o 在各种任务中的表现更直观、更易用，（@ai 寒武纪、APPSO）

3、总体性能第一：月之暗面开源全新音频基础模型 Kimi-Audio，横扫十多项基准测试

4 月 26 日，Kimi 发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio，支持语音识别、音频理解、音频转文本、语音对话等多种任务，在十多个音频基准测试中实现了最先进的（SOTA）性能。结果显示，Kimi-Audio 总体性能排名第一，几乎没有明显短板。

Kimi-Audio 采用了集成式架构设计，包括三个核心组件 —— 音频分词器（Audio Tokenizer）、音频大模型（Audio LLM）、音频去分词器（Audio Detokenizer）。

这一架构使 Kimi-Audio 能够在单一模型框架下，流畅地处理从语音识别、理解到语音对话等多种音频语言任务。同时，音频分词器还提取连续的声学向量，以增强感知能力。（@机器之心）

4、Cognition Labs 推出 DeepWiki 项目，可为 GitHub 仓库提供 AI 驱动的实时交互式文档

（图片来源：deepwiki 官网）

对于开源项目，这项服务完全免费，甚至无需注册。访问 deepwiki.com，探索已经收录的热门开源项目的 Wiki，或者把正在浏览的任何 GitHub 仓库 URL 中的 github.com 替换成 deepwiki.com，即可无缝跳转到该仓库的 DeepWiki 页面。

对话式文档：直接向代码库「提问」，DeepWiki 会尝试理解问题并给出文档级的解答
深度研究（Deep Research）：对于复杂问题，可以开启此功能，让 AI Agent 进行更深入的分析和回答
按需索引：如果关注的公开仓库还没被收录，可以请求 DeepWiki 索引
私有仓库支持：对于私有仓库，可以通过注册 Devin 账户（devin.ai）来获得服务
轻松分享：生成的 Wiki 页面和问答结果都可以通过链接分享，方便团队成员保持信息同步（@AI 寒武纪）

5、Adobe 发布商用级 AI 图像生成模型 Firefly Image 4 系列

Adobe 更新发布了 Firefly Image 4 和 Firefly Image 4 Ultra 两大 AI 图像生成模型，支持最高 2K 分辨率输出。

这两款模型均基于 Adobe Stock 等授权内容以及公共领域数据训练，如侵犯版权，可以让 Adobe 赔偿。（@三花 AI）

6、MLX-Audio: 苹果芯片上的高效语音合成模型库，提供 TTS REST API

MLX-Audio 是一个基于 Apple MLX 框架构建的文本转语音（TTS）和语音转语音（STS）库，专为 Apple Silicon 芯片优化，提供出色的语音合成性能。

核心特性：

苹果芯片加速：在 M 系列芯片上实现快速推理；
多语言支持：支持多种语言；
语音定制：提供丰富的语音定制选项；
语速调节： 0.5x 到 2.0x 的语速调节范围；
可视化交互：具有 3D 音频可视化的交互式网页界面；
REST API: 提供用于 TTS 生成的 REST API；
性能优化：支持量化以优化性能；
文件快速访问：通过 Finder/资源管理器集成直接访问输出文件。

支持模型：

Kokoro: 多语言 TTS 模型，支持多种语言和语音风格。
CSM （Conversational Speech Model） : Sesame 的对话语音模型，支持文本转语音和使用参考音频样本进行声音定制。(@GitHub)

02.有亮点的产品

1、AceditAI 面试教练：实时转录、问题检测和个性化回复等功能

Acedit 是一款 Chrome 浏览器插件，作为你的 AI 面试教练：

智能练习： 上传职位描述和简历，Acedit 即可生成个性化的练习问答，并通过 AI 模拟面试助你充分准备。
实时 AI 建议： 在 Google Meet、Zoom、Teams 等在线面试平台，Acedit 能读取面试问题，并结合你的简历、领英资料等信息，提供实时 AI 生成的答案建议。
定制求职信： 内置 AI 工具，轻松生成个性化求职信。(@ProductHunt)

2、LemonAI 推出 Slice Live：照片秒变实时数字人

Lemon Slice Live 是一款实时音视频 AI 数字人模型，让你体验前所未有的视频聊天。基于扩散变换模型（DiT）技术，它能将任何角色图像立即转化为支持 10 多种语言的交互式视频通话。无需训练或设置特定角色模型，上传一张照片即可与任意角色流畅对话，兼容写实、卡通、绘画等多种风格，支持高达 25 FPS 的实时渲染。（@三花 AI、LemonAI 官网）