开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

01.有话题的技术

1、百度推出文心 4.5 Turbo 和深度思考模型 X1 Turbo

4 月 25 日,在面向开发者的 Create 大会重磅推出两款全新模型:文心 4.5 Turbo 和深度思考模型 X1 Turbo。

两款模型主打多模态、强推理和低成本。百度旗下新搜索智能助手文小言也宣布全面接入,免费向用户开放,即日起用户打开文小言 APP 即可使用。

文心大模型 4.5 Turbo 进一步强化了多模态能力。在多个基准测试集中,文心 4.5 Turbo 多模态能力已与 GPT-4.1 持平,甚至在部分维度优于 GPT-4o。

而文心大模型 X1 Turbo 则在 4.5 Turbo 的基础上进行了「深度思考」升级。无论是问答能力、内容创作、逻辑推理,还是工具调用、多模态处理,X1 Turbo 均实现全方位增强,整体表现领先于 DeepSeek R1 和最新版本 V3。(@APPSO)

2、GPT-4o 模型再次升级

4 月 5 日,OpenAI 称对 GPT 4o 模型进行了升级。

OpenAI CEO Sam Altman 发文宣布 GPT-4o 迎来能力改进,具体如下:

新升级的 GPT 4o 模型个性化更强,优化了模型保存「记忆」的时机,并增强其在 STEM 领域的问题解决能力,还对其响应方式进行了细微的调整,使其更加主动,能够更好地引导对话走向富有成效的结果,同时对回复的细节进行了微调,让 GPT-4o 在各种任务中的表现更直观、更易用,(@ai 寒武纪、APPSO)

3、总体性能第一:月之暗面开源全新音频基础模型 Kimi-Audio,横扫十多项基准测试

4 月 26 日,Kimi 发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。结果显示,Kimi-Audio 总体性能排名第一,几乎没有明显短板。

Kimi-Audio 采用了集成式架构设计,包括三个核心组件 —— 音频分词器(Audio Tokenizer)、音频大模型(Audio LLM)、音频去分词器(Audio Detokenizer)。

这一架构使 Kimi-Audio 能够在单一模型框架下,流畅地处理从语音识别、理解到语音对话等多种音频语言任务。同时,音频分词器还提取连续的声学向量,以增强感知能力。(@机器之心)

4、Cognition Labs 推出 DeepWiki 项目,可为 GitHub 仓库提供 AI 驱动的实时交互式文档

(图片来源:deepwiki 官网)

对于开源项目,这项服务完全免费,甚至无需注册。访问 deepwiki.com,探索已经收录的热门开源项目的 Wiki,或者把正在浏览的任何 GitHub 仓库 URL 中的 github.com 替换成 deepwiki.com,即可无缝跳转到该仓库的 DeepWiki 页面。

  • 对话式文档: 直接向代码库「提问」,DeepWiki 会尝试理解问题并给出文档级的解答
  • 深度研究 (Deep Research): 对于复杂问题,可以开启此功能,让 AI Agent 进行更深入的分析和回答
  • 按需索引: 如果关注的公开仓库还没被收录,可以请求 DeepWiki 索引
  • 私有仓库支持: 对于私有仓库,可以通过注册 Devin 账户(devin.ai)来获得服务
  • 轻松分享: 生成的 Wiki 页面和问答结果都可以通过链接分享,方便团队成员保持信息同步(@AI 寒武纪)

5、Adobe 发布商用级 AI 图像生成模型 Firefly Image 4 系列

Adobe 更新发布了 Firefly Image 4 和 Firefly Image 4 Ultra 两大 AI 图像生成模型,支持最高 2K 分辨率输出。

这两款模型均基于 Adobe Stock 等授权内容以及公共领域数据训练,如侵犯版权,可以让 Adobe 赔偿。(@三花 AI)

6、MLX-Audio: 苹果芯片上的高效语音合成模型库,提供 TTS REST API

MLX-Audio 是一个基于 Apple MLX 框架构建的文本转语音 (TTS) 和语音转语音 (STS) 库,专为 Apple Silicon 芯片优化,提供出色的语音合成性能。

核心特性:

  • 苹果芯片加速: 在 M 系列芯片上实现快速推理;
  • 多语言支持: 支持多种语言;
  • 语音定制: 提供丰富的语音定制选项;
  • 语速调节: 0.5x 到 2.0x 的语速调节范围;
  • 可视化交互: 具有 3D 音频可视化的交互式网页界面;
  • REST API: 提供用于 TTS 生成的 REST API;
  • 性能优化: 支持量化以优化性能;
  • 文件快速访问: 通过 Finder/资源管理器集成直接访问输出文件。

支持模型:

  • Kokoro: 多语言 TTS 模型,支持多种语言和语音风格。
  • CSM (Conversational Speech Model) : Sesame 的对话语音模型,支持文本转语音和使用参考音频样本进行声音定制。(@GitHub)

02.有亮点的产品

1、AceditAI 面试教练:实时转录、问题检测和个性化回复等功能

Acedit 是一款 Chrome 浏览器插件,作为你的 AI 面试教练:

  • 智能练习: 上传职位描述和简历,Acedit 即可生成个性化的练习问答,并通过 AI 模拟面试助你充分准备。
  • 实时 AI 建议: 在 Google Meet、Zoom、Teams 等在线面试平台,Acedit 能读取面试问题,并结合你的简历、领英资料等信息,提供实时 AI 生成的答案建议。
  • 定制求职信: 内置 AI 工具,轻松生成个性化求职信。(@ProductHunt)

2、LemonAI 推出 Slice Live:照片秒变实时数字人

Lemon Slice Live 是一款实时音视频 AI 数字人模型,让你体验前所未有的视频聊天。基于扩散变换模型 (DiT) 技术,它能将任何角色图像立即转化为支持 10 多种语言的交互式视频通话。无需训练或设置特定角色模型,上传一张照片即可与任意角色流畅对话,兼容写实、卡通、绘画等多种风格,支持高达 25 FPS 的实时渲染。(@三花 AI、LemonAI 官网)

03.有态度的观点

1、Anthropic 研究员:从理论上讲 AI 有可能产生意识

日前,Anthropic 研究员 Kyle Fish 受公司邀请做了一期访谈节目,其中他在节目中表示,理论上讲 AI 是可能产生意识的。

Kyle Fish 认为,虽然当前 AI 的整体系统与人类大脑在功能和结构上存在差异,但如果能够以足够高的保真度,去模拟人脑,其中包括模拟神经递质分子的作用,那么从理论上讲,AI 有可能产生意识。

他还进一步表示,如果将大脑中的神经元逐个被替换成芯片,在替换过程中保持个体的行为和功能的不变,那么替换完成后,个体的意识体验可能不会发生太大变化。

值得一提的是,Anthropic 为了探索模型更深层次的体验与潜在意识,启动了一项研究计划,旨在调查 AI 模型是否能够有潜在的偏好和痛苦迹象,并且去判断这是否符合道德。(@APPSO)

04.有看点的活动

1、脑机接口智能技术应用挑战赛正式开启报名!( 04.26-05.28)

(图片来源:智姬)

脑机接口智能技术应用挑战赛(AI-Based BCI Tech Competition)是由中关村领智青年人才自主创新发展中心联合姬械机科技集团发起的,以脑与智能(Brain and Al)为主题方向的人工智能脑接口(Al-based BCl)前沿创新技术与应用竞赛。

通过本次技术比赛为脑机科技创新者提供系统性技术支持与创新资源对接,重点推进脑机接口技术问题的解决,同时实现脑机接 口的行业应用示范与产业化落地创新探索。

赛题发布与比赛报名 :04/26 - 05/28

  • 参赛团队报名审核 :05/28 - 06/08(截止报名) 比赛形式:(1)线下自主赛题解答; (2) 线上提交赛题答案;(3)现场场答辩分享;

一等奖 1 名奖金 30 万 (第一名) ;

二等奖 2 名奖金 15 万 (第二名、第三名) ;

三等奖 5 名奖金 8 万 (第四名、第五名、第六名、第七名、第八名) 。

目前官方已发布相关赛题简介:基于不同的通道脑机,完成与之相关的技术题、应用题。(@智姬)

更多 Voice Agent 学习笔记:

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络


RTE开发者社区
663 声望973 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。