头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

01 有话题的技术

1、火山引擎发布豆包视频生成模型 Seedance 1.0 lite

5 月 13 日,在 FORCE LINK AI 创新巡展·上海站,火山引擎发布豆包·视频生成模型 Seedance 1.0 lite。

此次全新发布的豆包视频生成模型 Seedance 1.0 lite,支持文生视频、图生视频,视频生成时长支持 5s、10s,分辨率提供 480P、720P。

作为豆包视频生成模型系列的小参数量版本,Seedance 1.0 lite 模型实现了两大突破:影视级的视频生成质量、视频生成速度大幅提升,兼顾效果、速度、性价比,具体亮点如下:

  • 更精准的指令遵循:通过强大的语义理解,可精细控制人物外貌气质、衣着风格、表情动作等,并在多主体动作解析、嵌入式文本响应、程度副词和镜头切换响应方面具有优势;
  • 更丰富的影视级运镜:支持 360 度环绕、航拍、变焦、平移、跟随、手持等多种镜头语言,具备细腻高清的基础画质和影视级美感;
  • 更合理的运动交互:分析动作时序与空间关系,提升人物、物体间自然流畅的交互动作,运动轨迹、受力反馈更加契合现实规律。

目前,企业用户可在火山方舟平台使用「Seedance 1.0 lite」的 API,个人用户也可在豆包 App、即梦体验。(@APPSO)

2、腾讯发布首个多模态统一 CoT 奖励模型,奖励能力大幅跃升

腾讯混元联合多家机构推出 UnifiedReward-Think,首次实现具备长链式推理能力的统一多模态奖励模型,通过三阶段训练(冷启动激发、拒绝采样巩固、GRPO 强化)提升评估能力。该模型解决了现有奖励模型只能「表面判断」的问题,展现出显式和隐式推理能力,在图像生成和理解任务中性能显著提升,同时保持高可解释性。

目前 UnifiedReward-Think 已全面开源,包含模型、数据集和工具,代表奖励模型从简单「打分器」向具备认知理解的智能评估系统转变。

项目主页:https://codegoat24.github.io/UnifiedReward/think

GitHub: https://github.com/CodeGoat24/UnifiedReward

模型:https://huggingface.co/collections/CodeGoat24/unifiedreward-m... (@腾讯研究院、@腾讯混元)

3、Morphik-Core:开源多模态 RAG,专注于处理技术文档和多模态数据(文本、图像、PDF、视频)

Morphik-Core 是一款开源多模态 RAG 项目,其专注于处理技术文档和多模态数据(文本、图像、PDF、视频),结合多模态搜索能够为开发者提供高效的数据摄入、搜索和转换工具,构建 AI 应用。

核心功能:

  • 多模态搜索:基于 ColPali 技术,精准搜索文本和图像(86% 准确率),支持 PDF、视频等;
  • 知识图谱:一行代码生成领域特定知识图谱,支持自然语言查询;
  • 元数据提取:快速提取文档元数据,支持自然语言规则(如 PII 删除);
  • 缓存增强生成:持久化 KV 缓存,近零延迟查询,支持 1000 万+ 上下文;
  • 集成:兼容 Google Suite、Slack 等,提供 Python SDK 和 REST API。

体验链接:https://www.ycombinator.com/launches/NT2-morphik-open-source-... (@shao__meng@X)

02有亮点的产品

1、阿里通义新增 Deep Research (深度研究)功能

5 月 13 日晚,阿里通义宣布将在 QwenChat 对所有人免费开放 Deep Research(深入研究)功能。

官方介绍,QwenChat 中的 Deep Research (深入研究)是由 Qwen 团队打造的一个智能助理系统,能够逐步规划复杂的研究任务,综合大量在线信息,并协助你完成复杂的科研任务。

具体而言,Deep Research 可以结合互联网上的海量信息,对复杂任务进行多步骤的搜索和分析总结,并以全面、易读的报告形式呈现研究结果。过去需要数小时才能完成的任务,现在只需十几分钟即可完成,大大提升了用户处理复杂任务的效率。(@APPSO)

2、Nooka:「与一本书对话」,小红书独立开发大赛获奖产品

(图片来源:APP Store)

一款重新定义「听书」体验的创新 App,让书籍不再只是阅读的对象,而成为可以互动的播客。小红书独立开发大赛获奖产品。

精选全球优质非虚构类书籍,以 20 分钟音频播客解读的形式呈现核心思想,帮助用户在通勤、运动、做家务等碎片时间里高效吸收知识。

不同于传统的听书平台,Nooka 最大的特色是「可对话」:用户可以在听的过程中随时打断 host 提问,AI 会基于上下文即时回答,真正实现「与一本书对话」。我们还允许用户将这些有趣的对话片段分享到社区,与他人一起探索观点、交换思考。

Nooka 使用 AI 技术生成的语音更为自然,还能根据内容调整语气和情感。用户可以选择不同的「声音角色」。「我们不只是做了一个 TTS(文字转语音)工具,而是希望重塑人与知识的关系。」Nooka 团队在获奖感言中表示,「在 AI 时代,知识获取应该更高效,也更有温度。」

美区 App Store:https://apps.apple.com/us/app/nooka-podcast-of-book-summary/i...(@Founder Park、@APPSO)

03有态度的观点

1、比尔盖茨:美国的封锁助推中国科技、芯片全速发展

近日,比尔盖茨公开接受采访时表示,美国对中国技术封锁起到反作用。他表示:「美国对中国的技术封锁起到了完全相反的效果,不仅未能限制中国科技发展,反而让中国在芯片制造等领域实现了全速发展。」

盖茨说,想要限制中国的发展是很难的,将技术完全占为已有的想法并不现实。

比尔盖茨还表示,美国的关税政策制造了大量的不确定性,对各行各业都会造成巨大的影响,而这种不确定性会导致企业无法正常开展投资活动。(@快科技)

2、 Sam Altman:OpenAI 的语音产品还不够好,语音与图形用户界面结合将带来创新

日前,OpenAI CEO Sam Altman 参加投资机构红杉资本的「2025 AI Ascent」大会,前者在大会现场接受了专访,并分享了一些 OpenAI 的创业经历、产品规划、行业预测等内容。

对于 OpenAI 的创业历程,Altman 提到公司在 2020 年 6 月推出的 GPT-3 API 并没有刮起太大风浪,但 GPT-3 API 为一些文案撰写服务的公司提供了不错的经济型服务。Altman 还翻出了老底:虽然大家无法用 GPT-3 API 构建很伟大的业务,但都喜欢与它交流。

Altman 指出,从某种意义,这是 API 产品唯一的杀手级用途。

对于时下大火的 AI Agent(智能体),Altman 预言,2025 年将成为 AI Agent 大规模应用之年,尤其在编程领域,AI Agent 将成为主导力量。他称,未来几年内,Agent 作为「数字化劳动力」将帮助各行业显著节省时间、提升效率,并带来可观商业价值。

令人有点意外的是,Altman 还在访谈中透露了语音产品在 OpenAI 的重要性。他坦言,团队目前还没有开发出足够好的语音产品。Altman 表示,自己第一次见到语音模式时,最感兴趣的就是语音产品在触摸界面开辟了一个新的交互层面,因此他也相信语音与图形用户界面结合会有一些令人惊叹的创新。

原采访链接:https://www.youtube.com/watch?v=ctcMA6chfDY(@APPSO)

更多 Voice Agent 学习笔记:

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
663 声望975 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。