OpenAI Realtime API 迎来降价；朱啸虎首个 AI 硬件项目 Gyges Labs：轻量化近眼显示光学方案

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、OpenAI 新加坡发布会演示 Realtime API 最新进展

OpenAI 在新加坡的发布会 OpenAI Dev Day 上演示了 Realtime API，带来了更强大的实时语音交互功能，甚至支持多种语言的混合输入，混合输出，并且情绪、语气非常到位，现场效果很炸裂。

以及，发布会上说明，Realtime 的语音 API 也迎来了 Cache 调价，输出部分打了 2 折。简单计算，对于大量相近内容的客服场景，调用成本大概是 50 人民币/小时，和人工队相比，开始有了竞争力。

另一个演示，是让 AI 来点单：在过程中，AI 进行了全自动点餐，包括确认需求，以及... 调整价格。

还有个有趣的，演讲者让 Realtime API based demo 从 0 开始输出，慢慢的：

于是 One...Two...Three...F- [打断]

问：现在你数到几了？

回答：Four

对于 Function Call，Realtime API 也获得了更新。这使得之后的实时语音，不局限于对话了，而是可以进行如操作电脑、联网、查找资料等功能。（@赛博禅心）

2、DeepSeek 推首款推理模型 R1-Lite-Preview，性能超越 OpenAI o1

中国私募巨头幻方量化旗下的 DeepSeek，近日发布了其最新的推理专注型大型语言模型 R1-Lite-Preview。该模型目前仅通过 DeepSeek Chat 这一网页聊天机器人平台提供给公众使用。

尽管 R1-Lite-Preview 目前仅在聊天应用中可用，但它已凭借接近甚至超过 OpenAI 近期发布的 o1-preview 模型的性能引起了广泛关注。

根据 DeepSeek 的说法，该模型在需要逻辑推理、数学思考和实时问题解决的任务中表现出色。其性能在 AIME（美国邀请数学考试）和 MATH 等已建立的基准测试中超越了 OpenAI o1-preview 的水平。此外，DeepSeek 还发布了模型的扩展数据，展示了在给予模型更多时间或「思考令牌」以解决问题时，其准确性稳步提高的趋势。图表强调，随着思维深度的增加，该模型在 AIME 等基准上的得分提升。

目前，R1-Lite-Preview 的发布在关键基准中表现优异，能够处理从复杂数学到逻辑场景的一系列任务，得分与顶级推理模型如 GPQA 和 Codeforces 相当。该模型透明的推理过程让用户能够实时观察其逻辑步骤，增强了系统的责任感和可信度。

值得注意的是，DeepSeek 尚未发布完整的代码供第三方独立分析或基准测试，也未提供 API 接口供独立测试，该公司尚未发布相关的博客文章或技术文档，说明 R1-Lite-Preview 的训练或架构，这让其背后的起源依然充满疑问。

R1-Lite-Preview 目前可以通过 DeepSeek Chat 免费使用，但其高级「深思」模式每天限量 50 条消息，用户可借此体验其强大能力。DeepSeek 计划发布 R1 系列模型的开源版本和相关 API，进一步支持开源 AI 社区的发展。（@AIbase 基地）

3、OpenAI 薪酬曝光，CEO 奥特曼年薪仅 55 万

据一份新发布的税务申报文件显示，OpenAI 的 CEO 奥特曼去年的年薪仅为 76001 美元，相较于 2022 年的 73546 美元略有增加，这一薪酬水平与国内互联网大厂的基础工资相当。

相比之下，OpenAI 的前首席科学家伊利亚·苏茨克弗的薪酬则是奥特曼的四倍多，达到 322201 美元。这份文件还显示，奥特曼短暂被解雇期间，临时 CEO 埃米特·谢尔的日薪约为 338.18 美元，是奥特曼的两倍左右。

尽管高管们的总薪酬未完全披露，因为文件中未包含可能的股权激励和外部投资情况，但这份文件揭示了 OpenAI 的财务状况和慈善活动。

不过，奥特曼虽然年薪不高，但其个人财富估计至少达到 20 亿美元，主要来源于他在科技领域的投资，包括 Uber、Airbnb 等公司的股份。此外，OpenAI 重组为盈利性公益公司后，关于奥特曼是否会获得公司股权的讨论仍在进行中，但他本人否认了获得巨额股权的计划。

值得注意的是，OpenAI 在 10 月份最新一轮融资中筹集了 66 亿美元（约合人民币 463 亿元），融资后估值达到 1570 亿美元（约合人民币 1.1 万亿元）。( @APPSO)

02有亮点的产品

1、AI 版本《黑客帝国》问世！The Matrix 实现无限生成 720p 视频，3A 画质

近日，一个名为「The Matrix」的 AI 基础世界模拟器正式推出，这一创新成果由一个全华人团队，能够实现无限生成高保真的 720p 真实场景视频，并且支持实时交互。

该模拟器展示了一个 14 分钟的演示视频，实际上，它可以持续生成长达一个小时的内容，涵盖沙漠、草原、水体和城市等多场景。在体验过程中，用户可以通过键盘的 WA、S、D 键进行实时控制，感受每秒 16 帧的动态画面。

「The Matrix」项目的开发团队成员来自阿里巴巴、香港大学、滑铁卢大学和加拿大 AI 研究机构 Vector Institute。他们命名为「The Matrix」，正是受到了电影中一句经典台词的启发：这是你熟悉的世界；它现在只存在于我们称之为 Matrix 的神经交互模拟系统中。

该项目的核心亮点在于其提供了前所未有的帧级控制，让用户的每一个操作都能得到即时响应，仿佛身临其境。用户可以在第一人称或第三人称视角下，体验驾驶汽车穿越沙漠、森林或城市等不同场景。

除了能够无限生成视频和高质量的画面之外，「The Matrix」还具备了零样本泛化的。这意味着，模拟器可以在没有相应训练数据的情况下，理解并预测不同环境中物体的行为和交互。

该模拟的训练数据主要来源于三款 3A 游戏的监督数据和大量现实场景的无监督视频。与以往的研究不同，这一技术的创新在于它的学习能力，使其能在未见过的环境中进行准确的生成。

例如，模拟器可以展现「宝马 X3 在环境中行驶场景，或是「车在水中游泳」的奇妙画面。

项目负责人 Hongyang Zhang 和 Ruili Feng 表示，未来还会继续推动这一技术的发展，力求为用户带来更加逼真的虚拟体验。（@AIbase 基地）

2、全新突破！YouTube Shorts 上线 AI 视频背景生成功能

YouTube 在本周四为其 Shorts 功能带来重磅更新。通过整合 Google DeepMind 的 Veo 视频生成模型，Dream Screen 功能现已支持 AI 视频背景生成，可输出 1080p 高清视频，让创作者们的短视频创作如虎添翼。

这项技术的应用极为简单直观。创作者只需打开 Shorts 相机，点击「绿幕」图标，选择「Dream Screen」功能，输入想要的场景描述，比如「糖果世界」或「溪流穿过的魔法森林」。选定动画风格后，系统便会生成多个视频背景供选择，创作者可以在这些动态背景前录制视频内容。

这一功能为创作者开启了无限可能：无论是将自己置身于心爱小说的场景中，还是为短视频制作独特的动画开场，都能轻松实现。YouTube 更透露，未来还将推出 6 秒独立视频片段的生成功能，进一步丰富创作选项。

目前，这项新功能已在美国、加拿大、澳大利亚和新西兰率先上线。值得注意的是，这项创新功能让 YouTube 在短视频领域占据了技术优势。目前短视频市场的领军平台 TikTok 仅支持 AI 静态背景图片生成，尚未推出视频背景生成功能。（@AIbase 基地）

3、Gyges Labs 宣布完成数千万元 Pre-A 轮融资，拥有轻量化近眼显示光学方案

据「智能涌现」报道，Gyges Labs（前仙瞬科技）宣布完成了数千万元的 Pre-A 轮融资，投资方包括金沙江创投、韶音创始人陈皞以及 NYX Ventures。

这家成立于 2022 年的公司专注于利用光学和协同式 AI 技术打造智能可穿戴设备，其核心团队成员背景显赫，包括斯坦福、清华等顶尖高校毕业生，并拥有在苹果、谷歌等国际科技企业的工作经验。

Gyges Labs 的核心技术「DigiWindow」能够将光学模组体积大幅缩小，提升智能眼镜的佩戴体验，同时兼容普通视光学镜片，满足不同视力需求。

公司计划在 2025 年 CES 展会期间发布首款与 moody 合作的 AI 眼镜产品，该产品重量采用自研毫米级光学技术和协同式 AI 引擎，具备实时环境感知、智能翻译等功能。这也意味着著名投资人朱啸虎首次涉足 AI 硬件领域。(@APPSO)

4、GetPickle AI：让你的替身帮你开会你去干别的

GetPickle.ai 是一款致力于革新虚拟会议体验的AI工具，其核心技术通过提供高度逼真的AI克隆化身，使用户能够在不使用摄像头的情况下参加视频通话，保持会议的参与度和互动性。

也就是，它一款让你的通过“AI替身”替你参加视频会议的工具。它可以帮你解决不方便开摄像头的尴尬，比如没化妆、在路上或者只是想偷个懒。Pickle 的 AI 化身会像你一样出现在镜头里，说你的话、做你的表情，看起来就像你真的在参加会议。（@小互AI）

03有态度的观点

1、图灵奖得主 Yoshua Bengio：人类仍缺乏可靠的方法来管理和约束 AI

图灵奖得主、计算机科学家 Yoshua Bengio 在《金融时报》上发表文章，表达自己对于人工智能的最新看法。

他表示，人们一直认为 AI 的一大核心弱点是其缺乏「思考」能力 —— 即内部推理能力。但 OpenAI 在这一领域最近取得了进展，这使自己和许多专家认为，我们可能正在迈向弥合人工智能与人类推理能力差距的关键时刻。

OpenAI 的最新进展依托 o1 大型语言模型，这一模型具备一定的内部推理能力，目前尚未对公众全面开放。这一趋势标志着 AI 发展的新方向：不仅依赖更大的模型和更多的数据，还需要投入更多时间进行推理。这种方法在数学、计算机科学及其他科学领域的大量推理任务中展现出卓越性能。

他也认为，这种技术的成功带来了新的风险 —— 目前人类仍然缺乏可靠的方法来管理和约束 AI。「例如，o1 的评估显示其欺骗人类的能力有所增强，这正是目标实现能力提升的自然结果。更令人担忧的是，o1 在协助制造生物武器方面的能力已达到 OpenAI 的中等风险级别，这是公司定义的最高容忍度（尽管这一标准可能存在降低外界担忧的动机）。」

据 IT 之家此前报道，OpenAI 本月中旬被曝计划于 2025 年 1 月，以研究预览和开发工具的形式，推出名为「Operator」的自动化 AI 智能体，可以独立控制计算机并执行各种任务。（@IT 之家）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

OpenAI Realtime API 迎来降价；朱啸虎首个 AI 硬件项目 Gyges Labs：轻量化近眼显示光学方案

01有话题的新闻

02有亮点的产品

03有态度的观点

RTE开发者社区

引用和评论

ElevenLabs 新 TTS 模型支持音频标签；NotebookLM 前产品经理新项目曝光：将邮件日历新闻转为互动音频丨日报

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略