开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、OpenAI o3-pro 正式发布,基于 o3 所打造,拥有更强的数学、科学、编程等领域的表现
6 月 11 日凌晨,OpenAI 正式发布 o3-pro 推理模型,基于 o3 所打造,拥有更强的数学、科学、编程等领域的表现。性能表现上:
- o3-pro 在专家评估中,评审人员普遍认为 o3 Pro 在多方面都比 o3 模型更进一步,尤其适合用在科学、教育、编程、商业和写作这些需要深度输出的任务中;
- 在学术评估的基准测试中,o3-pro 的整体表现持续优于 o1-pro 和 o3;
- OpenAI 还通过四次尝试获取正确答案的方式进行实验发现,o3-pro 能保持较好的性能表现。
据介绍,o3-pro 与 o3 系列一样拥有 200K 的上下文窗口和 100K 的输出。
与 o3 一样,o3-pro 也可调用工具,从而支持搜索、分析文件、视觉推理、使用 Python 等。值得一提的是,o3-pro 支持工具访问,因此响应速度相较于 o1-pro 要更慢。
目前,o3-pro 已向 Pro 和 Team 用户提供,取代 o1-pro;企业版和教育版用户将在下周获得使用权限。
价格方面,o3-pro 输入为 20 美元/百万 token,输出 80 美元/百万 token;而 OpenAI CEO Sam Altman 昨晚宣布,o3 降价 80%——因此 o3 价格来到了输出 2 美元/百万 token、输入 8 美元/百万 token。(@APPSO)
2、Let Them Talk: 开源多功能语音驱动视频生成工具
由中山大学、美团等共同发布的多人对话视频工具「Let Them Talk」 具备多功能性,能够创造出真实对话、唱歌以及交互控制的卡通视频。
它支持单人和多人视频生成,用户可以通过提示词直接操控虚拟角色的行为,表现出良好的泛化性能。此工具灵活地提供了 480P 和 720P 的输出分辨率,同时支持最长 15 秒的视频生成。项目已开源,包括权重和推理代码,技术报告及项目页面供研究与开发使用。
相关链接:
https://github.com/MeiGen-AI/MultiTalk (@果比 AI)
3、苹果推出新语言基座模型,支持 15 种语言和多种智能功能
苹果在 WWDC 大会上推出了新一代语言基座模型,专为增强 Apple Intelligence 功能设计。
「基础模型框架」(Foundation Models Framwork)是苹果为开发者提供的端侧 AI 模型接入框架。使用它,苹果开发者将可以轻松地为自己的 app 接入端侧大语言模型,且无需支付 token 成本。
新模型包括一个约 3B 参数的紧凑型设备端模型和一个高效的服务器端混合专家模型,支持 15 种语言和多种智能功能。开发者只需几行代码即可接入 AI 推理功能。
这些模型在效率和性能上进行了优化,设备端模型降低了内存占用并提高了推理速度,服务器端模型则实现了更高的精度和可扩展性。苹果还通过改进的训练方案和多模态自适应,增强了推理能力和图像理解功能。
基础模型是苹果智能的核心,去年仅用于苹果自家产品和功能使用;而从今天开始,苹果把基础模型开放给开发者,任何第三方应用都可以直接利用这些端侧的基础模型,来实现基于 AI 的功能,为用户带来崭新的体验。
比如现场展示的「Kahoot!」,一个教育类产品,可以用端侧模型生成针对用户定制化的一套题目;
又或者 Alltrails,一款海外徒步玩家必备的产品,即使在深山险境完全无网的情景下,也能为用户提供必要的协助。
相关链接:
https://www.apple.com/newsroom/2025/06/apple-supercharges-its...
相关链接:
https://machinelearning.apple.com/research/apple-foundation-m...
相关链接:
https://techcrunch.com/2025/06/09/apple-lets-developers-tap-i... (@果比 AI、@APPSO)
02 有亮点的产品
1、秘塔 AI 推出「今天学点啥」产品,可以解析复杂内容并提供语音讲解,还支持原文对照模式
完整版:https://metaso.cn/s/Z06lCCR
「今天学点啥」是秘塔 AI 推出的一款学习工具,它能把枯燥的学习资料变成生动有趣的互动课程。该工具不仅能解析复杂内容并提供语音讲解,还支持原文对照模式,可一键导出编辑版 PPT 和逐字稿;适用于自学新知识、职场阅读、学术文献解读和教学课件制作等场景,能大幅提高日常知识摄入效率。
它的亮点功能:
- 内置丰富学习内容:比如理财板块有「价值股溢价」等专业知识的讲解。
- 自定义学习主题:如果不喜欢内置内容,可以输入自己感兴趣的主题。
- 个性化学习体验:
- 选择你的学习水平(初学者、进阶者、专家)
选择喜欢的讲课风格,比如:
【奏折】——像大臣向皇上汇报一样讲课
【暴躁老哥】——直白犀利,不废话
点击右上角,还能开启原文对照模式,每讲一句中文,能同步对照原文。还能直接导出可编辑的 PPT 以及逐字稿。下载出来的 PPT 可以根据自己的需求做出调整。
体验网址:
https://metaso.cn/study?s=studyy(@夕小瑶科技说、@腾讯研究院、@每晚读一本书)
2、Heynds :一款 AI 写作和语音助手桌面应用程序,支持 Mac 和 Windows
Heynds 是一款 AI 写作和语音助手桌面应用程序,支持 Mac 和 Windows ,旨在显著加速用户的写作流程。
Heynds 可以在 Mac 或 Windows 桌面上的任何应用中通用——包括邮件客户端、Notion 到 Slack,甚至代码编辑器等。用户可以用语音输入后使用 AI 对文本编辑、润色,还支持翻译成 100 多种语言,或生成新内容等操作。
体验链接:
(@Product Hunt)
03 有态度的观点
1、AI 语音独角兽 11Labs 创始人:语音是人类与技术交互最自然、最高效的接口
ElevenLabs 是一家 2022 年由前谷歌机器学习工程师 Piotr Dabkowski 与前 Palantir 部署策略师 Mati Staniszewski 共同创立的软件公司,专注运用深度学习开发自然逼真的语音合成软件。ElevenLabs 发展迅猛,2025 年 1 月完成 1.8 亿美元 C 轮融资,估值达 33 亿美元。其推出的语音转文本模型 Scribe v1 支持 99 种语言,准确性领先。
本次访谈首发于 2025 年 5 月 30 日 Stripe 频道。
Mati Staniszewski 在访谈中提到「我们一直有个坚定的信念:语音是人类与技术交互最自然、最高效的接口,也是人与设备之间最直观的沟通方式。」
他还强调,「我们很多语音生成工作,正是通过加入这些不完美的『人性化特征』,让合成声音显得更加真实和有情感,这也成为 ElevenLabs 的声音技术与众不同之处。当然,并不是所有场景都适合这种风格。但总体而言,『人性』中的不完美,恰恰是人愿意互动的关键。」
「未来的语音 Agent 会具备上下文感知能力,能够理解你为什么打电话来,并帮助你顺畅地完成后续操作——无论是预约、账单问题、退款申请,整个流程都能变得迅速而顺滑。最初你可能只是想『赶紧搞定』,但它的价值会延伸得更远,比如:它可以帮助你理解一个产品的核心功能,教你怎么用,并让你真正用出价值来。」
最后他提到,在我们构建 ElevenLabs 的技术时,我们不是为了技术而做技术,而是希望通过技术把故事传达出去,让我们触达的不同群体都能理解并参与进来。让人们觉得他们也在这段故事之中。(@Z potentials、@腾讯研究院)
🎤 关于 Elevenlabs 两个联创如何合作打造语音 AI 独角兽,可以阅读我们翻译整理的深度访谈:ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
更多 Voice Agent 学习笔记:
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。