吴恩达：AI 被过度炒作，但语音 AI 产品却被低估；ChatGPT 升级语音翻译功能丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01 有话题的技术

1、BFL 推出新一代多模态图像生成与编辑模型：FLUX.1 Kontext

Black Forest Labs 推出的新一代多模态图像生成与编辑模型：FLUX.1 Kontext，不同于传统的文生图模型，Kontext 同时理解文本与图像输入，能够实现真正的「上下文生成与编辑」。

亮点：

角色一致性：可在多个场景中保持人物或元素的一致性
局部编辑：只编辑图像的特定部分，不影响其他区域
风格参考：可在指定风格下生成新场景
交互速度快：快速迭代、延迟极低

主要功能：

图文混合控制（Text + Image Prompt）：不仅可以用文字生成图像，也可以上传图像、再用文字修改它；
局部编辑（Local Editing）：可以精确修改图像中的某个部分，而不影响整体风格或其它区域；
人物与风格一致性（Character & Style Consistency）：无论你生成几个不同场景的图像，只要提供相同的参考图或描述，模型能自动保持人物的面孔、表情、姿态一致；
多轮连续编辑（Iterative Editing）：可以对同一张图反复添加修改：「先让她笑 → 再加墨镜 → 再换背景 →再改衣服文字」，每一步的变化都在保留前一轮基础上进行；
速度快、交互性强（Low Latency Inference）：推理速度高达当前主流模型的 8 倍。（@小互 AI）

2、智源全新悟界系列大模型，加速数字世界、物理世界融合

6 月 6 日，在第七届智源大会上作为主办方的智源研究院（简称智源），重磅亮相了全新一代「悟界」系列大模型。从命名来看，「悟界」代表了智源对于虚实边界的突破，通过深化对物理世界的赋能向着物理 AGI 方向迈进。

具体来讲，「悟界」系列包含了多项重要成果，它们分别是原生多模态世界模型 Emu3、脑科学多模态通用基础模型见微 Brainμ、跨本体具身大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0 以及全原子微观生命模型 OpenComplex2。

「悟界」系列中的 Emu3 是全球首个原生多模态世界模型，它基于下一个 token 预测范式统一多模态学习，使模型更易扩展至更多模态。同时其通过研发新型视觉 tokenizer 将图像/视频编码为与文本同构的离散符号序列，构建模态无关的统一表征空间，可实现文本、图像、视频的任意组合理解与生成。

脑科学领域的多模态通用基础模型见微 Brainμ，基于 Emu3 的底层架构，将 fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一 token 化，利用预训练模型多模态对齐的优势，可以实现多模态脑信号与文本、图像等模态的多向映射，这使得单一模型就能完成多种神经科学下游任务，实现跨模态、跨任务、跨个体的统一通用建模。

跨本跨本体具身大小脑协作框架 RoboOS 2.0 是全球首个基于具身智能 SaaS 平台、支持无服务器一站式轻量化机器人本体部署的开源框架。同时，RoboOS 2.0 也是全球首个支持 MCP 的跨本体具身大小脑协作框架，旨在构建具身智能领域的「应用商店」生态。RoboOS 2.0 实现了小脑技能的免适配注册机制，显著降低开发门槛，典型场景下，相关代码量仅为传统手动注册方式的 1/10。

全原子微观生命模型 OpenComplex2 实现了生物分子研究从静态结构预测到动态构象分布建模的重大突破。（@机器之心、@智东西）

3、面壁智能发布 MiniCPM 4.0 端侧大模型：极限 220 倍提速，多框架部署开启端侧智能新纪元

面壁智能于 6 月 6 日晚发布端侧大模型 MiniCPM 4.0，通过自研 CPM.cu 推理框架实现极限场景 220 倍、常规 5 倍推理提速，支持 vLLM、SGLang、LlamaFactory 等多框架部署。该系列包含 8B 闪电稀疏版（支持长 / 短文本双频换挡机制）和 0.5B 轻巧灵动版（2.7% 训练开销实现性能翻倍），模型体积瘦身 90%。目前已适配英特尔、高通、华为昇腾等主流芯片，在智能汽车、AI PC 等场景落地，与长城汽车、上汽大众等头部车企达成合作。（@面壁智能）

02 有亮点的产品

1、ChatGPT 升级高级语音模式：更像真人和随身翻译官

ChatGPT 的高级语音（Advanced Voice）功能现已为付费用户升级，在语调和自然度方面均有显著提升，使得互动体验更流畅、更富人性化。此功能初次发布时，曾代表着 AI 语音技术的一次飞跃；如今，它的发音更为自然，语调变化更细腻，节奏更真实（包含自然的停顿和重音），并且对特定情感（如共情、讽刺等）的表达也更为精准。

此外，语音功能现已支持直观高效的语言翻译。只需提出翻译请求，该功能便会在整个对话过程中持续进行翻译，直到被告知停止或切换语言为止。无论是在意大利问路，还是与东京的同事交谈，这项功能都能随时满足翻译需求。例如，在巴西的餐厅里，语音功能可以将用户的英文句子翻译成葡萄牙语，也能将服务员的葡萄牙语回复实时译回英文——无论身在何处、与谁交谈，都能让沟通变得轻松无碍。

说话过程中加入了自然停顿和重音处理
可以听出同理心（Empathy）
能表达讽刺（Sarcasm）
可充当「双语翻译官」，会根据说话人语言自动切换
可自动「保持翻译模式」，直到你要求停止

（@AI 寒武纪、@腾讯研究院、@小互 AI ）

2、JoggAI 3.0：华人 Builder 开发的 URL 转视频、AI 虚拟模特和文本转语音等一站式广告生成工具

JoggAI 3.0 是一款面向电商卖家、品牌方、内容创作者和营销机构的 AI 广告生成工具，主打「秒级生成高转化率产品广告」。其核心价值主张在于让任何规模的团队都能通过 AI 驱动的虚拟模特和脚本，低成本、高效率地制作出吸引眼球的产品图片和视频广告，赋予小团队大品牌级的创意生产力。目标用户主要是希望快速制作短视频广告、降低拍摄与人力成本、提升广告内容多样性的电商商家和中小企业，尤其适合频繁测试广告创意的团队。JoggAI 3.0 解决了传统广告制作周期长、成本高、缺乏创意灵活性等痛点，抓住了短视频电商和 AI 内容生成的市场机会。

核心功能亮点包括：1）URL 转视频、AI 虚拟模特和文本转语音等一站式广告生成工具；2）支持 100+多样化 AI 虚拟模特，能自然展示产品并做手势互动，适用于服饰、穿戴等多场景；3）仅需文本提示或参考图片即可控制广告创意，极大降低操作门槛。产品差异化在于 AI 原生、无需真人拍摄即可实现高度真实的广告内容生成，且支持多种广告格式和场景。用户体验方面，界面简洁、操作流畅，支持免费试用，方便用户快速验证效果并规模化应用。

团队信息：据领英公开信息，2024 年 3 月，Anbang Xu 创立并领导 JoggAI。此前，他曾任深圳 Learningdojo 科技公司创始人兼 CEO、苹果公司高级产品经理、Google 高级软件工程师，并拥有加州大学尔湾分校计算机科学学位。

网站链接：

https://www.jogg.ai/ai-ad-generator/

（@ Z Potentials）

3、Tapflow 2.0：支持视频、PDF、电子书等多格式内容上传及 AI 自动生成多语言字幕

Tapflow 2.0 定位为一款面向设计师、营销人员、开发者、教练及教育者等多领域专家的在线课程创建工具，旨在帮助他们轻松制作、管理并变现课程。其核心价值主张在于通过简单的块状搭建器，降低课程制作门槛，使专业知识得以高效转化为可售卖的内容。目标用户为希望快速上线课程、无需复杂技术操作的知识创作者，尤其是那些对课程内容多样性和全球受众有需求的个人和小型团队。Tapflow 2.0 解决了传统课程制作繁琐、语言障碍及支付流程复杂等痛点，抓住了在线教育和知识付费市场持续增长的机会。

产品功能亮点包括：1）支持视频、PDF、电子书等多格式内容上传及 AI 自动生成多语言字幕，拓展国际市场；2）块状内容编辑器简洁直观，快速搭建课程结构；3）集成 Stripe 和 PayPal 支付，简化变现流程。与其他在线课程平台相比，Tapflow 2.0 在操作简易性和多语言支持上具有差异化优势，且无课程和用户数量限制，适合规模灵活扩展。用户体验注重界面美观、模板丰富及课程进度控制，帮助创作者提升学生参与度和转化率。

网站链接：https://tapflow.co/

（@ Z Potentials）