开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、BFL 推出新一代多模态图像生成与编辑模型:FLUX.1 Kontext
Black Forest Labs 推出的新一代多模态图像生成与编辑模型:FLUX.1 Kontext,不同于传统的文生图模型,Kontext 同时理解文本与图像输入,能够实现真正的「上下文生成与编辑」。
亮点:
- 角色一致性:可在多个场景中保持人物或元素的一致性
- 局部编辑:只编辑图像的特定部分,不影响其他区域
- 风格参考:可在指定风格下生成新场景
- 交互速度快:快速迭代、延迟极低
主要功能:
- 图文混合控制(Text + Image Prompt):不仅可以用文字生成图像,也可以上传图像、再用文字修改它;
- 局部编辑(Local Editing):可以精确修改图像中的某个部分,而不影响整体风格或其它区域;
- 人物与风格一致性(Character & Style Consistency):无论你生成几个不同场景的图像,只要提供相同的参考图或描述,模型能自动保持人物的面孔、表情、姿态一致;
- 多轮连续编辑(Iterative Editing):可以对同一张图反复添加修改:「先让她笑 → 再加墨镜 → 再换背景 →再改衣服文字」,每一步的变化都在保留前一轮基础上进行;
- 速度快、交互性强(Low Latency Inference):推理速度高达当前主流模型的 8 倍。 (@小互 AI)
2、智源全新悟界系列大模型,加速数字世界、物理世界融合
6 月 6 日,在第七届智源大会上作为主办方的智源研究院(简称智源),重磅亮相了全新一代「悟界」系列大模型。从命名来看,「悟界」代表了智源对于虚实边界的突破,通过深化对物理世界的赋能向着物理 AGI 方向迈进。
具体来讲,「悟界」系列包含了多项重要成果,它们分别是原生多模态世界模型 Emu3、脑科学多模态通用基础模型见微 Brainμ、跨本体具身大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0 以及全原子微观生命模型 OpenComplex2。
「悟界」系列中的 Emu3 是全球首个原生多模态世界模型,它基于下一个 token 预测范式统一多模态学习,使模型更易扩展至更多模态。同时其通过研发新型视觉 tokenizer 将图像/视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,可实现文本、图像、视频的任意组合理解与生成。
脑科学领域的多模态通用基础模型见微 Brainμ,基于 Emu3 的底层架构,将 fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一 token 化,利用预训练模型多模态对齐的优势,可以实现多模态脑信号与文本、图像等模态的多向映射,这使得单一模型就能完成多种神经科学下游任务,实现跨模态、跨任务、跨个体的统一通用建模。
跨本跨本体具身大小脑协作框架 RoboOS 2.0 是全球首个基于具身智能 SaaS 平台、支持无服务器一站式轻量化机器人本体部署的开源框架。同时,RoboOS 2.0 也是全球首个支持 MCP 的跨本体具身大小脑协作框架,旨在构建具身智能领域的「应用商店」生态。RoboOS 2.0 实现了小脑技能的免适配注册机制,显著降低开发门槛,典型场景下,相关代码量仅为传统手动注册方式的 1/10。
全原子微观生命模型 OpenComplex2 实现了生物分子研究从静态结构预测到动态构象分布建模的重大突破。 (@机器之心、@智东西)
3、面壁智能发布 MiniCPM 4.0 端侧大模型:极限 220 倍提速,多框架部署开启端侧智能新纪元
面壁智能于 6 月 6 日晚发布端侧大模型 MiniCPM 4.0,通过自研 CPM.cu 推理框架实现极限场景 220 倍、常规 5 倍推理提速,支持 vLLM、SGLang、LlamaFactory 等多框架部署。该系列包含 8B 闪电稀疏版(支持长 / 短文本双频换挡机制)和 0.5B 轻巧灵动版(2.7% 训练开销实现性能翻倍),模型体积瘦身 90%。目前已适配英特尔、高通、华为昇腾等主流芯片,在智能汽车、AI PC 等场景落地,与长城汽车、上汽大众等头部车企达成合作。(@面壁智能)
02 有亮点的产品
1、ChatGPT 升级高级语音模式:更像真人和随身翻译官
ChatGPT 的高级语音(Advanced Voice)功能现已为付费用户升级,在语调和自然度方面均有显著提升,使得互动体验更流畅、更富人性化。此功能初次发布时,曾代表着 AI 语音技术的一次飞跃;如今,它的发音更为自然,语调变化更细腻,节奏更真实(包含自然的停顿和重音),并且对特定情感(如共情、讽刺等)的表达也更为精准。
此外,语音功能现已支持直观高效的语言翻译。只需提出翻译请求,该功能便会在整个对话过程中持续进行翻译,直到被告知停止或切换语言为止。无论是在意大利问路,还是与东京的同事交谈,这项功能都能随时满足翻译需求。例如,在巴西的餐厅里,语音功能可以将用户的英文句子翻译成葡萄牙语,也能将服务员的葡萄牙语回复实时译回英文——无论身在何处、与谁交谈,都能让沟通变得轻松无碍。
- 说话过程中加入了自然停顿和重音处理
- 可以听出同理心(Empathy)
- 能表达讽刺(Sarcasm)
- 可充当「双语翻译官」,会根据说话人语言自动切换
- 可自动「保持翻译模式」,直到你要求停止
相关链接:
https://help.openai.com/en/articles/6825453-chatgpt-release-n...
(@AI 寒武纪、@腾讯研究院、@小互 AI )
2、JoggAI 3.0:华人 Builder 开发的 URL 转视频、AI 虚拟模特和文本转语音等一站式广告生成工具
JoggAI 3.0 是一款面向电商卖家、品牌方、内容创作者和营销机构的 AI 广告生成工具,主打「秒级生成高转化率产品广告」。其核心价值主张在于让任何规模的团队都能通过 AI 驱动的虚拟模特和脚本,低成本、高效率地制作出吸引眼球的产品图片和视频广告,赋予小团队大品牌级的创意生产力。目标用户主要是希望快速制作短视频广告、降低拍摄与人力成本、提升广告内容多样性的电商商家和中小企业,尤其适合频繁测试广告创意的团队。JoggAI 3.0 解决了传统广告制作周期长、成本高、缺乏创意灵活性等痛点,抓住了短视频电商和 AI 内容生成的市场机会。
核心功能亮点包括:1)URL 转视频、AI 虚拟模特和文本转语音等一站式广告生成工具;2)支持 100+多样化 AI 虚拟模特,能自然展示产品并做手势互动,适用于服饰、穿戴等多场景;3)仅需文本提示或参考图片即可控制广告创意,极大降低操作门槛。产品差异化在于 AI 原生、无需真人拍摄即可实现高度真实的广告内容生成,且支持多种广告格式和场景。用户体验方面,界面简洁、操作流畅,支持免费试用,方便用户快速验证效果并规模化应用。
团队信息:据领英公开信息,2024 年 3 月,Anbang Xu 创立并领导 JoggAI。此前,他曾任深圳 Learningdojo 科技公司创始人兼 CEO、苹果公司高级产品经理、Google 高级软件工程师,并拥有加州大学尔湾分校计算机科学学位。
网站链接:
https://www.jogg.ai/ai-ad-generator/
(@ Z Potentials)
3、Tapflow 2.0:支持视频、PDF、电子书等多格式内容上传及 AI 自动生成多语言字幕
Tapflow 2.0 定位为一款面向设计师、营销人员、开发者、教练及教育者等多领域专家的在线课程创建工具,旨在帮助他们轻松制作、管理并变现课程。其核心价值主张在于通过简单的块状搭建器,降低课程制作门槛,使专业知识得以高效转化为可售卖的内容。目标用户为希望快速上线课程、无需复杂技术操作的知识创作者,尤其是那些对课程内容多样性和全球受众有需求的个人和小型团队。Tapflow 2.0 解决了传统课程制作繁琐、语言障碍及支付流程复杂等痛点,抓住了在线教育和知识付费市场持续增长的机会。
产品功能亮点包括:1)支持视频、PDF、电子书等多格式内容上传及 AI 自动生成多语言字幕,拓展国际市场;2)块状内容编辑器简洁直观,快速搭建课程结构;3)集成 Stripe 和 PayPal 支付,简化变现流程。与其他在线课程平台相比,Tapflow 2.0 在操作简易性和多语言支持上具有差异化优势,且无课程和用户数量限制,适合规模灵活扩展。用户体验注重界面美观、模板丰富及课程进度控制,帮助创作者提升学生参与度和转化率。
网站链接:https://tapflow.co/
(@ Z Potentials)
03 有态度的观点
1、吴恩达和 OpenAI 实时 AI 负责人 Justin Uberti:语音应用目前被低估了
吴恩达最近在 X 上分享道:与 OpenAI 实时 AI 负责人 Justin Uberti 交流,他负责该公司的语音 AI 产品。我们都认为:尽管 AI 领域存在过度炒作的现象,但语音应用目前似乎被低估了。其应用前景似乎远大于开发者或企业对它的关注度。(@ AndrewYNg@X)
2、李飞飞:AI 的下一个目标是世界模型
近日,斯坦福大学教授李飞飞与 a16z 合伙人 Erik Torenberg,以及 World Labs 早期投资人 Martin Casado,共同探讨了「世界模型」等热门话题。
在被问及为何要成立一家基础模型公司,而不是继续做学术或参与现有大模型时,李飞飞表示,她的目标一直是解决真正的「北极星问题」,而不是为了创业本身。
李飞飞认为,语言是一种有信息损失的捕捉世界的方式,虽然强大,但人类生活在三维物理世界中,包括动物的整个进化史都是建立在大量感知和最终具身智能之上,而非纯粹语言的生成。
「物理现象发生在三维空间中,交互也发生在三维空间中。在桌子后面导航需要在三维空间中进行。无论是在物理世界还是数字世界中构建事物,都需要在三维空间中进行。所以从根本上说,这是一个三维问题。」
在应用方面,李飞飞举例称,从建筑设计、工业制造到电影创作,空间智能都可以重塑整个创意流程。Martin 补充道,这种 AI 不仅能生成语言,还能通过二维图像构建出完整的三维世界,甚至创造原本不存在的空间结构,用于虚拟现实、游戏、艺术等场景。
在李飞飞看来,正是这些年语言模型的突飞猛进,让她更确认世界模型的重要性。
她从个人经历出发,讲述自己因眼伤一度失去立体视觉,无法正常开车,由此进一步印证了人类对三维空间理解的高度依赖。而 Martin 也指出,人脑中负责空间感知的部分源远流长,远早于语言区域的进化,甚至可以追溯到爬行动物甚至更早的时代,说明空间智能才是智能的根基。 (@ APPSO)
更多 Voice Agent 学习笔记:
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。