OpenAI 发布 GPT-4o mini；FasterLivePortrait 支持实时表情转移丨 RTE 开发者日报

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。

我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@JLT，@鲍勃

一、有话题的新闻

1、OpenAI 发布 GPT-4o mini 大模型

OpenAI 官宣推出 GPT-4o mini，这是 GPT-4o 更小参数量的简化版本。即日起，ChatGPT 的免费用户、Plus 用户和 Team 用户都能够使用 GPT-4o mini 而并非 GPT-3.5 Turbo，企业用户在下周也将获得 GPT-4o mini 的权限。

GPT-4o mini 主打低成本和快速响应能力，可以支持需要连续或同时调用多个模型的应用程序，能够处理大量上下文信息，以及通过快速实时的文本回复与客户进行互动，能够处理多达 128K token 的长上下文，知识库截止日期为 2023 年 10 月份，对非英文内容支持更友好。

GPT-4o mini 目前在 API 中提供了文本和图像处理能力，后续还将逐步增加对视频和音频的支持。（@爱范儿）

2、微软发布 iOS / 安卓正式版 Designer 应用：可 AI 修图、生成贺卡等

微软在 iOS / Android 平台上推出了 AI 设计应用 Designer 的预览版，该应用允许用户通过模版创建自定义图像、贴纸、贺卡、邀请函等，还能实现 AI 编辑、重新设计图像的进阶功能，用户可以免费使用 15 次进阶功能，Copilot Pro 订阅用户可以获得 100 次。

Designer 最初可以在网页端和微软自家 Edge 浏览器上使用，现在拥有个人微软账户的用户都可以在 Windows、iOS 和 Android 平台使用其免费程序。

除了独立的应用，微软也在 Word、PowerPoint 中的 Copilot 助手添加了 Designer 支持，Copilot Pro 订阅者可以使用。（@爱范儿）

3、英伟达联合发布 Mistral-NeMo AI 模型：120 亿参数、上下文窗口 12.8 万个 token

英伟达联合法国初创公司 Mistral AI，发布了全新的 Mistral-NeMo AI 大语言模型，拥有 120 亿个参数，上下文窗口（AI 模型一次能够处理的最大 Token 数量）为 12.8 万个 token。

Mistral-NeMo AI 大模型主要面向企业环境，让企业不需要使用大量云资源的情况下，实施人工智能解决方案。由于 Mistral NeMo 依赖于标准架构，因此企业在使用过程中可直接替换任何使用 Mistral 7B 的系统。( @CSDN)

4、Haiper AI 视频模型更新，可生成 8 秒视频

Haiper AI 推出了其视频生成模型的升级版：Haiper 1.5。Haiper AI 由前谷歌 DeepMind 精英 Yishu Miao 和 Ziyu Wang 携手创立，Haiper 1.5 允许用户从文本、图像和视频提示生成长达 8 秒的片段，显著提升了内容生成的深度和广度。

Haiper 1.5 的核心亮点在于显著增强的视频生成能力。用户如今可以根据文本、图像及视频线索，轻松创作出长达 8 秒的视频片段，相较于初版模型，生成时长直接翻倍。此外，Haiper 1.5 还创新性地引入了上采样功能，允许用户通过一键操作将所有视频生成提升到 1080p，而不干扰现有的工作流程。（@聚大模型前言）

5、FasterLivePortrait：支持实时推理的表情转移

FasterLivePortrait 是基于 LivePortrait 的一个实现，在原有的功能上增加了：

TensorRT 实时运行：RTX 3090 上渲染速度达到 30+ FPS
Onnx 模型转换：onnxruntime-gpu + RTX 3090 推理速度约为 70ms/帧（约 12 FPS）
原生 gradio app 支持：运行速度显著提升，并且能够同时对多张人脸进行推理
（@三花 AI）

二、有态度的观点

1、谷歌 DeepMind Alex Irpan：大语言模型在面对现实世界时，会遇到与机器人学类似的问题

Alex Irpan 是谷歌 DeepMind 的机器人科学家，曾参与 SayCan、RT-1、RT-2 等具身智能项目。他指出，机器人学的难题并非机器人独有，这是由于其与现实世界的紧密连接和复杂性造成的。机器人必须处理不完美的感知和执行，以及全局可变状态的问题，这些问题也同样适用于大语言模型等技术。

游戏 AI 在面对特定策略时也可能受到挑战，正如一些围棋 AI 被特定策略击败。Irpan 还讨论了 LLM 在与现实世界交互时遇到的问题，以及人们对于模型是否已经证明了自己的评估问题。他认为，随着 AI 在日常生活中的应用越来越广泛，社会对于模型的评估和理解将变得更加重要。他预测，机器人学家将在这些挑战中走在前列，因为他们已经在处理这些问题上积累了经验。（@AI 科技评论）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述

素材来源官方媒体/网络新闻

OpenAI 发布 GPT-4o mini；FasterLivePortrait 支持实时表情转移丨 RTE 开发者日报

一、有话题的新闻

二、有态度的观点

RTE开发者社区

引用和评论

ElevenLabs 新 TTS 模型支持音频标签；NotebookLM 前产品经理新项目曝光：将邮件日历新闻转为互动音频丨日报

一文掌握 MCP 上下文协议：从理论到实践

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略