心辰 Lingo 语音 AI 模型开放内测预约；Meta Sapiens 模型让 AI 分析图像中人类动作丨 RTE 开发者日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01 有话题的新闻

1、Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

Meta AI 公司最新推出了 Transfusion 新方法，可以结合语言模型在处理文本等离散数据方面的优势，以及扩散模型在生成图像等连续数据方面的能力，并将其整合到统一的 AI 系统中。

据 Meta 介绍，目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词，然后将其与单独的扩散模型结合起来生成图像。许多多模态语言模型的工作原理与此类似，它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。而 Transfusion 采用单一、统一的 Transformer 架构，适用于所有模式，对文本和图像数据进行端到端训练。文本和图像使用不同的损失函数：文本使用下一个标记预测，图像使用扩散。

为了同时处理文本和图像，图像被转换成图像片段序列。这样，模型就能在一个序列中同时处理文本标记和图像片段，特殊的注意力掩码（attention mask）还能让模型捕捉图像内部的关系。

有别于 Meta 现有的 Chameleon（将图像转换成离散的标记，然后用处理文本的方式处理）等方法，Transfusion 保留了图像的连续表示法，避免了量化造成的信息损失。

实验还表明，与同类方法相比，「融合」的扩展效率更高。在图像生成方面，它取得了与专门模型相似的结果，但计算量却大大减少，令人惊讶的是，整合图像数据还提高了文本处理能力。（@IT 之家）

2、「国内首个能力追齐 GPT-4o 语音能力的模型」，心辰 Lingo 语音 AI 模型开放内测预约

西湖心辰于今年 8 月推出心辰 Lingo 语音大模型，是国内首个端到端语音大模型，已于 8 月 24 日开启内测预约。

官方介绍称相比较传统 TTS，端到端语音大模型则是一种更为全面的技术，它不仅可以语音识别，还集成了自然语言处理、意图识别、对话管理以及语音合成等多个环节，实现了从语音输入到语音反馈的完整交互过程，极大地丰富了人机交互的深度和广度。

据官方称，心辰 Lingo 语音模型是国内首个能力追齐 GPT-4o 语音能力的模型，技术能力上具备以下三个显著特点：

原生的语音理解：作为端到端模型，心辰 Lingo不仅能够识别语音中的文字信息，还能精确捕捉其他重要特征，如情感、语气、音调，甚至环境音，帮助模型更全面地理解语音内容，从而提供更加自然和生动的交互体验。
多种语音风格表达：心辰 Lingo可以根据上下文和用户指令，自适应调整语音的速度、高低、噪声强度，并能够生成对话、歌唱、相声等多种风格的语音响应，有效提升了模型在不同应用场景下的灵活性和适应性。
语音模态超级压缩：心辰 Lingo采用具有数百倍压缩率的语音编解码器，能够将语音压缩至极短的长度，在显著降低计算和存储成本的同时帮助模型生成高质量语音内容。（@IT 之家）

3、Meta 发布 Sapiens 视觉模型，让 AI 分析和理解图片 / 视频中人类动作

Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型，适用于二维姿势预估、身体部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。

这些模型的参数数量各不相同，从 3 亿到 20 亿不等。它们采用视觉转换器架构，任务共享相同的编码器，而每个任务有不同的解码器头。

二维姿势预估：这项任务包括检测和定位二维图像中人体的关键点。这些关键点通常与肘、膝和肩等关节相对应，有助于了解人的姿势和动作。
身体部位分割：这项任务将图像分割成不同的身体部位，如头部、躯干、手臂和腿部。图像中的每个像素都被归类为属于特定的身体部位，这对虚拟试穿和医学成像等应用非常有用。
深度估计：这项任务是估算图像中每个像素与摄像头的距离，从而有效地从二维图像中生成三维图像。这对增强现实和自动驾驶等应用至关重要，因为在这些应用中，了解空间布局非常重要。
表面法线预测：这项任务是预测图像中表面的方向。每个像素都会分配一个法向量，表示表面朝向的方向。这些信息对于三维重建和了解场景中物体的几何形状非常有价值。

Meta 公司表示该模型可原生支持 1K 高分辨率推理，并且非常容易针对个别任务进行调整，只需在超过 3 亿张野生人类图像上对模型进行预训练即可。即使在标注数据稀缺或完全是合成数据的情况下，所生成的模型也能对野生数据表现出卓越的泛化能力。（@AI 未来）

4、豆包大模型综合能力提升 20.3%，火山引擎成立零售大模型生态联盟，加速企业 AI 落地

火山引擎宣布豆包大模型的一系列产品升级。其中，豆包语音模型和视觉模型得到了升级，对话式 AI 实时交互解决方案也得到了加强。火山引擎与多点 DMALL 共同成立了零售大模型生态联盟，并介绍了汽车大模型生态联盟的最新进展，同时宣布了 AI 创造者大赛的开赛。

目前豆包大模型的日均 tokens 使用量超过 5,000 亿，企业客户使用量增长了 22 倍。最新版豆包大语言模型的综合能力提升了 20.3%，角色扮演和语言理解能力均有显著提升。火山引擎还发布了对话式 AI 实时交互解决方案，整合了大模型和实时音视频技术，提供了更自然的交互体验。此外，火山引擎还推出了一系列产品升级，包括全周期安全可信方案、智能体的构建以及企业专属 AI 应用创新平台 HiAgent 的最新能力等。（@雷锋网）

5、图形学大佬童欣投身 AGI 创业团队

图形学大佬童欣被曝加入 AGI 创业团队 Anuttacon，担任首席研究员。童欣在微软亚洲研究院任职 25 年，并在离职后迅速投身新的创业项目。Anuttacon 是一个在新加坡和旧金山湾区设有办公点的新兴公司，其目标是探索 AGI 的边界，创造新的、创新的、智能的、深度参与的虚拟世界体验和 AGI 产品。Anuttacon 虽然规模不大，但团队成员来自于清华、安徽大学、武大、浙大等知名高校，显示出其高校背景的优势。

童欣在微软期间取得了显著成就，包括发明开发用于几何建模、面部表情捕捉、3D 打印、外观建模和 GPU 虚拟化的新型图形算法和系统，这些技术已被应用于 XBOX 游戏开发 API、新一代 XBOX 兼容软件、Windows 三维打印驱动等产品中。他在计算机图形学和计算机视觉领域的研究论文超过 150 篇，在谷歌学术上被引超过一万四千次。（@量子位）

02 有态度的观点

1、Andrew Ng：AI 是电，让智能对每个人都可及；人类智力在很长一段时间内仍然会很贵，但 AI 可以变得廉价

机器学习和在线教育的先驱 Andrew Ng 博士在访谈中谈到了自己对 AI 发展的看法。

Andrew Ng 认为 AI 一个棘手的地方在于它是一种通用技术，这意味着它不仅对一件事有用，这一方面它像电。他总是问别人电有什么用？这几乎很难回答，因为它对很多不同的事情都有用。AI 也如此，他认为这也是 AI 面临的一个挑战，有很多令人兴奋的工作，例如如何实际使用 AI 提供更好的财务建议，如何使用 AI 来改造物流并提高效率等等，还需要花费很多年时间去弄清楚并执行。

Andrew Ng 还提到，由于培养和训练一个智慧的人非常昂贵，人类智力在很长一段时间内仍然会很贵。但 AI 可以变得廉价。这意味着未来每个人都可以负担得起一支聪明且信息丰富的团队来帮助满足各种需求，人们也不再需要担心因生病或孩子上大学而支付巨额账单。他认为，让智能对每个人都可及，这将是一个令人兴奋的未来，使每个人都变得更强大。（@Z potentials）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

心辰 Lingo 语音 AI 模型开放内测预约；Meta Sapiens 模型让 AI 分析图像中人类动作丨 RTE 开发者日报

01 有话题的新闻

02 有态度的观点

RTE开发者社区

引用和评论

ElevenLabs 新 TTS 模型支持音频标签；NotebookLM 前产品经理新项目曝光：将邮件日历新闻转为互动音频丨日报

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

Vue3-ChatGPT：基于vite4.x+vue3+pinia2模仿chatgpt聊天AI实例

分享自制小工具：AutomateGPT – 在 ChatGPT 里批量执行任务

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读