《阿凡达》导演卡梅隆加入 Stability AI 董事会；Molmo 横空出世，开源多模态模型王座易位丨 RTE 开发者日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01 有话题的新闻

1、B 站已上线自研大模型 index 并应用于 AI 字幕，具备近 10 种语言实时翻译能力

在 9 月 26 日的 2024 年中国国际智能传播论坛上，哔哩哔哩董事长兼 CEO 陈睿表示，B 站上线了自研大语言模型 index，并将其应用于 AI 字幕。目前，B 站具备中、英、韩、日、泰语等近 10 种语言的实时翻译能力，准确度接近 90%。

陈睿表示，B 站更看重拥抱开源的生态，自研大模型就是建立在开源的基础上，相信开源将会成为 AI 中的主流。同时，AI 是年轻人在 B 站上最关注的内容，也是增长最快的科技内容。作为一种普惠技术，AI 最终会让所有人都从中受益。（@IT 之家）

2、《阿凡达》电影导演詹姆斯・卡梅隆加入 Stability AI 董事会

生成式人工智能公司 Stability AI 于 9 月 24 日发布博文，宣布奥斯卡获奖电影制片人詹姆斯・卡梅隆（James Cameron）加入 Stability AI 董事会。
卡梅隆被认为是电影行业中最具创新精神的制片人之一，经常通过采用新技术推动电影的创新。他的代表作品包括《泰坦尼克号》、《阿凡达》系列等等。

Stability AI 公司首席执行官 Prem Akkaraju 表示：「Stability AI 的使命是通过为创作者提供全栈式 AI 平台，将他们的创意变为现实，从而改变下个世纪的视觉媒体。在实现这一目标的过程中，我们拥有无与伦比的优势，因为我们公司的最高层拥有像詹姆斯这样的技术和创意远见卓识的人才。」（@IT 之家）

3、Molmo 全开源视觉语言模型，小体积高性能，超越 GPT-4，打败 Meta 新发 Llama 3.2

阿里的 Qwen2-VL-72B 才拿下开源多模态模型的王座没多久，黑马 Molmo 横空出世，在多项学术测试和人类偏好测试中全面领先，成为目前最先进的开源多模态模型。

Molmo 是由 Allen Institute for AI 开发的一系列开放式视觉语言模型。Molmo 基于 Qwen2-72B，使用 OpenAI 的 CLIP 作为视觉骨干，增强了模型处理图像和文本的能力。模型在 PixMo 上进行训练，PixMo 是一个包含 100 万个高度精选的图像-文本对的数据集。Molmo 模型在性能上优于体积大十倍的其他模型，旨在提高开源系统在性能上与专有系统（如商业模型）之间的竞争力，特别是在学术标准和人类评估方面的表现。（@机器之心 SOTA 模型）

4、Snapchat 聊天机器人 My AI 将整合 Gemini 模型

谷歌 Google Cloud 宣布和 Snap 公司合作，在 Snapchat 的 AI 聊天机器人 My AI 中整合 Gemini，为用户带来更强的 AI 聊天体验。Snapchat 将借助谷歌 Gemini 聊天机器人的强大多模态功能，理解包括文本、音频、图像、视频和代码等多种输入类型并回答用户提问。

谷歌表示此次合作给 Snapchat 用户带来更多创新功能。Snap 首席执行官埃文·斯皮格尔评论称，与 Google Cloud 的合作强化了服务社区的重要性，通过整合 Gemini AI，Snapchat 用户可以加速探索世界、快速完成任务并轻松分享给好友。（@曲速人工智能研究）

5、OpenAI、微软、谷歌等签署欧盟《人工智能公约》

欧盟委员会当地时间 9 月 25 日公布了《人工智能公约》（AI Pact）的首批 100 多家签署方名单，该协议旨在促使企业就如何处理和部署人工智能发布「自愿承诺」。虽然欧盟《人工智能法案》（the AI Act）已于上月生效，但所有合规期限还需数年才能实施。这就造成了一个不合规的真空地带，欧盟希望通过《人工智能公约》来填补这一真空。目前欧盟委员会公布的签署方名单包括 OpenAI、微软、谷歌等，但不包括苹果公司和 Meta 公司。（@36 氪）

02 有态度的观点

1、林凡对话面壁智能李大海：端侧大模型中国与美国差距较小甚至领先

9 月 24 日，脉脉创始人兼 CEO 林凡对话面壁智能 CEO 李大海，深度探讨 AI 手机背后的端侧大模型进展、未来交互变革可能性、被 AI 接管的未来，普通人该如何快速适应等重要话题。

李大海认为，新一代 AI 手机、新一代智能汽车都会变成「超级智能体」，基于端侧模型的智能计算，贴身陪伴用户、更懂用户，并帮助用户建立和世界的交互。但目前 iPhone 16 的 AI 功能远远没有达到理想状态。同时李大海透露，手机内存对端侧模型的影响显著。他同样认为，未来的 AI 硬件将会分成 Copilot（助手）和 Agent（智能体）两种类型，Agent 能够自主与环境互动，做出更自主的决策。未来，会出现很多的 Agent 类型的硬件。

此外，林凡和李大海均表示，在云端大模型领域，中国相对落后于美国 1-2 年，但在端侧大模型领域，双方差距不大，在部分技术方面，中国已经处于国际领先水平。（@AI 科技评论）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

《阿凡达》导演卡梅隆加入 Stability AI 董事会；Molmo 横空出世，开源多模态模型王座易位丨 RTE 开发者日报

01 有话题的新闻

02 有态度的观点

RTE开发者社区

引用和评论

上线 3 天破 500 星，TEN VAD 与 Turn Detection 让 Voice Agent 对话更拟人丨社区来稿

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？