杨立昆谈 Deepseek：开源正在超越私有；SpeechGPT 2.0-preview：情景智能拟人化实时交互系统

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq，@鲍勃

01 社区项目推荐

1、SpeechGPT 2.0-preview：迈向情景智能推出的第一个拟人化实时交互系统。

SpeechGPT 2.0-preview 是我们在迈向情景智能推出的第一个拟人化实时交互系统。作为在百万小时级语音数据上训练的端到端语音大模型，它具有拟人口语化表达与百毫秒级低延迟响应，支持自然流畅的实时打断交互。SpeechGPT 2.0-preview 较好的对齐了语音和文本两个模态：一方面展现出了一定的风格泛化能力，能够精准捕捉用户指令，实现多情感、多风格、多音色的精准控制与智能切换；拥有不错的角色扮演能力，能够模拟各类角色的语气和情感状态；它还具备多种语音才艺，能够进行诗歌朗诵、故事讲述、说方言等；另一方面，它在具备语音表现力的同时有不错的智商与文本能力，从而具备支持工具调用、联网搜索、外挂知识库等功能的能力。SpeechGPT 2.0-preview 目前只在中文语音数据上做了训练，没有混英文语音数据训练，因此目前模型还没有英文对话能力。

本项目实时音频传输服务由声网和 RTE 开发者社区支持。

「RTE 开发者陪跑计划」助力更多优秀 Real-Time AI 和 Voice Agent 项目成长，申请计划：

https://www.rtecommunity.dev/t/t_dSuzw47cPBCv8C

02 有话题的技术

1、百川智能开源全模态模型 Omni-1.5 上线，称多项能力超越 GPT-4o mini

1 月 26 日，百川智能宣布正式上线 Baichuan-Omni-1.5 开源全模态模型。该模型不仅支持文本、图像、音频和视频的全模态理解，还具备文本和音频的双模态生成能力。在视觉、语音及多模态流式处理等方面，Baichuan-Omni-1.5 的表现均优于 GPT-4o mini。

官方宣称，其在视觉、语音及多模态流式处理等方面，Baichuan-Omni-1.5 的表现均优于 GPT-4o mini；在多模态医疗应用领域，其具备更突出的领先优势。

Baichuan-Omni-1.5 不仅能在输入和输出端实现多种交互操作，还拥有强大的多模态推理能力和跨模态迁移能力。

其在音频技术领域采用了端到端解决方案，可支持多语言对话、端到端音频合成，还可实现自动语音识别、文本转语音等功能，且支持音视频实时交互。

据介绍，在视频理解能力方面，Baichuan-Omni-1.5 通过对编码器、训练数据和训练方法等多个关键环节进行深入优化，其整体性能大幅超越 GPT-4o-mini。（@界面新闻）

2、支持 100 万 Tokens 上下文的 Qwen2.5-1M 开源模型来了

今天，Qwen 正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。
本次发布的亮点：

开源模型： 本次发布了两个新的开源模型，分别是 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M，这是 Qwen 首次将开源的 Qwen 模型的上下文扩展到 1M 长度。

推理框架： 为了帮助开发者更高效地部署 Qwen2.5-1M 系列模型，Qwen 团队完全开源了基于 vLLM 的推理框架，并集成了稀疏注意力方法，使得该框架在处理 1M 标记输入时的速度提升了 3 倍到 7 倍。

技术报告： Qwen 团队还分享了 Qwen2.5-1M 系列背后的技术细节，包括训练和推理框架的设计思路以及消融实验的结果。

另外，最近也推出了 Qwen Chat （https://chat.qwenlm.ai/) ，一个基于 Qwen 系列的 AI 助手。用户可以与他对话、编程、生成图像与视频，使用搜索以及调用工具等功能。除此之外，还可以在 Qwen Chat 中与使用上下文长度同样为 1M 的 Qwen2.5-Turbo 模型进行长序列处理。（@通义千问 Qwen）

3、DeepSeek AI 助手登顶苹果商店：低成本、高效率，中国 AI 崛起引发全球关注

（图片来源：量子位）

中国人工智能公司 DeepSeek 近日发布其推理模型 R1 的开放版本，迅速在科技界引发热议。其惊人的突破性成就不仅令风险投资家马克·安德森惊叹为「我见过的最令人惊叹、最令人印象深刻的突破之一」，更在 AI 基准测试中展现出匹敌甚至超越 OpenAI o1 模型的实力。

尤其引人关注的是，DeepSeek 声称其模型训练成本仅为 560 万美元，而美国领先企业则需要数亿美元，这无疑颠覆了人们对 AI 模型开发成本的认知。

Y Combinator 首席执行官 Garry Tan 认为 DeepSeek 的成功将促使 AI 推理需求加速，从而带动整个行业发展。Meta 首席人工智能科学家 Yann LeCun 也强调，DeepSeek 的成功并非是中美竞争的体现，而是「开源模型正在超越专有模型」的有力证明。他认为 DeepSeek 的发展得益于开源研究和开源工具，并促进了技术的进一步发展，最终让所有人受益。

值得一提的是，DeepSeek 的 AI 助手在发布后迅速走红。截至周日下午，该应用已超越 ChatGPT，登顶苹果 App Store 免费应用榜首，进一步显示了其受欢迎程度。（@AIbase 基地）

4、Video Depth Anything：字节开源首款 10 分钟级长视频深度估计模型，性能 SOTA

Video Depth Anything 工作来自字节跳动智能创作 AR 团队与豆包大模型团队。字节跳动智能创作 AR 团队致力于建设领先的计算机视觉、音视频编辑、特效处理、3D 视觉与增强现实（AR）等技术。豆包大模型团队成立于 2023 年，致力于开发先进的 AI 大模型技术，成为业界一流的研究团队。

近期，字节智能创作 AR 团队联合豆包大模型团队开发的 Video Depth Anything（VDA）基于 Depth Anything V2，它融合了高效的时空头、精简的时域一致性损失函数，以及新颖的基于关键帧长视频推理策略，甚至可面向 10 分钟级的视频，完成深度估计任务。

在不牺牲泛化能力、细节生成能力和计算效率前提下，VDA 实现了时序稳定的深度估计，且无需引入复杂视频生成先验知识，为单目深度估计在视频领域应用提供全新解决方案。（@机器之心）

5、今年贺岁档电影 AI 起来了，《唐探 1900》还没上线，AI 大模型让它先火了一把

从《唐探 1900》官方微博发布的消息来看，这是电影圈里首款 AI 动态海报，效果之灵动，斩获了一众网友们的好评，不止是在网上，甚至是在北京王府井、上海南京路，以及成都春熙路上，都已经开始播放这个 AI 海报。

而视频背后的 AI，正是百度智能云千帆大模型平台刚刚上新的图生视频组件（联合生数科技）。

可以说，这是影视圈和科技圈双顶流之间的一次合作。（@量子位）

03 有态度的观点

1、图灵奖得主杨立昆谈 DeepSeek 及 AGI：开源即一切

在 DeepSeek 激起千层浪的时刻，作为技术开源最忠实的拥趸，杨立昆为 Deepseek 发声：「与其说是中国在人工智能上超越美国，正确的看法应该是开源代码正在超越私有模式。DeepSeek 从开放研究和开放源码中受益（例如来自 Meta 的 PyTorch 和 Llama），提出了新想法，并将它们建在其他人的工作之上。而因为他们的作品也是开源的，每个人都可以从中获益。这就是开放研究和开放源代码的力量。」杨立昆一直不遗余力地强调 AI 竞争中「开源」的重要性，在前阵子他参加由约翰霍普金斯大学举办的讲座上，面对硅谷知名记者 Kara Swisher，他仍然用到了 PyTorch 和 Llama 作为例子。同时，他的语出惊人也没有改变，分享了许多别具一格的观点：