开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq,@鲍勃
01 社区项目推荐
1、SpeechGPT 2.0-preview:迈向情景智能推出的第一个拟人化实时交互系统。
SpeechGPT 2.0-preview 是我们在迈向情景智能推出的第一个拟人化实时交互系统。作为在百万小时级语音数据上训练的端到端语音大模型,它具有拟人口语化表达与百毫秒级低延迟响应,支持自然流畅的实时打断交互。SpeechGPT 2.0-preview 较好的对齐了语音和文本两个模态:一方面展现出了一定的风格泛化能力,能够精准捕捉用户指令,实现多情感、多风格、多音色的精准控制与智能切换;拥有不错的角色扮演能力,能够模拟各类角色的语气和情感状态;它还具备多种语音才艺,能够进行诗歌朗诵、故事讲述、说方言等;另一方面,它在具备语音表现力的同时有不错的智商与文本能力,从而具备支持工具调用、联网搜索、外挂知识库等功能的能力。SpeechGPT 2.0-preview 目前只在中文语音数据上做了训练,没有混英文语音数据训练,因此目前模型还没有英文对话能力。
本项目实时音频传输服务由声网和 RTE 开发者社区支持。
「RTE 开发者陪跑计划」助力更多优秀 Real-Time AI 和 Voice Agent 项目成长,申请计划:
https://www.rtecommunity.dev/t/t_dSuzw47cPBCv8C
02 有话题的技术
1、百川智能开源全模态模型 Omni-1.5 上线,称多项能力超越 GPT-4o mini
1 月 26 日,百川智能宣布正式上线 Baichuan-Omni-1.5 开源全模态模型。该模型不仅支持文本、图像、音频和视频的全模态理解,还具备文本和音频的双模态生成能力。在视觉、语音及多模态流式处理等方面,Baichuan-Omni-1.5 的表现均优于 GPT-4o mini。
官方宣称,其在视觉、语音及多模态流式处理等方面,Baichuan-Omni-1.5 的表现均优于 GPT-4o mini;在多模态医疗应用领域,其具备更突出的领先优势。
Baichuan-Omni-1.5 不仅能在输入和输出端实现多种交互操作,还拥有强大的多模态推理能力和跨模态迁移能力。
其在音频技术领域采用了端到端解决方案,可支持多语言对话、端到端音频合成,还可实现自动语音识别、文本转语音等功能,且支持音视频实时交互。
据介绍,在视频理解能力方面,Baichuan-Omni-1.5 通过对编码器、训练数据和训练方法等多个关键环节进行深入优化,其整体性能大幅超越 GPT-4o-mini。(@界面新闻)
2、支持 100 万 Tokens 上下文的 Qwen2.5-1M 开源模型来了
今天,Qwen 正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。
本次发布的亮点:
开源模型: 本次发布了两个新的开源模型,分别是 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M,这是 Qwen 首次将开源的 Qwen 模型的上下文扩展到 1M 长度。
推理框架: 为了帮助开发者更高效地部署 Qwen2.5-1M 系列模型,Qwen 团队完全开源了基于 vLLM 的推理框架,并集成了稀疏注意力方法,使得该框架在处理 1M 标记输入时的速度提升了 3 倍到 7 倍。
技术报告: Qwen 团队还分享了 Qwen2.5-1M 系列背后的技术细节,包括训练和推理框架的设计思路以及消融实验的结果。
另外,最近也推出了 Qwen Chat (https://chat.qwenlm.ai/) ,一个基于 Qwen 系列的 AI 助手。用户可以与他对话、编程、生成图像与视频,使用搜索以及调用工具等功能。除此之外,还可以在 Qwen Chat 中与使用上下文长度同样为 1M 的 Qwen2.5-Turbo 模型进行长序列处理。(@通义千问 Qwen)
3、DeepSeek AI 助手登顶苹果商店:低成本、高效率,中国 AI 崛起引发全球关注
(图片来源:量子位)
中国人工智能公司 DeepSeek 近日发布其推理模型 R1 的开放版本,迅速在科技界引发热议。其惊人的突破性成就不仅令风险投资家马克·安德森惊叹为「我见过的最令人惊叹、最令人印象深刻的突破之一」,更在 AI 基准测试中展现出匹敌甚至超越 OpenAI o1 模型的实力。
尤其引人关注的是,DeepSeek 声称其模型训练成本仅为 560 万美元,而美国领先企业则需要数亿美元,这无疑颠覆了人们对 AI 模型开发成本的认知。
Y Combinator 首席执行官 Garry Tan 认为 DeepSeek 的成功将促使 AI 推理需求加速,从而带动整个行业发展。Meta 首席人工智能科学家 Yann LeCun 也强调,DeepSeek 的成功并非是中美竞争的体现,而是「开源模型正在超越专有模型」的有力证明。他认为 DeepSeek 的发展得益于开源研究和开源工具,并促进了技术的进一步发展,最终让所有人受益。
值得一提的是,DeepSeek 的 AI 助手在发布后迅速走红。截至周日下午,该应用已超越 ChatGPT,登顶苹果 App Store 免费应用榜首,进一步显示了其受欢迎程度。(@AIbase 基地)
4、Video Depth Anything:字节开源首款 10 分钟级长视频深度估计模型,性能 SOTA
Video Depth Anything 工作来自字节跳动智能创作 AR 团队与豆包大模型团队。字节跳动智能创作 AR 团队致力于建设领先的计算机视觉、音视频编辑、特效处理、3D 视觉与增强现实(AR)等技术。豆包大模型团队成立于 2023 年,致力于开发先进的 AI 大模型技术,成为业界一流的研究团队。
近期,字节智能创作 AR 团队联合豆包大模型团队开发的 Video Depth Anything(VDA)基于 Depth Anything V2,它融合了高效的时空头、精简的时域一致性损失函数,以及新颖的基于关键帧长视频推理策略,甚至可面向 10 分钟级的视频,完成深度估计任务。
在不牺牲泛化能力、细节生成能力和计算效率前提下,VDA 实现了时序稳定的深度估计,且无需引入复杂视频生成先验知识,为单目深度估计在视频领域应用提供全新解决方案。(@机器之心)
5、今年贺岁档电影 AI 起来了,《唐探 1900》还没上线,AI 大模型让它先火了一把
从《唐探 1900》官方微博发布的消息来看,这是电影圈里首款 AI 动态海报,效果之灵动,斩获了一众网友们的好评,不止是在网上,甚至是在北京王府井、上海南京路,以及成都春熙路上,都已经开始播放这个 AI 海报。
而视频背后的 AI,正是百度智能云千帆大模型平台刚刚上新的图生视频组件(联合生数科技)。
可以说,这是影视圈和科技圈双顶流之间的一次合作。(@量子位)
03 有态度的观点
1、图灵奖得主杨立昆谈 DeepSeek 及 AGI:开源即一切
在 DeepSeek 激起千层浪的时刻,作为技术开源最忠实的拥趸,杨立昆为 Deepseek 发声:「与其说是中国在人工智能上超越美国,正确的看法应该是开源代码正在超越私有模式。DeepSeek 从开放研究和开放源码中受益(例如来自 Meta 的 PyTorch 和 Llama),提出了新想法,并将它们建在其他人的工作之上。而因为他们的作品也是开源的,每个人都可以从中获益。这就是开放研究和开放源代码的力量。」杨立昆一直不遗余力地强调 AI 竞争中「开源」的重要性,在前阵子他参加由约翰霍普金斯大学举办的讲座上,面对硅谷知名记者 Kara Swisher,他仍然用到了 PyTorch 和 Llama 作为例子。同时,他的语出惊人也没有改变,分享了许多别具一格的观点:
- 一昧给 AI 研究和开发加限制,企图用这种方式避免危害,是一种适得其反的做法,是出于 AI 技术的错误理解。
- 人类认为语言是智能的顶峰有点违反直觉。它实际上很简单,因为它只是一系列离散的符号。人工智能不应该局限于语言。
- 目前为训练大模型而烧的钱不冤枉,那是面向未来的长期投资。(@ APPSO)
更多 Voice Agent 学习笔记:
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。