头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq,@鲍勃

01有话题的技术

1、谷歌发布新一代 Gemini 2.0 系列模型,全面升级 AI 性能与性价比

2025 年 2 月 6 日,谷歌正式发布其新一代 AI 模型套件 Gemini 2.0,包括 Gemini 2.0 Pro 实验版本、Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite。这些模型在编程、物理模拟、推理等复杂任务上表现出色,性能大幅提升,同时谷歌还推出了 Gemini 2.0 Flash Thinking 推理模型,并在 Gemini App 中开放试用。

Gemini 2.0 系列模型亮点

Gemini 2.0 Pro 实验版本: 作为谷歌目前最强大的旗舰模型,Gemini 2.0 Pro 专注于编码性能和处理复杂提示的能力,在知识理解和逻辑推理方面表现出色。该模型支持 200 万 tokens 的上下文窗口,能够处理海量信息,并支持调用 Google 搜索和代码执行等工具。

Gemini 2.0 Flash: 被称为「主力模型」,适用于高容量、高频率任务,支持多模态输入和输出,包括文本、图像和音频。其响应速度比上一代提高了两倍。

Gemini 2.0 Flash-Lite: 谷歌称其为「最具成本效益的模型」,在保持高性能的同时,进一步优化了成本和响应速度。该模型每百万 tokens 的处理成本仅为 0.75 美分。

Gemini 2.0 Flash Thinking 推理模型

Gemini 2.0 Flash Thinking 模型在推理能力上进行了强化,能够将复杂的提示信息分解为清晰的步骤,并展示其思考过程。这一透明度的提升极大地增强了用户对 AI 助手的信任度。

Gemini App 试用

Gemini App 现已更新为 2.0 Flash 模型,为用户提供更快的响应和更强的性能。用户可以通过该应用体验 Gemini 2.0 的强大功能,包括图像生成和多模态交互。(@ 机器之心)

2、多模态版 DeepSeek-R1:评测表现超 GPT-4o,模态穿透反哺文本推理能力!北大港科大出品,已开源

https://github.com/PKU-Alignment/align-anything

此前 DeepSeek 自家的 Janus-Pro-7B 没有结合推理能力,但现在,国内有研究团队先做到了——

基于自研全模态框架 Align-Anything, 北大联合港科大团队推出多模态版 DeepSeek-R1: Align-DS-V,它在部分视觉理解表现评测集上超越 GPT-4o。

当图文结合地询问它减肥时更适合喝哪一款饮品时,Align-DS-V 精确地指出图中饮品的款数、饮品名称,以及减脂时最适合饮用的是「低糖原味豆奶」。

不仅如此,它还额外指出,图中的原味豆奶同样适合减脂期饮用。

在让 DeepSeek-R1「长眼睛」的过程中,研究人员还发现了 模态穿透对于模型文本模态推理能力的提升效果。

具体来说,团队在 DeepSeek-R1 的全模态化尝试中发现,多模态训练之后,模型不仅在文本模态任务上的表现有所提升,在科学任务、复杂推理、数学代码等方面的表现亦均有提升。

尤为显著的是,在 ARC-Challenge(5-shot)上,成绩从单模态的 21.4 提升到了多模态的 40.5。

基于此,团队认为 当下多模态大模型已具备强大的跨模态穿透与融合的感知能力 ,能够通过结合世界知识与上下文学习能力,实现多种模态(如图像、文本、音频、视频等)的高效推理与协同输出。(量子位)

3、世界级 AI 科学家加入阿里,出任集团副总裁

智东西 2 月 6 日消息,记者从多方获悉,全球顶尖人工智能科学家许主洪教授(Steven Hoi)正式加入阿里巴巴,出任阿里集团副总裁,负责 AI To C 业务的多模态基础模型及 Agents 相关基础研究与应用解决方案。

据内部人士透露,许主洪教授将专注于 AI To C 业务的多模态基础模型及 Agents 相关基础研究与应用解决方案,大大提升阿里巴巴 AI 应用 C 端产品在模型结合应用的端对端闭环能力上的跃迁。同时,阿里 AI To C 业务正在组建顶级 AI 算法研究和工程团队,吸引大量业内优秀人才加盟。近期,阿里 AI To C 业务大动作频频,引入世界级顶尖人才,组建顶级 AI 算法研究和工程团队,将进一步刷新国内 AI 应用赛道的产品范式与竞争水位。(@智东西)

4、阿里云旗下模型排名超越 DeepSeek V3

根据 Chatbot Arena LLM Leaderboard 最新一期的榜单显示,1 月 29 日,阿里云发布的 Qwen2.5-Max 进入榜单前十,超越 DeepSeek V3, o1-mini 和 Claude-3.5-Sonnet 等模型,以 1332 分位列全球第七。

阿里云表示,Qwen2.5-Max 模型是阿里云通义团队对 MoE 模型的最新探索成果,预训练数据超过 20 万亿 tokens。

新模型展现出极强劲的综合性能,在多项公开主流模型评测基准上录得高分,全面超越了目前全球领先的开源 MoE 模型以及最大的开源稠密模型。目前,Qwen2.5-Max 已在阿里云百炼平台上架,模型名称 qwen-max-2025-01-25`,企业和开发者都可通过阿里云百炼调用新模型 API。同时也可以在全新的 Qwen Chat 平台上中使用 Qwen2.5-Max,直接与模型对话,或者使用 artifacts、搜索等功能。(@ APPSO)

02有亮点的产品

1、AI 营养助手 Alma:用生成式模型重新定义健康追踪

营养科技初创公司 Alma 于本周三正式推出其移动应用程序,旨在利用人工智能技术帮助用户追踪饮食习惯并提供个性化营养建议。Alma 由健身科技公司 Whoop 前产品副总裁 Rami Alhamad 创立,整合了生成式 AI 模型与哈佛大学营养学知识库,通过「对话式交互+智能识别」技术,颠覆传统卡路里追踪模式。

应用功能

- 多模态交互记录: 用户可以通过语音、文字或拍照上传营养标签和食谱图片等方式记录饮食,AI 助手将自动估算食物分量与热量。

- 个性化膳食建议: Alma 能够根据用户的健康目标和饮食偏好生成个性化的膳食摄入报告,并推荐合适的食谱。

- 营养评分系统: 应用内置的「营养评分系统」会基于每日数据生成健康指数,并推送改善方案。

未来规划

Alma 计划推出「智能食品储藏室」功能,通过识别用户库存食材自动生成适配食谱。该应用目前已在北美 iOS 平台上线,用户可以订阅使用,费用为每月 19 美元或每年 199 美元。( @ Business Insider)

2、OpenAI 宣布 ChatGPT 搜索功能:无需注册人人可用,分钟级别解析全网信息

2 月 6 日,OpenAI 宣布,ChatGPT 现在无需登录账户即可使用其搜索引擎。这项升级后的服务不仅能基于实时网络信息生成答案,还会同步展示信息来源清单,让结果更具可信度。

OpenAI 最初于去年 10 月向付费用户提供了搜索引擎功能,并于同年 12 月向所有用户开放。如今,用户无需账户即可使用该功能,这意味着 ChatGPT 的搜索将直接与谷歌和必应等传统搜索引擎展开竞争。

与谷歌等传统收录模式的搜索引擎相比,ChatGPT 搜索可以更快抓取网络信息并实现分钟级别的解析。OpenAI 表示:「像(之前的)登录版本一样,ChatGPT 能够搜索网络,快速为您提供相关网页来源的即时答案。」(@ IT 之家)

3、亚马逊 2 月 26 日发布新一代 Alexa :生成式 AI 服务

IT 之家 2 月 6 日消息,今日,亚马逊发出了人工智能主题活动的邀请,该活动将于 2 月 26 日举行。据路透社报道,亚马逊计划在此次活动中推出其下一代 Alexa 生成式人工智能服务。

自 2014 年推出以来,Alexa 已成为应用最广泛的语音助手之一。然而,随着 ChatGPT、Claude 和 Gemini 等生成式人工智能产品的大量涌现,Alexa 逐渐落后。
IT 之家注意到,将 Alexa 升级为生成式人工智能服务,将是自其推出以来亚马逊对该产品所做的最大变革。升级后的 Alexa 将能够与用户进行复杂的、具备情境感知能力的对话,并能处理多方面的请求。

亚马逊没有完全依赖其内部人工智能技术, 而是采用了 Anthropic 公司的 Claude 人工智能模型。 这是因为亚马逊早期的人工智能版本在及时响应方面存在问题。亚马逊原本计划在去年推出更新版的 Alexa,但最终推迟了其首次亮相的时间。

对亚马逊来说,让 Alexa 的变革取得成功至关重要,因为目前有超过 1 亿的 Alexa 活跃用户,且已售出超过 5 亿台支持 Alexa 的设备。亚马逊的目标是将部分 Alexa 用户转化为付费用户,计划最终对新版 Alexa 收取订阅费用。在推出初期,亚马逊将先对少数用户进行新版 Alexa 的测试,且暂不收费。(@小讯 AI)

4、国家超算互联网平台重磅上线 deepseek:免费体验

中国人工智能初创公司 DeepSeek 受到了广泛关注,为了让更多用户方便体验

DeepSeek 的强大功能,国家超算互联网平台宣布上线 DeepSeek Chatbot 可视化界面功能。

用户在这个平台上可以轻松体验 DeepSeek 的各项功能,无需复杂的部署或操作。只需进入平台,用户只需在输入框中输入想要咨询的问题或指令,即可开启对话。超算互联网平台还提供全天候、不间断的免费体验服务,方便用户随时使用。

据介绍,DeepSeek 目前已经在国家超算互联网平台上上线了多个系列模型,包括 Deepseek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-7B 等,后续还将不断推出更高级别的版本。(@ AIbase 基地)

03有态度的观点

1、DeepSeek 获苏姿丰称赞:为 AMD 创造了前所未有的增长机会

北京时间 2 月 5 日消息,在 AMD 公司最近的财报电话会议上,AMD 首席执行官苏姿丰就 DeepSeek 对行业的影响,发表了一些自己的看法和见解。苏姿丰表示:「相对于 DeepSeek,我们认为模型和算法的创新有利于 AI 的应用」,这种态度无疑反映出其对 DeepSeek 的创新表示欢迎。

同时她还强调,DeepSeek 开发大模型 DeepSeek-R1 和美国宣布成立 5000 亿美元「星际之门」项目,这些正是公司「希望看到的那种进步」,所有这些举措都需要大量的新的计算,将为 AMD 在整个业务中创造前所未有的增长机会。

此外她还表示,她希望在更广泛的市场中看到更多的 AI 计算部署,「事实上,有新的方法可以用更少的基础设施实现训练和推理能力,这实际上是件好事。」(@ cnBeta)

更多 Voice Agent 学习笔记:

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?

2024 语音模型前沿研究整理,Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
658 声望972 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。