头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq,@鲍勃

01 有话题的技术

1、DeepSeek-R1 模型发布,性能对标 OpenAI o1 正式版

昨日,幻方量化旗下 AI 公司深度求索(DeepSeek)正式发布 DeepSeek-R1 模型,并同步开源模型权重。

据官方介绍,DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

DeepSeek 称,DeepSeek-R1 蒸馏小模型超越 OpenAI o1-mini。DeepSeek 在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

登录 DeepSeek 官网或官方 App,打开「深度思考」模式,即可调用最新版 DeepSeek-R1 完成各类推理任务。

(@ IT 之家)

2、k1.5 新模型登场:Kimi 如何做到满血版多模态 o1 水平

k1.5 多模态思考模型:

这是继去年 11 月发布 k0-math 数学模型,12 月发布 k1 视觉思考模型之后,Kimi 连续第三个月带来 k 系列强化学习模型的重磅升级。

从基准测试成绩看,k1.5 多模态思考模型实现了 SOTA (state-of-the-art)级别的多模态推理和通用推理能力。

在 short-CoT 模式下, Kimi k1.5 的数学、代码、视觉多模态和通用能力,大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%。

在 long-CoT 模式下, Kimi k1.5 的数学、代码、多模态推理能力,也达到长思考 SOTA 模型 OpenAI o1 正式版的水平。这应该是全球范围内,OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能。(@月之暗面Kimi)

3、阶跃星辰推出 Step-2 mini/文学大师版

1 月 20 日,阶跃星辰宣布正式为用户带来两款 Step-2 系列新模型,Step-2 mini 和 Step-2 文学大师版。

Step-2 mini 和万亿参数大模型 Step-2 相比,以 3% 左右的参数量保有了其 80%以上的模型性能;同时,Step-2 mini 拥有更快的生成速度和极高的性价比,在输入 4000 tokens 的情况下,Step-2 mini 的平均首字时延仅 0.17 秒。Step-2 mini 还拥有极高性价比,官方表示,Step-2 mini 输入 1 元/百万 token,而输出 2 元/百万 token。

目前,用户已经可以在阶跃星辰开放平台调用 Step-2 mini 的 API 接口。同步推出的 Step-2 文学大师版沿袭了 Step-2 广袤的知识储备、对文字强大的细节把控能力,与此同时它还拥有更加强大的内容创作能力。Step-2 文学大师版目前已经上线跃问 App,网页端也将于本周全量上线。(@ APPSO)

4、微信 Callkit 扩大测试范围,更多人能使用了

近日,大量微信用户发现,自己的微信突然有了 CallKit 功能,觉得非常意外,相关话题冲上社交平台热搜榜。


诸多网友表示,确实在「设置-消息通知」中找到了「语音和视频通话用系统电话接听」选项,点击即可开启该功能。但 CallKit 功能仍在内测中,依旧有不少用户尚未获得更新。

CallKit 功能指的是可将第三方网络通信集成在 iPhone 自带的通话功能中,以提供更灵活的通话体验。微信支持 CallKit 后,即便微信在后台运行或处于关闭状态,乃至手机在锁屏的状态下,好友拨打的微信语音通话也能像普通电话一样,在系统级的通话界面显示出来。还能切换外放或者开启静音,十分方便。

而无论接听还是拒绝,此次语音通话记录还能自动在系统通话中保存下来,能一键回拨。

同时,因为接入 CallKit 功能,其通话提醒弹窗还会以「灵动岛」形式显示。因此,微信登上灵动岛的相关话题也冲上热搜。

早在 2016 年的 iOS 10 系统里,苹果就推出了这个开发框架,允许第三方 VoIP 应用将通话功能集成到 iPhone 自带的通话界面中,从而提升用户体验。但 2021 年该功能被禁用,直到现在都没有全面开放。

直至现在,CallKit 成为用户最「意难忘」的功能,微信更新十个小功能都不及这一个功能的上线能给用户带来惊喜。(@电脑报)

02 有亮点的产品

1、字节跳动推出 Trae :提供全面的中文界面及友好的代码注释支持

字节跳动近日推出了一款针对中文开发者的 AI 集成开发环境(IDE)——Trae。这一产品旨在与 Cursor 和 Windsurf 等国际知名工具竞争,特别是在中文开发者的使用体验上,Trae 希望能填补现有工具的短板。

在编程的日常中,许多开发者常常需要在英文和中文之间切换,这种中英混合的工作模式虽然习以为常,却让不少中文开发者感到不便。现有的 IDE 如 Cursor、Windsurf 和 Vscode,虽然功能强大,却未能对中文用户进行特别优化,造成使用时的不适感。Trae 的出现正是为了解决这一问题。

Trae IDE 从底层设计开始就充分考虑了中文开发者的需求,提供全面的中文界面及友好的代码注释支持,致力于带来更为顺畅的使用体验。此外,Trae 还集成了 Claude3.5 和 GPT-4o 等国际主流大模型,具备智能代码生成和逻辑优化的功能。虽然在理解中文的能力上还有提升空间,但 Trae 的重点在于提供符合中文开发者实际场景的使用体验。

在 Trae 的界面中,用户可以轻松选择内置的编程语言和主题,界面友好且简洁。此外,Trae 支持从 Vscode 或 Cursor 中迁移配置,极大地方便了用户的上手。同时,Trae 还提供了 AI Chat 功能,用户可以通过快捷键与 AI 进行交互,AI 则能够提供代码更新建议。尽管在某些方面与 Cursor 存在差异,比如在对话过程中的上下文引用,Trae 却展现出独特的实用性。

值得注意的是,Trae 还具备一个强大的 Builder 功能,能够根据用户需求生成完整的代码项目。然而,用户在项目开发过程中仍需手动确认 AI 生成的代码,确保代码的完整性和准确性。这一过程或许略显繁琐,但也为用户提供了更大的控制权。

Trae 的上线不仅丰富了中文开发者的工具选择,也为提升其编程体验开辟了新的可能性。(@ AIbase 基地)

2、猫与星:AI 定制孩子自己的童话故事音频

「猫与星」是一款能帮助孩子们根据兴趣,快速生成有趣的专属童话,并在睡前温柔的叙述给小朋友们,陪伴其入眠的 App。在「猫与星」中,你只需要输入孩子的信息,就能生成出一段专属于孩子自己的童话冒险,App 内包含多套有趣的故事主题,确保所生成出的每一个故事都能保证独一无二。

「猫与星」刚刚上架 App Store,目前正在为年度会员提供早鸟优惠,家里有小朋友的小伙伴们可以考虑下载体验,当作送给小朋友的新年礼物也会是一个不错的选择。(@ PriceTag 发现好应用)

03 有态度的观点

1、比尔盖茨:人类还将迎来一些新的 AI 突破,比如所谓的「元认知」(metacognition)

近期,比尔盖茨与阿布扎比 CNN 学院的学生进行交流,并接受了深度专访,其表示人类还将迎来一些新的 AI 突破。比尔盖茨在采访中提到,OpenAI 旗下的 ChatGPT-4 突破了电脑并不能真正「阅读」这一问题;比尔盖茨还以此表示,人类还正在迎来一些新的 AI 突破,比如所谓的「元认知(metacognition)」。当学生提及「应该采取什么措施来确保资源匮乏地区也能够受益」,比尔盖茨认为,真正的难点在于,让这些智能服务所需的云计算资源能在哪些国家使用。同时比尔盖茨建议,只有通过有意识的努力,比如准备好合适的数据,支持当地语言,帮助这些国家建立符合他们需求的监管体系,并且为他们提供一定比例的云计算资源捐赠,就能覆盖很多基本需求。最后,对于 AI 本身与能源该如何平衡,比尔盖茨觉得相较于其他工业,人工智能对能源的消耗还算小。但他也提醒,人类需要考虑混合多种能源技术,让核能更便宜,也需要探索各种方式让天然气使用没有任何泄漏,甚至实现零二氧化碳排放。(@ APPSO)

更多 Voice Agent 学习笔记:

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?

2024 语音模型前沿研究整理,Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
658 声望970 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。