头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq,@鲍勃

01有话题的技术

1、字节跳动推出 OmniHuman:从单张照片生成逼真全身动态视频

字节跳动的研究团队近日开发出一款名为 OmniHuman 的人工智能系统,能够将单张照片转化为逼真的视频,展示人物的讲话、歌唱以及自然的动作。

OmniHuman 能够生成全身视频,展现人物在讲话时的手势和动态,超越了以往仅能动画面部或上半身的 AI 模型。这项技术的核心在于,它结合了文本、音频和人体动作等多种输入,通过一种称为 「全条件」 训练的创新方法,使得 AI 能够从更大、更丰富的数据集中学习。(@AIbase 基地)

2、阿里云 Qwen2.5-1M 开源发布:100 万上下文长度模型登场

继 DeepSeek R1 之后,阿里云通义千问团队宣布推出其最新的开源模型 Qwen2.5-1M,再次引发业界关注。

此次发布的 Qwen2.5-1M 系列包含两个开源模型: Qwen2.5-7B-Instruct-1MQwen2.5-14B-Instruct-1M 。这是通义千问首次推出能够原生支持百万 Token 上下文长度的模型,并在推理速度上实现了显著提升。

Qwen2.5-1M 的核心亮点在于其原生支持百万 Token 的超长上下文处理能力。这使得模型能够轻松应对书籍、长篇报告、法律文件等超长文档,无需进行繁琐的分割处理。同时,该模型还支持更长时间、更深入的对话,能够记住更长的对话历史,实现更连贯、更自然的交互体验。此外,Qwen2.5-1M 在理解复杂任务,如代码理解、复杂推理、多轮对话等方面也展现出更强大的能力。

除了令人震撼的百万 Token 上下文长度,Qwen2.5-1M 还带来了另一项重大突破:闪电般快速的推理框架!通义千问团队完全开源了基于 vLLM 的推理框架,并集成了稀疏注意力机制。这一创新性的框架使得 Qwen2.5-1M 在处理百万 Token 输入时,速度提升了 3 倍到 7 倍 ,这意味着用户可以更加高效地使用超长上下文模型,极大地提升了实际应用场景的效率和体验。(@AIbase 基地)

02有亮点的产品

1、PlayAI 发布 TTS 新模型 Dialog 1.0,三方测试多方面超 ElevenLabs

PlayAI 发布了全新 TTS 模型 Dialog 1.0 ,该模型以超强的表达力和音质优势, 在第三方测试中 超越 ElevenLabs 。Dialog 1.0 具备 <1% 误差率 ,支持 30+ 语言 ,并实现行业领先的 低延迟(303ms TTFA),大幅提升语音克隆效果。

语音质量: 在第三方测试中,PlayAI Dialog 在语音流畅度和情感连贯性方面优于 ElevenLabs v2.5 Turbo (10:1) 和 ElevenLabs Multilingual v2.0 (3:1)。测试者尤其赞赏其准确的表现力和节奏。

低延迟: 与 ElevenLabs v2.5 Turbo 类似,PlayAI Dialog 具有较低的首次音频时间(TTFA),适合低延迟应用,如语音代理、呼叫中心、游戏和娱乐。

多语言支持: 除英语外,支持中文、法语、德语、印地语、日语、韩语、葡萄牙语和乌尔都语。另有 23 种语言处于实验阶段。

2、谁还没发现微信好友里的「卧底 AI」:你以为它只会做红包封面?

一个年过完,许多人的微信里都多了一个 好友。

与一些陪伴大家多年从不回复的沉默工具号不一样,这是一个事事有回应的 AI 助手。

微信搜索「元宝红包封面助手」就能加它微信,以 微信好友 的形式聊天。

只需输入简单的主题词,比如「天天开心」,它便能自动生成精美的绘图,并搭配由关键词组成的祝福语等,制作成独特的红包封面。

根据身边统计学,有人是通过做好的红包封面里附赠了对联,发现这个 封面助手还有对话功能。

在角色设定上,对比一些智能客服的刻板印象,「元宝红包封面助手」很有人味儿。

没有机械的「您好,我是您的 AI 助理」,开口就是「宝儿」,同它对话陪伴感、情绪价值拉满。(@量子位)

3、Martin AI:19 岁华人辍学打造对话式 AI 助手,融资 200 万美元

19 岁华人辍学创业,拿下 200 万美元融资,致力于打造新型对话式 AI 助手。Dawson Chen 和 Ethan Hou 分别从耶鲁大学和伯克利大学退学,共同创办了 Martin AI。

该公司开发的 AI 助手 Martin 采用「自定义记忆架构」,能够理解用户偏好和上下文,支持通过短信、WhatsApp、Slack 等多种渠道与用户互动,帮助用户管理日程、查询信息、撰写邮件等。Martin 还支持语音交互,可自动调整日程并通知相关方。

Martin 的主要功能包括日程管理、邮件管理、任务管理、通讯管理、文件管理以及个性化服务。它能够与 Gmail、Slack、Google Drive 以及各类日历等职场必备工具无缝对接。Martin 的愿景是通过极致的用户体验和快速迭代来与科技巨头竞争,希望在未来五年内,每个人的日常生活中都能有五到十个 AI 智能体,而 Martin 将成为最贴近消费者生活的那个。

目前,Martin 已经获得了包括 Pioneer Fund、FoundersX Ventures、Eight Capital 等知名机构的投资,并在 App Store 上线,提供免费下载和付费订阅服务。(@新智元)

03有态度的观点

1、郭明錤:DeepSeek 爆红加速 AI 模型「设备端化」趋势

近日,分析师郭明錤发文表示,DeepSeek-R1 发布后,加速了 AI 模型「设备端化」的趋势。郭明錤提到,API/Token 价格显著下滑,有利于 AI 软件/服务与设备端 AI,加速 AI 应用多元化。其中 DeepSeek-R1 采取了激进的定价策略,其 API/token 定价最低不到 OpenAI-o1 的 1/100。郭明錤预测,此竞争压力可能将推动 AI 使用成本下滑,并且因 AI 产业在中国市场竞争激烈,将有其他中国厂商推出性能优异且定价更激进的 LLM。

郭明錤还表示,Scaling law 的边际效益放缓时,AI 算力仍可通过优化训练方式持续增长,并有利于挖掘新应用。

郭明錤分析,过去 1-2 年,投资人对 AI 服务器供应链的投资逻辑主要基于 AI 服务器出货量在 Scaling law 成立下可持续增长。然而,Scaling law 的边际效益正逐渐递减,这也让市场更加关注 DeepSeek 通过 Scaling law 以外的方式显著提升模型效益。

日前,来自加州伯克利大学在读博士 Jiayi Pan 的研究团队,成功地以极低的成本复现了 DeepSeek R1-Zero 中的关键技术「顿悟时刻」。研究表明,即便规模较小的语言模型,通过强化学习(RL),模型也能自行发展出强大的自我验证和搜索能力。(@APPSO)

2、谷歌前 CEO:DeepSeek 崛起标志着全球 AI 竞赛新阶段

谷歌前首席执行官埃里克·施密特(Eric Schmidt)在发表的专栏文章中呼吁美国加大开源人工智能的研发力度,以应对 DeepSeek 的崛起。

施密特认为,DeepSeek 的崛起标志着全球人工智能竞赛的转折点,证明中国可以利用更少的资源与大科技公司竞争。施密特指出,为了对抗 DeepSeek,美国必须开发更多的开源模型,投资人工智能基础设施(如星际之门),并鼓励领先的实验室分享他们的训练方法。

他还强调,DeepSeek 的成功不仅在于其技术的先进性,还在于其开源策略,这使得更多的 AI 团队能够基于最先进的模型开发更多的 AI 原生应用。中国工程院院士、清华大学计算机系教授郑纬民指出,DeepSeek 成功出圈的原因主要集中在三个方面:DeepSeek-V3 和 DeepSeek-R1 两款模型分别实现了比肩 OpenAI 的 GPT-4o 和 o1 模型的能力,同时成本仅为 OpenAI 模型的十分之一左右。

此外,DeepSeek 还开源了这两款模型的技术,进一步推动了 AI 技术的普及和应用。(@AIbase 基地)

04有看点的活动

1、ElevenLabs x a16z Hackathon,全球六个城市+线上参与

ElevenLabs 和 a16z 正在举办一场以 AI 代理为主题的全球黑客马拉松,将在全球范围内同步举办 7 场大型黑客马拉松,汇聚全球最优秀的开发者、创新者、设计师和 AI 工程师。

线上参与时间:

北京时间 2 月 22 日星期六下午 6:00 - 2 月 24 日星期一上午 10:00

其他城市参与时间参考活动官网:https://hackathon.elevenlabs.io/

更多 Voice Agent 学习笔记:

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?

2024 语音模型前沿研究整理,Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
658 声望972 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。