PlayAI 发布 TTS 新模型，三方测试超 ElevenLabs；19岁华人辍学打造对话式 AI 助手，融资 200 万美元

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq，@鲍勃

01有话题的技术

1、字节跳动推出 OmniHuman：从单张照片生成逼真全身动态视频

字节跳动的研究团队近日开发出一款名为 OmniHuman 的人工智能系统，能够将单张照片转化为逼真的视频，展示人物的讲话、歌唱以及自然的动作。

OmniHuman 能够生成全身视频，展现人物在讲话时的手势和动态，超越了以往仅能动画面部或上半身的 AI 模型。这项技术的核心在于，它结合了文本、音频和人体动作等多种输入，通过一种称为「全条件」训练的创新方法，使得 AI 能够从更大、更丰富的数据集中学习。（@AIbase 基地）

2、阿里云 Qwen2.5-1M 开源发布：100 万上下文长度模型登场

继 DeepSeek R1 之后，阿里云通义千问团队宣布推出其最新的开源模型 Qwen2.5-1M，再次引发业界关注。

此次发布的 Qwen2.5-1M 系列包含两个开源模型： Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 。这是通义千问首次推出能够原生支持百万 Token 上下文长度的模型，并在推理速度上实现了显著提升。

Qwen2.5-1M 的核心亮点在于其原生支持百万 Token 的超长上下文处理能力。这使得模型能够轻松应对书籍、长篇报告、法律文件等超长文档，无需进行繁琐的分割处理。同时，该模型还支持更长时间、更深入的对话，能够记住更长的对话历史，实现更连贯、更自然的交互体验。此外，Qwen2.5-1M 在理解复杂任务，如代码理解、复杂推理、多轮对话等方面也展现出更强大的能力。

除了令人震撼的百万 Token 上下文长度，Qwen2.5-1M 还带来了另一项重大突破：闪电般快速的推理框架！通义千问团队完全开源了基于 vLLM 的推理框架，并集成了稀疏注意力机制。这一创新性的框架使得 Qwen2.5-1M 在处理百万 Token 输入时，速度提升了 3 倍到 7 倍 ，这意味着用户可以更加高效地使用超长上下文模型，极大地提升了实际应用场景的效率和体验。（@AIbase 基地）

02有亮点的产品

1、PlayAI 发布 TTS 新模型 Dialog 1.0，三方测试多方面超 ElevenLabs

PlayAI 发布了全新 TTS 模型 Dialog 1.0 ，该模型以超强的表达力和音质优势，在第三方测试中 超越 ElevenLabs 。Dialog 1.0 具备 <1% 误差率 ，支持 30+ 语言 ，并实现行业领先的低延迟（303ms TTFA），大幅提升语音克隆效果。

语音质量：在第三方测试中，PlayAI Dialog 在语音流畅度和情感连贯性方面优于 ElevenLabs v2.5 Turbo （10:1）和 ElevenLabs Multilingual v2.0 （3:1）。测试者尤其赞赏其准确的表现力和节奏。

低延迟：与 ElevenLabs v2.5 Turbo 类似，PlayAI Dialog 具有较低的首次音频时间（TTFA），适合低延迟应用，如语音代理、呼叫中心、游戏和娱乐。

多语言支持：除英语外，支持中文、法语、德语、印地语、日语、韩语、葡萄牙语和乌尔都语。另有 23 种语言处于实验阶段。

2、谁还没发现微信好友里的「卧底 AI」：你以为它只会做红包封面？

一个年过完，许多人的微信里都多了一个 好友。

与一些陪伴大家多年从不回复的沉默工具号不一样，这是一个事事有回应的 AI 助手。

微信搜索「元宝红包封面助手」就能加它微信，以 微信好友 的形式聊天。

只需输入简单的主题词，比如「天天开心」，它便能自动生成精美的绘图，并搭配由关键词组成的祝福语等，制作成独特的红包封面。

根据身边统计学，有人是通过做好的红包封面里附赠了对联，发现这个 封面助手还有对话功能。

在角色设定上，对比一些智能客服的刻板印象，「元宝红包封面助手」很有人味儿。

没有机械的「您好，我是您的 AI 助理」，开口就是「宝儿」，同它对话陪伴感、情绪价值拉满。（@量子位）

3、Martin AI：19 岁华人辍学打造对话式 AI 助手，融资 200 万美元

19 岁华人辍学创业，拿下 200 万美元融资，致力于打造新型对话式 AI 助手。Dawson Chen 和 Ethan Hou 分别从耶鲁大学和伯克利大学退学，共同创办了 Martin AI。

该公司开发的 AI 助手 Martin 采用「自定义记忆架构」，能够理解用户偏好和上下文，支持通过短信、WhatsApp、Slack 等多种渠道与用户互动，帮助用户管理日程、查询信息、撰写邮件等。Martin 还支持语音交互，可自动调整日程并通知相关方。

Martin 的主要功能包括日程管理、邮件管理、任务管理、通讯管理、文件管理以及个性化服务。它能够与 Gmail、Slack、Google Drive 以及各类日历等职场必备工具无缝对接。Martin 的愿景是通过极致的用户体验和快速迭代来与科技巨头竞争，希望在未来五年内，每个人的日常生活中都能有五到十个 AI 智能体，而 Martin 将成为最贴近消费者生活的那个。

目前，Martin 已经获得了包括 Pioneer Fund、FoundersX Ventures、Eight Capital 等知名机构的投资，并在 App Store 上线，提供免费下载和付费订阅服务。（@新智元）

03有态度的观点

1、郭明錤：DeepSeek 爆红加速 AI 模型「设备端化」趋势

近日，分析师郭明錤发文表示，DeepSeek-R1 发布后，加速了 AI 模型「设备端化」的趋势。郭明錤提到，API/Token 价格显著下滑，有利于 AI 软件/服务与设备端 AI，加速 AI 应用多元化。其中 DeepSeek-R1 采取了激进的定价策略，其 API/token 定价最低不到 OpenAI-o1 的 1/100。郭明錤预测，此竞争压力可能将推动 AI 使用成本下滑，并且因 AI 产业在中国市场竞争激烈，将有其他中国厂商推出性能优异且定价更激进的 LLM。

郭明錤还表示，Scaling law 的边际效益放缓时，AI 算力仍可通过优化训练方式持续增长，并有利于挖掘新应用。

郭明錤分析，过去 1-2 年，投资人对 AI 服务器供应链的投资逻辑主要基于 AI 服务器出货量在 Scaling law 成立下可持续增长。然而，Scaling law 的边际效益正逐渐递减，这也让市场更加关注 DeepSeek 通过 Scaling law 以外的方式显著提升模型效益。

日前，来自加州伯克利大学在读博士 Jiayi Pan 的研究团队，成功地以极低的成本复现了 DeepSeek R1-Zero 中的关键技术「顿悟时刻」。研究表明，即便规模较小的语言模型，通过强化学习（RL），模型也能自行发展出强大的自我验证和搜索能力。(@APPSO)

2、谷歌前 CEO：DeepSeek 崛起标志着全球 AI 竞赛新阶段

谷歌前首席执行官埃里克·施密特（Eric Schmidt）在发表的专栏文章中呼吁美国加大开源人工智能的研发力度，以应对 DeepSeek 的崛起。

施密特认为，DeepSeek 的崛起标志着全球人工智能竞赛的转折点，证明中国可以利用更少的资源与大科技公司竞争。施密特指出，为了对抗 DeepSeek，美国必须开发更多的开源模型，投资人工智能基础设施（如星际之门），并鼓励领先的实验室分享他们的训练方法。

他还强调，DeepSeek 的成功不仅在于其技术的先进性，还在于其开源策略，这使得更多的 AI 团队能够基于最先进的模型开发更多的 AI 原生应用。中国工程院院士、清华大学计算机系教授郑纬民指出，DeepSeek 成功出圈的原因主要集中在三个方面：DeepSeek-V3 和 DeepSeek-R1 两款模型分别实现了比肩 OpenAI 的 GPT-4o 和 o1 模型的能力，同时成本仅为 OpenAI 模型的十分之一左右。

此外，DeepSeek 还开源了这两款模型的技术，进一步推动了 AI 技术的普及和应用。（@AIbase 基地）