AI 口语学习应用 Speak 新一轮融资估值 10 亿美元；YouTube 推出 AI 多语言配音丨 RTE 开发者日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01 有话题的新闻

1、DeepSeek AI 发布新版 DeepSeek-V2.5-1210：数学、编程与写作能力大幅提升

DeepSeek AI 近期推出了 DeepSeek-V2.5-1210，这是 DeepSeek-V2.5 的增强版本，旨在提升人工智能在数学、编程、写作和推理任务中的表现。

早期版本的模型在解决数学和推理任务方面已取得了一定成功，但在多种应用场景中表现的稳定性还有待提高，尤其是在实时编码和细致写作方面。

新发布的 DeepSeek-V2.5-1210 通过改进模型的核心功能和优化算法，显著提升了各项任务的可靠性和易用性。该模型具备解决复杂方程、撰写连贯文章及有效总结网页内容的能力，适合研究人员、软件开发者、教育工作者和分析师等多类用户。

技术上，DeepSeek-V2.5-1210 的多个升级使其表现更加出色。根据 MATH-500 数据集的评估，模型的数学任务完成率从 74.8% 提升至 82.8%，展示了其在解决复杂数学问题上的能力。

在实时编码方面，LiveCodebench 的得分也从 29.2% 提高到 34.38%，显示出在实时编码任务中的显著进步。

此外，内部评估还表明，模型在写作和推理能力上都有所提升，能够生成连贯且符合上下文的输出。诸如增强的文件上传功能和改进的网页总结能力等实际更新，进一步提升了用户体验。这些改进得益于优化的 Transformer 架构、精炼的令牌处理和更好的训练数据整合，确保在多种任务中的强大表现。

从基准测试结果和实际应用中可以看出，该模型的提升是显而易见的。其数学精确性的提升将惠及处理复杂计算的研究人员，而编码能力的增强则为开发者解决实际挑战提供了帮助。

在写作和推理方面的改进，通过内部测试显示出在撰写论文、总结和逻辑分析等任务上的潜力。此外，改进后的文件处理和总结功能，使用户在学术和工业领域更容易将模型整合进工作流程中。（@ AIbase 基地）

2、ChatGPT Canvas 迎来更新，面向所有用户开放

北京时间今天凌晨，OpenAI 举办发布会，宣布为 ChatGPT Canvas 带来三项更新：

Canvas 功能整合进 ChatGPT 核心模型：

在让 Canvas 创作故事时，可以让其编辑标题，润色文档，检查语法，甚至添加恰当的表情符号都能胜任。

支持用户直接在 Canvas 中运行 Python 代码：

据官方介绍，OpenAI 在 Canvas 中集成了基于 WebAssembly 的 Python 模拟器，使其能够加载绝大多数 Python 库，实现代码的即时运行。

将 Canvas 功能引入 GPTs 生态系统。

OpenAI CEO Sam Altman 随后还发布推文，表示：「 Canvas 现在可供所有 ChatGPT 用户使用，并且可以执行代码！更重要的是，它可以让你的写作更有 emoji 风格。」(@ APPSO)

3、数据管理将成为 2025 年人工智能成功的关键因素

近期，随着人工智能（AI）技术的迅速发展，数据管理的重要性愈发凸显。尽管 AI 热潮尚未带来大量实际成功案例，但多项研究显示，良好的数据管理和高质量的数据是实现 AI 目标的基础。

NetApp 发布的《2024 年数据复杂性报告》显示，全球 1300 名技术和数据高管的调查结果令人关注。调查发现，投资于数据统一的公司在实现 AI 目标方面更具备优势，接近 80% 的受访者认识到统一数据对达到理想 AI 结果的重要性。

报告还指出，约三分之二的公司表示，他们的数据「完全或基本上优化用于 AI」，意味着这些数据可访问、准确且经过良好文档记录。然而，40% 的高管认为，未来两年在 AI 和数据管理上的投资将会大幅增加。

另一份由数据管理与分析提供商 Qlik 发布的报告则揭示了阻碍 AI 进展的一些原因。在接受调查的 4200 名高管中，缺乏 AI 技能和数据治理挑战被认为是主要障碍，均占 23%。此外，AI 开发后部署和预算不足及缺乏可信数据的比例也相对较高。Qlik 的报告强调，建立信任对于实现广泛的 AI 成功至关重要，37% 的高管对 AI 缺乏信任，61% 认为这种信任缺失正在削减他们的 AI 投资。

最后，Ataccama 公司的《数据信任报告》也强调了数据管理在 AI 实践中的重要性。该公司与 Hanover Research 合作，对来自美国、加拿大和英国的 300 名高管进行了调查。调查结果显示，51% 的高管认为改善数据质量和准确性是当务之急，30% 的高管面临着管理大量数据的挑战。（@ AIbase 基地）

02 有亮点的产品

1、AI 语言学习应用 Speak 宣布获得 7800 万美元 C 轮融资，估值 10 亿美元！

Speak 宣布获得 Accel 领投的 7800 万美元 C 轮融资，估值达到 10 亿美元，其他投资方包括 OpenAI Khosla Ventures 以及 YC。

Accel 合伙人 Ben Quazzo 将加入 Speak 董事会。他表示，Speak 已经成为 C 端 AI 应用的出色参与者。

据悉，此轮资金目的之一是扩大用户可学习的目标语言数量，从而扩大潜在客户规模，首先将从西班牙语和法语开始，Speak 目前已经支持了八种学习英语的原始语言。

CEO Connor Zwick 表示，Speak 的价值主张是教人们如何用语言交流，Speak 的总目标市场达到 15 亿用户。

联合创始人& CTO Andrew Hsu 提到，Speak 当前的下载量已经超过 1000 万次，平均每天使用时长达到 10～20 分钟；此外，Speak 的企业级客户 Speak for Business 也拥有超过 200 个客户。

Zwick 将 Speak 描述为部分学习方法和部分技术平台，其工作过程分为三个步骤：

1）用户先是参与到倾听和交谈中，产品不会马上解释语法规则；

2）用户会被要求反复运用这个新术语或短语，即用其他各种语言大声讲出来；

3）通过 AI 在现实世界中呈现这个短语。

目前，像 Duolingo 和 Kahoot 等公司已经倾向于将产品游戏化，将学习打造成一种游戏化体验，

Zwick 表示，Speak 在融资后会将更多行为机制引入产品中，从而为用户带来积极的变化，但这不会以牺牲学习效果为代价。当需要在游戏化、用户参与度以及有效性之间进行取舍时，将 100% 选择学习有效性。（@有新 Newin）

2、面壁智能获新一轮数亿元融资将提速端侧等大模型商业化布局

北京面壁智能科技有限责任公司近期宣布完成了新一轮数亿元人民币的融资。

本轮融资由龙芯创投、鼎晖百孚、中关村科学城基金和赛富投资基金联合领投，北京市人工智能产业投资基金与清科创投跟投，万甲资本担任独家财务顾问。面壁智能计划利用这笔资金加速端侧 AI 大模型的商业化布局，致力于提供同等参数下更高性能、更低能耗和更快速度的高效大模型服务，以深度服务行业并为用户创造具体可感知的价值。

面壁智能以「高效为第一性原理」的大模型公司而闻名。其端侧模型面壁小钢炮 MiniCPM 因其以小博大、高效低成本的性能优势而受到关注，该模型不仅在多项基准测试中领先，还将无限长文本、超清 OCR 识图、实时视频理解等功能首次集成到端侧，创造多项纪录。自发布以来，面壁小钢炮 MiniCPM 系列累计下载量突破 300 万，成为全球开源社区的明星项目。

在端侧智能方面，面壁智能在主流消费电子硬件和新兴硬件中融入端侧 AI，同时布局端云协同的未来范式，与华为云、百度智能云等达成战略合作。公司与华为、联发科技、联想、英特尔、长城汽车、易来科技等行业标杆企业紧密协作，业务覆盖 AI Phone、AI PC、智能座舱、智能家居与具身机器人等领域，将高性能的端侧 AI 带入千家万户、千行百业。（@ AIbase 基地）

3、YouTube 推出 AI 自动配音，打破语言壁垒

YouTube 在日前宣布了一项重大更新 - AI 自动配音功能将为数十万个频道开放。这项创新技术旨在帮助内容创作者更轻松地触达全球受众，消除语言障碍。

据悉，这个基于 AI 的配音工具最初在去年的 Vidcon 大会上首次亮相，当时仍处于小规模测试阶段。现在，这项功能正式面向以教育和指导类内容为主的频道开放，包括烹饪、手工等类型的视频。

使用方法非常简单：创作者只需像往常一样上传视频，YouTube 将自动识别原始语言并生成多语言配音版本。目前支持的语言包括英语、法语、德语、印地语、印尼语、意大利语、日语、葡萄牙语和西班牙语。

值得注意的是，这项技术依托于谷歌的 Gemini 人工智能能力，能够模仿人类语音。不过 YouTube 也坦诚地表示，由于技术仍处于发展早期，配音的准确性可能存在一定局限性。公司表示将持续优化，并欢迎用户提供反馈。

未来，YouTube 还计划推出「表情语音」功能，这将帮助 AI 更精准地复制创作者的语气、情感，甚至周围环境的氛围。这意味着跨语言内容传播将变得更加生动和自然。（@ AIbase 基地）

4、字节跳动豆包电脑版上线视频生成功能，内测用户每日可免费生成十支视频

字节跳动视频生成模型 PixelDance 已在豆包电脑版正式开启内测，部分用户已开通体验入口。内测页面显示，用户每日可免费生成十支视频。

据此前报道，PixelDance 视频生成模型于 9 月底首次发布，最早通过即梦 AI、火山引擎面向创作者和企业客户小范围邀测。

据早期内测创作者介绍，当 PixelDance 生成 10 秒视频时，切换镜头 3-5 次的效果最佳，场景和角色能保持很好的一致性。此外，用户还可使用时序提示词、长镜头等技巧，增强视频的复杂度和表现力。

目前，基于该模型的视频生成能力已在豆包电脑版陆续开放。豆包相关负责人表示，未来仍将持续开放和优化该功能，更好地帮助普通用户创作和表达。（@ IT 之家）

03 有态度的观点

1、OpenAI 6 年元老：我们应该为全社会的 AI 发展安装一个「刹车」

于 10 月底从 OpenAI 离职的 6 年元老 Miles Brundage，近期在个人博客上发文，表示「我们应该为全社会的 AI 发展安装一个刹车」。

他认为，目前 AI 的进展非常快，比如 2021 年出版的一本书——《人工智能简史》中的观点，放到三年后的今天已经过时了。虽然在某些时刻人们对于人工智能的进步过于乐观，但他认为从总体来看，就近十年来说，坚持唱深度学习的反调确实不是一个成功的策略。

在博客中他表示，人类应当安装（经过设计和辩论的）「刹车」，因为当前 AI 的进步明显快于社会能够有效理解和塑造的速度，而且这种情况可能不会很快改变——甚至，二者之间差距可能逐渐扩大。(@ APPSO)

2、字节内部判断 AI 对话类产品天花板可能不高，提升剪映即梦优先级

据知情人士透露，豆包的用户活跃度较低，平均每周仅活跃 2 至 3 天，每天发送消息轮次为 5 到 6 次，单次时长约 2 分钟，人均使用时长约 10 分钟，过去一年增长幅度不显著。字节内部管理层认为这并非豆包的问题，其相关数据已处于国内产品第一梯队，且基于文本的对话类产品可能并不是理想的产品形态。

QuestMobile 数据显示，豆包、Kimi 和文小言的日均使用频次均在 4 到 5 次之间，人均使用时长在 5 到 10 分钟之间，变化不大。尽管如此，豆包在用户增长上表现亮眼，9 月日活达 760 万，远超 Kimi 的 130 多万。此外，豆包快速补齐了音乐生成、图生图、图生视频等功能，语音功能也表现出色，但对话轮次和时长等关键指标仍不理想，商业化前景尚不明朗。

有知情人士透露，字节内部认为付费订阅模式在中国难以成功，而低使用时长和轮次限制了广告空间，形成了隐形天花板。管理层建议寻找更低门槛和「多模态」的产品形式，剪映和即梦可能是合适的选择。

剪映作为视频创作工具，已在图片和视频编辑等功能上应用了最新模型技术，近期在图片生成和理解领域取得技术突破，月活跃用户达 1.7 亿，全球排名第二。即梦是前抖音集团 CEO 张楠推出的 AI 创作工具，具备强内容社区属性，吸引了大量 AI 创作者。字节计划将更多资源转向多模态产品，即梦将在未来承担更大希望，特别是在视觉生成相关的大模型优化方面。（@ 智能涌现）