通义开源语音处理框架 ClearerVoice-Studio；亚马逊 Nova 计划明年发布端到端语音模型丨 RTE 开发者日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01 有话题的新闻

1、OpenAI 正式发布 o1 完整版

OpenAI 在 12 天连续直播活动的首日发布了 o1 模型的完整版，该模型相较于之前的 o1-preview 版本在智能能力上有所提升，特别是在编程能力方面，并且能够根据问题的难度智能调节响应速度。

o1 模型完整版新增了图像识别功能，但目前仍然不支持网页浏览、文件上传等功能。OpenAI 的测试显示，o1 完整版比预览版的错误率降低了约 34%，思考速度提高了约 60%。

此外，这场直播还推出了「ChatGPT Pro」，这是一个每月 200 美元的高级订阅服务，允许用户无限制使用高阶模型，包括 o1 模型的 Pro 版本，该版本能小幅提升结果的可靠性。(@APPSO)

2、字节开源最全面代码大模型基准 FullStack Bench

字节跳动的豆包大模型团队与 M-A-P 开源社区合作，推出了全新的代码大模型评估基准「FullStack Bench」，它在业界首次覆盖了超过 11 类全栈编程的真实场景，并支持 16 种编程语言，包含 3374 个问题。

研究团队从全球最大的程序员技术问答社区「Stack Overflow」中随机抽取并分析了 50 万个问题，以确保其覆盖真实全栈开发中的各类应用场景。FullStack Bench 的每个问题都包含题目描述、参考解决方案及单元测试用例，总计 15168 个单元测试，由编程专家设计并经过 AI 和人工验证，以确保评估的准确性。

此外，FullStack Bench 的数据集在构建后，还根据主流代码大模型的测试结果进行了交叉评估和进一步完善，以保证问题难度、模糊性和可解性的质量。

FullStack Bench 的开源，为开发者提供了一个系统性测试大模型代码能力的有力工具，有助于更有效地评估大模型在现实世界中的代码开发能力。(@APPSO)

3、Hailuo AI 推 I2V-01-Live 模型，静态插画秒变"活人"

Hailuo AI 近日推出的 I2V-01-Live 功能，正在重新定义数字艺术的可能性。这项突破性技术能够将静态二维插画瞬间转变为栩栩如生的动态影像。

传统的插画一直被局限在静态展示，而现在，这些原本静止的角色和艺术作品终于可以"活"起来。技术可以为画中人物赋予微妙的动作和情感表现，包括说话、眨眼等自然细节。

这项技术的魅力在于其三大核心优势：第一，它能为静态画面注入流畅的动画效果，瞬间点燃画面生命力；第二，系统支持多样的艺术风格，从漫画到卡通，完全尊重创作者的想象空间；第三，与传统简单的动作生成不同，I2V-01-Live 更加注重动态表现的细节和稳定性，呈现出极其自然、真实的画面动态。（@AIbase 基地）

4、通义语音处理技术 ClearerVoice-Studio

随着语音技术的普及，语音质量已成为人们关注的焦点。环境噪声、混响、设备拾音等问题，常常使语音质量和可懂度大打折扣。

无论是录制清晰语音却因周围环境嘈杂充满噪声，还是在地铁、餐厅等喧闹场景中与人通话时不得不提高嗓音，这些场景都体现了语音处理技术的迫切需求。特别是在复杂的多人对话环境中，如何有效分离目标说话人的语音信号 ，避免其他干扰，一直是语音处理领域的难点和热点。

通义实验室开源 ClearerVoice-Studio，一个集成语音增强、语音分离和音视频说话人提取等功能的语音处理框架。通过融合复数域深度学习算法，我们大幅提升了语音降噪和分离的性能，能够最大限度地消除背景噪声并保留语音清晰度，同时保持语音失真最小化。

ClearerVoice-Studio 能为您做什么？

高效去除背景噪声，将嘈杂语音处理成高质量、清晰的语音信号；
从复杂音频混合中轻松分离目标语音，满足多种语音处理需求；
使用音视频结合的模型精确提取目标说话人的语音信号；
使用模型训练和调优工具进行模型效果打磨；（@阿里语音 AI）

5、亚马逊发布最新通用人工智能模型系列 Nova，明年将推出音频生成模型

近日，据海外媒体报道，亚马逊云科技（Amazon Web Services，AWS）公司的首席执行官 Andy Jassy 在年度大会 re:Invent 上发布了该公司的最新的通用人工智能模型系列 Nova，该模型允许用户生成文本、图像和视频。

目前，用户需要一个 Amazon Bedrock 账号就能够使用该模型。据报道，语音到语音（speech-to-speech）的音频生成模式将于 2025 年推出。
新推出的 Nova 模型引入了几个针对特定用例定制的模型，所有模型都支持 200 多种语言。

Amazon Nova Micro： 这是一个纯文本模型，以最小的成本优化了低延迟响应。

Amazon Nova Lite： 这是一个多模态模型，结合了准确性、速度和成本效益等特点，专为各种任务而设计。

Amazon Nova Pro： 一个多模态模型，用于复杂推理任务和定制模型（将于 2025 年第一季度推出）。

Amazon Nova Canvas： 一个用于创意内容开发的高级图像生成模型。

Amazon Nova Reel： 一个视频生成模型。

据报道，上述所有模型都支持微调和知识蒸馏（knowledge distillation），允许客户根据其专有数据定制 AI 工具，以提高准确性和性能。同时也支持检索增强生成（RAG），基于特定组织数据的输出来增强可靠性。

亚马逊人工通用智能高级副总裁 Rohit Prasad 指出，Amazon Nova 旨在解决应用程序创建者面临的共同挑战。这些模型在延迟、成本效益等方面取得了进步，为客户提供了灵活而强大的解决方案。

另外，亚马逊公司宣布计划在 2025 年扩大 Nova 模型系列，增加两种新型号：一款是用于自然的、类似人类的语言交互的语音到语音（speech-to-speech）模型。另一款是任意模态到任意模态（any-to-any）模型，可以处理和生成文本、图像、音频和视频，实现跨模态的无缝翻译和编辑。(@Allmetas)

02 有亮点的产品

1、字节跳动 AI 助手豆包已支持一键生成带有指定文字的图片

字节跳动公司旗下的智能 AI 助手豆包近期对其文生图能力进行了升级，新功能支持用户通过一键操作生成含有指定文本的图片。

豆包大模型团队的相关负责人指出，豆包的文生图模型通过整合 LLM（大型语言模型）和 DIT（数字图像技术）构架，优化了对中文数据的学习能力，并在此基础上加强了汉字的生成能力，显著提高了生成效果。

需要注意的是，现阶段该功能仅限于在文生图中添加文字，尚不支持通过上传图片来生成文字。（@AIbase 基地）

2、Humane 发布 CosmOS 由人工智能驱动操作系统专为智能设备和复杂任务设计

在这里插入图片描述

Humane 发布 CosmOS ，由人工智能驱动操作系统，专为智能设备和复杂任务设计。

它通过理解用户的需求和偏好，提供个性化、上下文相关的帮助，简化日常交互，并在多种设备间无缝运行。

CosmOS由多个智能代理组成，每个代理专注于特定任务，如天气、音乐、任务规划等。这些代理能够自主协作，动态适应用户需求，不需要用户手动管理。
CosmOS 的核心是一套强大的 AI 协调系统，能够整合 AI模型、数据集、服务和设备功能。通过动态分配资源和协调任务，提供流畅的用户体验。
CosmOS 通过学习用户的交互记录和历史行为，不断优化用户体验。实时从互联网获取数据，确保任务与当前情境相关。
支持多种输入方式（语音、触控、文字、手势和视觉），并支持用户在不同输入模式之间自由切换。（@小互 AI）

03 有态度的观点

1、OpenAI CEO 奥特曼：AGI 可能提前到来，但影响有限

近日，在纽约时报的 DealBook 峰会上，OpenAI 的首席执行官萨姆・奥特曼（Sam Altman）对人工智能（AGI）的未来发表了看法。他表示，尽管 OpenAI 曾预言 AGI 将「提升人类」和「自动化绝大多数智力劳动」，但如今他认为，AGI 的到来可能并不像很多人所想的那样具有重大意义。

在采访中，奥特曼透露，他预测 AGI 会比大多数人想象的更早到来，可能在 2025 年实现，并且可以在现有的硬件上完成。他提到，虽然 AGI 的出现会加速一些进程，但社会的整体变动不会像之前预期的那样迅速。「我预计经济上的冲击将比人们想象的要缓慢，因为社会中存在很多惯性。」他说，「所以在最初的几年中，可能不会发生太多变化，接着可能会发生很大的变化。」

在这次峰会上，奥特曼似乎将 OpenAI 对 AGI 的定义变得不那么宏伟。他提到，从 AGI 到超级智能之间还有很长的距离，这段时间内的变化可能会非常复杂。根据他之前的说法，超级智能的到来可能需要「几千天」。

此外，OpenAI 与微软的合作协议一直备受关注。对于 OpenAI 来说，宣布 AGI 的到来可以为其解除与微软的利润分成协议提供一个「逃生口」。这对 OpenAI 未来的发展至关重要，而奥特曼本人也强调 AGI 的到来对大众的影响并没有预想中的那么重大。（@AIbase 基地）