M5Stack 发布全双工通信语音识别硬件；雷蛇发布 AI 游戏伴侣 Project AVA，实时指导复盘

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Suna，@鲍勃

01有话题的新闻

1、海螺 AI 推出「主体参考」功能，一张图片就能玩转电影大片

海螺 AI 推出全新主体参考功能，让 AI 视频创作再上新台阶。用户只需上传一张图片，就能让任何人物角色在各种场景中自由活动，保持高度还原的同时又不失创作自由度。

与传统的图生视频技术相比，「主体参考」采用了完全不同的技术路线。它并非简单地让静态图片产生局部动作，而是能够基于文字提示词（prompt）生成完整的视频片段。

从官方提供的视频可以看到，只要上传一张人物的照片，系统不仅可以保持人物的面部特征，还能让人物在场景中做出任何自然的连贯动作，比如滑滑板，骑车，挑眉，皱眉等，在人物的脸部情感表达上也非常的生动细腻。

在技术实现层面，海螺 AI 选择了基于图片参考的路线，而非传统的 LoRA 技术路线。这一选择使得用户无需提供大量素材，仅凭一张图片就能准确识别并还原人物特征。更重要的是，生成速度得到显著提升，从之前的漫长等待缩短到了秒级响应。

作为一家成立仅 3 年的初创企业，MiniMax 凭借海螺 AI 在全球 AI 视频生成领域确立了领先地位。未来，海螺 AI 计划将「主体参考」功能扩展到多人、物体和场景等更多领域，进一步释放创作潜能。（@ AIbase 基地）

2、阿里通义万相 2.1 模型宣布升级：首次实现中文文字视频生成功能，支持无限长 1080P 视频的高效编解码

阿里旗下通义万相宣布推出 2.1 版本模型升级，视频生成、图像生成两大能力均有显著提升。

在视频生成方面，通义万相 2.1 通过自研的高效 VAE 和 DiT 架构增强了时空上下文建模能力，支持无限长 1080P 视频的高效编解码，首次实现了中文文字视频生成功能，登上 VBench 榜单第一。

据介绍，通义万相 2.1 支持中英文视频，都可以一键生成艺术字，还提供多种视频特效选项，以增强视觉表现力，例如过渡、粒子效果、模拟等等。

值得一提的是，通义万相 2.1 还支持复杂运镜，可还原碰撞、反弹、切割、挤压等真实世界的物理规律，例如雨滴落在伞上会溅起水花。

图片生成方面，通义万相 2.1 支持文生组图，采用了 IC-LoRA 图像生成训练方法，利用 DiT 架构，增强文本到图像的上下文能力；对多张图像进行拼接与联合描述即可实现关联图像间的组合生成，并保持特征稳定连续。（@ IT 之家）

3、商汤科技发布「日日新」融合大模型，与 DeepSeek V3 不相上下

商汤科技正式推出了「日日新」融合大模型。这款模型在多模态信息处理能力和深度推理能力上实现了显著提升，并在两大权威评测榜单中获得了第一名。

根据国内权威测评机构 SuperCLUE 发布的《中文大模型基准测评 2024 年度报告》，商汤的「日日新」融合大模型以 68.3 的高分与 DeepSeek V3 并列国内榜首。此外，在 OpenCompass 的多模态评测中，该模型同样位列第一，分数显著超越了 GPT-4o。

「日日新」融合大模型的特点在于能够同时处理多种复杂的信息，不仅能够识别模糊的文本，还能快速分析数据图表，并提供深入的推理支持。在实际应用场景中，这款模型显示出了其独特的优势，特别是在自动驾驶、视频交互、办公教育、金融和工业制造等领域。

在产品开发过程中，商汤科技采用了大量的图文交错数据，通过先进的合成技术建立了模态之间的互动桥梁，增强了模型对多模态信息的理解能力。此外，商汤还构建了丰富的跨模态任务，这为「日日新」融合大模型的训练提供了扎实的基础。通过这种创新的训练方法，商汤的融合模态模型能够在多种业务场景中有效响应用户需求，实现了应用落地与基础模型迭代的良性循环。（@ AIbase 基地）

4、声网携手博通集成，RTE+AI 赋能智能硬件创新

1 月 8 日，中国领先的无线连接芯片设计企业博通集成在 CES 2025 展会上正式发布人工智能解决方案 AIDK （Artificial Intelligence Development Kit）。该方案将助力智能硬件开发者快速构建具有出色人机交互体验的创新产品。

为进一步展示 AIDK 解决方案的应用潜力，博通集成携手声网，充分利用声网领先的实时多模态对话式 AI 技术，联合推出了智能眼镜、陪伴机器人、智能音箱、智能玩具等多款智能产品原型机，这些原型机在不同场景中展现了突破性的对话能力和交互体验，吸引了众多参会者的关注。

据了解，博通集成 AIDK 解决方案基于其高性能芯片 BK7258，充分利用其强大的音视频处理能力、边缘计算能力、无线连接能力和超低功耗等优势，以及 Arm 生态系统在物理层安全和 Edge AI 等方面的优势，结合本地深度学习框架和大语言模型（LLM），实现了人机实时互动体验的显著提升。

该解决方案提供从智能设备端侧处理、网络加速到大语言模型对接的全套方案和应用示例，可大幅缩短智能产品的开发周期，降低开发门槛。博通集成联合声网推出的多款智能产品原型机，通过声网自研的 SD-RTN™ 实时传输网络和超低延时对话能力，让智能硬件实现自然流畅的人机互动；同时，声网的 AI VAD 技术和先进的音频 3A 处理能力，确保在嘈杂环境中，设备仍能清晰准确地理解用户需求。此外，声网灵活可扩展的 AI Agent 架构让开发者可以根据业务场景快速接入 ASR、LLM 和 TTS 技术，极大降低开发复杂度，为智能硬件赋能更多个性化与创新功能。声网将针对智能硬件行业的特殊性，持续优化 AI x IoT 智能硬件解决方案，实现在低功耗、低算力芯片上快速接入大模型，保证低延时实时互动、低成本灵活适配的特性，通过丰富的功能在智能硬件场景中构建真实、自然的 AI 语音交互体验。

据悉，目前已有数家企业完成了 AIDK 的设计导入，相关智能产品即将量产发布。博通集成表示，将持续投入研发，不断完善 AIDK 解决方案，为全球智能硬件开发者提供更强大的技术支持和更便捷的开发体验。（@声网）

02有亮点的产品

1、Atomic Echo Base 语音识别底座

Atomic Echo Base 是一款专为 M5 Atom 系列主机设计的语音识别底座，集成了 ES8311 音频解码器、MEMS 麦克风和 NS4150B 功率放大器。它提供 24 位音频分辨率和 16KHz-64KHz 采样率，支持 I2S 通信和高保真音频处理。配备的 MEMS 麦克风具有高信噪比和数字输出，特别适用于自动语音识别。

设备内置的扬声器可确保清晰的音频播放，并支持全双工通信，允许同时发送和接收声音，从而提升语音识别、唤醒、录音播放等互动功能。且支持调用最新的 OpenAI API，同时兼容 Home Assistant。非常适合智能家居和教育领域的应用。（@ M5Stack 明栈）

2、雷蛇 CES2025 发布 AI 游戏伴侣 Project AVA，实时指导复盘助力玩家升级

雷蛇在 CES 2025 大会上震撼发布了一款名为 Project AVA 的全新 AI 游戏伴侣，这款产品旨在通过人工智能技术，助力玩家在游戏中更上一层楼。

Project AVA 是雷蛇的一次大胆尝试，它将顶尖电竞职业玩家和教练的游戏智慧融入 AI 系统中，能够为玩家在 MOBA 和 FPS 游戏中提供实时的战术指导。比赛结束后，它还会生成个性化的总结报告，精准指出玩家的高光操作和需要改进的地方，帮助玩家不断进步。

不仅如此，Project AVA 在 ARPG 游戏中同样表现出色。它能够在极短的时间内完成大量的游戏模拟，迅速为玩家提供专业攻略，帮助他们规避 BOSS 的攻击，解开复杂的谜题，顺利通过难关。

这款 AI 游戏伴侣还拥有强大的硬件优化功能。玩家只需轻轻一按，它就能自动调整电脑硬件的性能，提升游戏帧数，缩短加载时间，并优化画面效果，让游戏体验更加流畅。同时，它还会定期检查硬件、软件和固件的最新版本，提醒玩家及时更新，确保游戏的稳定性和安全性。

Project AVA 的交互模式也非常多样化，包括游戏内嵌窗口、语音聊天和文字聊天框等，玩家可以根据自己的喜好和习惯选择最适合的交互方式，与 AI 助手进行无缝沟通。

雷蛇对 Project AVA 充满了信心，他们在官网上表示：「Project AVA 不仅仅是一个理念，它将成为现实。」为了更好地推广这款产品，雷蛇还发布了征集测试者的电子表格，邀请广大玩家参与测试，共同见证这款 AI 游戏伴侣的神奇魅力。(@ ITBearDaily)

3、Quick Mock：将 LinkedIn 职位描述转化为即时模拟面试的 AI 工具

Quick Mock 是一个创新的 AI 驱动模拟面试平台，专为求职者提供针对性的面试准备服务。其核心价值主张是将 LinkedIn 上的任何职位描述即时转化为模拟面试，目标用户群体主要是积极寻找工作机会的求职者。Quick Mock 解决了传统面试准备方法缺乏针对性和实时性的痛点，抓住了 AI 辅助求职市场的新兴机会。

在功能方面，产品突出了 AI 驱动的即时面试生成和个性化反馈两大特点。用户只需选择感兴趣的职位，点击按钮即可开始模拟面试，AI 会根据职位描述生成相关问题，并提供详细反馈以快速提升面试技能。这种高度个性化和即时性的面试准备方式，为 Quick Mock 带来了显著的差异化优势。从用户体验角度看，产品设计为 Chrome 扩展程序，与 LinkedIn 无缝集成，为用户提供便捷、高效的使用体验。(@ Z Potentials)

03 有态度的观点

1、彭博分析师：受 AI 影响，全球银行业未来三到五年内将裁减最多 20 万个职位

根据彭博智能（Bloomberg Intelligence）发布的分析，随着 AI 逐渐取代当前由人工完成的工作任务，全球银行业将在未来三到五年内裁减最多 20 万个职位。

彭博智能对首席信息官和技术官的调查显示，受访者平均预期将裁减约 3% 的员工。报告撰写人、彭博智能高级分析师托马什・诺茨尔指出，后勤、中台和运营岗位最有可能受到影响。客户服务领域可能会发生变化，机器人将承担客户相关的任务，而「了解客户」等职能也将面临威胁。「任何涉及重复性和常规任务的职位都面临风险，但 AI 不会完全取代这些工作，更多的是推动工作方式的转变。」

大约四分之一的受访者认为，裁员幅度可能会更大，达到总人数的 5% 至 10%。彭博智能调查的公司包括花旗集团、摩根大通和高盛集团等。

调查结果表明，行业将经历深刻变革，从而提升盈利能力。根据彭博智能的预测，到 2027 年，AI 的应用有望使银行的税前利润比预期高出 12% 至 17%，即增加最多 1800 亿美元的收入，主要源于生产力的提升。约 80% 的受访者预计，生成式 AI 将在未来三到五年内至少提高 5% 的生产力和收入。（@IT 之家）

更多 Voice Agent 学习笔记：

对话谷歌 Project Astra 研究主管：打造通用 AI 助理，主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元，并预测了 2025 年语音技术趋势

语音即入口：AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了，这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语，Speak 为何能估值 10 亿美元？丨Voice Agent 学习笔记

市场规模超 60 亿美元，语音如何改变对话式 AI？

2024 语音模型前沿研究整理，Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心，这家 Voice Agent 公司已服务 100+客户

WebRTC 创建者刚加入了 OpenAI，他是如何思考语音 AI 的未来？

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

写在最后：