FoloUp：语音 AI 面试官开源方案；Anthropic 即将发布混合 AI 模型：兼顾速度与深度推理丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq，@鲍勃

01 有话题的技术

1、快手新作 CineMaster：3D 感知与可控的电影级文本到视频生成框架

快手联合大连理工等机构发布 CineMaster，实现 3D 感知与精准可控的文本到视频生成；
采用两阶段工作流程，用户可在 3D 空间调整边界框和摄像机位置，再基于条件信号生成视频；
系统通过语义布局控制网络和摄像机适配器，准确区分并控制物体运动与摄像机运动。（@腾讯研究院）

2、昆仑万维发布 Matrix-Zero 世界模型，开启空间智能新时代

2 月 14 日，昆仑万维正式推出 Matrix-Zero 世界模型，成为中国第一家同时推出 3D 场景生成和可交互视频生成模型的探索空间智能的企业。

Matrix-Zero 世界模型包含两款子模型：

昆仑万维自研 3D 场景生成大模型，支持将用户输入的图片转化为可自由探索的真实合理的 3D 场景，比 World Labs 生成场景的探索范围更大更自由，而且包括动态物理效果；
昆仑万维自研可交互视频生成大模型，提供以用户输入为核心驱动的可交互空间智能视频生成方案，支持根据用户实时输入生成互动视频效果，具备更精准控制的action model。

昆仑万维 Matrix-Zero 的 3D 场景生成功能，支持将用户输入的图片转化为可自由探索的真实合理的 3D 场景，具备全局一致性、可自由探索、支持不同风格图片输入、支持风格迁移、支持动态场景生成等亮点。（@投资者网）

3、Anthropic 即将发布混合 AI 模型：兼顾速度与深度推理，成本可控

据《The Information》报道，人工智能初创公司 Anthropic 计划在未来几周内推出一款全新的混合 AI 模型。这款模型具备在快速响应和深度推理模式之间灵活切换的能力，为开发者提供了前所未有的控制力和灵活性。

该模型的最大亮点在于其可调节的计算成本。与 OpenAI 模型固定设置不同，Anthropic 的模型采用了基于 token 的滑动比例，允许开发者精确控制计算资源的消耗。当滑动比例设置为「0」时，模型表现类似于 OpenAI 的 GPT-4o，主要侧重于快速响应；而当滑动比例调高时，模型则进入深度推理模式。

在深度推理模式下，该模型在某些编程基准测试中表现优异，甚至超越了 OpenAI 的 GPT-o3min-high。尤其在处理复杂的商业代码库时，Anthropic 的模型展现出更强的理解和推理能力。

这种设计使得开发者可以根据实际需求，在速度、性能和成本之间找到最佳平衡点。对于需要快速响应的任务，可以选择低计算模式；而对于需要复杂推理的任务，则可以启用深度推理模式。（@AIbase 基地）

02 有亮点的产品

1、Adobe Firefly ：开放 AI 视频生成

Adobe 在近日正式宣布，向公众免费开放 Firefly AI 视频生成器，任意用户都可以轻松创作高清短视频。据介绍，用户只需输入文本描述或上传图像，即可生成 5 秒 1080p 高清视频。值得关注的的是，用户甚至可以使用 Firefly 的「文本转图像」功能生成图像，再将其用作视频生成的起点。

具体来看，Firefly 视频模型在「动态景观」「动物运动和行为」「天气模式和粒子效果等大气元素」「2D 和 3D 动画」多方面表现出色。用户可以通过高级相机设置，如相机角度、拍摄角度和运动，从而控制更多细节，并支持选择垂直或水平宽高比。据悉，Adobe Firefly 不仅是一个视频生成器，更是一个多模态创作平台，它将视频、图像和矢量图形生成功能整合到一个应用程序中，简化了创作流程。(@APPSO)

2、WikiTok：维基百科「抖音」版，学知识比刷短视频还上瘾

（图片来源：WikTok）

近日，某位外国网友，用 AI 制作了一个应用，能用刷抖音的方式刷维基百科词条，所以这应用就叫：「WikiTok」。

WikiTok 是个网页应用，页面极其简单，一个随机维基百科词条，下滑就刷出另一条词条，点击页面上的❤️，点「阅读更多」会跳转到维基百科官方页面，条目之间完全随机，没有任何算法推荐机制。

WikiTok 的目的就是让用户随机获得一些有趣的信息，增长见闻，在无聊时，用「短信息」去代替短视频打发时间。ArsTechnica 报道称这种方式 「你永远无法预测下一个跳转会带你去哪里，这种未知感令人兴奋。」（@极客公园）

3、中国电信自研的 AI 智能眼镜将于 5 月面世，三大运营商均已布局该领域

据环球网报道，中国电信自研的 AI 智能眼镜预计最快将于 2025 年 5 月正式面市。据悉，该眼镜已具备识别物体、人像、拨打电话、编辑短信及跨语种翻译等多项功能，并正在研发更多垂直场景应用，如识别食物卡路里和营养成分等。中国电信方面表示，力争将成本控制在两千元以内。

此前，在 2024 数字科技生态大会上，中国电信的 AI 眼镜还展示了其在帮助视障人士参观展台方面的社会价值，通过星辰大模型进行图像识别，并通过语音传递信息，为视障用户提供了极大的便利。

值得注意的是，中国移动也在 AI 眼镜领域进行了深入布局。中国移动相关技术专家表示，公司已向相关厂商提供了九天 75B 语言大模型的 API 接口，支持用户通过对话实现精准意图识别，从而提供一语导航、一语听歌等服务。此外，中国移动还展望了 AI 眼镜在教育、医疗、工业等领域的广泛应用前景，认为 AI 眼镜将成为这些行业中重要的生产工具。

与此同时，中国联通与合作伙伴共同研发的 eSIMAI 运动眼镜也已于去年下半年正式开售，进一步丰富了 AI 眼镜市场的产品线。（@环球网财经）

4、浏览器也能禅修？Opera Air 内置正念冥想功能，专治你的「数字焦虑」

Opera 近日宣布推出名为「Opera Air 」的新款网页浏览器，标榜以正念为核心设计，将冥想和健康功能直接融入浏览体验，以简约设计、雾透界面呈现，旨在帮助用户在浏览互联网时管理压力并保持专注。

Opera 资深产品总监 Mohamed Salah 表示，「我们希望通过 Opera Air 传达的概念是，通过正念工具和极简设计来培养正念。」

在浮动侧边栏中，「Opera Air」浏览器放置了「Take a Break」休息提醒工具和一个 Boosts 功能，以及该公司的 Aria AI 助手、Messenger 和 WhatsApp 的快捷方式。（@小浮图）

5、FoloUp：用于招聘的智能语音面试官

https://github.com/FoloUp/FoloUp

FoloUp 是一个开源平台，公司可以使用它进行基于人工智能的招聘面试。目前在 GitHub 已获得 249 星。FoloUp 采用 Retell AI+OpenAI 的语音 AI 技术栈。

关键特性：

面试创建： 从任何职位描述中即时生成定制化面试问题。
一键分享： 几秒钟内生成并分享独特的面试链接给候选人。
AI 语音面试： 让 AI 进行自然、对话式的面试，适应候选人的回答。
智能分析： 通过先进的人工智能，为每个面试回答提供详细见解和评分。
综合仪表盘： 跟踪所有候选人的表现和整体统计数据。

(@Suveen@X)

6、首款二次元 3D AI 伴侣：打破次元壁，体验可盐可甜的她

《星夜颂歌》实机演示 —— 由 AI 模型技术公司 SingularDance（奇点摄动）开发的一款次世代 AI 陪伴软件，运用先进的超人格化模型培育技术，创造最真实动人的情感体验。虚拟与真实的双向奔赴，用 AI 的温度治愈孤独。跨越次元的「灵魂伴侣」—— 与你长期陪伴，共同成长。

即刻预约，开启关于爱的全新旅程！

※ 多平台内测预约直达（Steam/iOS/Android）：
https://c.aiiz.cn/xRYbWs

※ 此为《星夜颂歌》实机画面阶段性展示。

※ 演示并非最终效果，产品持续优化中。（@星夜颂歌 AI@b 站）

7、百度将继续与苹果合作，宣布文心一言免费，文心大模型 4.5 系列将开源

阿里巴巴联合创始人、董事局主席蔡崇信正式确认了阿里与苹果的合作关系。The Information 消息称，即使苹果国行 AI 确定和阿里合作，但和百度的合作仍然会继续。也就是说，百度和阿里将共同为国行 iPhone 开发 AI 功能。

据两位知情人士透露，百度正在为苹果开发基于 AI 的搜索功能，除了能处理图像和文字，也将提升中文版 Siri 的体验，成为国行版 Apple Intelligence 的一部分。除此之外，文心一言在官网宣布将于 4 月 1 日 0 时起全面免费，所有 PC 端和 APP 端用户均可体验文心系列最新模型，以及超长文档处理、专业检索增强、高级 AI 绘画、多语种对话等功能，同时即日起上线深度搜索功能。百度公司宣布了一项重要计划：在未来几个月内，将陆续推出全新的文心大模型 4.5 系列，并定于 6 月 30 日正式向公众开源。这一举措标志着百度在人工智能领域的持续深耕与创新。

百度公司还宣布了一项重要计划：在未来几个月内，将陆续推出全新的文心大模型 4.5 系列，并定于 6 月 30 日正式向公众开源。这一举措标志着百度在人工智能领域的持续深耕与创新。（@APPSO、AIbase 基地）

03 有态度的观点

1、李飞飞：空间智能与具身智能将成为未来发展的新方向

近日，李飞飞在巴黎人工智能峰会上发表开幕式演讲，其表示空间智能与具身智能将成为未来发展的新方向。在谈及人工智能的新阶段时，李飞飞认为，未来视觉感知的应用将扩展到更积极主动的层面。目前，在相机和机器人技术中，人工智能开始在数字或物理的 3D 空间中进行创造、理解、推理和交互，它可以用于与人或物进行互动，李飞飞称之为空间和具身智能。同时她还强调，智能的真正力量不仅仅在于思考，更在于运用思想驱动行动。演讲中，李飞飞还提及现代人工智能崛起的三大支柱，分别是感知算法、认知科学和计算能力的突破。她认为今天所处的现代人工智能时代，是上述三项意义深远且又各具特色的技术和科学进步融合的成果。此外，李飞飞还在演讲中再次强调，AI 应该以人为本，同时李飞飞强调，以人为本的 AI 包含三个朴素而重要的价值观：尊严、能动性和社区规模。李飞飞表示，如果 AI 技术能够帮助保护，甚至帮助所有人重拾这份尊严感，特别是那些弱势群体，那将令她无比欣慰。(@APPSO)

2、百度 CEO 李彦宏：DeepSeek 大获成功，但仍需加大 AI 基建投入

在迪拜举行的世界政府峰会上，百度 CEO 李彦宏强调，对数据中心和云基础设施的投资仍然是必要的，尽管 DeepSeek 在提高 AI 模型效率方面取得了突破，但持续投资 AI 基础设施对于保持竞争力至关重要。

（图片来源：网络）

李彦宏表示：「为了开发出比其他人更智能的模型，你必须使用更多的计算资源，云基础设施投资仍然非常重要。」此外，针对 DeepSeek 的崛起，李彦宏称你永远不知道创新会在何时何地出现，他还认为开源技术可能加速 AI 的采用。

值得一提的是，李彦宏还改变对创新和开源的立场，过去李彦宏曾对中国 AI 领域做出大胆预测，认为「中国不会再出现第二个 OpenAI」，并主张封闭源代码模型是 AI 发展的唯一可行路径。

近期 DeepSeek 引起全球关注，该公司开发的语言模型在性能上可以匹敌 OpenAI 的 GPT 等领先系统，但使用的计算资源显著减少。这一突破引发了人们对大规模 AI 基础设施投资必要性的质疑。百度是中国最早推出 AI 产品的公司之一，紧随 2022 年底 OpenAI 发布 ChatGPT 之后。然而，百度大模型文心一言在公众采用方面仍然有限。（@华尔街见闻）

04 社区技术分享推荐

1、用 Rokid+Deepseek+TEN.Agent+fish.audio 技术，来「New」个的 AR 虚拟对象

来自@朱逸骁 Eason：情人节到了，我们单身狗们也开始默默流下了眼泪，但作为元宇宙开发者，AR+AI 世界的建设者，我们绝不对「单身」束手就擒。就和我一起用 Rokid+Deepseek+TEN.Agent+fish.audio 技术，来「New」个的 AR 虚拟对象，来陪伴我们度过 25 年的情人节完美时刻吧。