头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq,@鲍勃

01 有话题的技术

1、快手新作 CineMaster:3D 感知与可控的电影级文本到视频生成框架

  • 快手联合大连理工等机构发布 CineMaster,实现 3D 感知与精准可控的文本到视频生成;
  • 采用两阶段工作流程,用户可在 3D 空间调整边界框和摄像机位置,再基于条件信号生成视频;
  • 系统通过语义布局控制网络和摄像机适配器,准确区分并控制物体运动与摄像机运动。(@腾讯研究院)

2、昆仑万维发布 Matrix-Zero 世界模型,开启空间智能新时代

2 月 14 日,昆仑万维正式推出 Matrix-Zero 世界模型,成为中国第一家同时推出 3D 场景生成和可交互视频生成模型的探索空间智能的企业。

Matrix-Zero 世界模型包含两款子模型:

  • 昆仑万维自研 3D 场景生成大模型,支持将用户输入的图片转化为可自由探索的真实合理的 3D 场景,比 World Labs 生成场景的探索范围更大更自由,而且包括动态物理效果;
  • 昆仑万维自研可交互视频生成大模型,提供以用户输入为核心驱动的可交互空间智能视频生成方案,支持根据用户实时输入生成互动视频效果,具备更精准控制的action model。

昆仑万维 Matrix-Zero 的 3D 场景生成功能,支持将用户输入的图片转化为可自由探索的真实合理的 3D 场景,具备全局一致性、可自由探索、支持不同风格图片输入、支持风格迁移、支持动态场景生成等亮点。(@投资者网)

3、Anthropic 即将发布混合 AI 模型:兼顾速度与深度推理,成本可控

据《The Information》报道,人工智能初创公司 Anthropic 计划在未来几周内推出一款全新的混合 AI 模型。这款模型具备在快速响应和深度推理模式之间灵活切换的能力,为开发者提供了前所未有的控制力和灵活性。

该模型的最大亮点在于其可调节的计算成本。与 OpenAI 模型固定设置不同,Anthropic 的模型采用了基于 token 的滑动比例,允许开发者精确控制计算资源的消耗。当滑动比例设置为「0」时,模型表现类似于 OpenAI 的 GPT-4o,主要侧重于快速响应;而当滑动比例调高时,模型则进入深度推理模式。

在深度推理模式下,该模型在某些编程基准测试中表现优异,甚至超越了 OpenAI 的 GPT-o3min-high。尤其在处理复杂的商业代码库时,Anthropic 的模型展现出更强的理解和推理能力。

这种设计使得开发者可以根据实际需求,在速度、性能和成本之间找到最佳平衡点。对于需要快速响应的任务,可以选择低计算模式;而对于需要复杂推理的任务,则可以启用深度推理模式。(@AIbase 基地)

02 有亮点的产品

1、Adobe Firefly :开放 AI 视频生成

Adobe 在近日正式宣布,向公众免费开放 Firefly AI 视频生成器,任意用户都可以轻松创作高清短视频。据介绍,用户只需输入文本描述或上传图像,即可生成 5 秒 1080p 高清视频。值得关注的的是,用户甚至可以使用 Firefly 的「文本转图像」功能生成图像,再将其用作视频生成的起点。

具体来看,Firefly 视频模型在「动态景观」「动物运动和行为」「天气模式和粒子效果等大气元素」「2D 和 3D 动画」多方面表现出色。用户可以通过高级相机设置,如相机角度、拍摄角度和运动,从而控制更多细节,并支持选择垂直或水平宽高比。据悉,Adobe Firefly 不仅是一个视频生成器,更是一个多模态创作平台,它将视频、图像和矢量图形生成功能整合到一个应用程序中,简化了创作流程。(@APPSO)

2、WikiTok:维基百科「抖音」版,学知识比刷短视频还上瘾

(图片来源:WikTok)

近日,某位外国网友,用 AI 制作了一个应用,能用刷抖音的方式刷维基百科词条,所以这应用就叫:「WikiTok」

WikiTok 是个网页应用,页面极其简单,一个随机维基百科词条,下滑就刷出另一条词条,点击页面上的❤️,点「阅读更多」会跳转到维基百科官方页面,条目之间完全随机,没有任何算法推荐机制。

WikiTok 的目的就是让用户随机获得一些有趣的信息,增长见闻,在无聊时,用「短信息」去代替短视频打发时间。ArsTechnica 报道称这种方式 「你永远无法预测下一个跳转会带你去哪里,这种未知感令人兴奋。」(@极客公园)

3、中国电信自研的 AI 智能眼镜将于 5 月面世,三大运营商均已布局该领域

据环球网报道,中国电信自研的 AI 智能眼镜预计最快将于 2025 年 5 月正式面市。据悉,该眼镜已具备识别物体、人像、拨打电话、编辑短信及跨语种翻译等多项功能,并正在研发更多垂直场景应用,如识别食物卡路里和营养成分等。中国电信方面表示,力争将成本控制在两千元以内。

此前,在 2024 数字科技生态大会上,中国电信的 AI 眼镜还展示了其在帮助视障人士参观展台方面的社会价值,通过星辰大模型进行图像识别,并通过语音传递信息,为视障用户提供了极大的便利。

值得注意的是,中国移动也在 AI 眼镜领域进行了深入布局。中国移动相关技术专家表示,公司已向相关厂商提供了九天 75B 语言大模型的 API 接口,支持用户通过对话实现精准意图识别,从而提供一语导航、一语听歌等服务。此外,中国移动还展望了 AI 眼镜在教育、医疗、工业等领域的广泛应用前景,认为 AI 眼镜将成为这些行业中重要的生产工具。

与此同时,中国联通与合作伙伴共同研发的 eSIMAI 运动眼镜也已于去年下半年正式开售,进一步丰富了 AI 眼镜市场的产品线。(@环球网财经)

4、浏览器也能禅修?Opera Air 内置正念冥想功能,专治你的「数字焦虑」

Opera 近日宣布推出名为「Opera Air 」的新款网页浏览器 ,标榜以正念为核心设计,将冥想和健康功能直接融入浏览体验,以简约设计、雾透界面呈现,旨在帮助用户在浏览互联网时管理压力并保持专注。

Opera 资深产品总监 Mohamed Salah 表示,「我们希望通过 Opera Air 传达的概念是,通过正念工具和极简设计来培养正念。」

在浮动侧边栏中,「Opera Air」浏览器放置了「Take a Break」休息提醒工具和一个 Boosts 功能,以及该公司的 Aria AI 助手、Messenger 和 WhatsApp 的快捷方式。(@小浮图)

5、FoloUp:用于招聘的智能语音面试官

https://github.com/FoloUp/FoloUp

FoloUp 是一个开源平台,公司可以使用它进行基于人工智能的招聘面试。目前在 GitHub 已获得 249 星。FoloUp 采用 Retell AI+OpenAI 的语音 AI 技术栈。

关键特性:

  • 面试创建: 从任何职位描述中即时生成定制化面试问题。
  • 一键分享: 几秒钟内生成并分享独特的面试链接给候选人。
  • AI 语音面试: 让 AI 进行自然、对话式的面试,适应候选人的回答。
  • 智能分析: 通过先进的人工智能,为每个面试回答提供详细见解和评分。
  • 综合仪表盘: 跟踪所有候选人的表现和整体统计数据。

(@Suveen@X)

6、首款二次元 3D AI 伴侣:打破次元壁,体验可盐可甜的她

《星夜颂歌》实机演示 —— 由 AI 模型技术公司 SingularDance(奇点摄动) 开发的一款次世代 AI 陪伴软件,运用先进的超人格化模型培育技术,创造最真实动人的情感体验。 虚拟与真实的双向奔赴,用 AI 的温度治愈孤独。跨越次元的「灵魂伴侣」—— 与你长期陪伴,共同成长。

即刻预约,开启关于爱的全新旅程!

※ 多平台内测预约直达(Steam/iOS/Android):
https://c.aiiz.cn/xRYbWs

※ 此为《星夜颂歌》实机画面阶段性展示。

※ 演示并非最终效果,产品持续优化中。(@星夜颂歌 AI@b 站)

7、百度将继续与苹果合作,宣布文心一言免费,文心大模型 4.5 系列将开源

阿里巴巴联合创始人、董事局主席蔡崇信正式确认了阿里与苹果的合作关系。The Information 消息称,即使苹果国行 AI 确定和阿里合作,但和百度的合作仍然会继续。也就是说,百度和阿里将共同为国行 iPhone 开发 AI 功能。

据两位知情人士透露,百度正在为苹果开发基于 AI 的搜索功能,除了能处理图像和文字,也将提升中文版 Siri 的体验,成为国行版 Apple Intelligence 的一部分。除此之外,文心一言在官网宣布将于 4 月 1 日 0 时起全面免费,所有 PC 端和 APP 端用户均可体验文心系列最新模型,以及超长文档处理、专业检索增强、高级 AI 绘画、多语种对话等功能,同时即日起上线深度搜索功能。百度公司宣布了一项重要计划:在未来几个月内,将陆续推出全新的文心大模型 4.5 系列,并定于 6 月 30 日正式向公众开源。这一举措标志着百度在人工智能领域的持续深耕与创新。

百度公司还宣布了一项重要计划:在未来几个月内,将陆续推出全新的文心大模型 4.5 系列,并定于 6 月 30 日正式向公众开源。这一举措标志着百度在人工智能领域的持续深耕与创新。(@APPSO、AIbase 基地)

03 有态度的观点

1、李飞飞:空间智能与具身智能将成为未来发展的新方向

近日,李飞飞在巴黎人工智能峰会上发表开幕式演讲,其表示空间智能与具身智能将成为未来发展的新方向。在谈及人工智能的新阶段时,李飞飞认为,未来视觉感知的应用将扩展到更积极主动的层面。目前,在相机和机器人技术中,人工智能开始在数字或物理的 3D 空间中进行创造、理解、推理和交互,它可以用于与人或物进行互动,李飞飞称之为空间和具身智能。同时她还强调,智能的真正力量不仅仅在于思考,更在于运用思想驱动行动。演讲中,李飞飞还提及现代人工智能崛起的三大支柱,分别是感知算法、认知科学和计算能力的突破。她认为今天所处的现代人工智能时代,是上述三项意义深远且又各具特色的技术和科学进步融合的成果。此外,李飞飞还在演讲中再次强调,AI 应该以人为本,同时李飞飞强调,以人为本的 AI 包含三个朴素而重要的价值观:尊严、能动性和社区规模。李飞飞表示,如果 AI 技术能够帮助保护,甚至帮助所有人重拾这份尊严感,特别是那些弱势群体,那将令她无比欣慰。(@APPSO)

2、百度 CEO 李彦宏:DeepSeek 大获成功,但仍需加大 AI 基建投入

在迪拜举行的世界政府峰会上,百度 CEO 李彦宏强调,对数据中心和云基础设施的投资仍然是必要的,尽管 DeepSeek 在提高 AI 模型效率方面取得了突破,但持续投资 AI 基础设施对于保持竞争力至关重要。

(图片来源:网络)

李彦宏表示:「为了开发出比其他人更智能的模型,你必须使用更多的计算资源,云基础设施投资仍然非常重要。」此外,针对 DeepSeek 的崛起,李彦宏称你永远不知道创新会在何时何地出现,他还认为开源技术可能加速 AI 的采用。

值得一提的是,李彦宏还改变对创新和开源的立场,过去李彦宏曾对中国 AI 领域做出大胆预测,认为「中国不会再出现第二个 OpenAI」,并主张封闭源代码模型是 AI 发展的唯一可行路径。

近期 DeepSeek 引起全球关注,该公司开发的语言模型在性能上可以匹敌 OpenAI 的 GPT 等领先系统,但使用的计算资源显著减少。这一突破引发了人们对大规模 AI 基础设施投资必要性的质疑。百度是中国最早推出 AI 产品的公司之一,紧随 2022 年底 OpenAI 发布 ChatGPT 之后。然而,百度大模型文心一言在公众采用方面仍然有限。(@华尔街见闻)

04 社区技术分享推荐

1、用 Rokid+Deepseek+TEN.Agent+fish.audio 技术,来「New」个的 AR 虚拟对象

来自@朱逸骁 Eason:情人节到了,我们单身狗们也开始默默流下了眼泪,但作为元宇宙开发者,AR+AI 世界的建设者,我们绝不对「单身」束手就擒。就和我一起用 Rokid+Deepseek+TEN.Agent+fish.audio 技术,来「New」个的 AR 虚拟对象,来陪伴我们度过 25 年的情人节完美时刻吧。

更多 Voice Agent 学习笔记:

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
658 声望973 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。