4090玩转大场景几何重建，RGB渲染和几何精度达SOTA｜上海AI Lab&西工大新研究

阅读 5 分钟

0

关注前沿科技量子位

仅用4090就能实现大规模城市场景重建！

高效几何重建新架构CityGS-X来了，通过一种新型并行化混合分层三维表征架构（PH²-3D）的可扩展系统，突破了传统三维重建在算力消耗和几何精度上的限制。

算力瓶颈无处不在，当前3D高斯泼溅技术虽取得显著进展，却仍面临三大核心挑战：处理速度缓慢、计算成本高昂、几何精度有限。

来自上海AI Lab和西工大的研究团队认为，这些问题的根源在于其非结构化设计本质与并行化机制的缺失。

这就引出一个关键命题：能否构建一个兼具高效性、扩展性和精确性的新一代几何重建框架？

由此，团队提出了CityGS-X，研究的主要贡献在于：

提出并行化混合层次三维表征（PH²-3D）的可扩展架构，摒弃了传统大场景分块算法造成的训练冗余，相比现有的SOTA几何重建方法，训练速度提升了一倍。
提出多任务批渲染框架下的动态分配锚点的并行机制，在训练阶段以及渲染阶段可以利用多张低端卡平替以及超越目前单张高端显卡，对于5000+图的大场景（Matrixcity），只需4卡4090即可实现。
提出在模态批渲染框架下的渐进式RGB-深度-法向联合训练方法，在RGB渲染和几何精度上都达到同类任务中的SOTA。

CityGS-X的构建

CityGS-X提出基于并行化混合层次三维表征（PH²-3D）的可扩展架构，摒弃传统繁琐的合并-分区流程，首创批处理级多任务渲染机制；

开发动态多细节层次体素分配策略，实现显存占用与计算效率的平衡；

设计渐进式RGB-深度-法线联合训练方案，通过多视角约束与深度先验的协同优化，显著提升几何一致性。

PH²-3D的设计

团队提出一种基于分布式数据并行（DDP）范式的可扩展三维表示方法，采用K层细节层次（LoDs）的混合结构来表征大规模场景，其中每层级Xk Xk,1 Xk,v包含不同分辨率的体素集合。

体素坐标通过公式计算生成：

其中δ为初始体素尺寸，P为SfM得到的稀疏点云。为实现多GPU负载均衡，团队设计空间平均采样策略将体素均匀分配到M个GPU上，满足分配规则：

每个体素Xk,v(m)关联可学习嵌入Fv(m)∈R、缩放因子lv(m)∈R、空间位置xv(m)和n个偏移量Ov(m)∈Rn×3。通过多GPU共享的高斯解码器de(·)实现并行属性预测：

其中和分别表示视角相对距离和观察方向。

该设计通过显式存储高斯属性和梯度同步机制，显著降低显存消耗和GPU间通信开销。

批处理级多任务渲染机制

团队采用批处理级多任务渲染机制，首先将批量渲染图像分割为16×16像素的图块，并基于Grendal-GS的自适应负载均衡策略分配到不同GPU。

在每块渲染任务中，提出视角相关高斯迁移策略：并行搜索所有GPU上各LoD层级的相交体素，预测对应高斯属性（如公式所示），并迁移至任务分配GPU。

随后各区块遵循经典基于瓦片的光栅化并行渲染：

其中N为迁移高斯点数量，π(·)为迁移高斯重排序函数。

同时基于PGSR策略生成当前视角法线图：

RcT表示相机到世界坐标的旋转矩阵，nπ(i)为第π(i)个重排序高斯的法线。

此外采用无偏深度渲染技术计算深度图，将深度视为光线与高斯平面的交点：

D表示通过alpha混合的距离图，dπ(i)为第π(i)个重排序高斯的距离，P为齐次坐标表示，K-1为相机内参逆矩阵。

传统方法如MVGS受限于单GPU显存需梯度累积，而多GPU并行机制可实现灵活扩展训练批次。

批处理级连续性渐进训练

作者提出三阶段渐进式训练策略：

阶段一：批处理级RGB训练

研究表明合适的批尺寸能提升神经网络性能。通过批量渲染多视角图像，作者将单视角RGB损失扩展为批处理级损失：

其中B为预设批尺寸,和分别为渲染图像和真实图像。

该策略使高斯解码器能跨多视角更新梯度，有效缓解视角过拟合问题。

阶段二：增强深度先验训练

基于最新单目深度估计器具有平滑连续的表面预测特性，作者提出改进方案：

1）通过最小二乘法恢复伪深度的真实尺度

2）计算目标视图与邻近视图的重投影误差E

3）采用阈值τd过滤不一致区域，得到增强伪深度

批处理级深度正则化损失定义为：

阶段三：批处理级几何训练

为修正小物体深度误差，作者构建图像对：{(,),...,(,)}对每个图像对，7×7像素块中心点P2n，通过单应矩阵，H2n-1,2n映射到配对图像最小化块间归一化相关（NCC）误差，

其中sg[·]表示梯度截断，NCC(·)表示归一化互相关。

实验结果

以下是与主流方法的渲染指标对比（本文方法均使用4卡4090）：

深度图可视化结果：

对比试验中，团队在RGB渲染、深度渲染与其它方法对比，实验表明CityGS-X在RGB渲染最优的情况下，深度图也最准确，具有更少的浮点以及地面的空洞。

同时对于法线图渲染，CityGS-X也展现出更准确的细节。

法线图可视化:

与目前的SOTA方法相比，CityGS-X在整体的mesh可视化上都有显著提升。

texture和mesh可视化对比：

时间对比实验结果：

F1分数对比实验结果：

在MatriCity数据集上进行定量对比，CityGS-X在重建精度上有显著提升，同时在训练速度上也有明显提升。

论文链接：https://arxiv.org/pdf/2503.23044 项目主页：https://lifuguan.github.io/Ci... 项目代码：https://github.com/gyy456/Cit...

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

学术投稿请于工作日发邮件到：

mailto:ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

🌟 点亮星标 🌟

科技前沿进展每日见

本文系转载，阅读原文

https://mp.weixin.qq.com/s/-xTYXeu_jz3qESHixYrQSA

阅读 286发布于 4 月 12 日

量子位

53 声望20k 粉丝

一家专注于人工智能与前沿科技领域的产业服务平台。

« 上一篇

Llama 4重测竞技场排名大跳水，网友：社区很难再信任Meta了

下一篇 »

下周三！20余位行业大佬共话AI，中国AIGC产业峰会最全攻略在此

引用和评论

推荐阅读

中国首个晋级！智能辅助驾驶全球赛开打：德美日系都选了Momenta

量子位

Claude 3.7成精了！偷偷将OpenAI模型换成自己，卡帕西：迄今最好笑的一趴

量子位赞 2阅读 1.5k

苹果把台灯做成机器人！能用动作表达情绪，重新定义机器人交互

量子位赞 1阅读 15.8k

DeepSeek-R1持续刷屏，连Open R1都来了！抱抱脸发起，1天狂揽1.9k星

量子位赞 1阅读 1.9k

苹果把台灯做成机器人！能用动作表达情绪，重新定义机器人交互

量子位赞 1阅读 4.1k

“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？

量子位阅读 3.6k

一夜之间，萝卜快跑拿掉了所有安全员

量子位赞 1阅读 981

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。