pix2pix3D：只需编辑标签，就能生成更逼真的三维图像

出品人：Towhee 技术团队王翔宇、顾梦佳

pix2pix3D 是一种用于可控逼真图像合成的 3D 感知条件生成模型。给定一个二维标签图，例如分割图或边缘图，pix2pix3D 模型会学习从不同的角度合成相应的图像。为了启用显式 3D 用户控制，它使用神经辐射场扩展条件生成模型。给定广泛可用的单目图像和标签图对，该模型除了颜色和密度之外，还会学习为每个 3D 点分配标签，这使其能够同时渲染图像和像素对齐的标签图。另外，研究者还基于这个模型构建了一个交互式系统，允许用户从任何角度编辑标签图并相应地生成输出。

Overall pix2pix3D 给定一个二维标签图（例如，分割图）、一个随机潜在代码和一个相机姿势作为输入，生成器会以相机姿势作为视角渲染标签图和图像。输入标签图指定几何结构，而潜在编码捕获外观，例如头发颜色。首先编码器将输入标签的映射和潜在代码编码为样式向量。然后模型使用该向量来调制三维表征，采用空间点并输出颜色、密度、特征以及标签。接着模型执行体积渲染，并进行二维上采样以获得高分辨率标签图和 RGB 图像。最终，模型将从标签姿势渲染的结果与真实标签和图像进行比较，计算LPIPS损失和标签重建损失。另外，对于从新颖和原始视角呈现的标签和图像，模型选择使用 GAN 损失。

相关资料：
代码地址：https://github.com/dunbar12138/pix2pix3D
论文链接：3D-aware Conditional Image Synthesis

pix2pix3D：只需编辑标签，就能生成更逼真的三维图像

Zilliz

引用和评论

成本最高直降50倍! Zilliz Cloud Serverless Beta上线，限时免费，早用早省钱！

Vue3-ChatGPT：基于vite4.x+vue3+pinia2模仿chatgpt聊天AI实例

小白也能看懂的DeepSeek-R1本地部署指南

【2025指南】OpenAI API Key 获取攻略：从新手入门到专家级应用，一文掌握！

DeepSeek: 深度搜索与深度挖掘技术的前景与应用

✨快速搭建✨DeepSeek本地RAG应用

解决国内开发者访问难题：ChatGPT API Key 获取以及使用教程（2025）