主要观点:卡内基梅隆大学的研究人员推出 LegoGPT,这是一个能根据文本提示创建物理稳定乐高结构的 AI 模型,不仅设计匹配文本描述的模型,还确保能在现实中搭建,通过构建大规模稳定乐高设计数据集及训练自回归语言模型来实现,能生成如“流线型长容器”等文本提示对应的简单乐高设计且能站立,训练过程中用特定数据集和软件工具,通过“物理感知回退”方法确保结构稳定,还添加了纹理和颜色选项,经机器人和人类测试证明有效,但目前版本有 20×20×20 建筑空间和 8 种标准砖类型等限制,研究团队已在项目网站和 GitHub 上发布相关数据集、代码和模型。
关键信息:
- LegoGPT 可创建物理稳定乐高结构。
- 训练基于大规模稳定乐高数据集和 LLaMA-3.2-1B-Instruct 模型。
- 用数学模型验证物理稳定性。
- 能添加纹理和颜色选项。
- 经机器人和人类测试有效。
- 存在 20×20×20 空间和 8 种砖类型等限制。
重要细节: - 研究论文发布在 arXiv 上,演示视频在项目网站。
- 构建数据集时将 24 种视角图像输入 GPT-4o 生成描述。
- LegoGPT 系统分三部分工作,先生成砖序列再验证。
- 测试时机器人用双机械臂系统根据生成指令搭建。
- 与其他 3D 创作系统对比 LegoGPT 结构稳定性高。
- 研究团队已发布相关资源供他人使用。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。