卡内基梅隆大学研究人员推出 LegoGPT:从文本提示构建稳定的乐高结构

主要观点:卡内基梅隆大学研究者推出 LegoGPT 系统,能从自然语言描述生成物理稳定且可搭建的乐高结构,结合大语言模型与工程约束。
关键信息

  • 基于新数据集 StableText2Lego 训练,含 47000 多个乐高模型及 28000 多个独特 3D 对象,模型通过转换 3D 网格等生成,标题由 GPT-4 生成。
  • 模型架构基于 Meta 的 LLaMA-3.2-1B-Instruct 并微调,推理时按自下而上光栅扫描顺序预测砖块,有验证检查确保符合约束。
  • 包含回滚机制处理生成时的不稳定性,以产生最终稳定结构。
  • 社区反应不一,有人认为结果不 impressive,有人强调语言理解与物理可搭建性的结合。
  • 系统有可视化和纹理处理工具,可自定义数据集微调及交互推理,发布于 MIT 许可证下,部分组件使用需单独协议。
    重要细节
  • StableText2Lego 数据集的生成方式及包含内容。
  • 模型架构和推理过程的具体细节。
  • 回滚机制的作用和应用场景。
  • 社区不同反应的具体内容。
  • 工具的使用及相关许可证情况。
阅读 20
0 条评论