Meta AI 开源 DINOv2:计算机视觉自监督学习的基础模型
Meta AI 研究团队开源了 DINOv2,这是一个用于计算机视觉(CV)任务的基础模型。DINOv2 在 1.42 亿张图像的精选数据集上进行预训练,可用作多种任务的骨干网络,包括图像分类、视频动作识别、语义分割和深度估计。
模型架构与训练
DINOv2 基于 Vision Transformer (ViT) 架构,并针对自监督学习目标进行了修改。为了训练该模型,Meta 团队构建了一个自动化流水线,从网络中爬取图像并构建精选数据集。该工作的主要贡献在于改进了训练过程,速度是之前方法的两倍,内存使用仅为之前的三分之一。
数据集与训练规模
Meta 从互联网收集了 12 亿张独特的图像,并根据与 ImageNet 数据集的相似性进行聚类,最终选定 1.42 亿张图像用于训练。为了扩大训练规模,Meta 实现了 FlashAttention 的自定义版本,并使用 PyTorch 的 Fully-Sharded Data Parallel (FSDP) 进行训练。整个项目消耗了约 20 万 GPU 天的计算资源。
性能评估
在多种 CV 任务上,DINOv2 的表现优于其他自监督学习(SSL)模型,并与弱监督模型(如 CLIP)相当或更好。在 ImageNet-1k 分类任务中,DINOv2 相比其他 SSL 模型有“显著提升”,并超越了弱监督模型。此外,DINOv2 在三个视频动作识别基准测试中创造了新的 SSL 记录,并在实例级识别基准和三个单目深度估计基准上表现优异。
未来计划
Meta 计划将 DINOv2 作为构建模块集成到更复杂的人工智能系统中,特别是与大型语言模型(LLMs)进行交互。DINOv2 作为一个视觉骨干网络,能够提供丰富的图像信息,使复杂 AI 系统能够更深入地推理图像,而不仅仅是用单一文本句子描述。
背景与行业趋势
传统的计算机视觉深度学习模型通常依赖于大量带有人工标注的图像数据集,例如 ImageNet。2021 年,OpenAI 发布了 CLIP,这是一个通过弱监督训练的基础模型,其标注是通过抓取 HTML 标签和其他基于网络的元数据自动生成的。同年,Google 发布了 ViT 模型,使用自监督学习进行训练,而 Meta 则发布了原始版本的 DINO,结合了 ViT 模型和知识蒸馏,从而在较小模型上实现了可比性能。
社区反响
在 Hacker News 的讨论中,多位用户称赞了 Meta 在计算机视觉领域的最新工作以及过去的贡献,如 PyTorch。有用户指出,Meta 在宣传策略上发生了变化,强调了 OpenAI 在公众形象方面的成功对行业的影响。
资源与演示
DINOv2 的代码和模型已在 GitHub 上开源,项目网站还提供了使用 DINOv2 进行多种计算机视觉任务的交互式演示。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。