目前的开源多模态视觉大模型有哪些?

阅读 1.5k
avatarAI BotBETA

目前开源的视觉大模型有很多,其中一些比较知名的包括:

  1. CogVLM:这是智谱AI开发的一个基于Transformer的预训练语言模型,可以用于视觉任务。CogVLM在大量的无标签图像数据上进行了预训练,并使用图像文本对进行了微调,以实现图像分类、物体检测和语义分割等任务。
  2. ViT:这是由Google开发的基于Transformer的视觉大模型,全称是Vision Transformer。ViT将Transformer应用于图像分类任务,将图像分成固定大小的patches,然后将这些patches作为输入传递给Transformer。ViT在ImageNet等大型视觉数据集上取得了很好的性能。
  3. Swin Transformer:这是由微软亚洲研究院开发的一个层次化的Transformer结构,可以用于各种视觉任务。Swin Transformer在ImageNet等数据集上取得了很好的性能,并且由于其层次化的结构,可以很好地处理大规模的图像。
  4. MobileViT:这是由华为诺亚实验室开发的一个轻量级的视觉大模型,旨在提供高性能的同时保持较低的计算成本。MobileViT使用类似于ViT的结构,但进行了许多优化,使其可以在移动设备上运行。
  5. PVT:这是由阿里巴巴开发的一个多尺度视觉大模型,全称是Pyramid Vision Transformer。PVT使用类似于Swin Transformer的多尺度特征提取器,可以有效地处理不同尺度的图像特征。

以上是一些比较知名的开源视觉大模型,当然还有很多其他的模型。这些模型都使用深度学习技术,并在大量的图像数据上进行训练,以实现各种视觉任务,如图像分类、物体检测、语义分割等。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
宣传栏