头图

大语言模型(Large Language Model,简称 LLM)与多模态大模型(Large Multimodal Model,简称 LMM)是人工智能领域的两个核心发展方向。 LLM 主要致力于处理和生成文本数据,而 LMM 则更进一步,它旨在整合和理解包括文本、图片、视频在内的多种数据类型。如今,LLM 已经相对成熟,ChatGPT 等在文字理解方面已经「对答如流」,人们开始将目光转移到多模态数据的理解上,令模型能够「读图、看视频」。

近期,来自字节跳动、南洋理工大学、香港中文大学和香港科技大学的研究人员共同开源了 LLaVA-OneVision 多模态大模型,该模型在单图像、多图像和视频任务中均展现出了卓越的性能。专为多模态大型模型设计的评估框架 LMMs-Eval 中显示,LLaVA-OneVision-72B 在大多数基准上优于 GPT-4V 和 GPT-4o,如下图所示:
在这里插入图片描述
LLaVA-OneVision 在视频基准测试中的性能表现

在这里插入图片描述

LLaVA-OneVision 在多图像基准测试中的性能表现

HyperAI超神经教程版块现已上线「LLaVA-OneVision 多模态全能视觉模型 Demo」, 用户只需一键克隆启动,即可轻松处理多样化的视觉任务,无论是静态图像的分析还是动态视频的解析,它都能够提供高质量的输出。

教程地址:

https://go.hyper.ai/PYD2v

Demo 运行

  1. 登录 hyper.ai,在「教程」页面,选择「LLaVA-OneVision 多模态全能视觉模型 Demo」,点击「在线运行此教程」。
    在这里插入图片描述
    在这里插入图片描述
  2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
    在这里插入图片描述
  3. 点击右下角「下一步:选择算力」。
    在这里插入图片描述
  4. 页面跳转后,选择「NVIDIA RTX A6000」以及 「PyTorch」镜像,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI超神经专属邀请链接(直接复制到浏览器打开):

https://openbayes.com/console/signup?r=Ada0322_QZy7
在这里插入图片描述

  1. 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。因模型过大,容器显示运行中后,需要稍微等待 1 分钟左右的时间再打开 API 地址,否则会显示 BadGateway。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

效果演示

  1. 打开 Demo 界面后,我们先来测试一下它对于图片的理解能力,在红框区域上传 3 张不同情绪的照片,并输入我们的问题「Which image expresses the emotion of fear?」,可以看到它准确的回答了我们的问题,并且提供了图片的描述 (The first image, which shows a woman with her hands on her head and an expression of shock or fear, expresses the emotion of fear)。
    在这里插入图片描述

图 1 为害怕;图 2 为开心;图 3 为伤心

在这里插入图片描述
在这里插入图片描述2. 它对于视频的理解能力也是十分优秀的,上传一段奥运会跑步比赛的精彩合集视频,询问「What is this video about?」,可以看到它能够准确的回答出比赛的项目并表述视频场景和细节,例如运动员的肤色,情绪以及体育场周围的赞助商标。
在这里插入图片描述

回答翻译:

这段视频似乎是田径赛事的剪辑,主要为 100 米短跑。它展示了运动员们在起跑器上准备比赛,其中一位运动员穿着黄色和绿色的服装,这暗示他可能代表牙买加,因为这些是牙买加国旗的颜色。视频捕捉了运动员们准备起跑时的紧张和专注,他们从起跑器上推起的起始动作,以及随后在跑道上的冲刺。运动员们穿着表明他们国家队或赞助商的制服,体育场周围可以看到各种赞助商的标志,如 TOYOTA 和 TDK。视频还包括对运动员脸部的特写,展示了他们的专注和决心。最后的画面显示运动员们全力冲刺,其中一位运动员领先于其他选手,暗示着一场竞争激烈的比赛正在进行


超神经HyperAI
1.3k 声望8.8k 粉丝