头图

YOLOE 是由清华大学研究团队于 2025 年提出的一种新型实时视觉模型,旨在实现「实时看见一切」的目标。它继承了 YOLO 系列模型的实时高效特性,并在此基础上深度融合了零样本学习与多模态提示能力,能够支持文本、视觉和无提示等多种场景下的目标检测与分割。

教程链接:https://go.openbayes.com/XdK7L

使用云平台:OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v

登录 http://OpenBayes.com,在「公共教程」页面,选择键部署 「YOLOE:实时看见一切」教程。

图片

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

图片

选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像,OpenBayes 平台提供了 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。可以使用文章开头的邀请链接,获得 RTX 4090 使用时长!

图片

图片

待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。

图片

图片

该教程主要包括 3 个功能,分别为:文本提示检测;多模态视觉提示;全自动无提示检测。下面一一为大家演示。

  1. 文本提示检测

该功能允许用户输入任意文本类型以及自定义提示词:允许用户输入任意文本(识别效果可能因语义复杂度而异)。
首先点击「Text」,然后上传一张图像。在「Input Texts」一栏中设置检测物体名称,模型会根据名称检测图中指定的物体。在「Model」一栏中选择好模型并设置好参数后,点击「Detect & Segment Objects」开始检测。

图片

图片

2. 多模态视觉提示

该功能提供了 3 种检测方式:
框选检测 (bboxes)
bboxes:例如上传一个包含很多人的图像,想检测人的图像,使用 bboxes 将一个人框起上,推理时模型就会根据 bboxes 的内容识别图像中所有的人。可以画多个 bboxes,以便得到更准确的视觉提示。
点选/手绘区域 (masks)
masks:例如上传一个包含很多人的图像,想检测人的图像,使用 masks 将一个人涂抹,推理时模型就会根据 masks 的内容识别图像中所有的人。可以画多个 masks,以便得到更准确的视觉提示。
参考图比对 (Intra/Cross)
Intra:在当前图像上操作 bboxes 或者 masks,并在当前图像上推理。
Cross:在当前图像上操作 bboxes 或者 masks,并在其他图像上推理。
首先点击「Visual」,然后上传一张照片。在「Visual Type」一栏中选择视觉类型,在「Intra/Cross Image」一栏中选择模式,在「Model」一栏中选择好模型并设置好参数后,点击「Detect & Segment Objects」开始检测。

模式对比:

图片

图片

这里我们涂抹了一只小猫,模型就把所有的小猫都标记了出来。

图片

3. 全自动无提示检测

该功能支持智能场景解析(自动识别图像中全部显著物体)和零配置启动(无需任何提示输入即可工作)。
首先点击「Prompt-Free」,然后上传一张图片。在「Model」一栏中选择好模型并设置好参数后,点击「Detect & Segment Objects」开始检测。

图片

可以看到模型将图中所有的显著目标都标注了出来。

图片


小白狮ww
1 声望0 粉丝