YOLOE 是由清华大学研究团队于 2025 年提出的一种新型实时视觉模型,旨在实现「实时看见一切」的目标。它继承了 YOLO 系列模型的实时高效特性,并在此基础上深度融合了零样本学习与多模态提示能力,能够支持文本、视觉和无提示等多种场景下的目标检测与分割。
教程链接:https://go.openbayes.com/XdK7L
使用云平台:OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v
登录 http://OpenBayes.com,在「公共教程」页面,选择键部署 「YOLOE:实时看见一切」教程。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像,OpenBayes 平台提供了 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。可以使用文章开头的邀请链接,获得 RTX 4090 使用时长!
待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。
该教程主要包括 3 个功能,分别为:文本提示检测;多模态视觉提示;全自动无提示检测。下面一一为大家演示。
- 文本提示检测
该功能允许用户输入任意文本类型以及自定义提示词:允许用户输入任意文本(识别效果可能因语义复杂度而异)。
首先点击「Text」,然后上传一张图像。在「Input Texts」一栏中设置检测物体名称,模型会根据名称检测图中指定的物体。在「Model」一栏中选择好模型并设置好参数后,点击「Detect & Segment Objects」开始检测。
2. 多模态视觉提示
该功能提供了 3 种检测方式:
框选检测 (bboxes)
bboxes:例如上传一个包含很多人的图像,想检测人的图像,使用 bboxes 将一个人框起上,推理时模型就会根据 bboxes 的内容识别图像中所有的人。可以画多个 bboxes,以便得到更准确的视觉提示。
点选/手绘区域 (masks)
masks:例如上传一个包含很多人的图像,想检测人的图像,使用 masks 将一个人涂抹,推理时模型就会根据 masks 的内容识别图像中所有的人。可以画多个 masks,以便得到更准确的视觉提示。
参考图比对 (Intra/Cross)
Intra:在当前图像上操作 bboxes 或者 masks,并在当前图像上推理。
Cross:在当前图像上操作 bboxes 或者 masks,并在其他图像上推理。
首先点击「Visual」,然后上传一张照片。在「Visual Type」一栏中选择视觉类型,在「Intra/Cross Image」一栏中选择模式,在「Model」一栏中选择好模型并设置好参数后,点击「Detect & Segment Objects」开始检测。
模式对比:
这里我们涂抹了一只小猫,模型就把所有的小猫都标记了出来。
3. 全自动无提示检测
该功能支持智能场景解析(自动识别图像中全部显著物体)和零配置启动(无需任何提示输入即可工作)。
首先点击「Prompt-Free」,然后上传一张图片。在「Model」一栏中选择好模型并设置好参数后,点击「Detect & Segment Objects」开始检测。
可以看到模型将图中所有的显著目标都标注了出来。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。