更高效！更准确！YOLOE 实现实时目标检测

YOLOE 是由清华大学研究团队于 2025 年提出的一种新型实时视觉模型，旨在实现「实时看见一切」的目标。它继承了 YOLO 系列模型的实时高效特性，并在此基础上深度融合了零样本学习与多模态提示能力，能够支持文本、视觉和无提示等多种场景下的目标检测与分割。

教程链接：https://go.openbayes.com/XdK7L

使用云平台：OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v

页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像，OpenBayes 平台提供了 4 种计费方式，大家可以按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。可以使用文章开头的邀请链接，获得 RTX 4090 使用时长！

待系统分配好资源，当状态变为「运行中」后，点击「API 地址」边上的跳转箭头，即可跳转至 Demo 页面。

该教程主要包括 3 个功能，分别为：文本提示检测；多模态视觉提示；全自动无提示检测。下面一一为大家演示。

文本提示检测

该功能允许用户输入任意文本类型以及自定义提示词：允许用户输入任意文本（识别效果可能因语义复杂度而异）。
首先点击「Text」，然后上传一张图像。在「Input Texts」一栏中设置检测物体名称，模型会根据名称检测图中指定的物体。在「Model」一栏中选择好模型并设置好参数后，点击「Detect & Segment Objects」开始检测。

2. 多模态视觉提示

该功能提供了 3 种检测方式：
框选检测 (bboxes)
bboxes：例如上传一个包含很多人的图像，想检测人的图像，使用 bboxes 将一个人框起上，推理时模型就会根据 bboxes 的内容识别图像中所有的人。可以画多个 bboxes，以便得到更准确的视觉提示。
点选/手绘区域 (masks)
masks：例如上传一个包含很多人的图像，想检测人的图像，使用 masks 将一个人涂抹，推理时模型就会根据 masks 的内容识别图像中所有的人。可以画多个 masks，以便得到更准确的视觉提示。
参考图比对 (Intra/Cross)
Intra：在当前图像上操作 bboxes 或者 masks，并在当前图像上推理。
Cross：在当前图像上操作 bboxes 或者 masks，并在其他图像上推理。
首先点击「Visual」，然后上传一张照片。在「Visual Type」一栏中选择视觉类型，在「Intra/Cross Image」一栏中选择模式，在「Model」一栏中选择好模型并设置好参数后，点击「Detect & Segment Objects」开始检测。

模式对比：