数据标注工具既是服务深度学习的必备工具,也可以说得上是数据标注行业的生产支柱。如今,数据标注工具的发展有两种趋势:智能化和平台化,抛开这两种趋势的产品逐步被取代。本篇文章盘点一些国内外值得推荐的标注产品。
- LabelMe
LabelMe 最早是由麻省理工学院 (MIT) 的计算机科学与人工智能实验室 (CSAIL) 于 2008 年发布的,类型覆盖了实例分割、语义分割、bbox标注、图片分类等,是标注领域中不得不提的元老。时至2024年8月,LabelMe 也不出意外的进入了商业化,发布了新版官网,集成了SAM、YOLO-World等模型,支持本地安装,但这些功能主要在Pro版本,入门版还是手动标注为主。
工具特性:
- 支持 Windows、macOS 和 Linux 系统本地安装
- 入门版支持多边形、矩形、圆形、直线、点、线带等不同标注类型
- Pro 版本提供 Python API ,可通过编程的方式自动化标注流程、批量处理标注数据、或将标注结果转换为其他格式。
- Make Sense
Make Sense 是一款在线标注工具,于 2019 年发布。Make Sense 显著的优势是轻量化和清晰化,相比于 LabelMe 的传统 UI 界面,使用体验显著提升。支持常见格式的导入、导出。值得一提的是, Make Sense 受到了 YOLOv5 和 Roboflow 的官方推荐。Make Sense 基于 Typescript 开发,同时有开源版本,但代码近两年没有更新,社区问题的响应率比较低。
工具特性:
- 无需部署或进行环境配置,浏览器打开即可标注
- 支持矩形、线条、点和多边形等标签类型
- 输出文件格式包括YOLO、VOCXML、VGG、JSON、CSV
- 接入 AI 模型(内置了 YOLOv5、COCO SSD 和 Pose-Net )可进行自动标注
- T-Rex Label
T-Rex Label 是IDEA研究院(发布开集检测模型 Grounding DINO、T-Rex2 的团队)2024年最新发布的标注工具。不同于预训练模型辅助的 AI 标注(Make Sense),或者基于文本提示的智能标注(LabelMe Pro),T-Rex Label 是使用了一种视觉提示的标注方式。框选任意目标,就可以标注其他相似物体的bbox,这种方式对于难以用文本描述的物体标注尤为适用。T-Rex Label 的标注交互流畅,社区反馈的相关问题响应较快。
工具特性:
- 基于视觉提示的Bbox自动标注
- 无需下载安装, 支持 Github 登录
- 支持导出为 COCO、YOLO 等主流格式
- VoTT
VoTT(Visual Object Tagging Tool)是由微软开发的一款图像和视频标注工具,于2018 年发布。目前 VoTT 的最新版本是 V2,使用 TypeScript 编写。VoTT 主攻图像和视频帧的标注,进入工具后能感受到界面简单直观,功能模块清晰。VoTT 也支持与预训练模型的集成,自动生成标注,很适合大规模数据集的处理。VoTT 平台可以与多种数据源连接,包括本地文件系统和云存储,同时还支持自定义导入导出策略。
工具特性:
- 支持 Windows、macOS 和 Linux 操作系统
- 主要是矩形和多边形标注
- 支持集成多种机器学习模型和框架,但有一些成本
- 导出数据支持多种格式,如CSV、CNTK、TensorFlow 以及自定义JSON
网址:https://github.com/microsoft/VoTT
- LabelU
LabelU 是一款综合性轻量级的标注工具,由 OpenDataLab 开发今年上半年推出。LabelU的优势是工具类型全面,甚至包括属性、立体框等工具,适合构建复杂的标注任务,建自己需求的标注界面。LabelU 目前没有集成智能标注的功能,但支持预标注数据的一键载入,用户可以根据实际需要对其进行细化和调整。
工具特性:
- 提供包括2D框、3D框、多边形、点、线等多种标注方式
- 支持图像、视频和音频等类型的数据标注
- 支持预标注数据的一键载入,进行细化和调整标注后的结果可一键导出
- 目前支持JSON、COCO、MASK等导出格式
网址:https://github.com/opendatalab/labelU
- Label Studio
Label Studio 相信都不陌生,由 Heartex 基于 Python 语言开发,于2019年推出,是一个全面强大的数据标注平台。在 Label Studio 中,可以根据项目需求自定义标注界面、调整标注工具,设置好后使用起来很顺手。值得一提的是,Label Studio 提供了内置的质量控制机制,如标注审核和多标注员一致性检查,以确保标注数据的准确性和可靠性。
工具特性:
- 支持本地部署和云部署,适应不同规模的团队和项目
- 可通过编写 YAML 文件自定义标注界面
- 支持与多种机器学习框架如 TensorFlow、PyTorch、scikit-learn 集成
- 支持多种标注类型,包括图像、文本、音频、视频以及时间序列
- Supervisely
Supervisely 是一款基于 web 的数据标注平台,同样具有直观易用的 UI 设计。此外,Supervisely 更是一款名副其实的端到端数据标注和管理平台,可以在该平台上实现数据管理、自动化标注和团队协作的全流程功能。企业版还支持本地部署和 Python 应用程序自定义标注工作流,尤其适合需要进行大规模数据处理和数据类型复杂多样的项目团队。
工具特性:
- 具有数据集的版本控制、数据清理和预处理功能
- 提供了 RESTful API 和 SDK,方便与其他系统集成
- 标注形式包括:点、框、折线、多边形、智能工具 (Smart Tool)、像素点笔刷等
- 支持丰富的导入格式及提供丰富的导出格式
- Labelbox
Labelbox 于 2018 年推出,同样是一个专业的在线数据标注平台。除了标注外,Labelbox 还支持大规模数据管理、模型分析等功能,赋能整个研究过程。此外,平台集成了 YOLOv8、GroundingDINO、SAM 等开源模型。但是,国内访问速度较慢,免费版本的限制较多。
工具特性:
- 支持与 AWS、GCP、Azure 等云服务的无缝集成,便于管理和处理大规模数据集
- 可进行图像、视频、文本、音频以及3D点云标注
- 集成多种预训练模型,可选择对应模型进行辅助标注
- 支持与主流机器学习框架 TensorFlow、PyTorch 和工具 Databricks、Snowflake 等集成
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。