最近因为 Sora 模型大火,带动了文生视频任务研究。有小伙伴“吭哧吭哧”上手后,到人工精标数据时迷茫了,不知道选什么视频-文本标注工具为好。
小编听了也急的发愁,远在天边,近在眼前,这么好用的视频标注工具——LabelU就在OpenDataLab网站明晃晃地挂着,可恶,竟然没人知道?!今天可得给你好好说道说道。
当然,你内心肯定会想:
LabelU是啥?听都没听过吧?
为什么要用LabelU?别的标注工具不是也能标吗?
图片、音频标注,LabelU真的行吗?
首先,得承认,LabelU可能不是专业数据标注团队的首选,毕竟它没有那些花里胡哨的协同标注、团队管理功能。但是,对于那些算法工程师、开发者、大学生,特别是那些想要自己动手丰衣足食的朋友们,LabelU简直就是个宝藏工具!
一、视频、图片、音频都能标,支持80+主流标注场景
LabelU提供了多种标注工具和功能,可广泛适用于文生视频、文生图片、文生音频、目标检测、分类、分割、关键点、折线、OCR等算法场景,具体有哪些呢:
● 基于视频,具备强大视频处理能力,可实现视频分割、视频分类、视频时间戳等功能,为模型训练提供高质量标注数据。
● 基于图像,提供多功能图像处理工具,涵盖2D框、语义分割、多段线、关键点等多种标注工具,协助你轻松完成图像的标识、注释和分析。
● 基于音频,提供高效精准的音频分析工具,能够进行音频分割、音频分类、音频时间戳等,更好地注释复杂的声音信息。光看介绍可能觉得没什么特别的,但要知道,免费开源的标注项目中能提供这么多工具,并且体验足够丝滑的,全网很难找到第二个,足以说明LabelU的地位了。(要是找到了,请告诉小编,俺也很想知道)
(视频片段分割标注示意)
(图片立体框标注示意)
二、简单易用,轻松标记,快速输出标注结果
LabelU另一个特点是简单,没有眼花缭乱的菜单栏内容(没说眼花缭乱不好的意思😆),要用什么标注工具,页面上自由选择、灵活搭配,提前配置好,进入标注界面就能随心所欲地标注了。标注结果支持JSON、COCO、MASK等多种格式快捷导出,相当方便。
关键还有一点,LabelU支持导入预标注 JSONL 文件进行二次修改,这意味着什么?(划重点!)用大模型自动标注,如果结果不准确,可以导入LabelU进行人工批量审核、二次修改,相当实用的功能!用来制作视频生成大模型常用的微调数据,也能轻松搞定。真的很不错,你就说是不是!
(LabelU简洁的标注界面)
三、部署简单,保证数据安全,源码开放可“魔改”
LabelU提供了安装包,本地部署使用,数据无需上传,在岸标注,保证数据的安全性和隐私性。尤其对于数据分布在多处,或者数据下发独立标注的场景,用它标注再合适不过了。同时,LabelU代码完全开放,支持二次开发、集成,“魔改”更多玩法,“炼丹”大神听了都忍不住拍手叫好。
四、使用指南
这么强大的LabelU,相信不少朋友已经跃跃欲试了。但对于刚接触这个工具的小伙伴来说,可能会对提供的丰富的标注工具名称有点陌生,不知道怎么选择。为了方便大家快速上手,小编简要介绍一下,其实很简单,
不管标注对象是什么,只要记住LabelU根据交互方式,将标注工具分2大类,一类是“全局”,另一类是“标记”:
● “全局”标注工具:对标注对象进行整体内容概括、总结,不与细节做交互,比如常见的“天气”、“场景”标签等;
● “标记”标注工具:对具体的内容细节、局部标记,根据不同数据类型有不同的特异性交互方式,比如视频/音频有片段分割、时间戳,图片有标点、标线、拉框、多边形等;
不管哪种工具、哪种交互方式,打标签都有2种形式,分别是选项、文本描述,(选项包含单选、多选2种形式)。可以形象地理解为交互标记之后,填入标签内容时是做选择题,还是填空题。
● 单选或多选:在“分类”属性中设置,特点是,需要提前配置好具体选项内容,标注时下拉勾选。
● 文本描述:在“文本”属性中设置,特点是,无预设内容,在标注时按需填写即可。
了解上面2个维度之后,你就可以自由组合标注工具了,既能给全局打文本标签、选项标签,也能给视频分割/时间戳、图片的描点/拉框/多边形等打文本标签、选项标签,以此类推,只要按需选择即可。
当然,还有其他配置内容,比如标签颜色、标签中英文ID、标签参数(比如标点工具的点数范围、多边形线条类型/闭合点数范围设置)、便捷的通用标签(多种交互方式都可能用到的重复标签,可配置为通用标签)、画布外标注等,配置比较简单,就不多介绍了。
(LabelU视频全局、标记类工具配置示意)
配置好标注工具,就可以进入工作台,愉快地标注了。LabelU还提供了诸如快捷键、可视化任务管理等功能,帮助大家提升标注效率,快来试试吧。
LabelU本地部署文档:https://github.com/opendatalab/labelU/blob/main/README_zh-CN.md
开发文档:https://github.com/opendatalab/labelU-Kit/blob/main/CONTRIBUTION_GUIDE.md
OpenDataLab提供了在线版LabelU供大家体验、使用,传送门:
● Demo体验:https://opendatalab.github.io/labelU-Kit/#/image
● 在线使用:https://labelu.shlab.tech/tasks
(注意:在线版,每日凌晨数据将自动清空,请及时备份重要数据。如需完整使用,建议本地部署)如果想使用JSONL预标注导入,进行视频-文本场景人工审核、修改,小编为你准备了一份最简单的全局文本描述标注的案例,快导入同名“视频1.mp4”的视频和下方JSONL进行体验吧:
{"sample_name":"视频1.mp4","config":{"textTool":[{"key":"全局文本描述","value":"text-label-1","required":true,"type":"string","maxLength":1000,"stringType":"text","defaultValue":""}]},"meta_data":{"duration":122},"annotations":{"textTool":{"toolName":"textTool","result":[{"id":"js6htkz785h","type":"text","value":{"text-label-1":"这是大模型对视频1的自动标注的文本描述值,可进行人工二次审核与修改"}}]}}}
(滑动查看全部)
当然,JSONL预标注文件玩法还有很多,如果想了解更多字段配置及格式参考,详见LabelU说明文档,统统都有:https://opendatalab.github.io/labelU/#/schema/pre-annotation/...
精彩预告
LabelU即将上线大语言模型常用的文本标注工具,快来关注LabelU Github 主页,提 pr 给开发小哥哥催更吧!
要是觉得不错,请不要吝啬你的star~ 你的鼓励是我们前进的最大动力!
LabelU 主页:https://github.com/opendatalab/labelU
更多数据处理宝藏工具,尽在 OpenDataLab GitHub仓库:https://github.com/opendatalab
还有很多精彩开源数据集资源,欢迎访问OpenDataLab官网:https://opendatalab.org.cn/
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。