数据标注行业里有着这样的一段话:“有多少智能,就有多少人工”。
这句话在某种程度上道出了人工智能的本质。
事实上,现阶段提升AI认知世界能力的最有效途径仍然是监督学习,而监督学习下的深度学习算法训练十分依赖于数据标注员进行标注数据。可以说,如果数据标注是人工智能行业的基石,那么数据标注员就是数据标注行业的基石。
2020年2月,数据标注员被正式定义为“人工智能训练师”并纳入国家职业分类目录。
人工智能训练师新职业隶属于软件和信息技术服务人员小类,主要工作任务包括:标注和加工原始数据、分析提炼专业领域特征,训练和评测人工智能产品相关的算法、功能和性能,设计交互流程和应用解决方案,监控分析管理产品应用数据、调整优化参数配置等。
根据国家人力资源和社会保障部相关预测显示,随着人工智能在智能制造、智能交通、智慧城市、智能医疗、智能农业、智能物流、智能金融及其他各行各业的广泛应用,人工智能训练师的规模将迎来爆发式增长。预计到2022年,相关从业人员有望达到500万。
曼孚科技数据标注基地
不过,尽管数据标注员规模处于急速扩张中,但是与市场需求相比,缺口依然很大。
据艾瑞咨询相关统计数据显示,当下一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练,新功能的开发需要近万张图片训练,而定期优化算法也有上千张图片的需求,一个用于智慧城市的算法应用,每年都有数十万张图片的稳定需求。
语音方面,头部公司累计应用的标注数据集已达百万小时以上,每年需求仍以20%-30%的增速上升,不仅如此,随着IoT设备的普及,语音交互场景越来越丰富,每年都有更多的新增场景和新需求方出现,对于标注数据的需求也在逐步增长。
这些海量的数据几乎全部依赖数据标注员手工进行标注,数据标注员的数量缺口十分可观。
此外,随着AI商业化落地进程的加快,AI企业对于数据标注服务供应商也提出了新的要求,高质量、精细化、定制化的数据集越来越受到需求方的青睐,这意味着对数据标注员的专业素质能力提出了更高的要求。
可以说,当前人工智能行业的主要矛盾是,快速增长的标注业务需求与滞后的专业数据标注员供给之间的矛盾。
如何解决该问题就成为摆在诸多数据标注企业面前的现实问题。“众包模式”是解决标注员数量短缺问题的有效途径之一,这也是目前诸多数据标注服务企业所采用的模式之一。
然而,这种兼职的模式下,临时标注员的专业素质能力无法得到有效保证,服从管理的意识也较为淡薄,直接后果就是交付数据集的质量无法满足项目方的需求。
这样的背景下,越来越多的企业意识到,只有通过自建标注团队,并辅以专业的培训,才能同步解决数据标注员在数量与质量上存在的问题,为项目方提供高质量的标注服务。
以曼孚科技为例,通过自建标注团队,实现对数据标注员的统一管理与培训,并建立行业级的培训与职业评价标准,可以显著提高项目的执行度,为需求方提供高质量的标注数据集。
未来,随着AI应用场景逐渐多领域化,在数据标注行业内部,从业者也必将随着AI行业而一同进入细分市场追逐阶段,可谓机遇与挑战并存,梦想与发展同在。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。