摘要: 一份关于语义分割的基本概述,涵盖语义分割的特征和可能的用途,包括地质检测、自动驾驶、面部识别等。
近年来,以深度学习为中心的机器学习技术引起了人们的关注。比如自动驾驶汽车已经逐渐成为可能,但在整个深度学习过程,需要算法识别和学习作为原始数据提供的图像,在这一过程中,应用到了语义分割技术。下面让我们来看看语义分割的需求是如何演变的。
早期,计算机视觉的初始应用需求只是识别基本元素,例如边缘(线和曲线)或渐变。然而,仅仅通过全像素语义分割的创造来理解像素级的图像,它将属于同一目标的图像部分聚集在一起,从而扩展了语义分割的应用场景。
识别每个像素或分组像素一起分配类别的过程可以通过以下过程:
- 图像分类(image classification)——识别图像中存在的内容;
- 物体识别和检测(object recognition and detection)——识别图像中存在的内容和位置(通过边界框);
-
语义分割(semantic segmentation) ——识别图像中存在的内容以及位置(通过查找属于它的所有像素)
下面进入本文的主要内容:
什么是语义分割?
语义分割是一种典型的计算机视觉问题,其涉及将一些原始数据(例如,平面图像)作为输入并将它们转换为具有突出显示的感兴趣区域的掩模。许多人使用术语全像素语义分割(full-pixel semantic segmentation),其中图像中的每个像素根据其所属的感兴趣对象被分配类别ID。
早期的计算机视觉问题只发现边缘(线条和曲线)或渐变等元素,但它们从未完全按照人类感知的方式提供像素级别的图像理解。语义分割将属于同一目标的图像部分聚集在一起来解决这个问题,从而扩展了其应用领域。
注意,与其他基于图像的任务相比,语义分割是完全不同的且先进的,例如,
- 图像分类:识别图像中存在的内容。
- 物体识别和检测 :识别图像中的内容和位置(通过边界框)。
- 语义分割: 识别图像中存在的内容以及位置(通过查找属于它的所有像素)。
你设计的机器学习模型是否需要识别输入原始平面图像中的每个像素?在这种情况下,全像素语义分割标注是机器学习模型的关键。全像素语义分割根据其所属的感兴趣对象分配图像中的每个像素具有的类别ID。
下面定义语义分割的类型,以便更好地理解其相关概念。
语义分割的类型
- 标准语义分割(standard semantic segmentation)也称为全像素语义分割,它是将每个像素分类为属于对象类的过程;
- 实例感知语义分割(instance aware semanticsegmentation)是标准语义分割或全像素语义分割的子类型,它将每个像素分类为属于对象类以及该类的实体ID。
下面探索语义分割的一些应用领域,以便更好地理解这种过程的需要。
语义分割的特征
为了理解图像分割的特征,我们还要与其他常见的图像分类技术相比较。
这一次将介绍以下三类技术领域,包括图像分割:
- 1)图像分类:识别图像是什么;
- 2)图像检测和识别:识别图像中的位置;
- 3)图像分割:理解图像的意义;
1.图像分类
这类技术主要是识别图像。例如,例如分类数字手写体,例如“手写一个数字,这个数字是0~9中的哪一个数字”。最初从亚马逊发布的Amazon Rekognition也属于此图像分类,需要反区分“杯子、智能手机和瓶子”等,但现在,亚马逊Rekognition已经将杯子和咖啡杯作为整个图像的标签,这样处理后,它将不能用于分类图像中有多个物体的场景。在这种情况下,应该将使用“图像检测”技术。
2.图像检测
这类技术主要是识别图像中“有什么”和“它在哪里”。
3.图像分割
这类技术主要是识别图像区域。称为语义分割的图像分割标记由每个像素的像素指示的含义,而不是检测整个图像或图像的一部分。
下面,让我们看看语义分割具体的使用例子:
语义分割的应用
1.地质检测——土地使用
语义分割问题也可以被认为是分类问题,其中每个像素被分类为来自一系列对象类中的某一个。因此一个使用案例是利用土地的卫星影像制图。土地覆盖信息是重要的各种应用,如监测地区的森林砍伐和城市化等。
为了识别卫星图像上每个像素的土地覆盖类型(例如,城市、农业、水等区域),土地覆盖分类可以被视为多级语义分割任务。道路和建筑物检测也是交通管理,城市规划和道路监测的重要研究课题。
目前,几乎没有大规模公开可用的数据集(例如:SpaceNet),数据标记始终是分割任务的瓶颈。
2.用于自动驾驶
自动驾驶是一项复杂的机器人任务,需要在不断变化的环境中进行感知、规划和执行。由于其安全性至关重要,因此还需要以最高精度执行此任务。语义分割提供有关道路上自由空间的信息,以及检测车道标记和交通标志等信息。
3.用于面部分割
面部的语义分割通常涉及诸如皮肤、头发、眼睛、鼻子、嘴巴和背景等的分类。面部分割在计算机视觉的许多面部应用中是有用的,例如性别、表情、年龄和种族的估计。影响人脸分割数据集和模型开发的显著因素是光照条件、面部表情、面部朝向、遮挡和图像分辨率的变化等。
4.时尚——分类服装
由于服装数量众多,服装解析与其他服务相比是一项非常复杂的任务。这与一般的物体或场景分割问题不同,因为细粒度的衣物分类需要基于衣服的语义、人体姿势的可变性和潜在的大量类别的更高级别判断。服装解析在视觉领域中得到了积极的研究,因为它在现实世界的应用程序即电子商务中具有巨大的价值。Fashionista和CFPD数据集等一些公开的数据集促进了服装领域的语义分割研究。
5.精准农业
精确农业机器人可以减少需要在田间喷洒的除草剂的数量,作物和杂草的语义分割可以帮助他们实时触发除草行为,这种先进的农业图像视觉技术可以减少对农业的人工监测,提高农业效率和降低生产成本。
本文作者:【方向】
本文为云栖社区原创内容,未经允许不得转载。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。