5个优秀的计算机视觉应用与相关数据集

作者|SHIPRA SAXENA
编译|Flin
来源|analyticsvidhya

总览

计算机视觉是一种允许数字世界与现实世界互动的技术。
探索5个最热门的计算机视觉应用程序
- 使用计算机视觉进行姿态估计
- 使用Gans进行图像转换
- 开发社交距离工具的计算机视觉
- 将2D图像转换为3D模型
- 医学图像分析

介绍

我10年前开始使用Facebook。同样，如果你使用了很长时间，则必须记住手动标记照片的方法。但是现在我们不用手动标记这些图片了。Facebook可以识别上传图片中的大多数人，并提供标记他们的建议。同样，你肯定已经在Snapchat上看到了那些有趣的过滤器，在其中，人们使用了狗过滤器并获得了狗的脸。你有没有想过这一切是怎么办到的？我们的手机如何能够检测到我们的面部并在上面添加滤镜？这其实是一些计算机视觉应用程序。

计算机视觉是数据科学世界中最热门的研究领域之一。而且，它已经成为我们个人生活的一部分。我们都知道或不知道地使用各种功能，这些功能在后端运行计算机视觉技术。例如，我们在智能手机中使用面部解锁。下图有效地说明了人脸检测的工作原理。

我选择人脸检测作为本文的开头，因为我们都已经看到这是计算机视觉的一种应用。但是请相信我，计算机视觉不仅限于此。在本文中，你将探索计算机视觉的更多有趣应用。

如果你想精通计算机视觉，请查看我们的课程《使用深度学习2.0的计算机视觉》。

https://courses.analyticsvidh...

使用深度学习2.0课程的计算机视觉
- https://courses.analyticsvidh...
认证程序：初学者的计算机视觉
- https://courses.analyticsvidh...
神经网络入门（免费）
- https://courses.analyticsvidh...
从零开始的卷积神经网络（CNN）（免费）
- https://courses.analyticsvidh...

近期发展

深度学习方法的最新发展和技术的进步极大地提高了视觉识别系统的功能。结果，计算机视觉已被公司迅速采用。可以在整个工业领域看到成功的计算机视觉用例，从而扩大了应用范围，并增加了对计算机视觉工具的需求。

现在，让我们一起来看看计算机视觉的5个令人兴奋的应用程序。

使用计算机视觉进行姿态估计

姿态估计是计算机视觉的一个很有趣的应用。你一定已经听说过Posenet，它是用于人体姿态估计的开源模型。简而言之，姿态估计是一种计算机视觉技术，可以推断图像/视频中存在的人或物体的姿势。

在讨论姿态估计的工作之前，让我们首先了解“人体姿势骨架”。它是定义一个人的姿势的一组坐标。一对坐标称为肢体。此外，通过识别，定位和跟踪图像或视频中人类姿势骨架的关键点来执行姿态估计。

以下是人体姿态估计的一些应用-

用于实时体育分析或监视系统的活动识别。
增强现实体验
训练机器人
动画和游戏

如果你想自己开发一个姿态估计模型，下面是一些可能用到的数据集：

MPII
- http://human-pose.mpi-inf.mpg...
COCO keypoint challenge
- https://cocodataset.org/#down...
HUMANEVA
- http://humaneva.is.tue.mpg.de/

我发现Google的DeepPose（https://static.googleusercont...）是一篇非常有趣的研究论文，使用深度学习模型进行姿态估计。若要进行更深入的研究，你可以访问有关姿态估计的多个研究论文（https://paperswithcode.com/ta...）

使用Gans进行图像转换

Faceapp是一个非常有趣和流行的应用程序。它是一种图像处理工具，可使用滤镜转换输入图像。过滤器可能包括老化或最近的一个性别交换过滤器。

看上面的图片，有趣吗？几个月前，这是互联网上的热门话题。人们在交换性别后分享图片。但是这类应用程序背后的技术是什么？是的，你猜对了，它是计算机视觉，更具体地说，它是一个深层次的卷积生成的对抗性网络。

生成对抗网络，俗称GAN，是计算机视觉领域的一项令人振奋的创新。尽管GAN是一个古老的概念，但目前的形式是由Ian Goodfello在2014年提出的。从那以后，它有了许多发展。

GAN的训练涉及两个相互竞争的神经网络，根据给定训练数据的分布生成新的数据。尽管最初提出作为一种无监督学习机制，但是GAN证明了自己是有监督学习和半监督学习的理想选择。

要了解有关Gans工作的更多信息，请查看下面的文章。

什么是生成模型和GAN？计算机视觉的魔力
- https://www.analyticsvidhya.c...

以下是我个人推荐的一些有关GAN的必读研究论文

A Style-Based Generator Architecture for Generative Adversarial Networks
- https://arxiv.org/abs/1812.04948
Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks
- https://arxiv.org/abs/1511.06434
Conditional Generative Adversarial Nets
- https://arxiv.org/abs/1411.1784
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
- https://arxiv.org/abs/1703.10593

以下是一些数据集，可帮助你获得GANs的实践经验

CelebA
- http://mmlab.ie.cuhk.edu.hk/p...
Flicker face dataset
- https://github.com/NVlabs/ffh...
Cartoonset
- https://google.github.io/cart...

应用领域

使用Gans生成的图像的应用程序有很多。以下是它的一些应用程序

风格迁移和照片修复中的图像到图像翻译
图像超分辨率
文字到图像的生成
图片编辑
语义图像到照片的翻译

如果你发现更有趣的内容，请留言告诉我。

开发社交距离工具的计算机视觉

在过去的几个月中，世界正遭受大流行COVID-19的困扰。发现在没有该疾病的疫苗之前，我们所有人都必须采取预防措施，使用洗手液，口罩，最重要的是保持社交距离。

在这种关键情况下，计算机视觉技术可以发挥至关重要的作用。它可用于跟踪房屋或特定区域中的人员，以了解他们是否遵守社会距离规范。

社交距离工具是对象检测和实时跟踪的应用程序。在这种情况下，为了检查社交距离违规行为，我们使用边界框检测视频中存在的每个人。稍后，我们跟踪框架中每个框的运动并计算它们之间的距离。如果它检测到任何违反社会距离规范的行为，则将突出显示那些边界框。

此外，为使这些工具更先进，更准确，你可以使用迁移学习技术。各种预训练的对象检测模型（如YOLO或Mask R-CNN）也都存在。

以下文章可帮助你自己创建社交隔离工具

你的社交区别检测工具：
- https://www.analyticsvidhya.c...

将2D图像转换为3D模型

这是计算机视觉的另一个非常有趣的应用。它将二维图像转换为3D模型。例如，假设你有旧收藏中的一张照片，并且能够将其转换为3D模型并像在那儿一样进行检查。

Deep Mind的研究人员提出了一个在相似的系统上工作的AI系统。它被称为Generative Query Network（生成查询网络），它可以像人类一样从不同角度感知图像。

此外，Nvidia还开发了一种AI架构，可以根据图像预测3D属性。同样，Facebook AI提供了一种类似的工具，称为3D照片功能。

以下是一些相关的数据集，可供你进行试验

IKEA dataset
- http://ikea.csail.mit.edu/
Opensurface dataset
- http://opensurfaces.cs.cornel...
NYU Depth dataset
- https://cs.nyu.edu/~silberman...
ObjectNet3D
- https://cvgl.stanford.edu/pro...

另外，请查看这些有趣的论文以了解有关该应用程序的更多信息。

https://paperswithcode.com/ta...

应用领域

现在，你必须考虑该技术的用例。以下是其应用

动画与游戏
机器人技术
自动驾驶汽车
医学诊断和外科手术

医疗保健中的计算机视觉：医学图像分析

很长一段时间以来，计算机支持的医学图像被用于诊断，如CT扫描、X射线等。此外，计算机视觉技术的最新发展使医生能够通过将图像转换为三维交互式模型来更好地理解这些图像，并使其更易于解释。

如果我们看一下计算机视觉的最新使用案例，那么我们会发现它是在用胸部x光检查COVID-19病例。此外，根据武汉市放射科的一项研究，深度学习方法可以有效地区分Covid-19和社区获得性肺炎。

检查一下由Kaggle提供的COVID-19胸部x光数据集，并在实施过程中自己动手。

COVID-19胸部x光数据集：https://www.kaggle.com/bachrr...

同时，如果你想在另一个数据集上工作，那么你也可以在Kaggle上获得CT医学图像（https://www.kaggle.com/kmader...）。此外，如果你希望了解更多有关医疗图像处理及其在医疗保健中的应用，请阅读这些研究论文及其实现。

相关论文：https://www.engpaper.com/cse/...

尾注

总而言之，计算机视觉是人工智能的一个引人入胜的领域。在本文中，我讨论了一些我发现很有趣的东西。但这只是冰山一角。

如果你有兴趣知道计算机视觉领域的工作，请阅读以下内容：

这是你在2020年掌握计算机视觉的学习途径
- https://www.analyticsvidhya.c...

原文链接：https://www.analyticsvidhya.c...

欢迎关注磐创AI博客站：
http://panchuang.net/

sklearn机器学习中文官方文档：
http://sklearn123.com/

欢迎关注磐创博客资源汇总站：
http://docs.panchuang.net/

5个优秀的计算机视觉应用与相关数据集

总览

介绍

目录

什么是计算机视觉？

近期发展

使用计算机视觉进行姿态估计

使用Gans进行图像转换

应用领域

开发社交距离工具的计算机视觉

将2D图像转换为3D模型

应用领域

医疗保健中的计算机视觉：医学图像分析

尾注

人工智能遇见磐创

引用和评论

Numpy的终极备忘录

一文掌握 MCP 上下文协议：从理论到实践

大模型中的Token究竟是什么？从原理到作用深度解析

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略