美摄汽车图像及视频处理方案

编者按： 随着智能汽车的不断发展，消费者对车身娱乐系统的要求也不断加强。虽然车身摄像头数量越来越多，但是依然面临画质不佳、存在畸变等问题，那么如何解决这些问题呢？LiveVideoStackCon2022音视频技术大会上海站邀请到了美摄科技的侯康老师，为我们分享美摄汽车图像及视频处理方案，将介绍图像画质增强、智能视频剪辑和虚拟场景娱乐等内容。

文/侯康

整理/LiveVideoStack

大家好，我是来自美摄科技的侯康，是美摄的AI负责人。今天，我将和大家分享美摄汽车图像及视频处理方案里的算法、系统架构和技术等。

1、美摄发展

首先，介绍美摄和将要分享的技术的背景。美摄已经在视频领域深耕20余年，美摄的团队曾荣获国家科学技术进步奖一等奖、中国电影电视技术学会科学技术奖一等奖等，我在2019年牵头研发的视音频智能生产方案于去年获得了首届广播电视和网络视听人工智能应用创新大赛一等奖。2021年，乘着智能汽车发展的东风，美摄进入汽车领域，根据汽车的需求进行优化和定制，形成了新的方案。

2、产品领域

美摄的产品主要基于三大SDK。首先是视频编辑处理SDK，在底层进行视频编辑处理、渲染等。然后是AI的SDK，主要包括基础的检测、点位、表情识别功能等。最后是AR渲染的SDK，基于此SDK得到了云端/PC端视频处理方案、汽车及智能硬件方案和开发及设计服务。

3、方案总述

接下来详细介绍方案的整体框架。方案分为四个模块，前三个模块是上层的应用模块，最后一个模块是提供AI识别引擎的模块。

第一个模块是图像画质增强。我们做的是中间的处理，即智能化的画质提升。我们将传统图像处理和AI能力结合，实现车辆摄像头畸变校正、多摄拼接，画面色彩校正和画质提升等。其中，我将重点介绍车辆摄像头畸变校正，因为车辆摄像头畸变校正与普通畸变校正不同。还将重点介绍画面色彩校正和画质提升，因为目前汽车的智能化过程不是准备好了一定要做智能化，而是为了让很多质量不好的车辆的摄像头能达到出彩的拍摄效果，因此需要画面色彩校正和画质提升。

第二个模块是智能视频剪辑，也是今天将重点介绍的内容。我们通过自动地对拍摄画面内容进行分析和检测，结合车辆数据信息（行驶状态等），在无需人工操作的情况下，自动将车内视频变成精彩影片。另外，也需自动地驱动摄像头对车外景物进行拍摄。我们的目标是，在驾驶人员开车且无法进行过多操作的情况下，利用智能视频剪辑协助完成图像拍摄、采集和剪辑等。

第三个模块是车内互动娱乐。接触智能车圈的人听过的一句话是“以后的汽车就是有四个轮子的手机”，因此手机的很多玩法可以迁移到车内，但同时也需要针对车内情景做相关优化。

最后一个模块是AI内容识别。AI内容识别会进行很多底层的内容识别，识别结果会支撑前三个模块的智能化的功能实现。

接下来详细介绍各个部分。

首先重点介绍的是摄像头畸变校正。画面里的两张图片演示的是传统的畸变校正，目前汽车上的摄像头使用的是球面镜头（手机可使用非球面镜头），其拍摄的画面畸变十分严重，而有些汽车在车内或车外使用的是广角摄像头，其拍摄的画面畸变更严重，此时需要采用算法对其进行校正。通过标定将畸变校正为正常状态的算法是一种传统的、通用且成熟的方案，这个算法可用于车外摄像头，因为在观看车外景物时不会对景物的尺度有很大的认知（比如图中观看楼时，看不出来楼的尺度变化）。车内情况则不同，车内摄像头一般放置在车的正中间，其拍摄的对象主要是人，而车内前排的主驾和副驾分坐两边，后排分坐三个人，此时主驾、副驾和后排坐两边的人的点会出现严重扭曲，导致画面完全不可使用。传统的畸变校正算法原理是：直线由于镜头原因畸变成曲线，校正算法反向测出曲线形态，然后将曲线变为直线。因此不能用传统的畸变校正算法对车辆内部拍摄进行校正，因为这会导致人脸的拉长，甚至拉歪。因此，针对车内情况我们开发出一套基于人脸特征的畸变校正算法，该算法的目的是校正人脸，将人脸的状态从扭曲校正为端正，同时也会对人体进行校正。校正时，不会过多关注车内内饰，因为平常情况下车内内饰都是曲线，无需特地进行校正，更多关注的还是人脸及人体。

接下来是我们主要研发优化的算法。当前，在车辆的四周会安装多个摄像头以实现记录行车过程、观察四周情况、自动驾驶、辅助驾驶等功能，但当未使用这些功能时，这些摄像头是无意义的，此时希望将多个摄像头进行拼接以实现如左图所示的全景拼接效果。拼接算法首先进行摄像头的校正、标记，然后在空间中对摄像头进行先验排序，找到画面在空间中的位置并将其拼接起来。拼接算法早期主要运用在比较紧凑的设备中，如insta360等，这种设备的特点是不同摄像头的相机坐标系的原点几乎是重合的，因此通过一些特殊算法处理可消除拼接后的拼缝（完全重合则没有拼缝），但这种处理方式不能运用在汽车上。如右图所示，汽车摄像头分布比较分散，摄像头的相机坐标系原点完全没有重合，相距甚远，在拼接左图这样开阔、类似无限远的平面时，拼缝几乎看不见，处理后的消除效果较好，但拼接街上近距离的场景（如树、迎面而来的车或建筑物）时，拼缝非常明显，且画面的前后景越丰富，不同位置的拼缝差别越大。这是一个核心的问题，我们当前正在研究解决。

接下来介绍核心的智能校色方案。这部分与刚才潘老师介绍的内容有一定关联，潘老师介绍的技术是原汁原味地保留画面最精彩的部分，我们是在摄像头拍摄的原始画面质量不好的情况下，考虑如何提升画质。车辆在拍摄中一般会遇到一个问题，如左图所示，图片的对比度、亮度较低，且由于传感器的质量问题，饱和度也不好，最终使得画面灰蒙蒙的，细节不清晰且层次感不强。为了解决这个问题，我们基于传统方案研究了一套智能校色方案，该方案首先对原始图片的画面像素进行统计得到统计值，如直方图分布曲线形状、最亮的10%像素的平均值、最暗的10%像素的平均值等，然后对这些统计值进行处理，通过算法得到十几项基本的调色参数（如亮度、曝光度、对比度、自然饱和度等），最后通过调节这些参数得到画质较好的图片。除了基本的调色项外，我们还开发了算法来处理画面的细节问题，传统的图像细节增强主要是对边缘细节进行增强，但大多情况下画面的层次感不由边缘决定，单独增强边缘细节反而使得画面不和谐，因此我们开发了一个清晰度算法来增强画面的局部色块、特征，然后结合边缘细节的增强可得到一个较柔和的增强后的画面，右边的图片就是经过增强后的画面，单独的调色或亮度变化无法得到右图的效果，需经过清晰度和锐度的调整才能显示画面的细节。这套方案是目前较为通用的一套方案，后续我们会继续研究新的方案：针对不同的画面内容（如湖面、沙漠等），提供特殊的校色方案。

接下来介绍摄像头防抖处理。左图显示了由于抖动产生的运动模糊，对此我们的目的是去掉运动模糊，但车厂的核心诉求不是去除运动模糊，而是对车辆行驶过程中拍摄的视频进行防抖，因为路面不平整等问题会使得拍摄的部分画面不稳定，此时需要对画面进行处理使其更平稳。传统算法不适合这样的场景，因为基于单应矩阵或仿射变换和透视变换矩阵来调节画面的传统算法适用于简单的场景，而由于车辆的不停行驶，车辆拍摄的场景是复杂多变的，比如汽车经过桥洞后，本来开阔的场景会收缩，此时若用传统算法检测角点，进行角点匹配得到单应矩阵或仿射变换矩阵来调节画面，可能不能消除抖动，且当画面突变，如车辆经过或场景从开阔变为狭窄时，甚至会引入抖动。为了解决这个问题，需要对局部进行防抖处理，我们基于AI算法判断画面中的静止部分（背景）和运动部分（车辆），基于这些状态判断画面抖动的具体参数，然后对这些参数进行圆滑处理。

接下来是今天最核心的内容——汽车智能剪辑方案，这是我们目前主推的一套方案，在某些大厂已经落地，我们先来看这个视频。视频中演示的是智能剪辑方案的大体思路，首先对采集到的视频画面进行多维度分析，然后根据分析结果将视频结构化，即对视频进行多维度分段，并为每一段打上标签，得到对于视频的立体的理解，接下来根据客户的要求，如定制的拍摄主题、拍摄思路等，定制检测和匹配的规则，最终通过剪辑的结果生成视频，且通过检测结果可加入动态化的包装。

整个框架分为三个主要的部分。第一个主要部分是AI的检测部分，除了检测外，还会记录汽车行驶过程中的重要信息，比如车速、GPS信息等，并将所有数据存储到我们开发的数据库里，以后想再使用相同视频的时候，无需重新对其进行检测，可直接在数据库中提取相关内容，剪辑的时候也可直接从数据库中提取内容。数据库除了存储信息、关联视频外，它的数据结构使其能做到尽可能快速地检索、匹配，以后可根据需求快速地提供结果。

在画面智能分析内容方面，美摄的SDK可支持2000多种标签类型，实际使用时主要是对场景、车辆、地标、行人、天空和天气等进行检测。其中，画面智能分析的难点不是如何训练模型或得到好的结果，而是如何减小芯片的算力占用，因为汽车的处理芯片大多基于手机芯片，有些是高通用型芯片以及国产的低端芯片，这些芯片的处理能力不够，而汽车在行驶过程中除了拍摄还要执行其他功能，因此后台处理信息时需要保证小的算力占用。针对这个问题，我们对模型结构和训练策略进行了优化，目前我们的方案中使用了七八个模型（有时候更多），但在运行过程中只占用了低于5%（大概是3.5%）的CPU，就可以完成检测。

刚才详细介绍了画面AI信息，接下来重点讲解车辆信息这个关键点。车辆信息包括时速、转向、时间、温度、天气预报和GPS信息等，这些信息本身是剪辑时所需的有效信息，比如剪辑的主题是非常轻快的，需要知道车是否在行驶中，此时车速是一个重要的信息。此外，车辆信息可以与AI检测结果联通，即系统可根据车辆信息来校正AI检测结果，因为AI检测结果不可能百分百准确，虽然绝大多数情况下检测结果较准确，但个别情况下检测结果会错得很离谱。举个例子，检测路面是否有积水时，由于中午阳光较强，光照射到路面再反射到镜头会使得画面中的路面一片白色，且检测时图片会收缩到很小，导致无法看清画面内容，这时可利用天气、温度信息对AI结果进行校正，如温度在30°以上，则路面不可能有积水。总的来说，基于车辆信息得到一套或处理框架来校正AI检测结果使其更准确。

接下来介绍智能剪辑策略。对于智能剪辑来说，当前没有通用的完全基于深度学习的解决方案，虽然传统方法或Clip可以将视频内容进行语义化的分解，但也很难在车辆情况下进行智能剪辑。对此，美摄提出了一个剪辑方案，将深度学习的检测和专家系统结合起来，即后期为前期的检测结果匹配一套剪辑的规则来实现剪辑的服务。在使用这个方案时，我们通过分析用户选择的感兴趣的视频内容，推荐与视频相关的剪辑主题，然后根据剪辑主题内部的内容将所选视频中的重要片段提取出来，对其进行包装合成。

接下来介绍实时AR特效方案。刚才提到，以后的汽车就相当于一个手机，手机上的很多功能可以迁移到汽车上，如美颜、人脸道具等，目前的AR特效算法基于我们自研的方案，包括自研的240点位检测、对主副驾人脸、年龄和性别的检测等，基于这些检测方案实现美颜、Animoji等效果。

此外，我们也在车辆虚拟助手方面进行了研究。图中显示的是一个二次元形象，我们还做了Q版的卡通形象和3D形象，结合自研的唇形生成算法和动作生成算法，可以使其达到自然的状态。

最后一部分是AI检测的具体部分。其中场景识别可以检测不同的场景，如城市、乡村等。还有人物识别，同时天空和气象是车辆剪辑特殊的应用场景，针对这两个特殊场景我们也进行了天空检测和气象检测，天空检测对云朵、天空颜色等进行检测，气象检测对风霜雨雪（主要是雪和雨）、晴天进行检测。结合其他的检测，最终可得到对画面的全面的预知。

我今天的分享到此结束，谢谢大家！

美摄汽车图像及视频处理方案

1、美摄发展

2、产品领域

3、方案总述

LiveVideoStack

引用和评论

AIGC时代下阿里云视频云媒体内容生产技术实践

三分钟掌握视频剪辑 | 在 Rust 中优雅地集成 FFmpeg

三分钟掌握音视频处理 | 在 Rust 中优雅地集成 FFmpeg

VideoMind：Chain-of-LoRA突破时间盲区让AI真正看懂长视频

三分钟掌握视频分辨率修改 | 在 Rust 中优雅地使用 FFmpeg

CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛全球第一

Shotcut 25.03 (Linux, macOS, Windows) - 免费开源视频编辑器