音视频技术开发周刊 | 214 - 个人文章

每周一期，纵览音视频技术领域的干货。
新闻投稿：contribute@livevideostack.com。

火山引擎视频云：坚持基础技术创新，打造极致用户体验
从toC到toB，作为抖音背后的视频技术中台，火山引擎视频云经历了哪些转变和挑战？对于国际标准的制定，它是如何实现从跟随者到参与者的跨越？视频盗版问题泛滥，火山引擎视频云又有哪些应对措施？面对日益丰富的直播场景，火山的音视频引擎如何有效支持直播业务不断增加的场景变化？未来还将有哪些直播新玩法？

与WebXR共同创建者Diego Marcos一起探讨沉浸式Web的未来（上）
WebXR是一组由浏览器实现的API，可以将VR和AR功能添加到网站上。在当时的团队中，我更多地致力于前端和其中的工具部分，而 A-frame就在其中，它的目的就是支持和授权所有 Web 开发人员创建AR和VR内容。

与WebXR共同创建者Diego Marcos一起探讨沉浸式Web的未来（下）
Diego Marcos：“Web已经是元宇宙了，我们只需要把它做成 3D。”这是我们过去在 Mozilla 常说的。

《6G网络架构愿景与关键技术展望》白皮书全文
《6G网络架构愿景与关键技术展望》白皮书是全球首个多方联合发布的6G网络架构白皮书，由IMT-2030(6G)网络技术组34家单位共同完成。白皮书首次提出了面向DOICT融合创新的发展思路，从业务驱动、DOICT融合驱动、IP新技术驱动三方面阐述了6G网络架构演进的驱动力；提出6G网络架构设计原则包括“2个坚持”和“4个转变”，即“坚持网络兼容”、“坚持智简设计”，以及“集中向分布转变、增量向一体转变、外挂向内生转变、地面向泛在转变”。

WebCodecs 工作草案正式定稿
该规范定义了用于音频、视频和图像编码和解码的编解码器的接口。并且该规范不指定或要求任何特定的编解码器或编码或解码方法。其目的是为其他开发的现有编解码器技术的实现提供JavaScript接口。开发者可以自由地支持任何编解码器组合。

Intel v.s. Nvidia：使用 GPU 进行视频编码的比较
视频转码是一项非常耗费资源的任务，CPU 转码的成本可能相当昂贵，使用 GPU 转码可以节省资源。本文以 Intel 的 QuickSync 和 Nvidia 的 NVENC 为例，从转码速度、质量、功耗、机架空间以及专业应用方面，讨论了这些解决方案的主要优缺点。

MOVI-Codec：无运动的深度学习视频压缩
本文提出了一个端到端的基于深度学习的视频压缩框架，对运动预测进行了改进，提出了用位移帧差异作为运动信息的方案，并将其输入进一个时空压缩网络来学习最优的帧间插值表示。另外，提出了一个 UNet 的新版本 —— LSTM-UNet，它能综合利用时空信息来进行帧重建。该算法可以有效降低算法复杂度。

对比学习（Contrastive Learning）:研究进展精要
本文详细介绍了对比学习的研究进展，分别介绍了四类对比学习的方法，并对对比学习的不同方法的效果以及目前的对比学习模型仍然存在的问题进行了探讨。

FFmpeg 内置的一个无中生有的音视频输入数据
相信很多人在遇到音视频处理的时候，或者做音视频数据测试的时候，会因为把握不好音视频输入源的而苦恼。当然，有的人有很多种子的可能不但不会苦恼而且还会很欢乐。可是我们用在工作中的测试视频，总不能拿那些用种子下载下来的葫芦娃、黑猫警长、汪汪队立大功来测试吧？毕竟那是有版权的视频，拿来乱用也不太合适。除了这些，再就是常见的花花公子经典照片Lena这种图片了。而视频呢，上面两种应该是比较常用的，其实也不太够用，尤其是想要逐帧确认，或者测试音频之类的情况的时候，并且这些视频一直在电脑里存着也挺占地方的，现场下载也挺浪费时间的，所以 FFmpeg 提供了一组虽然看上去不那么美观，但是应该足够用调试和测试用的视频源数据生成的方法。

基于深度学习的图像分割：网络结构设计
文章总结了利用CNNs进行图像语义分割时，针对网络结构的创新，这些创新点主要包括新神经架构的设计（不同深度、宽度、连接和拓扑结构）和新组件或层的设计。前者是利用已有的组件组装复杂的大型网络，后者是更偏向于设计底层组件。

TransCenter: MIT&INRIA开源多目标物体跟踪算法
近日，来自 MIT 等机构研究者提出了 TransCenter，这是首个用于预测密集目标点热力图（dense center heatmap）Transformer MOT 架构。在相同训练策略和同等数据下，TransCenter 在两个标准 MOT 数据集上（MOT17 以及稠密的 MOT20）均超越了 SOTA 方法。

XR应用“由广至深”，5G+云加速产业落地
国内VR/AR产业自热潮过后一直处于低调、蓄势的状态，直至近两年才在5G、疫情，以及元宇宙新概念等事件的作用下再次出圈。相比于海外更为出色的消费终端表现，国内VR/AR市场虽然并不亮眼，但却在另一个方向有着自己得天独厚的优势，那就是不断加大的政策力度以及5G的先发优势。尤其是政策扶持，是国内VR/AR产业即使低迷却能坚持下去直至回暖的重要原因。今年3月，AR/VR产业还在“十四五”规划纲中被进一步列为数字经济重点产业。

自动驾驶分级国标明年3月起实施，系统比SAE更有主动权
日前，市场监管总局（标准委）发布了《汽车驾驶自动化分级》国家推荐标准（GB/T 40429-2021），该国标明确了驾驶自动化定义及分级要素，对驾驶自动化等级划分规则、各级技术要求，以及驾驶员应该承担的相应责任，均做出明确规范。该国标将于2022年3月1日起实施。

MIT中国博士生开发出第一套保护自动驾驶车辆的感知算法！

近日，清华大学校友、MIT 在读的中国博士生杨珩与团队合作开发了第一套针对自动驾驶汽车的“可认证的感知”算法，有助于提高下一代自动驾驶汽车的行驶安全。

MIT：特斯拉 Autopilot 驾驶功能被激活后，车主普遍注意力下降
截至上周末，全球范围内已经有成千上万的特斯拉车主体验到了特斯拉的 FSD beta 软件的最新 10.0.1 版本。MIT 在一份题为《围绕特斯拉 Autopilot 引发的注意力涣散的自然扫视行为模型》的报告中表示，当车主启动 Autopilot 功能时，注意力集中度会出现快速下降。这份报告对波士顿地区 290 余位 Model S 及 Model X 车主开展了为期一年以上的持续追踪。

9月16日，火山引擎在北京举办了“火山引擎增长沙龙-人工智能专场”活动

9月16日，火山引擎在北京举办了“火山引擎增长沙龙-人工智能专场”活动。会上，火山引擎AI解决方案、智能视频编辑解决方案等部门的相关负责人分别讲解了火山引擎AI业务线如何为用户内容创作进行赋能以及火山引擎在智能视频编辑领域的四大优势。

在音视频基础编辑方面，据火山引擎智能视频剪辑负责人介绍，火山引擎的多轨编辑器可以实现在轨道区对每一个素材的加入都有可视化的界面，可以对它的每一段特效进行编辑；火山引擎的视频合拍最早用在抖音产品中，可以将两个视频合成一个视频，在同一个页面显示；在单帧识别方面，则可以做到对图像进行精细到1帧上的处理，帮助用户打造更为出色的视频作品。

前沿趋势|美国发布35页科技趋势报告
该报告是在美国过去五年内由政府机构、咨询机构、智囊团、科研机构等发表的32份科技趋势相关研究调查报告的基础上提炼形成的。通过对近700项科技趋势的综合比对分析，最终明确了20项最值得关注的科技发展趋势。该报告的发布：一是为了帮助美国相关部门对未来30年可能影响国家力量的核心科技有一个总体上的把握。二是为国家及社会资本指明科技投资方向，以确保美国在未来世界中的战略优势。

插图源自Pexels

音视频技术开发周刊 | 214

LiveVideoStack

引用和评论

AIGC时代下阿里云视频云媒体内容生产技术实践

三分钟掌握视频剪辑 | 在 Rust 中优雅地集成 FFmpeg

2025版 RTC、直播、点播技术对比｜腾讯云/即构/声网如何选型

三分钟掌握音视频处理 | 在 Rust 中优雅地集成 FFmpeg

三分钟掌握视频分辨率修改 | 在 Rust 中优雅地使用 FFmpeg

X-CMD 智能搜索微信公众号上线！

CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛全球第一