音视频技术开发周刊 | 201 - 个人文章

每周一期，纵览音视频技术领域的干货。
新闻投稿：mailto:contribute@livevideost...。

小提示：链接跳转仅支持公众号相关链接

随着时代的发展，人们越来越不满足于屏幕画面有限的色彩，开始研究如何让画面与现实世界更加相似。本次LiveVideoStackCon 2021上海站大会我们邀请到了快手音视频技术部的章佳杰。他以几个小故事作为引子，来分析照片无法完美重现现实世界的原因，并分享关于HDR高动态范围视频干货。

OneVPL与FFmpeg/GStreamer硬件编解码器

相对软件Codec来说，人们对硬件Codec的应用并不太熟悉。本次LiveVideoStackCon 2021 上海站大会我们邀请到了来自英特尔的媒体工程师——许广新，来为我们分享Intel在硬件编解码器中的最新研发进展。

IETF访谈：HTTP/3全球份额持续增长，QUIC前景一片光明

本篇文章为IETF近期对Lucas Pardue 关于QUIC标准化工作的访谈。作者为IETF Blog 记者Grant Gross。

HTTP 请求之合并与拆分技术详解

本文进行了一个简单的实验，尝试通过数据来分析 HTTP 中的合并与拆分，以及并发请求是否影响其他请求。

VVC快速仿射运动补偿

VVC采用多类型树（MTT）进行块划分，提供了更灵活的块划分方式，但是也极大的提高了复杂度。在此基础上的仿射运动补偿（AME）更加增加了复杂度。论文通过提取特征有效的反映MTT和AME的统计特性，并利用这些特征冗余的AME过程节省AME处理的时间。

中科大的AI图像/视频编解码综述

论文来自中科大的团队，回顾了使用深度学习进行图像/视频编解码的代表性工作。

https://zhuanlan.zhihu.com/p/...

微信小游戏直播 — Android跨进程渲染推流实践

微信小游戏出于性能和安全等一系列考虑，运行在一个独立的进程中，在该环境中不会初始化视频号直播相关的模块，这就意味着小游戏的音视频数据必须跨进程传输到主进程进行推流，给我们实现小游戏直播带来了一系列挑战。

思科Webex与下一代视频会议

视频会议在人们的日常生活中使用愈发频繁，尤其是在新冠肺炎疫情的影响下视频会议市场急剧增长，由此引发了思科网讯视频技术的不断更新。本次分享，我们邀请到了思科协作技术事业部的首席工程师Thomas Davies先生，他向我们分享了AV1的发展历程，开发AV1时所受到的挑战，以及AV2的发展前景及其在实时通信中的作用。

VideoLab - 高性能且灵活的 iOS 视频剪辑与特效框架

VideoLab 是开源的，高性能且灵活的 iOS 视频剪辑与特效框架，提供了更 AE(Adobe After Effect)化的使用方式。框架核心基于 AVFoundation 与 Metal。

音视频同步原理与实现

本文主要描述音视频同步原理，及常见的音视频同步方案，并以代码示例，展示如何以音频的播放时长为基准，将视频同步到音频上以实现视音频的同步播放。

AliCloudDenoise 语音增强算法：助力实时会议系统进入超清音质时代

近些年，随着实时通信技术的发展，在线会议逐渐成为人们工作中不可或缺的重要办公工具，据不完全统计，线上会议中约有 75% 为纯语音会议，即无需开启摄像头和屏幕共享功能，此时会议中的语音质量和清晰度对线上会议的体验便至关重要。

Facebook 新成果：用于语音识别、生成和压缩的自监督表征学习的 HuBERT

为了在音频中对这些类型的丰富词汇和非词汇信息建模打开大门，Facebook推出了 HuBERT，这是一种学习自监督语音表征的新方法。HuBERT 与 SOTA 方法在语音识别、语音生成、语音压缩的语音表征学习方面相匹配，甚至超过了 SOTA。

视频质量评价：挑战与机遇

本文整理自鹏城实验室助理研究员王海强在LiveVideoStack线上分享上的演讲。他通过自身的实践经验，详细讲解了视频质量评价的挑战与机遇。

使用高级视频质量工具 AVQT 评估视频

本文根据 Pranav Sodhani 在 WWDC 2021《Evaluate videos with the Advanced Video Quality Tool 》主题分享翻译。Pranav Sodhani，来自 Apple 显示和色彩技术团队，在算法开发、机器学习、色彩科学和视频技术方面具备专业的知识。

全球首个开源图像识别系统上线了！

说到图像识别相信大家已经非常熟悉了，这一技术早就深深融入我们生活的方方面面，小到人脸解锁、支付、打卡、酒店入住，摄像头中的违规驾驶识别，网购明星同款时的以图搜图，大到自动驾驶汽车中的驾驶辅助，医疗影像的辅助诊断，图像视频的分析、编辑、再创造等等...

二次元新玩法！生成不同风格小姐姐动漫形象，肤色、发型皆可变

一张输入人脸图像，竟能生成多样化风格的动漫形象。伊利诺伊大学香槟分校的研究者做到了，他们提出的全新 GAN 迁移方法实现了「一对多」的生成效果。

目标检测究竟发展到了什么程度? | CVHub带你聊一聊目标检测发展的这22年

目标检测领域发展至今已有二十余载，从早期的传统方法到如今的深度学习方法，精度越来越高的同时速度也越来越快，这得益于深度学习等相关技术的不断发展。本文将对目标检测领域的发展做一个系统性的介绍，旨在为读者构建一个完整的知识体系架构，同时了解目标检测相关的技术栈及其未来的发展趋势。

[](https://mp.weixin.qq.com/s?__...

《半衰期：爱莉克斯》开发者：开发VR手部交互难在哪？

近期，日本游戏网站Kotaku采访到《半衰期：爱莉克斯》手部交互开发者Kerry Davis，了解到开发该游戏时还曾经探索过哪些方向，以及哪些玩家难以察觉，却同时优化了游戏体验的细节。

[](https://mp.weixin.qq.com/s?__...

自动驾驶汽车的成功取决于遥操作

遥操作（teleoperation）技术是一种达到人与被控对象之间远程交互的技术手段。遥操作的控制端在本地，其执行端在本地无法直接感知的远程空间某处。这一技术目前多用于机器人。遥操作通常来说其实就是远程操作。在自动驾驶汽车方面，遥操作技术也是大有可为的。因为目前来看，至少在未来 10 年到 20 年，自动驾驶完全无人化是不可能的，还是需要人类介入。目前世界上的核电站管理或飞机驾驶，都有人的介入，而不是百分之百靠人工智能操纵的。

CVPR 2021 | 特斯拉纯视觉自动驾驶最新进展

在 CVPR 2021 自动驾驶 Workshop 上，特斯拉 AI 总监 Andrej Karpathy 讲述了特斯拉纯视觉包括 Autopilot 和 FSD 的最新进展。

活动推荐

_7月4日前购票享 8折优惠_，点击【阅读原文】或扫描图中二维码了解详情。

插图源自__Pexels

音视频技术开发周刊 | 201

LiveVideoStack

引用和评论

AIGC时代下阿里云视频云媒体内容生产技术实践

技术团队缺乏创新意识，如何激发创新能力？

三分钟掌握视频剪辑 | 在 Rust 中优雅地集成 FFmpeg

2025版 RTC、直播、点播技术对比｜腾讯云/即构/声网如何选型

三分钟掌握音视频处理 | 在 Rust 中优雅地集成 FFmpeg

DeepSeek 与开源：肥沃土壤孕育 AI 硕果

三分钟掌握视频分辨率修改 | 在 Rust 中优雅地使用 FFmpeg