每周一期,纵览音视频技术领域的干货。
新闻投稿:contribute@livevideostack.com。
小提示:链接跳转仅支持公众号相关链接

准确评估音画质量,七牛云将发布音视频质量分析系统——对话七牛云陈辉
近些年来,随着音视频的不断普及,终端用户对于音视频的质量要求越来越高:从最初的通话、观看流畅,到现在对音视频画质的高清需求及节省流量诉求。日益高涨的用户需求,将给音视频技术领域带来哪些挑战?如何更加客观、准确地评估音视频音画质量?未来音视频领域还会发生哪些大的变化?LiveVideoStack近期采访了七牛云直播与实时互动技术总监陈辉,和他一起讨论了七牛云视频质量分析的具体情况、优势与挑战,音视频的未来发展等问题。
赋能普通用户,面向专业级的视频内容制作技术
随着人们对视频的依赖程度日益增长,对专业级视频内容的制作要求、批量制作视频的需求也在不断提高。在制作视频中,如何即保证效率,又保证效果;即有模板支持,又能自由化的搭配设计。对此,LiveVideoStack采访了视杏科技CEO——李志强(节子),一同聊一聊在视频设计中视杏科技为用户提供了哪些赋能方案。

淘宝直播低延迟架构演进和实践
本文根据杨宽(阿里巴巴淘系技术 音视频技术专家)于 2021 年 6 月 26 日举办的 ECUG Meetup 第 1 期 | 2021 音视频技术最佳实践·杭州站上的分享整理而成。本文将从传统直播技术痛点、低延迟架构演进、互动体验升级和关键技术四个方向展开。

ICME2021:基于VVC的角度加权预测
加权预测是视频编码的重要技术,但是传统的固定权重无法满足两个物体斜边的处理。现存的方法计算逐像素的权重需要大量计算,它要为每个像素计算它到分界线的距离。本文利用角度预测生产每个像素的权重,复用了帧内预测的逻辑来简化计算。
DVB 为先进的 4K 和 8K 广播和宽带电视铺平道路
DVB初步确定的三个下一代候选商业视频编解码器为先进4K、8K广播宽带电视做准备,分别是AV1、AVS3、VVC。目前将开始评估候选视频编解码器的技术合规性以及制定 DVB 规范草案的工作。

直播时代的下一个江湖
1993年6月24日,一个由施乐公司的科学家和工程师组成的乐队Severe Tire Damage向互联网直播了他们的演出。他们成为第一个通过互联网直播表演的乐队,而这次演出正是通过施乐公司研发的MBone网络发布的。
基于 Nginx 和 FFmpeg 搭建流媒体服务器
实时流式传输可以解决顺序流式传输无法快进的问题,它与Http流式传输不同,它必须使用流媒体服务器并 且使用流媒体协议来传输视频,它比Http流式传输复杂。常见的实时流式传输协议有RTSP、RTMP、RSVP 等。
论文推介:语音合成中可见和不可见语音风格的迁移
论文提出了一种新的针对训练数据中见过的和未见过的语音风格迁移方法,利用不相交的多风格数据可以有效地实现见过的和未见过的风格的风格迁移。

直播时各种背景是怎么实现的?聊一聊虚拟背景背后的技术
2020 年一场突如其来的疫情闯进了我们的生活,上网课、在家办公逐渐成为了一种常态,为了更好地保护用户隐私、提升用户体验,各大在线办公软件相继推出了虚拟背景功能,营造学习、办公氛围的同时,又能避免家中环境不够正式的窘境。那么今天我们就来说道说道虚拟背景的相关技术。
高光谱成像技术的介绍
高光谱成像技术的应用价值已在一些非民用领域得到了证明,但仍存在一些限制其推广进入更多领域的困难,主要有:1)高光谱相机系统复杂、成本高;2)体积大重量沉;3)使用体验是否便捷。
ICCV 2021 | Vision Transformer中的相对位置编码
相对位置编码(RelativePosition Encoding)能够显式地对Transformer输入序列中,任意两个Tokens的位置关系进行建模。近来,中山大学与微软亚洲研究院的研究人员回顾了先前相对位置编码的相关工作,针对Vision Transformer,提出了简单且轻量的二维相对位置编码。
基于深度学习的图异常检测技术综述
本文首先对图上的异常定义做了全面的分析, 然后详细介绍了基于深度神经网络的图表示学习方法, 接着从静态图和动态图的角度出发,对现有基于深度学习的图异常检测方法进行系统地总结和归 类,并讨论相关方法的局限性。

支持动态变焦,剑桥大学基于LiDAR的全息HUD方案解析
为了进一步提升AR HUD的体验感,由剑桥大学、牛津大学、伦敦大学学院的科研人员组成的团队研发了一种,基于LiDAR和全息技术的AR HUD方案。据悉,该方案并未采用向前挡风玻璃投影的形式,而是将AR图像直接投影到人眼中,好处是视场角更大,支持动态变焦,不过需要对人眼的位置进行校正。

浅谈自动驾驶中的行为风险识别(一)
我们可以通过一个比喻来解释什么是行为风险识别:自动驾驶的机器大脑在参加一场考试,他遇到一道难题,在两个答案之间犹豫不决。尽管这道难题他不会做,但我们可以通过许多方式得知他“拿不准”这件事本身,例如题目描述的场景复杂或者之前不熟悉,并进一步针对这道题目请求“人类教练”的帮助。
IROS 2021最新开源!深度学习三维激光雷达动态物体分割
本文介绍的是德国波恩大学在读博士陈谢沅澧的最新工作。该方法的论文,代码,数据集以及视频都已经公开。
用于自动驾驶三维目标检测的从二维提升到三维的学习方法
文章解决了自动驾驶场景中从二维单目图像中提取三维目标的问题,提出使用基于学习的神经网络将二维图像提升到三维表示,并直接利用现有工作在三维上的神经网络来执行三维目标检测和定位。
SSC:基于点云语义上下文的大规模激光SLAM的位置识别方法
本文提出了一个新的全局描述子,点云语义上下文信息,它可以更有效地挖掘语义信息来表示场景,本文还提出了一种两步全局语义ICP算法来获得三维姿态(x,y,yaw),用于点云的对齐以提高匹配性能,我们在KITTI数据集上的实验表明,我们的方法比现有的方法有很大的优势。
推荐阅读
W3C Web 中文兴趣组 · 沉浸式 Web 线上研讨会
本次线上研讨会对WebXR相关的工作进行了一个比较深入的讨论,从新的内容呈现形式、内容制作的方式到产品硬件的一系列设计考量,包括跨平台的一些考虑,从工业界到学术界都进行了一些深入的研讨,碰撞出一些新的想法和潜在的标准机会。
https://www.w3.org/2021/07/ch...
专访扎克伯格:万字解读Facebook为何将转型为元宇宙公司
六月末,Facebook CEO马克·扎克伯格向员工介绍了一项雄心勃勃的新计划。根据这项计划,该公司的业务范畴将远远超出当前的一系列社交应用以及相关的硬件项目。他说,Facebook将打造一套包罗万象、互联互通的科幻体验集合,简言之,即打造一个被称为元宇宙的世界。
活动推荐

【免费报名】挑战与机遇同在,大步迈进全真互联网时代
随着云计算的普及与高速发展,5G网络、VR技术的日益成熟,我们正向着全真互联网时代大步迈进。伴随着新时代的到来,“元宇宙”、“沉浸式”等概念横空出世,挑战与机遇同在,我们不得不思考,哪些行业、产品和商业模式将最早受到全真互联网的影响?
腾讯云音视频基于在音视频领域21年的积累,构建了全球领先的RT-ONE™音视频通信基础网络、完整的音视频PaaS平台及终端SDK产品矩阵,10月29日 | 北京,LiveVideoStack联合腾讯云共邀5位技术大牛,将为大家带来全新all in one终端引擎、跨平台能力、海外直播技术、云渲染技术、多媒体处理等技术的最新动向。
⏰ 活动时间:2021/10/29 14:00-18:00
🚀 参与方式:线下参与 (扫描上图二维码,立即免费报名~)

【免费报名】从多维度出发 保障&提升实时音视频质量
10月30日 | 北京 LiveVideoStack将携手七牛云共邀4位技术大咖,围绕着实时音视频场景下,七牛云如何从多个维度来保障和提升音画质量展开。我们所理解的音画质量,不仅包括最基础的服务质量,还包括我们的观感体验,本场将会从服务端、客户端、编解码等多个领域展开,对保障和提升音视频质量相关的经验进行分享。
此外,我们还会发布七牛云音视频质量分析系统,更客观专业得对音画质量进行评测和优化。
⏰ 活动时间:2021/10/30 9:30-12:00
🚀 参与方式:线下参与 (扫描上图二维码,立即免费报名~)
插图源自__Pexels
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。