人工智能 - 人类视觉神经科学助力音视频产业革命 - 弱网下的极限实时通信 - RTC 实时音视频

人类视觉神经科学助力音视频产业革命-弱网下的极限实时通信

一、什么是弱网?

1.1 弱网概念

弱网从字面意思看就是网络比较弱, 我们通称为信号差, 网速慢, 随着移动互联网火热发展的这些年, 大量用户会在地铁, 隧道, 电梯和车库等特殊场景下使用移动端 APP 。这些场景下, 网络会出现延迟、中断、抖动、超时等情况。

1.2 网络形态

网络形态包含有线连接, 2G/3G/4G/5G/Edge/Wifi 等多种网络连接形式, 从测试的角度说, 也包含断网, 网络故障等情况, 对于弱网的数据定义, 不同的应用所界定的含义也是不一样且不清晰的, 一般来说低于 2G 速率的都属于弱网, 也可以将 3G 划分为弱网, 除此之外, 极低宽带 < 50kbps, 弱信号的 Wifi 等也是弱网。

1.3 研究背景

有一些特殊场景, 例如 : 森林救灾, 边防监控, 等场景, 这些场景往往关乎国家安全与生命安全, 更加需要严苛的实时通信, 但是这些场景依赖的基站往往会受到自然因素的干扰, 例如地震等自然灾害。

二、尝试了哪些技术尝试?

2.1 AI 控制

在观看直播过程中听到马老师提出了一个新的概念, 人眼在感知图像的时候, 处理大概是 100B/s, 然后通过视网膜上的细胞进行分离之后, 大概压缩了 100 倍, 然后经过一系列的细胞处理, 最后只有大约 40b/s, 并且人眼关注的区域分辨率相对高一点, 人眼不关注的区域相对分辨率就低一点. 并且人眼对于某些区域, 某些颜色特别的敏感, 叫做注意力机制。

传统的流控技术在进行音视频编码和传输的过程中往往无法根据具体的网络环境选择适合的算法和码率控制, AI 控制模块(相当于人脑)会收集视频会话经验(人眼关注的东西), 包括视频编码器、接收端的编码状态、网络、播放状态, 根据这些特征, 对抗网络波动, 作出编码参数的设置决策。

2.2 强化网络主动决策(压缩和融合)

根据不同用户, 也就是播放端进行一种个性化的丢帧, 但整体感观并不会有大差异, 这项技术利用的是多帧视频时空一致性原理, 基于人的细胞对于不同的图像的特征敏感度不一样这一现象, 有些细胞对于颜色敏感, 有些细胞对于运动敏感, 有的细胞对于方向性比较敏感, 有些细胞对于纹理比较敏感, 所以人的大脑对所感知到的音视频信息并不是像解码器一样一个 bit, 一个 bit 来解码的, 而是部分解码的, 所以, 对于任何一个视频输入结构, 主要拆分成两部分, 一部分用来存储空间上纹理细节的保留, 另一部分对于运动的细节不是那么敏感, 所以另外一路空间就可以不用占用那么高了。当然在融合和重建的过程中, 还需要智能学习进行补偿和转化。所以最后输出的音视频感觉才不会有很大差异。

2.3 基于强化学习的视频码率自适应

根据视频分类, 网络分类进行在线学习模型训练, 例如, 大部分男生喜欢游戏类视频, 大部分女生喜欢淘宝购物类视频, 不同分类视频所返回的视频码率和精度不同, 基于此提出, 能否对不同类型的视频进行模型训练, 用户端在播放不同类型的视频时会选择不同的算法。基于在线学习平台相对于离线模型效率有一定的提升。

三、个人感悟

3.1 有哪些具体的弱网环境应用落地场景(1 药网/重庆 120 急救)

1 药网是在疫情期间紧急开辟了面向武汉的免费线上问诊通道, 并以将范围扩展至湖北省全境, 视频问诊, 电子处方和远程买药功能采用了声网 Agora 的实时音视频技术,在视频问诊的场景中, 由于医生与患者处于不同的网络环境, 以上所说的弱网环境均有可能出现, 在这些环境下, 声网 Agora 具备优秀的弱网传输和抗丢包算法, 依然可在 60%的丢包情况下保障音视频流畅, 70%的丢包网络环境下保障语音的流畅。

120 急救则是通过视频远程指导+急救教学视频指导, 真正做到了为生命争取机会和时间。但是同样患者有可能处于弱网环境中, 如何保证音视频传输质量, 依然尤为重要。并且, 急救更讲究争分夺秒, 并且要保证连通率, 接通失败则可能意味着耽误急救, 根据官网数据资料显示声网在全球有超过 200 个数据中心, 基于此搭建的软件定义实时网, 在网络较差的环境下, 也能保证稳定可靠, 高质量的传输和 99.9%的高连通率。

3.2 心得体会

业务形态在变, 技术必须跟上, 原本以为, 随着技术的不断发展与进步, 例如 5G, GPU, 芯片等硬件设备的更新升级, 对于软件研发人员来说, 可以忽略网络抖动或者硬件环境的制约, 更加不会想到, 是否会有一天自己开发的软件可能需要运行在一个比较苛刻的环境之中, 或者, 所提供的服务, 用户用用的设备太老不兼容等情况, 所以, 平时很不注重代码的健壮性, 能用就行, 凑合用着, 这些习惯竟然已经不知不觉潜移默化影响了我, 不知道有没有同学是像我一样, 有则改之, 无则加勉。

之前对于音视频的概念一直停留在比较传统的编解码, 直播拉流, 视频点播等常见应用之中, 并没有深思, 每一个用户所在网络环境的差异化; 所以说研究弱网下的极限视频通信并非吹毛求疵, 其有很重要的现实意义, 大到国防安全, 小到人民生活的方方面面。

人工智能风口下, 结合 AI, 以及人类视觉神经科学, 音视频领域也可借一把东风, 寻求技术的突破与革新。除此以外, 个人认为, 如边缘计算, 雾计算等概念的兴起与应用, 缩短了用户与服务之间的距离, 以前多在中心节点部署服务, 现在以微服务的方式部署会更加高效, 比如 WebRTC 的服务到边缘节点。除此之外, 边缘节点部署服务成本更低, 节省带宽。

人类视觉神经科学助力音视频产业革命 - 弱网下的极限实时通信

一、什么是弱网?

1.1 弱网概念

1.2 网络形态

1.3 研究背景

二、尝试了哪些技术尝试?

2.1 AI 控制

2.2 强化网络主动决策(压缩和融合)

2.3 基于强化学习的视频码率自适应

三、个人感悟

3.1 有哪些具体的弱网环境应用落地场景(1 药网/重庆 120 急救)

3.2 心得体会

RTE开发者社区

引用和评论

ElevenLabs 新 TTS 模型支持音频标签；NotebookLM 前产品经理新项目曝光：将邮件日历新闻转为互动音频丨日报

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略

常见的 AI 模型格式