头图
Boxing的制胜关键是快、准、稳,与“音视频开发”有异曲同工之妙。

数字化浪潮席卷、视频化形态加速、终端性能挑战加剧、端侧算力遭遇瓶颈......

是否存在一种可能性,让所有企业从复杂的音视频开发工程中抽身,重新回归业务本身?

一站式音视频服务如何获取?冗长繁琐的SDK接入流程怎样简化?能否在降低开发门槛的同时,依然掌握主动权?

场景智能,会是下一个风口吗?

面向场景建设音视频技术能力,如何释放更多“数字生产力”?

应对多样化,音视频终端套件如何满足“千行千面”?

本文由IMMENSE、「阿里云视频云」媒体服务应用端负责人洪炳峰和LiveVideoStack策划、采访而成。

01 掀开数字化浪潮的一面

当谈论行业数字化时,我们在谈论什么?

过去几年中,行业数字化建设如火如荼。

据权威数据,65%的行业数字化信息来自视频,另外,还包含5%的音频信息。不得不说,音视频技术对于行业数字化来说,至关重要,而音视频数字化也正是行业数字化的先行之态。

昭然可见,承载于云计算的音视频技术,正向各行各业加速渗透,从消费互联网,转向教育、医疗、金融、零售等传统行业,产业互联网纷纷掀起音视频数字化风潮,远程监考、远程医疗、制造监控......视频化早已是万象之风。

更关键的是,这些新场景的涌现,在不停催生对音视频能力的新诉求。显然,行业音视频数字化,不再单纯依赖某几个单独的PaaS原子能力,而更需要音视频能力的有机组合。

于是,场景化的音视频方案,迫在眉睫。

我们发现,随着音视频应用场景深化,对“多SDK”的需求逐渐成为“标配”。

往往一个音视频场景,需要不同SDK协同运作,如直播推流+播放,短视频拍摄+播放,直播+RTC实时互动等,但,动辄数月起步的开发周期让众多企业望而却步。

当然,不只是开发周期一个痛点。所以,当我们在谈论行业音视频数字化时,谈的是众多痛点的攻破。

音视频开发,需要一套有力的「组合拳」?

面对庞大的音视频开发工程,企业落地的痛点显而易见:

音视频开发门槛高。

音视频看似常见,却是一个专业度极高的领域,尤其在端侧开发更需要丰富技术经验,而音视频人才又相当紧缺,企业大多都无此储备。

多SDK接入复杂。

每个SDK都需要分别对接、分别授权,且SDK接入能力的原子化,更提升了多SDK互相适配的难度。

海量设备兼容困难。

在行业视频化进程中,更多“轻量化”需求随之而来,Web/小程序等端形态在很多场景下愈发关键。如何保障海量多端设备的SDK兼容性,也变得愈加困难。

基于这些行业趋势和挑战,企业的音视频诉求可总结为:高易用、高性能、场景化、多端化的多SDK组合及方案。

直面音视频数字化浪潮,想要解穴所有痛点,一套Media“组合拳”亟需引入,以便让更多企业走出“音视频开发困境”,重新将视线对焦自身的业务逻辑。

02 重新定义「高易用」

MediaBox,音视频开发的百宝箱?

为了彻底解决音视频开发痛点,阿里云视频云推出MediaBox音视频终端一体化套件,作为媒体开发利器,可以助力企业加速音视频数字化进程。

MediaBox,顾名思义,是一个包罗万象的音视频魔盒,核心包括一体化的音视频终端SDK和一系列面向不同场景构建的AUI Kits低代码方案。

MediaBox音视频终端SDK,以统一的技术底座,让所有音视频SDK在一体化架构下深度融合,实现完全自由灵活组合的同时,将Size极致化降低。同时,打通多端底层架构,实现多端一体化,做到一套代码多端复用,目前已覆盖iOS、Android、Web、Win、Mac等端。

MediaBox低代码开发AUI Kits,是包含UI的低代码集成方式。在SDK基础上,AUI Kits封装了场景化的UI实现,并配套实现App Server与UI联动,整体构建了端到端的场景化方案。

依托于阿里云视频云强大的PaaS云服务和底层网络技术,MediaBox就如同一只百宝箱,可对音视频能力随取随用、自由组合,而且Size薄如蝉翼,轻松应对行业音视频数字化中的各种疑难杂症。

谁来掌握开发主动权?

音视频终端套件的易用、便捷、高效是基础。而MediaBox通过SDK灵活组合、AUI Kits低代码接入、开源开放、支持二次开发,刷新了对「高易用」的定义。

➤ SDK简易又灵活

MediaBox提供超过15种的SDK组合形式,根据应用场景的不同,可自由选配相应音视频能力的SDK,并且只需对接一次,经过一次License授权即可使用,极大简化SDK接入流程。

➤ AUI Kits小时级上线

作为音视频服务的端到端方案,AUI Kits将多SDK和云PaaS能力进行场景化封装,打包输出场景功能组件和相对完整的UI实现。

通过“低代码”方式快速接入并跑通,可将月/周级的集成时间缩短为小时级,大大降低了企业的接入成本。企业无需关心音视频SDK的复杂逻辑和最佳实践,而能更专注于自身的业务实现。

➤ AUI Kits开源开放、个性定制

除支持敏捷开发外,AUI Kits还在原来的低代码音视频工厂之上,进行全新升级:

提供开源开放的UI和App Server源码,允许客户二次开发,自定义打造品牌标识和视觉风格,实现个性化业务定制,让企业在降低开发门槛、缩短开发周期的同时,依然能够掌握开发主动权。

相对以往低代码音视频工厂追求的更快速之上,MediaBox更聚焦高度的灵活和易用。

值得一提的是,AUI Kits方案当前是免费的,企业只需为PaaS能力付费,即可拥有接近SaaS的接入体验,享受PaaS的低成本优势。

“高易用”的音视频开发工具正在被重新定义。MediaBox以灵活、快速、敏捷、个性化、低成本的方式,助力企业一站式极速获取音视频能力。

03 不止「工具」

在「高易用」之上,工具的另一项使命是?

音视频开发工具,既要保证接入前的“高易用”,也要满足接入后的“极致好用”。

企业对音视频的期待是高流畅、低延时、超高清、强稳定、低成本。

基于此,MediaBox以高可用的稳定性体系,统一的数据指标体系、完善的自动化测试体系,不断优化音视频终端基础性能和核心指标,为客户提供极致体验。

为了保证线上的高效运维,MediaBox还建设了端到端的全链路排障工具,通过智能分析,快速定位问题出现的链路节点,更快发现、排查和解决问题。

同时,云和端的深度融合,让音视频的“极致好用”更上一层楼。

结合底层网络,AI技术以及云端处理能力,阿里云视频云打造了云端一体、端到端、全链路的整体方案,满足不同客户的音视频场景需求。

正如MediaBox与多元融合流媒体传输网络MediaUni的“强强联手”,能为客户提供从5-6s的普通直播,到1s以内延时的超低延时直播RTS,再到60ms的元渲染业务支持,不同端到端延时选择,满足企业的多样化业务需求。

拥有“场景智能”的工具,才是未来 ?

随着AI大模型的发展,一些轻量化模型在终端运行也将成为必然趋势,AI模型在行业化的落地过程中,会衍生出更多端智能能力

而MediaBox在场景化实践中,同样基于端智能技术,不断创新突破。

例如,在播放器SDK中,智能预加载会利用智能算法,基于当前网络状况、用户滑动行为、历史播放行为等信息,动态控制预加载缓存、内存缓存大小,可以节省预加载流量,提升预加载内容的使用效率,达到成本和体验的极致平衡。

随着更多场景的深入,MediaBox将进化出更多场景智能能力。

例如,在远程教学一对多场景中,学生专注度下降导致教学效果差,是远程教学的永恒痛点。

在此背景下,MediaBox推出专注度智能检测SDK,能够实时检测学生的状态变化,将学生的专注度反馈给老师,帮助老师及时感知学生上课情况,提升整体教学效果。

场景智能,为业务赋能带来了更多可能性。音视频终端套件,不止是单纯的开发工具,更是行业的创新型端口,以最轻量的方式,赋予场景全新的数智化能力。

04 万象世界,一“器”当先

开发工具,可以满足“千行千面”?

“行业数字化”高歌猛进的背后,是对行业场景的深刻理解。

回顾音视频技术发展历程,音视频在互娱行业中发展壮大,场景相对简单且成熟,对音视频能力的要求也相对通用。

当音视频向更多传统行业渗透时,由于传统行业由一个个不同场景构成,各场景特点不同且具备明显的行业属性,因此,面向不同行业、不同场景、不同特点,来建设一体化的音视频能力,才能更好满足行业数字化需求。

目前,阿里云视频云已针对不同行业场景,推出MediaBox多场景AUI Kits方案和多SDK,包括直播场景的娱乐直播、电商直播、企业直播,互动场景的远程监考、互动课堂,通信场景的语聊房、KTV以及点播场景的短视频、长视频等。

➤ 在教育行业,为远程教学场景而生的互动课堂AUI Kit方案,支持学生专注度智能实时检测,1万+学生实时白板互动,50+实时连麦,10万+学生实时观看,满足大班课、公开课等场景需求。

➤ 在零售行业,各大零售商都在尝试建立私域流量池,或自建APP进行直播带货。电商直播AUI Kit方案,提供丰富的互动直播功能,支撑多家企业从0到1快速构建直播电商业务。

➤ 在汽车行业,新车发布场景广受关注,企业直播AUI Kit方案,助力企业快速搭建直播间功能,打造面向全球车友的重磅新车发布会直播,并保障数十万并发下的优质播放体验。

➤ 在数字阅读行业,除传统文字阅读之外,把文字剧本转为短剧播放成为新风尚,短视频AUI Kit,基于点播场景的能力诉求,设计与实现了一站式短视频制作播放解决方案。

➤ 在沉浸式场景,VR全景播放SDK,采用FOV的方式传输音视频数据,可以在提升流畅度的同时,降低带宽成本,同时结合空间音频,实现极致的沉浸式音视频体验。

可以看到,MediaBox的超能量正在向众多场景释放,而更多行业、场景正需要这样的音视频数字化加速“利器”,以打开新的机遇和空间。

云上艺考,是教育数字化的缩影?

阿里云视频云远程智能监考方案,可作为“音视频数字化”在教育行业有效探索中的一个缩影。

随着“艺考热”的持续升温,组织大规模线下考试不仅需要投入大量人力物力,还需要考生承担长距离线下赴考的时间、经济成本,而很多艺考生往往需要短期奔赴多个学校,这更加剧了负担。但“线下”对于“艺考”这一特殊类型,是惯例的必要。

MediaBox的场景方案,让所有的艺考生都不必应对这样的苦楚。

阿里云视频云通过远程监考AUI Kit方案,联合生态伙伴搭建远程监考平台,成功支撑中国美院今年的本科“云上艺考”,强稳定保障海内外4万+考生顺利完成线上艺考。

以低代码方式快速集成,远程监考AUI Kit方案提供监考端和考生端的开源组件、架构设计指南,大大降低接入门槛。在端侧覆盖上,覆盖iOS/Andriod、网页、钉钉应用和微信小程序多端,保障远程监考场景下的“高易用”。

基于全球3200+节点的底层网络,以及强大的媒体处理能力,远程监考平台可承载10万+考生同时在线,实现监考端视频延时1.5秒内、1对1通话延时400ms内,全方位满足高可靠、高并发、低延时、高清晰度的“极致好用”。

同时,在这样的云考试场景中,也蕴育出新的“场景智能”,阿里云视频云就此开发推出智能防作弊SDK。

相比传统防作弊,是在云端分析视频截图,分析量大,耗时久,成本高。而智能防作弊SDK,是在端侧实时检测,包括人体行为检测、电子产品检测、衣服检测、环境检测等,快速上报,速度更快,成本更低,目前已覆盖Android/iOS/Web等多端设备。

艺术类考试与其他线上机考不同,要求将主机位画面囊括整块画板以及考生侧脸,但机位不同产生的算法调优会更为复杂。而智能防作弊SDK以原子化接入的方式,提供多种端侧实时检测能力,并可根据不同考试场景需要,动态开启、灵活选用,定制化满足线上考试的诸多场景类型。

正是源于对行业音视频场景的深度理解,才能革新解决行业痛点和打开场景新空间。

MediaBox走向更广的行业场景、探入更深的场景能力,未来离不开与行业生态伙伴的共同创造。此次LiveVideoStackCon,阿里云视频云也将发布新的生态合作计划,期待与更多生态伙伴携手,打开行业音视频数字化的万象世界。

作为加速“利器”,MediaBox如何实现行业音视频数字化的新升级?

7月28日下午

LiveVideoStackCon2023上海站

阿里云视频云专场

阿里云智能资深技术专家带来演讲

《MediaBox:行业音视频数字化再加速》

释放音视频场景的“数字生产力”!


CloudImagine
222 声望1.5k 粉丝