头图

前言

直播有个人直播(泛娱乐直播)和企业直播(商业&商务直播)之分;个人直播的投入成本低,一部手机便可以随时随地开播,且各直播App有足够多的直播辅助工具来协助开播,对增值服务需求不高;企业直播讲究规范,有专门的直播间,投入的人力物力很大,直播影响面广泛,对专业的直播硬件,PaaS,SaaS等软件服务以及运营指导,售后服务等多种增值服务都有明确诉求,故本次分析基于TO B的企业直播业务展开。

作者:秦宓

1.直播市场调研

背景

全世界的经济因疫情不断放缓,企业竞争激烈,企业开源节流,降本增效的核心诉求越来越强,而数字经济也在快速发展,逐渐成为新的经济增长动力;企业直播能推动企业的生产,经营等多个环节的价值提升,控制和节约成本,帮助企业传播,触达更多的用户,从而加速企业的数字化转型。

image.png

资料来源:艾瑞咨询《2021年中国企业直播服务行业发展研究报告》

直播参与方

  1. C端用户:信息获取,休闲娱乐,购物等;
  2. B端企业:培训,会议,运营,营销等;
  3. 直播服务商:直播硬件,软件,云服务,数据服务,营销服务,办公协同等。

B端企业的直播场景

从教育,金融,汽车,医疗,互联网,传媒,家居,地产等多个垂直行业,从几十人的小企业到上万人的大型企业,企业直播都在快速应用;企业直播有对内,和对外双重需求;对内主要进行企业培训,会议会展,企业宣传;对外进行产品介绍,赛事直播,电商带货等。

B端企业对直播的诉求

相比于公有云,企业更希望融合了公有云和私有云的混合云模式,在获取公有云的低成本功能迭代和稳定性能的同时,保持对业务定制的能力;兼具PaaS和SaaS特性的aPaaS服务能更好地满足企业搭建直播系统的需要(甚至是企业搭建自己的视频中台),aPaaS提供的低代码,可扩展,弹性伸缩的能力让企业的直播服务可以进行更好地定制化;同时低延迟,超高清,高并发,高安全性是衡量用户体验的重要指标。

直播服务商的架构与生态

直播服务商提供了上游,中游,下游的一站式解决方案,同时不断地集成CRM,HRM,协同办公,数据服务等企业级服务,让直播服务与其他企业级服务产生协同效应,打造以直播业务为核心的企业服务生态。

image.png

资料来源:艾瑞咨询《2021年中国企业直播服务行业发展研究报告》

IoT定位和机会在哪?

IoT基于自身定位和技术优势,更有可能在上游提供直播所需的CDN分发,智能审核,转码,点播等基础能力,同时在中游聚焦智能化直播硬件,直播PaaS(iPaaS,aPaaS),数据分析服务等方面的研发;在生态协上集成钉钉办公服务,友盟营销服务等来为直播服务商提供有竞争力的核心能力,先TO B再TO C,输出有竞争力的核心软硬件能力来为直播服务商赋能。

2. 直播相关技术

直播相关的技术涉及到基本的设备端的推拉流以及对应协议,云端的转码,审核,水印等功能;也包含运行在设备端和云端的一些AI算法能力。

直播服务流程

image.png

  1. 主播端:采集封装好的音视频直播流被推流SDK推送到直播服务中心;
  2. 服务端:推送的视频流通过CDN分发节点进行加速,以此来保证上行传输的稳定性;
  3. 服务端:视频流推送至多媒体直播中心后,可按需对视频流进行转码,录制,截图,安全审核等处理;
  4. 观众端:处理好的视频流通过CDN分发节点下发至观众的设备中进行播放;
  5. 观众端:直播视频还可以在云端录制下来后转至点播系统提供点播服务。

多媒体框架

FFmpeg:

  • 集录制,转换,音/视频编码解码功能于一体的完整开源解决方案;
  • 支持视频采集,视频格式转换,视频抓图,视频加水印,将音/视频转化成流;
  • 可将摄像头的视频,麦克风的音频以指定格式(如FLV)来进行RTMP协议的推流;
  • 支持协议:HTTP,RTP,RTSP,RTMP等。

核心模块:

  • 读/写设备数据模块:libavdevice;
  • 音/视频编解码模块:libavcodec(codec =enCode (编码)+ deCode(解码));
  • 音/视频格式打包和解包模块:libavformat;
  • 播放器(用ffmpeg解析和解码,可以用拉流播放):ffplay。

编码(压缩处理,便于存储和传输)格式:

  • 视频:H.262,H.264,H.265(有版权);VP8,VP9,AV1(无版权);
  • 音频:MP3,AAC等;
  • 常用编码器:
    视频:libx264(H.264格式),libx265,libvpx(VP8,VP9格式),libaom(AV1格式);
    音频:aac(AAC格式)

推拉流流程:
image.png

硬件加速编解码:

  • FFmpeg通过hwaccel cuda,h264_cuvid,hevc_cuvid和h264_nvenc,hevc_nvenc模块支持硬件加速编码和解码(存在NVIDIA GPU情况下),硬件编解码器能产生与软件编解码器相同的输出,但可能使用更少的功率和CPU;
  • 硬件编解码用到GPU处理能力,省电,性能快,分担CPU压力和减少CPU发热,由于不同硬件平台的芯片性能和接口参数不一样,需要硬件厂商在硬件和软件层面做适配;软件编解码不用GPU,主要通过CPU进行的编解码,耗电,性能较差,但对各个硬件平台的兼容性强;一般的直播平台都会基于设备的具体配置做自适应来保障直播效果。

常用直播协议

RTMP(Real Time Streaming Protocol)

  • Adobe 实时消息传输协议,基于TCP长连接,支持FLV格式的连续视频流(收到数据立刻转发);
  • 低延时(1~3S),但在iOS平台上没有提供原生支持RTMP的播放器;
  • 默认使用1935非公共端口,易被防火墙阻拦,在iOS端需要使用第三方解码器;
  • 适合用在推流端和拉流端双端。

HTTP-FLV(HTTP Flash Video)

  • 基于HTTP长连接的RTMP,低延时(1~3S),支持HTML5;
  • 将音/视频数据封装成FLV格式,然后通过HTTP协议传输;
  • 结合了RTMP的低延时,以及复用现有HTTP分发资源的流式协议;
  • 实时性和RTMP相等,与RTMP比省去部分协议交互时间,首屏时间更短,可拓展的功能更多;
    HTTP-FLV一般用于拉流播放。

HLS(HTTP Live Streaming)

  • Apple视频直播技术,支持m3u8格式的切片视频流;
  • 在服务端收集一段时间的流媒体并切割,生成连续的ts切片文件,并更新m3u8索引;
  • 延迟性高(5~20S),基于HTTP短连接,需要不断地与服务器建立连接,支持HTML5;
  • 由于是基于HTTP/80传输,能有效避免防火墙拦截;
  • HLS一般用于拉流播放或者回看。

直播相关算法

直播内容审核(云侧)

  • 由于内容量巨大,人工审核成本高,AI审核可以基于鉴黄,暴力,恐怖等内容进行过滤。

个性化推荐(云侧)

  • 面向主动搜索,或场景识别的个性化推荐,基于实时兴趣进行相关内容推荐。

广告营销(云侧)

  • 基于直播视频内容,场景等进行广告推广,进行直播内容的商业化变现。

直播美颜(设备侧)

  • 直播美颜(美白,磨皮,贴纸,滤镜),美型(关键点检测,五官调整)等;
  • 设备侧算法推理需要在满足效果的情况下兼顾实时性要求,同时要适配不同的硬件配置。

3. 直播一体机诉求

传统基于手机的直播存在各种各样的问题,市面上一直有对直播一体机这样的专业智能设备的诉求,用来进行直播活动的全流程功能管控和提效。

传统直播道具存在的问题

  1. 手机直播发热卡顿,直播画面小,和粉丝互动不方便,也不能拓展到其他高端专业的直播外接设备;
  2. 配齐手机,电脑,大屏同屏器,导播台,编码器,音控台等设备进行直播,协同麻烦,操作过于复杂;
  3. 复杂的设备协同需要多人参与来进行一场直播,人力成本贵;
  4. 直播间装饰,需要设计,材料,人工等额外费用,且不能一键随意切换来改变直播间的背景;
  5. 无法同时支持多机位,多个摄像头之间无法协同工作,实现远/近景,产品特写,画中画等效果。

直播一体机可集成功能

  1. 集多功能于一体:集成导播台,编码器,采集卡,监视器,音控台,同屏器,提词器于一体;
  2. 实时抠图功能:一键可切换直播背景,免去直播间的装修;支持图片,PPT,视频作为直播背景;
  3. 多机位可切换:全景,近景,特写机位,可以多角度呈现直播的卖点;

image.png

  1. 支持多摄像头:可以支持HDMI,USB等多路摄像头接入;
  2. 支持一键开播:内置主流的如淘宝直播,抖音,快手,小红书等直播平台,可以一键开播;
  3. 多媒体接口扩展:可扩展单反,摄像机,微单,麦克风,声卡,键盘鼠标等多媒体设备;
  4. 远程OTA能力:系统,功能(包括内置App升级,新装App等),性能等升级均可远程OTA升级。

直播一体机软硬件配置

硬件设备:

  • 直播一体机(安卓系统,带CPU,GPU能力);
  • 摄像头(支持多机位)。

辅助设备:

  • 灯光,无线麦克风,绿幕抠像布。

软件套件:

  • 集成绿幕抠图, 直播贴片, 多路导播,画中画,水印,机位切换,音频/画质调节,提词器等能力;
  • 软件可拆分为基础软件包与直播高级功能辅助包。

商业模式:

  • 硬件一次性采购,软件套件可以按年收取服务费用。

由直播一体机需求到物联网设备智能化普及的进阶

由于手机直播的不足带来的直播一体机的需求,推进了以直播硬件为载体的直播一体化完整解决方案的诉求,而这还只是当前万千行业的冰山一角。目前IoT(物理网)已经在AIoT(人工智能物联网)和IIoT(工业物联网)两个方向上飞速发展;尤其是是在AIoT领域,已经渗透到社区,园区,城市,农业,商业等众多领域,并逐渐形成端,边,管,云一体化的各个细分方向的专业化解决方案。

硬件智能化便是这些解决方案的基石,被智能化的硬件本着数据就近消费,算力就近计算的原则,与边缘计算,云计算进行协同互联,推进了AIoT的加速普及;未来在端侧, 边缘侧将会有120亿的IoT设备,1500亿的嵌入式设备,而这些都将是可以智能化的沃土。
image.png

本调研从大家熟悉的直播业务出发,拆解直播一体机这种智能化硬件设备诉求和组成。这样的智能化硬件已经非常多了,如云POS机,云投屏机,电子智能秤,AI摄像头,Vlog互动屏,安防边缘一体机,商业客流分析一体机,工业瑕疵检测一体机等,会逐一对以前已有的各种设备进行一遍智慧化的改造。

IoT的时代永远不会到来,因为它从现在开始的每天都在不断地到来中,未来不管是在芯片硬件,操作系统,算法推理,数据分析,工程集成,云端监控 & 运维等都蕴含着巨量的机会,等待大家一起挖掘。

「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。

CloudImagine
222 声望1.5k 粉丝