拍乐云Pano

拍乐云Pano 查看完整档案

填写现居城市  |  填写毕业院校  |  填写所在公司/组织 pano.video 编辑
编辑

我们是专注于RTC实时通信的拍乐云Pano,红杉资本投资,思科WebEx背景。我们通过提供极简、稳定和安全的SDK服务,让你的应用轻松实现音视频通话、互动白板、互动直播等能力。在这里,我们会分享关于拍乐云Pano的最新动态、技术心得、开源 Demo,以及使用 Pano SDK 的应用实践和场景案例。

个人动态

拍乐云Pano 发布了文章 · 1月11日

拍乐云语音聊天室SDK,助力非洲版陌陌“Mochat”打造粉丝经济

近年来智能手机在非洲市场的普及率大大提高,本地化移动互联网产品稀缺的非洲,成为了社交、娱乐类产品创业的沃土。腾讯系团队Brobonds由五岳资本和非程创新战略投资(隶属于传音控股),是非洲互联网创业圈里的顶尖团队,有着丰富的移动产品和运营经验,对非洲创业有极大热情,并十分注重本地化运营。去年Brobonds推出了一款非洲版陌陌产品“Mochat”,来满足非洲用户对社交娱乐化内容的需求。拍乐云为其提供的语音聊天室解决方案,升级了非洲用户社交的方式,提升了用户的黏性,也帮助平台实现了UGC音频社区的粉丝经济。

Mochat是一款基于陌生人交友的娱乐社交平台,面向非洲本地年轻用户,以社交为核心,同时通过内容连接所有的人、资讯和服务,我们先来看Mochat主要迎合了当下互联网用户的哪些需求?

  • 交友:以兴趣和行为因子为基点,融入本土基因,通过照片墙和语音匹配的交互方式,扩大用户社交圈,让用户进行实时交流,打破传统社交的“破冰”障碍,让社交更轻松。
  • 娱乐:娱乐是95、00后年轻新世代的强需求,把娱乐与社交深度融合,通过小游戏、语音互动等方式为用户创造丰富和封闭的娱乐场景,增加社交中的趣味性和沉浸感。

基于交友和娱乐的用户需求,我们再来看看Mochat为非洲用户带来了哪些玩法?

  • 通过内容沉淀关系链:以文字、图片、视频为载体的UGC内容,根据社交关系和热门程度等排序。通过接入语音聊天室功能,将社交和内容融合,每个人既是创作者也是消费者,打造非洲本土IP。
  • 通过娱乐做好连接的放大器:在语音互动中加入对战小游戏,引入多样化互动答题活动,并增加以金币为核心的激励模式,加强用户的使用黏性,提升社交中的趣味性。

在Mochat的语音社交互动场景中,保障用户之间能够实时、稳定、流畅地交流很重要,那么拍乐云的语音聊天室解决方案是如何保障的?

1、Full Band超高音质,提供极致音频体验

在Mochat语聊房场景中,为了满足“声音控”的用户,十分注重语音的音质。拍乐云拥有业内领先的音频引擎和音频编解码,采用48kHz音频采样率,能够实现Full Band 超高音质,结合伴音、耳返、混响、立体声等功能细节,为全球用户提供高音质的语音通话体验。同时,支持码率自适应,通过静音检测技术和自适应拥塞控制算法,动态调整编码码率,最低仅 8kbps。

2、优异语音算法,保障语聊房双讲表现

在Mochat语聊房场景中,由于伴音的常态化使用,双讲下的体验变得尤为重要。我们通常说的回声的产生,是指用户在连麦交流时,扬声器播放的声音又再次录进麦克风里,而语聊房的伴音功能大大增加了回声产生基础上又伴随说话的场景(即双讲)。在消除回声的同时,需要尽量避免对于说话人语音的破坏。另外,由于市面的众多机型的不一致性,特别是安卓机,导致双讲下的保障一致性体验也是变成业界的难题。针对这一问题,拍乐云在回声消除、降噪、增益控制、机型适配等多维度联合调整来打磨优异的双讲表现。

3、全球网络覆盖,实现极速流畅的用户体验

在Mochat语聊房场景中,一旦遇到网络带宽瓶颈,就会导致时延变大,出现丢包,造成语音的卡顿和失真,影响用户聊天互动的体验。拍乐云构建了一张覆盖全球的 Pano Backbone 实时传输加速网络,由网络基建和应用层算法共同组成,保障超低时延。同时,拍乐云支持网络质量的自反馈和网络链路的自适应,全天候24小时监控 Backbone 节点之间的丢包、延时和抖动,根据实时链路的监控结果,为用户导航出一条最优路径。

受今年新冠疫情的影响,Mochat的DAU完成了数十万,语音聊天室功能的使用量也实现了几十倍的激增,很多被困在家中的非洲用户都倾向于通过Mochat与朋友们保持密切的联系,同时通过语音和娱乐的方式扩大交友圈。

Mochat创始人兼首席技术官苏家淦表示:“拍乐云为Mochat在非洲的业务扩张奠定了基础,帮我们打造更稳定的在线音频互动娱乐平台,探索音频领域内的粉丝经济效益。平台主播更容易在语聊房中维护和沉淀与粉丝的关系,实现收入变现;而平台用户的忠诚度、黏性和付费意愿也变得更强了。”

查看原文

赞 0 收藏 0 评论 0

拍乐云Pano 发布了文章 · 1月11日

拍乐云赵加雨:视频会议技术提升在线教育课堂互动体验

12月23日,由中国计算机用户协会指导,iTechClub教育专委会主办的“2020中国教育科技大会”在北京盛大开幕。本届教育科技大会以“新业态 · 新动能 · 新教育”为主题,邀请顶级专家学者、技术大咖,围绕中国教育科技的现状、发展、创新、变革、机遇等多方面问题进行深度剖析,并将以最新、最全、最优的视角,全方位深入教育本质,聚焦业态发展。

本届大会汇聚国内最为权威的教育科技领导者和创新者,吸引了好未来、火花思维、精锐教育、尚德机构、松鼠AI、VIPKID、作业帮、新东方等在内的100多家国内主流互联网教育机构的参与,议题聚焦教育信息化、科技创新、商业案例、AI大数据、云视频、数字化安全、获客增长等多个当前热度最高的技术领域与话题。作为教育行业云视频技术领军人,拍乐云创始人&CEO 赵加雨受邀出席,进行了关于“视频会议的技术要点及如何通过技术提升在线课堂互动性”的主题演讲,并在“教育音视频技术”圆桌论坛中围绕教育与音视频融合所迸发的机遇和未来,展开一场前所未有的思维碰撞。

主题演讲现场

主题演讲中,赵加雨首先介绍了视频会议技术的概要架构和核心要点。基于过去20年视频会议和云通信领域的技术经验,拍乐云锤炼出很多不一样的技术能力点。在视频通话中,可以支持视频多流、视频大小流、多路共享、多摄像头、角度矫正、会中会等。在互动白板中,可以支持画面截屏、PPT动效、音视频播放、视角跟随、透明白板、独立多白板等,能够用极少的带宽和极低的时延,还原画面的超高清晰度。

赵加雨认为影响在线教育课堂效果的三个因素是内容、课堂互动课后管理,只有做到了这三方面才是一个能提分的好产品。课堂互动,和实时音视频的技术迭代、产品创新是息息相关的,互动不光指师生互动,眼神交流,还有生生互动、生与系统互动、分组教学、游戏PK等各种场景。而视频会议技术中的很多能力都可以被很好地提炼出来,形成PaaS化的解决方案,应用在在线课堂的各种互动场景中。

  • 视频矫正和标注,美术课互动无压力

学生在画纸上绘画,摄像头对着画纸。老师可以远程将学生的视频进行角度矫正,也可以在视频上标注,实时指出绘画重点。

  • 多白板互动,独立的K12答题练习

老师使用互动白板共享课件,可以呈现动画效果,增加趣味性。当答题时,老师给每一位学生发放一块白板,学生各自答题,互不干扰。

  • 视频轮播,实现讲师轮巡互动

学生视频按照固定间隔自动轮播,老师端和学生端视图一致。老师可与学生连麦、给学生点赞、与学生互动,通过轮播及时地关注到班内所有的学生。

  • 分组讨论,调动学生参与互动

将大班分成多个小组进行分组讨论,小组内可以相互看见和互动,小组之间相互隔离,结束讨论时所有学生再回到大班。老师可以选择进入某个小组,也可以留在主课堂,有效加强学生之间的互动和PK。

  • 超级小班,兼顾小班互动体验

一个大班被分成N个小班,譬如100个学生被划分成25个4人小班,小班之内可以相互看见和互动,小班之间相互隔离。有效提升老师产能,同时兼顾小班课的互动体验。

  • AI教学,增加学生和系统的互动

老师为预先制作的视频内容,根据学生互动反馈实时投喂对应视频内容,实现千人千面的个性化学习。

圆桌论坛现场

拍乐云Pano 由一群专注于音视频技术的技术极客倾力打造,专注于实时通信技术领域的前沿探索和应用实践,已助力国内多家互联网教育机构实现实时互动技术的体验升级。拍乐云拥有完全自主研发的音视频引擎,在音视频编解码、网络传输、弱网对抗与QoE、回声消除、实时通信组网与路由、高并发的流媒体分发等方面都达到了国际顶尖水平。未来,拍乐云还将持续深耕技术,坚持产品创新,优化技术服务,助力更多教育行业客户升级线上课堂体验。

查看原文

赞 0 收藏 0 评论 0

拍乐云Pano 发布了文章 · 1月11日

快速接入 | 从 0 到 1 构建语音聊天室

导读:近年来,在线语音聊天的用户量持续上升。语音可承载的信息密度比文字图片丰富,又比视频更简单,不失为一种抓住Z世代年轻用户和实现流量变现的有效途径。为了满足用户的情感需求娱乐需求价值观认同,越来越多的社交泛娱乐应用以及出海应用开始在自己的产品中增加语聊房功能。拍乐云Pano在服务多家语音聊天室客户后,深度结合行业场景,推出了语音聊天室解决方案,助力客户从0到1快速完成接入。

一、语音聊天室场景描述

一个典型的语音聊天室里,有一个房主,设有 5-12 个麦位,N 个观众。房间里所有观众都能听到房主的声音,也可以自由上麦、下麦。房主可以邀请观众上麦,或进行下麦、禁麦等操作。同时,所有用户都能看到麦位的实时变动。我们来简单列举几个场景:

1. 语音交友

频道内用户可申请上麦,自由发言,一般会定主题来聊,比如相亲、情感、陪练等,观众可文字互动或打赏。

2. 连麦开黑

用户可自由创建房间,组队开黑,适用于狼人杀、剧本杀、真心话大冒险、你画我猜等游戏,实现游戏社交,其乐无穷。

3. 在线KTV

频道内用户可在线点歌,通过排麦、轮唱、抢唱或合唱等形式实现趣味互动,观众可实时收听到美妙歌声,真实还原线下KTV效果。

二、如何实现语音聊天室

语聊房场景中主要包含麦上用户和麦下观众两个角色,各角色说明如下。

麦上用户

A连麦者创建房间,成为管理员。

A连麦者邀请其它用户进入房间。

B连麦者上麦开始发送语音并且接收A连麦者的语音,与A连麦者语音互动。

麦下观众

C观众、D观众、E观众、F观众等进入房间。

观众接收A、B连麦者的语音,收听麦上用户互动音频。

观众通过赠送礼物和房间消息和麦上用户互动。

实现语音连麦,采用自研的方法不仅开发成本高,而且需要解决各种音频编码、回声、噪声和服务器高并发问题。通过集成 Pano SDK 可以轻松解决上述问题。

App Server负责房间列表的维护。创建房间:用户登录业务系统后,提供创建房间的能力,创建房间后房间列表要做新增操作。销毁房间:提供销毁房间的能力,销毁房间后房间列表要做删除操作。

客户端

登录/登出房间

用户进入客户端后,选择房间列表中的房间,加入登录房间或者自行创建房间,开始主播。主播退出房间,需要解散房间。

1. 初始化RTCEngine

通过 PanoRtcEngineKit的 + engineWithConfig:delegate:方法初始化实例。

PanoRtcEngineConfig * engineConfig = [[PanoRtcEngineConfig alloc] init];
engineConfig.appId = @""; // 替换为你的应用ID
engineConfig.rtcServer = @"api.pano.video"; // PANO服务器地址
self.engineKit = [PanoRtcEngineKit engineWithConfig:engineConfig delegate:self]; 

2. 加入频道

通过PanoRtcEngineKit实例的- joinChannelWithToken: channelId:userId: config:方法加入频道。

PanoRtcChannelConfig * channelConfig = [[PanoRtcChannelConfig alloc] init];channelConfig.mode = kPanoChannelMeeting; // 频道模式PanoResult result = [self.engineKit joinChannelWithToken:@""channelId:@""                                                  userId:userId                                                               config:channelConfig];

3. RTCSDK 信令通道

麦位管理:通过信令消息控制麦位。用户进入房间后,只有空闲状态的麦位可以上麦。用户上麦后,需要修改麦位状态为非空闲状态。

发送消息

[self.engineKit.whiteboardEngine sendMessage:data toUser:userId];

广播消息

[self.engineKit.whiteboardEngine broadcastMessage:data];

4. 播放伴音或者特效音

创建混音任务

self.engineKit.createAudioMixingTask(Int64(taskId), filename: path)

开启混音任务

self.rtcEngineKit()?.startAudioMixingTask(Int64(id), with: config) 

三、拍乐云语音聊天室优化方案

  • 超高并发

支持百人连麦大频道,在线玩家可实时收听麦上用户的发言,也可以自由上麦参与互动。

  • 超高音质

48kHz 音频采样率,还原 Full Band 超高音质,业内一流的 3A 算法,优异的单讲和双讲表现。

  • 声音美化

支持全链路双声道,实现 360° 环绕效果,支持多种混响效果,也支持实时的美声、变声,提供丰富的音频互动玩法。

  • 伴音特效音

互动用户可播放伴奏音乐,也可播放预设好的特效音,同步发放给远端用户,活跃语音聊天室氛围。

  • 耳返监听

实时监听自己的声音效果,可调节耳返音量,耳返时延低至 20ms。

  • 码率自适应

业内领先的静音检测技术和自适应拥塞控制算法,动态调整编码码率,最低仅 8kbps。

  • 极速流畅体验

独创 Pano Backbone 实时传输加速网络,端到端时延低至 68ms,70% 丢包下仍能保持流畅语音通话体验。

四、语音聊天室 Demo 体验

可直接通过拍乐云官网下载 Demo 安装体验,App 源码即时开放。成功运行 Demo 后,在界面上创建房间,输入房间号。使用另一台设备输入相同的房间号后加入房间,即为观众观看。观众可以申请上麦从而实现和房主的实时互动。

查看原文

赞 0 收藏 0 评论 0

拍乐云Pano 发布了文章 · 1月11日

技术干货 | 深入浅出理解视频编解码技术

导读:随着移动互联网技术的蓬勃发展,视频已无处不在。视频直播、视频点播、短视频、视频聊天,已经完全融入了每个人的生活。Cisco 发布的最新报告中写道,到 2022 年,在移动互联网流量中,视频数据占比将高达 82% 。视频为何如此普及呢?是因为通过视频能方便快捷地获取到大量信息。但与此同时,因为视频数据量非常巨大,视频的传输、存储也面临着巨大的挑战。从 20 世纪 90 年代以来,数字视频编解码技术迅速发展,一直是国内外研究的热点领域。视频编解码,将是保证用户高品质视频体验的重要技术。

No.1 视频编解码技术及标准

视频编解码技术的主要作用,是在可用的计算资源内,追求尽可能高的视频重建质量和尽可能高的压缩比,以达到带宽和存储容量的要求。为何突出“重建质量”?因为视频编码是个有损的过程,用户只能从收到的视频流中解析出“重建”画面,它与原始的画面已经不同,例如观看低质量视频时经常会碰到的“块”效应。如何在一定的带宽占用下,尽可能地保持视频的质量,或者在保持质量情况下,尽可能地减少带宽利用率,是视频编码的基本目标。用专业术语来说,即视频编解码标准的“率失真”性能。“率”是指码率或者带宽占用;“失真”是用来描述重建视频的质量。与编码相对应的是解码或者解压缩过程,是将接收到的或者已经存储在介质上的压缩码流重建成视频信号,然后在各种设备上进行显示。

视频编解码标准,通常只定义上述的解码过程。例如 H.264 / AVC 标准,它定义了什么是符合标准的视频流,对每一个比特的顺序和意义都进行了严格地定义,对如何使用每个比特或者几个比特表达的信息也有精确的定义。正是这样的严格和精确,保证了不同厂商的视频相关服务,可以很方便地兼容在一起,例如用 iPhone、Android Phone 或者 windows PC 都可以观看同一在线视频网站的同一视频。世界上有多个组织进行视频编码标准的制定工作,国际标准组织 ISO 的 MPEG 小组、国际电信联盟 ITU-T 的 VCEG 小组、中国的 AVS 工作组、Google 及各大厂商组成的开放媒体联盟等。

(图1 视频编码标准及发展历史)

自 VCEG 制定 H.120标准开始,视频编码技术不断发展,先后成功地制定了一系列满足不同应用场景的视频编码标准,如图1所示。VCEG 组织先后制定了H.120、H.261、H.262(MPEG-2 Part 2)、H.263、H.263+、H.263++。MPEG也先后制定了MPEG-1、MPEG-2、MPEG-4 Part 2。以及两个国际组织合作制定的H.264/AVC、H.265/HEVC、H.266/VVC;中国自主知识产权的 AVS、AVS2、AVS3 视频编码标准;Google 制定的 VP8、VP9;Google、思科、微软、苹果等公司组成的开放媒体联盟(AOM)制定的 AV1。这里特别要提一下H.264/AVC。H.264/AVC虽有近20年历史,但它优秀的压缩性能、适当的运算复杂度、优秀的开源社区支持、友好的专利政策、强大的生态圈等多个方面的因素,依旧让它保持着强大的生命力,特别是在实时通信领域。像 ZOOM、思科 Webex 等视频会议产品和基于 WebRTC SDK 的视频服务,大多数主流场景都采用 H.264/AVC。

No.2 混和编码框架

纵观视频标准历史,每一代视频标准都在率失真性能上有着显著的提升,他们都有一个核心的框架,就是基于块的混合编码框架,如图2所示。它是由J. R. Jain 和A. K. Jain在1979年的国际图像编码学会(PCS 1979)上提出了基于块运动补偿和变换编码的混合编码框架。

(图2 混和编码框架)

我们一起来对该框架进行拆解和分析。从摄像头采集到的一帧视频,通常是 YUV 格式的原始数据,我们将它划分成多个方形的像素块依次进行处理(例如 H.264/AVC 中以16x16像素为基本单元),进行帧内/帧间预测、正变换、量化、反量化、反变换、环路滤波、熵编码,最后得到视频码流。从视频第一帧的第一个块开始进行空间预测,因当前正在进行编码处理的图像块和其周围的图像块有相似性,我们可以用周围的像素来预测当前的像素。我们将原始像素减去预测像素得到预测残差,再将预测残差进行变换、量化,得到变换系数,然后将其进行熵编码后得到视频码流。

接下来,为了可以使后续的图像块可以使用已经编码过的块进行预测,我们还要对变换系统进行反量化、反变换,得到重建残差,再与预测值进行求合,得到重建图像。最后我们对重建图像进行环路滤波、去除块效应等,这样得到的重建图像,就可以用来对后续图像块进行预测了。按照以上步骤,我们依次对后续图像块进行处理。

对于视频而言,视频帧与帧的间隔大约只有十到几十毫秒,通常拍摄的内容不会发生剧烈变化,它们之间存在非常强的相关性。如图3所示,将视频图像分割成块,在时间相邻的图像之间进行匹配,然后将匹配之后的残差部分进行编码,这样可以较好地去除视频信号中的视频帧与帧之间的冗余,达到视频压缩的目的。这就是运动补偿技术,直到今天它仍然是视频编解码的核心技术之一。

(图3 运动估计和运动补偿)

变换编码的核心思想是把视频数据分割成块,利用正交变换将数据的能量集中到较少几个变换系数上。结合量化和熵编码,我们可以获得更有效的压缩。视频编码中信息的损失和压缩比的获得,很大程度上来源于量化模块,就是将源信号中的单一样本映射到某一固定值,形成多到少的映射,从而达到压缩的目的,当然在压缩的过程中就引入了损失。量化后的信号再进行无损的熵编码,消除信号中的统计冗余。熵编码的研究最早可以追溯到 20 世纪 50 年代,经过几十年的发展,熵编码在视频编码中的应用更加成熟、更加精巧,充分利用视频数据中的上下文信息,将概率模型估计得更加准确,从而提高了熵编码的效率。例如H.264/AVC中的Cavlc(基于上下文的变长编码)、Cabac(基于上下文的二进制算术编码)。算术编码技术在后续的视频编码标准,如AV1、HEVC/H.265、VVC/H.266 中也有应用。

视频编码发展至今,VVC/H.266 作为最新制定的标准,采纳了一系列先进的技术,对混合编码框架的各个部分都进行了优化和改进,使得其率失真性能相比前一代标准,又提高了一倍。例如,VVC/H.266 采用了128x128大小的基本编码单元,并且可以继续进行四叉树划分,支持对一个划分进行二分、三分;色度分量独立于亮度分量,支持单独进行划分;更多更精细的帧内预测方向、帧间预测模式;支持多种尺寸和形式的变换、环内滤波等。VVC/H.266 的制定,目标是对多种视频内容有更好支持,例如屏幕共享内容、游戏、动漫、虚拟现实内容(VR、AR)等。其中也有特定的技术被采纳进标准,例如调色板模式、帧内运动补偿、仿射变换、跳过变换、自适应颜色变换等。

No.3 提升质量的更多手段

视频编解码标准保证了视频的互通性,视频质量的提升仍然有很多可以深入研究的热点问题。如,基于人眼的主观质量的编码优化、基于AI的编码优化、内容自适应编码等。基于人眼的主观质量优化,主要利用人眼的视觉特性,将掩蔽效应、对比度灵敏度、注意力模型等与编码相结合,合理分配码率、减少编码损失引起的视觉不适。AI在视频编解码领域的应用,包括将多种人工智能算法,如分类器、支持向量机、CNN等对编码参数进行快速选择,也可以使用深度学习对视频进行编码环外与编码环内的处理,如视频超分辨率、去噪、去雾、自适应动态范围调整等编码环外处理,达到提升视频质量的目的;CNN网络取代编码器中的环路滤波、CNN进行帧内预测等编码环内处理,降低编码产生的损失之外,可以进一步提升预测准确度,达到更好的编码效果;此外还有打破传统混合编码框架的深度神经网络编码,如Nvidia的Maxine视频会议服务,利用深度学习来提取特征,然后对特征进行传输以节省带宽。内容自适应技术,也可分成两类,一是编码环内根据编码内容调整编码器的参数,二是编码环外根据要编码的内容进行码率、帧率、分辨率等调整。

No.4 结束语

拍乐云Pano 团队在视频编解码领域有着丰富的经验积累和深入的技术理解,采用独有的视频编解码算法,在保证视频质量的同时,高效利用带宽,让用户体验面对面一般的顺畅沟通和超清画质。接入Pano SDK,企业开发者就可以在自己的应用里轻松实现优异的视频通话能力,再也不必为视频编解码技术的复杂而伤神了。

查看原文

赞 0 收藏 0 评论 0

拍乐云Pano 发布了文章 · 1月11日

喜讯 | 拍乐云荣登2020「年度最具投资价值创新企业TOP20」榜单

在商业迭代与疫情冲击之下,今年的线下行业受到了重创,投资环境也变得谨慎,甚至出现了短暂的停滞。尽管如此,仍有不少优秀的企业依靠深耕技术和产品,可以逆流而上。“最具投资价值”也就成了一家创新企业的最高荣誉。

12月2日上午,猎云网在“逆势生长-NFS2020年度CEO峰会暨猎云网创投颁奖盛典”上颁布了2020「年度最具投资价值创新企业TOP 20」榜单,拍乐云作为唯一入选的实时通信PaaS云服务厂商入选榜单。
image

聚焦各行各业前沿创新代表

“New Force Summit”新势力峰会已经陪伴创投圈五年,在过去的五年中,猎云网选出了创业领军人物蔚来汽车李斌、小鹏汽车何小鹏、旷视科技印奇、寒武纪陈天石、跟谁学陈向东等,同时还捕捉到便利峰、每日优鲜、喜茶、云从科技、360金融、小马智行、驭势科技等新势力企业。

今年,评审团综合企业实力、发展前景、行业口碑、团队潜力等多方面指标,最终从数百家报名企业中评定出2020「年度最具投资价值创新企业TOP20」。

拍乐云获奖理由

深耕技术坚持产品创新

拍乐云成立于2019年,是新一代实时通信PaaS云服务提供商,由一群实时通信领域的顶尖人才、一群专注于音视频的技术极客倾力打造,有着专业视频会议领域二十年的技术积累。拍乐云致力于提供高清、稳定、易用、低时延的实时通信云服务,产品矩阵包括语音通话、视频通话、互动白板、互动直播和云端录制等。在今年上半年产品发布后,拍乐云宣布了由顶级VC机构红杉中国种子基金领投的融资消息,截止目前已与众多行业客户达成合作,并得到了客户的认同和口碑传播。

此次,拍乐云入选猎云网年度榜单,不仅是实时互动通信行业关注度与需求度的提高,更代表着拍乐云在技术上的深耕以及与客户伙伴共同实践的产品方案得到了业界的广泛认可。

5G、AR/VR的技术革新、新经济的崛起以及商业市场的复杂化给实时通信产品创造了很多弯道超车的机会,拍乐云将始终秉持初心,深耕技术坚持产品创新,通过行业落地,携手客户共创美好未来。

查看原文

赞 0 收藏 0 评论 0

拍乐云Pano 发布了文章 · 1月11日

拍乐云Pano入局教育全球化,受邀参加Edvation x Summit 2020

11月3日-11月5日,Edvation x Summit 2020 EdTech全球会议在线上隆重召开,这是一年一度日本最大的教育科技创新大会,有近5000名教育行业公司、学校和教育相关政府的用户深度参与。本次大会由日本教育创新委员会组织,主题是“新的教育选择”和“不受约束的教育创新者”,覆盖“GIGA学校”,“教育 x 云”,“ STEAM教育”、“个性化教育”、“中国教育技术”等议题全面展开。拍乐云Pano创始人& CEO 赵加雨受邀参会,在“中国Edtech”专题中进行了题为《中国线上教育和实时互动技术》的主题演讲,同时介绍了拍乐云在教育场景中领先的实时互动解决方案。

据赵加雨介绍,中国教育市场规模已经超过4万亿,用户数达到4.23亿。其中线上教育的渗透率到达了10%,相比2019年增长了30%,加上今年疫情的影响,加速培养了用户的线上习惯,预计在线教育市场将在今年年底突破4300亿规模。在线教育各个赛道中,K12教育赛道的发展最为迅猛,这跟智能手机的普及和80后父母教育意识的增强都息息相关,预计到2020年底,K12市场规模会占到整个在线教育的30%。

从在线教育的渗透进程来看,可以追溯到2012年,它起源于超一线城市,到2017年慢慢渗透到一二线城市,到了今年逐渐下沉到三五线城市和乡镇农村,越来越多的家庭开始接受网课。另一方面,在线教育起源于MOOC,像YouTube一样,用户可以从网上下载教学视频,按需回放。在这个阶段,学生和老师之间没有互动的渠道,很多学生并没有完成线上所有的课程,也无法向老师及时有效地提问,线上课堂的效果完全达不到预期。因此,很多教育公司开始增加实时互动能力,一对一课堂开始出现了,零距离的互动使得课堂变得更高效,学生变得更专注,但并不是一种经济效益最好的方式。随之,互动小班课、互动大班课、AI课堂开始出现了,实时互动成为了所有课堂形态的刚需。

赵加雨提到,不论是互动小班课、互动大班课场景,还是超级小班课、双师大班课场景,拍乐云都能助力教育企业,提供丰富的课堂互动、屏幕共享、课件转码、互动白板、录制回放、课堂监课等教学工具,真实还原线下授课场景,提高名师资源利用率,提升教学互动体验,可适用于少儿语言培训、K12课程辅导、少儿编程、钢琴陪练、数学思维启蒙、引流公开课等各种教学赛道。

拍乐云作为专业的实时互动PaaS云服务厂商,在音视频通信领域20年技术经验中锤炼出高稳定、高品质、低时延的全球实时互动服务,集成拍乐云SDK,开发者及企业可轻松实现语音聊天、视频聊天、互动白板、互动直播和云端录制等多种能力。拍乐云拥有完全自主研发的音视频引擎,在音视频编解码、网络传输、弱网对抗与QoE、回声消除、实时通信组网与路由、高并发的流媒体分发等方面都达到了国际顶尖水平。拍乐云带来的更稳定优质的全球化实时互动体验,对于国内用户、海外用户都是优质的选择。

查看原文

赞 0 收藏 0 评论 0

拍乐云Pano 发布了文章 · 1月11日

深耕音视频技术,拍乐云Pano亮相「LiveVideoStackCon2020」

10月31日-11月1日,LiveVideoStackCon2020音视频大会在北京隆重开幕,有近500名多媒体开发工程师、技术负责人、产品负责人及高端行业用户深度参与。本次大会的主题为“多媒体开启新视界”,聚焦音频、视频、网络、编解码、AI 等技术的最新探索与应用实践,覆盖教育、娱乐、金融、智能设备等行业领域。拍乐云创始人&CEO赵加雨受邀参会,作为陪伴LiveVideoStack一路走过三年的老LVSer和在音视频技术领域深耕20年的老司机,赵加雨在“复杂环境的网络优化”专题会场进行了题为《奇葩说之RTC的那些事》的主题演讲,并在“视频流量爆发下的机遇、挑战、未来趋势”圆桌论坛中分享了自己的行业洞察。

基于过去在思科WebEx的实践和对Zoom技术架构的了解,赵加雨介绍到,要构建一张全球音视频分发大网,问题关键不在于多少个节点,关键在于是否解决了音视频全球分发的这些问题,包括:各国出口带宽受限问题、防火墙问题、各个运营商互联互通问题、网络路由变化导致的Jitter问题、链路的灵活调度等。拍乐云团队作为有着丰富视频会议经验的团队,遵循分层、自适应、智能的原则,充分利用了网络技术、传输算法等多种技术,高效解决了这些问题。同时,拍乐云构建了一张覆盖全球的实时传输加速网络Pano Backbone,由网络基建和应用层算法共同组成,保障了实时音视频的超高质量和超低时延,实现了全球网络覆盖和用户就近接入。

紧接着,赵加雨又抛出了关于视频质量的两个辩题:时延越低越好吗?1080P比720P体验更好吗?这两个辩题看起来答案显而易见,而事实上,当通话双方时延超过400毫秒时,用户就会有感知;而当时延低于200毫秒时,一味地降低时延所带来的用户体验提升就不明显了。赵加雨认为,在音视频应用里为了保持流畅度,往往需要通过数据包缓冲区,如果一味的追求低时延,而压缩数据包缓冲区大小,很可能会导致更容易出现卡顿,除非某些场景需要追求极致的低时延,比如线上KTV合唱。

关于视频分辨率,赵加雨介绍到,视频分辨率并不等于清晰度,视频清晰度取决于分辨率、码率、帧率等。在码率一定的情况下,分辨率在一定范围内取值都是清晰的;同样地,在分辨率一定的情况下,码率在一定范围内取值都将是清晰的。因此,如果码率不够,1080P的清晰度很可能比720P更差。拍乐云遵循了视频应用中“够用就好”的原则,在产品上能够很好地支持视频大小流,客户端可以按需选择大流或者小流,保证最优的视频体验。

音视频应用是时延、流畅、质量、成本等方面的平衡,追求低时延、高流畅和高质量的同时,还需要考虑经济效益,因此做音视频应用就是在各种受限的条件下找到那个最优解,不能一味追求某一项指标。

最后,赵加雨分享了拍乐云互动白板产品的技术思路。目前主流视频会议厂商的做法都是视频白板,从技术上来说是合理的,一套技术方案实现了共享和白板两个功能,无需多维护一套技术方案。但从用户体验角度来说,视频白板传输的是视频,会导致流量更大,不容易保证用户在缩放后的清晰度。拍乐云提供的是数据白板,传输的是数据,因此数据量更小,辅以信令优化和数据压缩,数据量可以进一步变小,确保更低时延、更少卡顿和更高清晰度。

作为红杉资本投资的音视频通信团队,拍乐云以更高的通话质量、服务稳定性和差异化的互动白板等产品能力,为广大企业、开发者提供一个音视频服务的优质选择。目前拍乐云正在为线上教育、社交泛娱乐、视频会议、在线金融等行业的众多场景提供专业的音视频解决方案,以科技赋能产业线上化。

拍乐云坚信,在技术上追求极致、在产品上追求极简,把20年的音视频技术积累和持续突破的创新实践转化为可靠的产品与服务,才能构建更好的品牌、赢得市场的信赖。未来,拍乐云将加速接入更多的行业客户,赋能更多的互动场景,用技术创新解决业务痛点,与客户共创美好未来!

查看原文

赞 0 收藏 0 评论 0

拍乐云Pano 发布了文章 · 1月11日

构建一张音视频全球大网究竟需要多少个节点?Pano Backbone技术探秘

我们经常听到很多做音视频PaaS云服务的产品会介绍自己有200个以上的节点,这听起来是个很大的数字,似乎一定能够比十几个节点提供更优的全球网络覆盖和更优的音视频效果。事实真是这样吗?

Zoom和WebEx都是服务全球的视频会议产品,在疫情期间Zoom的日会议参与者达到了3亿,WebEx平台用量也增加了三倍以上。要服务全球200多个国家及地区的用户,如此大规模的在线会议,他们都部署了多少个节点呢?答案是:WebEx在全球部署了12个数据中心,Zoom在全球部署了18个数据中心。(数据参考自https://tech.sina.com.cn/digi/2020-08-19/doc-iivhuipn9416086.shtmlhttps://help.webex.com/zh-cn/WBX28754/Where-are-the-Webex-Data-Centers-and-iPOP-Locations

是Zoom和WebEx没有资金部署更多的数据中心吗?抑或他们不愿意给用户提供更优异的视频会议体验吗?当然都不是,这是全球视频会议的领导者在技术上找到的最优解。

Part 1

更多的网络节点并不能降低时延

从技术上来说,网络分发本质上是hop by hop的,音视频通话也是这样,A和B进行音视频通话的本质就是将A的音视频数据通过互联网送给B,并将B的音视频数据通过互联网回送给A,数据从A到B中间可能经过了X个交换机、Y个路由器、Z个服务器等等。这些交换机、路由器等各种网络设备就像勤劳的小蜜蜂一样按照一定的路由规则将网络数据从一个设备运送到另一个设备,从而为我们构建了今天这样的高速互联网。

IP层及以下,例如路由器、交换机、防火墙、基站等网络设备都是采用硬件解决方案,数据分发效率非常高。熟悉Linux网络编程的同学可能会知道,在Linux服务端进行网络数据分发可能会面临这些性能损失:

  • 传统的收发报文方式都必须采用硬中断来做通讯,每次硬中断大约消耗100微秒
  • 数据必须从内核态和用户态之间切换拷贝,带来大量CPU消耗
  • 收发包都有系统调用的开销
  • 内核工作在多核上,为使全局一致,可能有锁总线等性能损耗

因此,在音视频分发网络上,硬件设备分发的效率是最高的,每多一个应用服务器,都会降低一次分发效率,增加一些网络时延。为了音视频分发的低时延,音视频设计者应该尽量减少网络分发所经过的节点数,尤其是应用服务器数。(有些场景需要利用硬件的高效率和软件的灵活性,感兴趣的同学可以了解一下DPDK技术)

那为什么有些音视频产品会需要200个以上的节点呢?在单一的一次通话中,如果总是需要引入多个应用服务器、即多个应用层节点来做音视频数据的分发,从数据路由角度而言这并不是最高效的做法。这些团队这么做的原因是因为多数音视频团队在构建实时音视频分发网络时参考了CDN的技术经验。

在CDN分发网络里,CDN厂商会在很多3、4线甚至5、6线城市部署边缘节点,这些边缘节点的带宽费用相对较低,边缘节点向中心节点回源实现了跨运营商的低成本分发,我们知道CDN服务于文件下载、视频点播和直播这样的应用,这些都是时延不那么敏感的,分发路径上经过了多个节点所带来的时延损耗并不会影响用户体验,CDN技术是一种低成本的用于大规模数据分发的技术方案。

而RTC这样的实时音视频应用对于时延是非常敏感的,采用类似CDN的分发技术在效果上并不是最优解。拍乐云Pano团队基于多年视频会议的研发经验,结合了WebEx全球网络技术经验和中国网络的实际情况,独创了Pano Backbone实时传输加速网络。

Part 2

Pano Backbone 实时传输加速网络

要构建一张全球音视频分发大网,问题的关键不在于多少个节点,或者说更多的节点参与网络分发反而可能有副作用。构建音视频全球大网的关键在于解决音视频全球分发问题,这些问题包括:

  • 各国出口带宽受限问题、防火墙问题
  • 各个运营商互联互通问题,尤其是中国的小运营商接入问题
  • 网络路由变化导致的Jitter问题
  • 网络传输协议的选择和拥塞控制算法的实现
  • 链路质量变化时的实时监控和智能调度能力

在解决这些问题时,拍乐云Pano团队作为有着丰富视频会议经验的团队,遵循分层、自适应、智能的原则,让上帝的归上帝、凯撒的归凯撒,该由网络层解决的问题就通过网络层来解决,该在应用层解决的问题就通过应用层来解决,该在传输算法层解决的问题就在传输算法层解决,充分利用了网络技术、传输算法等多种技术来多维度的高效解决了上述这些问题。

拍乐云Pano构建了一张覆盖全球的实时传输加速网络,由网络基建和应用层算法共同组成,保障了实时音视频的超高质量和超低时延,实现了全球网络覆盖和用户就近接入。网络链路质量随时都有变化,Pano Backbone实现了网络质量自反馈和网络链路自适应。

Pano Backbone由数据中心和POP节点组成,数据中心主要包含3大模块:调度中心、智能分发服务、媒体服务。当用户发起接入时,调度中心根据用户所在的地理位置以及不同的运营商,按照就近接入原则,分配离其最近的智能分发服务节点。智能分发服务负责链路加速,媒体服务负责分发。

Part 3

实现低时延音视频分发的更多要点

除了网络分发,音视频的时延和效果也取决于客户端的处理、服务端的高效分发等等,音视频应用是一个结合了算法和工程的系统性工作,最终的音视频效果由音视频引擎、音视频编解码、网络传输、弱网对抗、流媒体分发、网络加速等等多个方面共同决定,每一个技术点都会或多或少地影响时延和用户体验。

在多数时候,用户网络没有那么差,用户设备也没有那么差,各种音视频产品的体验相差不会太大。但是在实际场景中,总会有弱网、总会有设备资源和网络资源抢占、总会有各种corner case,这时,就需要一个在音视频各个技术点都有积累的技术团队,在各个技术点都能追求极致并能持续改进产品了。

查看原文

赞 0 收藏 0 评论 0

拍乐云Pano 发布了文章 · 1月11日

如何从红蓝墨水中分离出红墨水?回声消除原理介绍

导读:回声消除作为3A算法之一,是语音前处理的重要环节。回声消除问题,并不是一个简单的算法问题,它其实是一个系统性的问题。空间、传播介质、器材特性等等都会影响到回声的特性,目前算法的处理问题能力是有限的,所以做好回声消除需要从更系统的视角来看问题。本文从几个简单的视角来聊一聊回声消除的原理。

Part1

回声是如何产生的?

在实时音视频通话中,回声产生的主要原因是扬声器播放的声音又再次录进麦克风里去,而这个现象在A,B双方开外放的通话下,就转化成一个问题,A(下图左)说话,A的声音从B(下图右)的扬声器放出,又从B的麦克风采集进来,从而又传回给A产生回声。

Part2

麦克风采集声音是播放声音(回声)和说话声音的简单合成?

当然不是,事实上:

一来在实际场景下回声是经过多次反射和环境的噪声(如图中电风扇的噪声)以及本地说话的声音传入麦克风的。

二来,由于设备(扬声器或者麦克风都会存在失真),那么麦克风录到的回声和扬声器播放数据已经发生变化,在实际情况下这一过程中,声音在频域通常不仅包含一些线性变化,更会有很多的非线性变化,如下图(一个真实手机录的数据的only far end talk 部分选段),左声道(上面)是播放前的数据也就是算法的远端参考数据(即far end reference),右声道(下面)是麦克风采集的声音,可以看到不管是时域还是频域都能看到比较大的不同。

又如下图是绿色的远端参考信号和蓝色的本端信号数据的频谱分析,区别可以自己看看。

Part3

回声消除的基本思想

回声消除的论文非常多,各家的算法也有很多不同的优化,这里不讲公式,只讲回声消除的基本思想。

医生在开刀的时候,知道哪里要切哪里不切,是因为他们有基于大量人体解剖实验而得来的先验的知识,清楚知道好的组织是什么样子,然后把基于先验知识和经验把不好的切除。回声消除算法在输入声音数据的时候,并没有太多的先验信息,所以并不清楚什么声音是回声,什么声音是本端人说话。回声和本端说话只在频谱特性上很难区别,所以回声消除算法需要提供一个先验信息——即播放前的数据做参考信号(far end reference),因为这组信号是回声的源头,被扬声器播放后回录进麦克风从而形成回声。根据前面说的,我们知道reference的输入并不等于麦克风采集的数据里面的echo,播放到采集的中间经过的一系列过程称之为 echo path。那么回声消除的基本思想简单来说就是:

为了估计麦克风数据中的回声部分,用滤波器组来模拟echo path,让far end reference 经过滤波器组来模拟实际的声音经过echo path的过程来逼近麦克风中回声部分,得到了echo的估计后,再利用维纳滤波或其他方式来消除麦克风数据中的回声部分。

由于目前实际大部分工业界的实际算法的滤波器组都是模拟线性变化的滤波器组,对于非线性变化,还需要再做针对非线性的残余回声的处理。

Part4

回声消除算法的落地要求

回声消除大部分的应用场景都是实时场景,不管是传统电话、视频会议,还是人工智能音箱为语音识别做的前处理回声消除等。其中有非常多的ARM 设备,所以对于回声消除算法的性能是有一定要求的,最起码的要求是在应用的平台能达到处理一帧数据的时间是低于一帧数据本身的时间。考虑到还有其他的处理,所以处理的时间是越短越好的。

为什么要在频域做呢?绝大部分原因是因为性能问题,如果在时域做,滤波器的长度会非常长,对性能的影响也会非常大。同时FFT在工程化的时候,都会考虑性能,来做汇编的优化。

Part5

为什么要用类似nlms的迭代算法?

nlms是一种迭代算法,使用它的主要原因有两点:

计算量的优化

直接解方程求矩阵的逆非常的费计算量,很多场景下的设备无法满足实时性的需求。

短时echo path 变化的假设

绝大多数情况下,短时间内echo path是不会发生太大的变化。在不必要浪费计算资源的基础上又能合理的跟踪echo path的变化,迭代算法就是非常好的选择了。

Part6

落地可能会遇到的实际影响因素

echo delay 问题

ref 信号和 麦克风采集的echo 存在一定delay,这个delay 一般是由于播放和采集的模块的缓存以及空间传播的时间造成的。所以通过Ref 信号来估计echo,首先Ref 数据本身不能错,不然回声消除算法效果不会好。 另外软件层的回声消除算法,还会因为系统或工程框架问题产生delay的跳变等问题。

实际使用空间的影响

空旷的会议室、楼道等等场景下,空间的混响本身就很重,这个时候产生回声也会有明显多次反射的情况。

实际使用的姿势的影响

在手机包了手机壳挡住扬声器,放在振动的桌面上,一直摇动设备等一系列情况下都会产品不同的回声反馈。

Part7

算法开发和数据获取

根据上面描述,可以看出来,实际场景下的回声消除是一个非常具有挑战性的工作,也是行业的难点之一。做回声消除算法训练的时候,尽量不要自己合成测试数据再做仿真,更加建议根据应用设备和真实的场景来:

发现问题 -> 动手挖掘有效信息 -> 分析问题 -> 思考解决方案 -> 实现解决方案 -> 测试体验 -> 持续优化 -> 再体验 ...

愿大家在实践中,发现探索的乐趣!

查看原文

赞 0 收藏 0 评论 0

拍乐云Pano 关注了专栏 · 1月11日

bigsai

微信搜索一艘:bigsai 欢迎叨扰!

关注 6691

认证与成就

  • 获得 0 次点赞
  • 获得 1 枚徽章 获得 0 枚金徽章, 获得 0 枚银徽章, 获得 1 枚铜徽章

擅长技能
编辑

开源项目 & 著作
编辑

(゚∀゚ )
暂时没有

注册于 1月11日
个人主页被 142 人浏览