淘系技术,实力为2019年双11而战!稳!

2019 天猫双 11 全球狂欢节96秒成交额破百亿,24小时总成交额2684亿,创造了交易创建峰值 54.4万笔/秒的历史记录。天猫双11,已经不仅是购物节,也是品牌成长节、消费者互动节。天猫双11更是是商业的奥林匹克。

今年,双11走到了第11个年头,史无前例的,阿里经济体内有49支技术团队共同参与作战,也是第一次,双11的核心系统将100%跑在云上,这无疑让今年的双11技术作战充满了更大的挑战。

正如2019年双11技术团长平畴(汤兴)说的“「善战者,无智名,无勇功」,这是我们技术人最高的境界”。

我们一起捍卫了阿里技术人的荣耀,一个字 “稳”!

年年双11,回回新玩法,“在吗,盖楼吗?”成为了好友聊天的日常,每天蹲守等待淘宝直播的你是否也体会到了“真香定律”?而背后支撑如此大体量用户的淘系如何保障技术和业务的“丝般顺滑”?给大家带来今年双11最新最快的核心技术解读。

直播内容生态技术

今年淘宝直播已经促进了年度千亿级别的成交,阿里巴巴副总裁平畴表示“淘宝直播的内容模式,将一直引领消费的生活方式和消费重点,成为未来商业模式的主流”

2019 年双 11 直播已成为淘宝内容生态里程碑式的节点,其意义可对标 2015 年的淘宝无线化,所有的业务板块都在利用网红主播的巨大粉丝效应来放大品牌影响力,同时利用个性化的实时互动创造了新的内容运营模式。淘宝直播作为电商生态中新媒体、新内容、新生态的典型产品,不仅是承接链接用户和品牌的人货场,更多的是代表一种面向未来聚焦用户的新运营业态。

直播业务系统架构

直播体验的关键在于观看,但传统直播在弱网下、移动场景均存在固有缺陷导致画质不佳、频繁卡顿,同时传统直播中心化的分发模式成本也难以降低,多级分发的机制更是对优化时延提出挑战,均对用户体验带来诸多不利影响。淘宝直播基于以上问题,自研了全新的音视频实时通信引擎,去中心化设计,支持横向级联,实现了大规模低延时直播,时延从原先 5-7 秒降低至 1 秒内,并在弱网下有更好的表现。核心技术点包括:边缘接入、最佳路由、下行网络保障。

直播开放体系

直播生态存在多种参与角色,包括达人、商家、机构、平台、用户;需要针对不同的角色来设计差异化的商业变现手段,2019 年淘宝直播全面升级开放体系,目前已支持微博、UC、优酷等多端通过开放体系接入淘宝直播,实现了内容在多平台随时开播的能力。

其次,直播核心是粉丝经济,需要设计一套从新粉、铁粉、钻粉、挚爱会员亲密度体系来提升用户粘性,进而给主播提供更细粒度会员营销能力。今年双11基于淘宝直播的开放体系提供了多种灵活的营销玩法,并打通了招商系统、权益互动体系,提供了一站式的实时用户互动平台,赋能业务赋能商家。

智能直播商品识别

在内容 AI 领域,利用端侧算法识别主播讲解的商品,将直播内容结构化,进而将实时内容转为离线的带有商品语义的视频切片,提升了直播在长尾分发的效果和规模,促进了用户的进店率、购买转化率。技术上来看,直播商品识别,本质上是一个视频到图像的小库跨域实时检索问题,从query信息比较明显的服饰场景切入,通过目标检测,逐渐细化可能的query目标主体,并对主体进行检索,主要的任务先检测人、检测衣服,然后检测视频帧主体到商品图像检索。目前已经实现了淘宝天猫服饰场景的全覆盖。

智能 Push 技术

面对用户不断差异化的购物需求,手淘不断进行了全面升级,打造了个性化的用户购物体验。

依赖端智能的计算能力,我们在业界首次打造了云/端联动的全链路智能化营销投放(Push)平台,全面支持端侧实时场景化决策、用户状态实时感知和商品营销个性化投放。通过人、货、场全方面一体化的智能化链路改造,提升营销内容和通知消息的有用性和及时性,使推送更加懂你所想。

双11当天,端侧实时智能 Push 覆盖了手淘主要用户,通过对用户的实时个性化推送引导,相比去年双11,大促会场的引导打开量提升了105%。通过云端一体化的全链路智能营销架构的技术创新,我们成功的帮助用户在大促中更容易的找到自己心仪的商品,也帮助商家和平台实现了精准化和个性化的营销,实现了用户,商家和平台的三赢。

手淘智能Push平台

端侧

建立了全域标准化用户行为中心,使得手淘可以在第一时间感知用户的实时行为,并且在端上直接加工成为标准化的特征。依赖于端侧机器学习推理框架,我们在端上部署了智能意图预测系统,通过情景计算框架可以准确实时感知用户的场景需求和预测各种购买意图,将这些场景需求和购买意图输入到端上的智能决策模块后,由决策模块决定是否向云端发起对用户的消息提醒和触达,实现亿级用户的全域秒级精准触达能力。

云侧

用户全生命周期管理平台作为服务端的大脑,主要起两个作用。首先,它会获取用户的各种数据和状态,并且实时下发给端侧,帮助端侧进行智能决策;其次,它还会监听端侧发起的触达请求,结合用户的生命周期状态,来决定触达的方式。策略任务调度平台负责整个消息发送的触发和调度,并且具备实时人群过滤的能力,过滤不必要的消息发送。最后的个性化算法平台,通过整合全链路的场景化信息,结合用户状态进行个性化匹配,判断用户当前应该推荐的最佳内容。

经过多个系统的流转,合适的内容可以在合适的时机推送给合适的用户,通过收集用户的实时反馈,进一步优化后续的消息内容。整体上,我们希望通过从端侧到云侧的全链路平台化架构,能够做到真正的场景化、智能化、个性化的推送体验。

自适应限流技术

2019年阿里巴巴的第11个双11,随着业务的不断发展,应用数量、拓扑依赖与复杂性都在持续增长;流量模型的有效预测会更加困难。系统与流量的不确定性都会导致系统处理容量评估疏漏或评估过时(如明星官宣结婚带来热点流量暴涨),这些情况在双11等大型复杂活动中上会更加突显。

面对上述稳定性问题,诺亚(Noah) 自适应限流系统采用不同于业界传统的针对 QPS 限制的静态限流方法,首次以自动控制算法为核心手段,提供自适应限流方案,解决了限流过时的痛点,大幅提升应用抵抗流量冲击的能力,极度简化了限流配置工作,同时在系统资源利用率、用户体验、运维效率等方面均有大幅优化效果。

诺亚(Noah)

诺亚目前已上线超过9个月,已有大量容器规模部署运行了诺亚。在线上实战和全链路压测中,诺亚保护了大促会场、直播、导购等等核心业务场景;应用在出现容量缺失30%或近20倍大流量脉冲不预期场景下保持稳定运行。

诺亚(Noah)自适应限流的数据效果:

  • 压垮 QPS 上限最高可提升 20 倍于业务负载流量;
  • 在负载压力减少后1秒快速恢复服务,大流量下仅需直接扩容机器一步即可;
  • 对于用户体验的优化,应用在负载情况下,服务成功率最高可提升 2.7 倍,同时响应时间维持正常水平不劣化;
  • 对于成本的优化,资源利用率最高可提升 100%(去除为了稳定性/不确定性而留的资源冗余);
  • 对于应用稳定性运维效率的优化,应用过载时直接扩容即可、使全链路压测更顺畅,无需人工设置,避免人工评估错误导致系统被压垮后需要大量调整时间。

诺亚(Noah)在双11大促过程中,保障大量业务应用系统,提升稳定性、提升资源利用率、优化体验与效率,提升淘系(及更多BU)的稳定性底盘,成为应用稳定性保障的核心能力,推动了业界在大型分布式在线业务系统的高可用/稳定性保障的进展。

自适应限流控制效果:在流量飙升/大流量压力时,CPU稳定控制在阈值,且服务RT正常

诺亚(Noah)的后续发展:

  • 自适应能力由限流拓展到隔离/熔断等更多稳定性能力上。
    如自适应线程资源隔离、自适应服务比例、自适应服务熔断等等。
  • 由单机的自适应限流拓展到链路级,尤其是客户端流量入口接入层。
    与接入层协同,可以让接入层通过的流量即应用收到流量 与 应用的处理容量 自适应匹配,确定性地保障应用稳定性。
  • 自适应控制处理流量拓展到自适应伸缩容,即流量控制与处理资源控制/伸缩容协同。
    无论是流量的控制还是资源的控制,都是为了让处理容量与资源容量匹配,保证系统不过载稳定性与业务请求的成功率。

技术君说: 
每一年的双11,零点交易的数字都在不断提升,而淘系技术的突破和创新远不止与此,我们将持续以技术驱动产品和商业创新。

2020,我们精彩继续!


本文作者:淘系技术

阅读原文

本文为云栖社区原创内容,未经允许不得转载。

阅读 1.1k

推荐阅读
阿里云栖号
用户专栏

汇集阿里技术精粹-yq.aliyun.com

11790 人关注
2136 篇文章
专栏主页