2

简介: 揭晓三位一体的在线服务体系AI·OS,及其技术架构演进,技术概况,云原生产品与实践。

作者:阿里巴巴搜索推荐事业部高级研究员 沈加翔

一、三位一体的在线服务体系AI·OS介绍

AI·OS(Artificial Intelligence Online Serving)是由阿里巴巴搜索工程团队打造,集个性化搜索、推荐、广告三位一体的在线服务平台。AI·OS引擎体系所支撑的业务场景包括:手机淘宝所有搜索页面、手机淘宝上的信息流(猜你喜欢)、大促重点活动会场、淘宝首页商品推荐、分类行业个性化推荐以及商品选品场景,覆盖了手机淘宝上80%以上用户群体。使用一套技术来支撑搜索、推荐乃至广告,这在大型互联网公司里是比较少见的。阿里的平台技术战略,本质上是两样东西,一是电商技术,另一个是和电商配合的大数据AI技术的应用。电商OS,包括商品管理、类目管理、运营管理、交易链路。而在大数据、深度学习的时代,AI的投放、搜索推荐,甚至广告的投放,已经是独立于传统电商的技术场景。除了手淘上的场景之外,AI·OS还支持阿里电商集团内能够想到的所有场景,典型的包括东南亚的Lazada、聚划算、飞猪、优酷、钉钉、菜鸟、盒马、本地生活——饿了么、口碑,甚至和经济体内部的兄弟公司支付宝在合作。

1.jpg

在深度学习的时代,AI·OS引擎体系的架构演进的变化是相当大的。但是我们并没有像其他的互联网公司一样,在搜索和推荐的系统之外单独做深度学习的技术。之所以成为今天的AI·OS体系,是因为我们把搜索、推荐、信息流、广告、深度学习这几项,从技术到业务场景都不同的东西,非常好地结合到了一起,得以形成了有实质内涵,能相互借助合体发力的基础引擎平台。

从另一个角度纵观AI·OS上众多的业务场景,整个体系内会涵盖以下技术或概念(如图):

2.jpg

第一层,分布式引擎系统需要具备的能力。无论是搜索、推荐、广告,都需要召回、排序,系统做大之后,需要分布式通信,高性能索引的存储,要有比较高效率的支持索引灵活构建更新的能力,以上是基础能力。

中间这一层,是在深度学习时代沉淀出来的技术要求和场景要求。比如深度学习需要做样本处理,做训练,在线预测,同时,与之相应的,是个性化投放,这在搜索、推荐、广告都有所体现。最后,索引的部分还应该支持实时更新,这个概念在电商体系尤为重要。

再下面,就是整个体系内有资源管理,高可用性,相应的计算引擎的支撑,运维的管控和插件的支持。

以下是AI·OS工程体系技术的概念图。

3.jpg

在这个组件的最下层是资源的管理,叫Hippo,是一个非常高效的资源管理系统。

最上层业务,包括淘内业务,云上业务和广告业务,都是近几年陆陆续续拓展起来,一起逐步迁移到AI·OS这个功能体系上的。阿里的很多技术、业务是一个自底向上的模式,我们有非常强的创新意识。我们自底向上把搜索推荐平台化建设到百分之七八十,再组织推动到战略高度,加速之后形成了全覆盖的格局。

右侧是系统里的中间件,是更为基础的组件,跟实际的业务功能都直接相关。包括服务的定位——运行数万台机器的系统,内部要想服务定位需要有一个自己的机制。服务监控达到秒级的,这种秒级的服务监控和内部应用的metrics对分布式系统的debug是非常关键的。索引分发是解决引擎数据更新链路的重要基础组件。我们的消息队列是一个利用机器碎片资源搭建的高性能消息组件,只有非常小的CPU消耗和网络的通量,基本上是一个免费的组件,成本上比较有优势。二层调度和弹性扩缩,在应对大促时,是在内部做搜索、推荐、广告之间分钟级资源调配的重要手段。

左侧的算法平台、离线平台、训练平台、计算平台,是我们在深度学习时代新的开拓。从样本和特征的处理链路来说,有我们的算法平台——星云体系,在这个过程当中,有训练引擎的对接——XDL。计算平台,是支撑算法样本和训练的基础,也是阿里集团内部强大的技术支点,是和搜索一起成长起来的,相互促进相互支撑。

中间,是这几年最重要的积累,和业务密切相关。端上智能,我们在端上不仅仅做简单的推荐改变和结果混排的变化,而是真正在端上做模型的训练,深度模型的预测,在这方面,手淘信息流是全世界规模最大的深度学习、训练和预测的应用场景,这是我们比较有特色的探索。

HA3搜索引擎的服务是我们最经典的具有全文本检索能力的引擎。商业化引擎,是与HA3相对应的,支持广告业务、关键词匹配带广告,或者支持定向场景投放的召回引擎。iGraph图引擎,是具备在线图计算和图检索能力,在业界规模较大的图检索引擎,它里面具备的用户个性化关系、知识图谱的在线推导能力都是很大规模的。这些引擎都是支持数据实时更新的,这个能力的来源就是AI·OS Framework,支持对数据的管理,对更新的管理,是对右侧整套技术的依赖,也有延伸出来的深度学习的能力。

二、AI·OS 在线服务技术架构演进

AI·OS在线服务架构,对逐步走向规模化的初创公司,具备一定的参考意义。

4.jpg

AI·OS 虽然有十年时间,但由于之前一直围绕淘宝搜索业务深耕细作,在2013年至2015年期间主要在搜索引擎上做性能优化,在阿里体系内部做搜索引擎平台化。搜索搭建主要是运用比较经典的架构——Query的处理+搜索引擎+摘要服务,Query的部分,会有一些个性化存储,当时是用简单的KV来完成。这个架构是很多初创型企业选用的架构,也是我们云产品上提供的一个经典解决方案。

2015年到2018年,随着信息流业务的进入,我们将搜索底层(Suez或AI·OS framework)数据抽象沉淀出来,在沉淀的数据上面,衍生了图引擎、预测引擎、搜索引擎、推荐引擎,形成了今天AI·OS的主体框架。在这个过程中,我们也统一了全集团的搜索和信息流基础框架,但这个过程是很依赖于阿里集团内部自下而上的搜索平台推进,这是在业界获得证明,在集团获得认同后,纳入到集团战略里的。

2018年~2019年,我们推进了全图化的架构,是从深度学习开源框架TensorFlow学来的。在深度神经网络迭代过程中,全图化架构这种图化DAG的表达,对业务描述更为标准通用化,我们把这个全图化架构学来后,推广到所有业务线,不仅是深度学习上,还包括业务逻辑调整、场景迭代、功能调整,如粗排、精排、统计、过滤这些功能,都用图化的方式来表达,在业务迭代效率上,有了质的飞越。

由于之前在定制业务逻辑时,难以避免有些代码级的,像C++、JAVA、插件开发,虽然能解决业务需求,但维护升级成本较高。解决方案就是用DAG算子化的表达,完成算子图后,随着版本升级,不需要改变算子图,仅需改变算子的实现,把业务迭代、平台升级的耦合度大大降低,非常好地解决了这个问题,这是近两年重要的技术突破。

在这个过程中,我们也把搜索和推荐的技术,用到了非常有趣的场景上面,比如菜鸟物流引擎,本质上是图检索和图计算的表达,跟我们的引擎体系,与iGraph图引擎一起成长,成就了这个典型的场景,在这个场景上每天有亿级别的包裹在图中流动,寻找最优化的路径,都是通过这个引擎来支持的。还有像钉钉消息搜索,消息是加密的,我们是无法查看的,而这个加密是从上到下贯彻到每一个环节的,在常规的搜索引擎中,是无法实现的。这个加密能力,是靠引擎的迭代实现的,除了深度学习外,我们在逐步引入SQL的能力。

随着集团内部进一步贯彻中台战略,不管是在软件的抽象,还是在能力的衍生,都需要在云上发挥。我们已经在集团内部已与蚂蚁金服业务拉通,并开辟了新的突破口。我们也真正在践行平台化、通用化的思路,用最高效的方式解决问题,并打造出了海神(一站式选品投放系统)、开放搜索(一站式内容智能搜索服务)等经典应用产品。其中,海神平台支撑了阿里集团1000+个性化场景,业务覆盖淘宝、天猫、聚划算、双11大促等业务线,支持了超过10亿次的选品投放。开放搜索作为高搜索质量的一站式内容智能搜索服务,以产品方式规模化支持搜索业务,覆盖了集团绝大部分搜索业务,业务应用数量超过1万个。并在双11大促时,担负了重要角色,支撑了高达100万的QPS峰值。

三、AI·OS技术概览

AI·OS主要部件包括:

端到端深度学习平台:星云&AOP

5.jpg

深度学习极大加速了模型工程的发展,模型迭代越来越频繁,网络结构越来越复杂多样,因此给算法迭代效率、数据计算效能以及模型交付可靠性等都带来了巨大挑战。为此我们提出并构建了面向大规模商业化场景的一站式深度学习建模平台——星云。借助星云,用户可以快速完成从特征引入、样本特征变换,到模型训练及评估,再到模型交付整个算法建模闭环。在此基础上,星云提供了完善的数据模型校验体系,确保用户的离线建模和模型交付具备生产级别的可靠性。星云支持全量学习、增量学习和在线学习,并通过高层抽象实现了各种学习模式之间的低成本切换。

大规模分布式深度学习框架:XDL

6.jpg

XDL是以开源框架为基础,面向广告、搜索、推荐等场景打造的分布式深度学习框架,针对高维稀疏特征、互联网结构化数据和结构化模型进行了专门设计与优化。XDL支撑着阿里妈妈直通车、钻展、超级推荐、品牌等多个营销产品对用户的深度理解与智能投放,是智能营销AI的核心驱动力。

预测引擎:RTP

7.jpg

传统的模型增量学习通过restore当前模型,持续训练,天级更新,或者实时流式训练,小时级更新,新模型需要经过全量切换才真正生效。基于AI·OS的预测引擎RTP,把TensorFlow的能力集成进来,让深度大模型支持实时更新,充分利用实时数据分布,提升CTR/CVR预估精度,获取业务效果。模型特征支持实时更新,模型可以增量训练,通过对RTP在线graph分解,提取可更新模型weights成最大不连通可执行子图,实时发送模型数据消息,真正实现了模型离线流式训练,在线实时更新的效果。最终将在线模型更新周期从之前的小时级缩短到分钟级别,模型生效时间从之前的分钟级缩短到秒级别。

全图化推荐引擎:TPP

8.jpg

TPP(The Personalization Platform,阿里个性化平台)为集团众多的个性化业务提供开放、一致的解决方案,让搜索、推荐技术轻松服务于业务发展,业务也能快速得在平台找到需要的技术,是AI·OS(Online Serving)大数据深度学习在线服务体系中的入口之一 。用户在TPP平台上编写方案代码,通过场景的形式对外提供服务。用户不用关心机器资源申请,应用部署结构,不需要编写服务框架,只需要实现自己的推荐逻辑函数,在TPP产品页面管理方案的生命周期,从编译,调试到发布上线。

四、AI·OS云原生产品与实践

我们将集团内沉淀出的技术能力,从2014年开始逐渐向外部推出。目前,依托于AI·OS体系构建的产品矩阵如下所示。

9.jpg
10.jpg

开放搜索(OpenSearch)源于阿里巴巴AI·OS体系技术,是免运维、一键式的云上平台,将搜索平台服务化、产品化,完全屏蔽了搜索系统的底层复杂度,以标准化产品的方式支持业务。开放搜索拥有比较好的搜索质量,效果可以在线调优。只需要提交内容、配置,就可以直接得到搜索体验。搜索体验中相关性可灵活配置选择,可以改写query、定制分词、提交行业词典。

在阿里巴巴集团内部,我们依靠开放搜索统一了各个搜索中长尾业务,自助接入的业务数量达上千个,基本覆盖了集团各个BU的业务。经过数年的耕耘,我们在阿里云也拥有数千家用户,包含内容、电商、视频等行业的典型应用。

11.jpg

智能推荐(AIRec)延申自阿里集团内部的海神系统,提供一站式的个性化推荐服务,服务使用者在提交内容和用户行为,在确保数据保密的前提下,按照不同行业的模板,应用个性化推荐算法,实时调整效果,为用户提供服务。除了阿里巴巴深耕的电商领域外,我们在内容、视频等其他行业算法的投入是相当充沛的。我们要把内部的技术用好之后,很自然地更加抽象、通用地拓展新的场景。

在这一过程中,数据源的埋点规范、使用是有些门槛的,但我们也致力于让产品更易用,同时效果提升的监控、调试、运营干预的策略,都已经在产品里提供了。在中小企业的创业期间,这可能将成为一种刚需配置。

12.jpg

还有围绕开源生态的Elasticsearch,这款服务由我们和Elastic公司合作推出。我们秉承开放的生态理念,将Elasticsearch的灵活易用和我们调度管控系统的稳定高效相结合,并根据用户需求,不断迭代自研的创新性功能。用户需要什么,我们就会提供什么,Elasticsearch在我们体系上做适配,是一个相互扶持、相互助推的局面。

在这三个垂直产品之下,是我们基础的云上技术积累,比如ElasticFlow,在数据进入引擎之前,需要对数据做打平处理,再灌到搜索引擎里,例如Elasticsearch就需要ElasticFlow。同时,它还实现了开放搜索开箱即用的离线能力。在这一层,我们需要的是具化的计算引擎能力,这个计算引擎是在集团的计算平台之上,为搜索、推荐定制了一个数据采集、开发、共享以及模型训练的能力,这个能力提供出来之后,可以让其上的产品横向地拉通共享,这也是AI·OS体系沉淀的重要标志。

再下层是管控平台,搜索的基础平台以及阿里云的基础产品,在这上面我们会有一些生态化的产品。

以下将介绍几个典型用户案例。

13.jpg

在春节期间,我们和好未来达成了合作。它旗下的直播云教育平台,在合作过程中有非常大的业务量增长,使用的是Elasticsearch+Logstash+Kibana+Beats的产品组合。在疫情期间,业务量的峰值和平时相比,有翻倍的Elasticsearch集群扩容的需求,我们在分钟级完成了集群扩容,让客户的用户体验得到最佳表达。翻倍的扩容不止需要把资源要过来,还需要把数据扩上去,并在不需要的时候,把资源还回去。这个是我们所拥有的非常重要的弹性扩缩能力,能很好地满足用户需求,让他在成本上达到最优。

14.jpg

上图使用开放搜索的典型电商app,主打运动潮流,有很多粉丝,对搜索效果非常关注。该客户曾选择自建搜索,但在扩容处理、搜索排序上缺乏些经验,搜索无结果率曾达到60%。后来,我们和客户一起优化,通过开放搜索产品叠加了我们阿里内部搜索算法的沉淀,包括分词、查询语义理解、query的改写等。功能上线后,搜索无结果率下降了80%,交易转化率提升了9%,这意味着搜索的改动带来了GMV的直接增长。

15.jpg

以上是同时使用开放搜索和智能推荐的著名IT社区——CSDN。他们之前做法是提交URL,由别人抓,提供索引,有了索引之后,再通过大搜索的方式去查,做站内的限制,这是非常流行的模式,但这个模式的流量变现是受制于人的,非常脆弱。同时,大的通用方案无法改善搜索效果,提交的URL没有办法100%保证被收录,更无法保证搜索结果的召回和相关性。通过开放搜索的方案,定制了这些能力后,效果比自建的方案和原合作方案都要好,PV_CTR比自研的高1倍以上,CSDN现在已顺利地支撑了网站的搜索服务。

16.jpg

众安保险在阿里云Elasticsearch上是比较大规模的用户,我们帮助他提升了性能,优化成本,在数据库检索加速场景满足了多表关联的查询需求和高可用性的要求,并保证金融类企业异地容灾部署的需求。


阿里云开发者
3.2k 声望6.3k 粉丝

阿里巴巴官方技术号,关于阿里巴巴经济体的技术创新、实战经验、技术人的成长心得均呈现于此。