头图

导读:本次跟大家分享的是哈啰出行精准营销场景的算法与实践,包括以下几大部分:

  • 精准营销的背景和价值
  • 精准营销框架
  • 精准营销算法能力
  • 未来方向

精准营销的背景和价值

首先和大家分享一下精准营销背景和价值。

精准营销的业务背景

image.png

哈啰由出行逐渐迈向服务电商,除了两轮以外,还包括本地生活、酒店和电动车等多种业务。需要通过精准营销去实现各个新业务的用户增长。我们的业务目标是通过用户全生命周期精准营销和精细化运营,去提升用户增长的北极星目标。

精准营销的场景和流程

image.png

按照用户生命周期来划分,精准营销的场景主要分为三个方面:

  • 拉新:主要是充分去挖掘一些潜在用户。
  • 活跃:主要是为了留存和促活目前已经有的存量用户。
  • 挽留:主要是通过一些精准营销的方式去召回一些流失用户,最终去提升各个新业务的DAU。

流程包括三大部分:

  • 首先是who,也就是目标群组;
  • 接下来what,投什么内容;
  • 之后是how,以什么样的方式去投。

最后进行精准营销。

精准营销业务痛点

image.png

精准营销业务主要包含以下四个痛点:

  • 寻找精准人群的效率低:主要表现在是要凭运营人工大量的去测试。
  • ROI比较低:主要表现在营销成本很高,但是实际的收益却是很低。
  • 算法覆盖面低,接入效率较低:主要表现在仅能够覆盖部分人群的部分场景,定制化是很严重的。
  • 未形成体系化:主要表现在缺乏营销后的分析优化,没有形成一个精准营销的闭环。

精准营销项目价值

image.png

精准营销的项目价值主要体现在以下两个方面:

  • 提效:主要表现在两点,第一点是提升精准营销的效率,主要表现在运营可以直接对算法的精准人群包去进行营销,不用去做前期的大量测试。第二点,主要是提升转化率,主要是通过精准营销人群模型的搭建,去提升业务点击率,预计提升CTR的幅度是20%。
  • 增收:通过精精准营销可以提升业务的订单量,预计可以提升20%。

精准营销框架

在搭建精准营销框架之前,需要深入了解业务,找到哈啰精准营销场景的特点,并找到对应的解法。

精准营销场景特点与解法

image.png

通过前期的数据分析和调研发现,目前哈啰精准营销的场景特点和我们针对性的解法主要有以下三方面:

  • 精准营销场景众多,定制化重复开发:算法从模块化逐步走向组件化,以及最终走向的平台化。
  • 高质量人群需要继续扩量:采用目前业界比较先进的半监督框架Pu-Learning。
  • 种子用户过少,不足以算法建模:去通过一些无监督的学习方法,进行智能放量。

精准营销业务框架

image.png

精准营销的业务框架主要分为以下三大模块:

  • 特征处理:主要分为离线特征处理和实时特征处理,离线的特征处理主要是通过埋点数据计算出的离线表提前存储到机器本地。实时特征主要是通过Flink去计算一些实时特征,将其存储在Redis中。
  • 精准营销:包括算法、用户分析平台和投放平台模块。首先是算法,算法主要分为两个点,第一个就是行业包,所谓的行业包就是在Pu-Learning框架下的LookAlike建模方法。第二点是智能放量,通过Graph Embedding无监督学习的方式去得到用户之间的embedding,之后通过向量引擎去计算用户和用户之间的相似度,得到每个用户的top n相似用户。其次是用户分析平台模块,运营首先创建由原子标签组成的种子人群群组,然后选择是否进行智能放量,如若选择,算法将会返回放量后的目标群组。再次是投放平台,当运营在进行任务投放时,首先需要创建任务,然后选择任务方案,这个方案就是用户分析平台返回的目标群组,之后进行任务的下发,以及一些ab效果的回收。
  • 算法场景:主要是业务拉新、业务促活和业务流失。活动方面,主要包含资源位的投放,Banner,站内信,或者是push。

精准营销技术框架

image.png

接下来站在技术的视角去看精准营销的框架。

运营在创建营销任务时,首先选择任务方案,这个方案背后是用户的目标群组,此群组由两个部分构成:

  • 由行业包形成的群组:通过一些离线的样本和特征,离线训练模型,将模型部署在DataMan,最后形成一个离线的预测任务。此任务将输出的数据存储在hive表,此后将表数据存储在ES中,形成标签,最终构成目标群组。
  • 智能放量服务放量后的目标群组:业务前端收集行为埋点数据,将其存储在kafka中,然后通过flink实时计算,将计算出的实时特征,存储在Redis,当智能放量服务使用时,直接从特征平台取数据。

精准营销算法能力

Pu-Learning框架下的LookAlike建模方法

image.png

什么是lookAlike?它不是一种特定的算法,而是一种思想,主要是根据种子用户去寻找相似的拓展人群。

怎么做lookAlike?主要分为两个方法:利用机器学习模型进行隐式人群拓展;利用社交图结构的相似人群拓展。其中机器学习模型主要分为有监督、半监督和无监督三类,在有监督学习,分类过程中,所有的训练数据都是有标签的;在半监督学习中,训练数据的一部分是有标签的,另一部分没有标签,并且没标签数据的量常常远大于有标签的量。而在无监督学习中是没有标签的。

image.png

在做lookAlike的时候遇到的挑战,以及对应解决方案:

  • 新业务用户特征稀疏:稀疏主要表现在,哈啰目前以两轮流量给新业务导流,并且两轮的用户群体基数是比较大的。但是新业务在起量时,用户往往是比较少的,所以会导致用户行为特征的稀疏。对此,采用的解决方案是使用两轮特征。
  • 可用特征较少:对此解决方案是分析各业务间的共性,得到业务之间的交叉特征。
  • 高质量人群需要继续扩量:对此采用的方案是采用的是业界目前比较先进的Pu-Learning框架。

image.png

面对多个业务多阶段发展的时候,算法迭代分为以下两个阶段:

  • 采用GBM有监督学习模型。正样本是新业务真实转化的种子用户,负样本是从一些未转化的用户里面随机去选取的一部分样本。由于各个业务间存在差异,业务成果提升30%-130% 不等。
  • 采用TSA半监督模型。此模型主要分为两步,第一步在未标记样本中识别出一些可靠的负样本,第二步在正样本和第一步获得的可靠负样本上进行有监督的学习。

image.png

传统TSA建模流程如下:

  • 第一步:将正样本混入未标注样本中(间谍样本),将他们统一视为负样本进行第一次的模型训练,训练完之后,主要是通过选择正样本的分数范围去选择出一些可靠的负样本。具体如上图。
  • 第二步:在正样本和第一步得到的可靠负样本上进行监督学习。

image.png

优化的TAS建模流程如下:

  • 对传统TSA的第一步,采用EM模型。其中EM中为间谍样本分布的最小值,为算法离线指标recall很高时的概率。
  • 对正样本进行数据增强,即对正样本进行扩充,扩充的方法是将[є2,1]间的样本也视为真正样本,而[0,є1]间的样本视为真负样本,输入到DeepFM模型进行训练。

image.png

优化TSA的业务成果:在保证就是ROI不降低的情况下,人群数量扩 3-10 倍。

Graph Embedding在精准营销上的工业级应用

image.png

Graph Embedding,主要是基于用户关系链去寻找相似的人群。分为两个步骤,首先是获取用户Embedding,其次计算用户间Embedding相似度。首先是Embedding的获取,主要是利用某种无监督机器学习方法得到。

在做Graph Embedding时面对的挑战和对应方案:

  • 种子人群少,如何扩量:无监督计算Embedding相似度。
  • 如何构图:时空信息构图。
  • 如何增强序的概念:APP点击序列。

image.png

时空信息构图由点、边构成。点指的是用户。边指的是用户与用户在同一地块、同一时间、同时发生的行为。其中用户行为,主要包括用户对单车的扫码和关锁等。权重是无向等权,即当用户在一个地块一个时间段同时发生某种行为时,它们之间会有一条边,并且此边是等权重的。

image.png

然后采用DeepWalk得到用户的Embedding。DeepWalk的原理是先在图中随机走出一个路径,之后将路径序列输入到Skip-Gram里进行训练,最后得到用户的向量。

image.png

但是上述做法存在一定的不足,即只考虑了用户和用户之间的关系,没有将用户之间本身的一些特性加到模型中。因此后续第二个迭代版本采用的是EGES模型,其主要和以上做法有两点不同:

第一点:把用户Side information加入到模型。

第二点:不同类型用户Side information设置不同权重。

image.png

在前面两个算法迭代版本中,主要是两轮的骑行行为,用户间的关系以及用户本身特性三大方面的特征,但是要考虑哈啰APP的所有用户,所以第三个迭代部分是将一些APP的行为序列给加进去。

image.png

工业级向量相似度的计算方法,采用向量引擎Milvus,它的主要优点有两个:

第一:可达到近实时查询的效果。

第二:集成了多个向量索引库,可在限定的时间内给业务返回结果。

image.png

此次业务成果主要体现在两个方面:

  • 覆盖度:全面平台化,0成本支持智能放量人群包,并覆盖60%场景。
  • 提升度:ROI提升20+%。

未来方向

image.png

最后来讲一下我们对精准营销的未来规划。

  • 首先是图的构建,因为数据是模型的上限,在Graph Embedding里,首先要做到的是把图构建好。后续我们有两个规划,用户公域点击行为和用户私域点击行为。
  • 第二是智能放量阈值,目前选择阈值主要是运营,比如想扩10 倍或1000倍,就是随机靠人工去拍板。后面希望建立一个阈值推荐机制,可以通过背后的算法推荐ROI最高情况下的放量倍数。

(本文作者:郁丽萍)

image.png


哈啰技术
89 声望54 粉丝

哈啰官方技术号,不定期分享哈啰的相关技术产出。