2

本文来自OPPO互联网技术团队,如需要转载,请注明出处及作者。欢迎关注我们的公众号:OPPO_tech

按:本文主要介绍了广告场景中的机器学习应用场景,以及不同场景下对于算法要求的不同,可以作为了解算法在广告产生作用的入门文章。

在整个广告流程中,数据起着至关重要的作用,但最终数据的价值最大化,核心还是依赖于算法在各个关键流程里的作用。

我们先来看看机器学习在整个广告流程里,到底可以做些什么事,然后再讲后续我们的规划逻辑需要进一步去学习什么,了解什么。

广告的排序

在广告技术的架构中,其中非常重要的一环就是广告的排序。所以,说到算法在广告中的应用,第一个能想到的就是通过机器学习做到广告的最优排序。

广告排序逻辑上会涉及到几个因素:出价、上下文匹配、CTR预估。这本身就是一个多元素组合最优排序的问题,里头CTR预估又是广告领域里头最核心需要解决的问题。

因为很多广告系统里,可能做不到上下文理解,出价逻辑也可以做的稍微粗糙一点,但是对于CTR预估,都是重中之重,首先需要解决的问题。CTR预估本质上就是对于候选曝光用户,针对于每个广告候选池做点击概率的预估计算。所以是一个非常典型的偏回归的问题。

上下文理解

延续上面的话题,上下文理解又或者说上下文的匹配。简单来讲就是,计算环境因素与广告因素的匹配度的问题,或者说相关度的计算。当然,匹配度只是解决上下文理解的一种方式或者说这类机器学习的模型可以解决这个问题。

其实还有其他方式可以去解决的,比如当样本累计够多的时候,也不单纯计算内容的相关度,也可以从推荐系统的思路去思考,即大量的广告环境与广告曝光关系数据,用户在这个组合下的CTR数据。这不就是一个非常典型的关联分析的场景吗。将上下文的环境与广告,通过历史信息,做关联分析,而非基于内容相关性分析。

从目的的角度上来说,最终都是期望用户点击广告,所以不管是关联分析还是相关性分析,都是一种途径。

lookalike人群扩展

人群扩展是广告领域里典型的需求场景,说的更直白点就是,当目标用户群体没有这么多的时候怎么办?给我预测一下,扩展一下呗。

所以,lookalike本质上拿到核心用户(所谓核心用户,就是已经验证过的高转化人群),然后计算类似的用户(不是严格意义上的内容相似,而是最终转化目标相似),这样就达到了扩展的目的。

而通常扩展的原始用户则是用户圈选定向的那一拨人,但是显然定向圈定的人群与其实际需求曝光量级有差距。还有一种更常见的扩展场景,就是广告主导入自身积累的高转化核心人群,这就是最精准的定向,然后平台负责找到相同的人。

回归到机器学习,你可以认为这是一个相似用户计算的场景,二值判断,概率计算,最最简单,你用LR就能满足你的需求了。但也不止这么简单,因为很多时候你会发现训练样本可能是数百万,甚至是上千万的数据集,然后如果维度不小心做到几十万维,几百万维,甚至是千万级,那么你要解决的问题就多了。

标签定向

我们知道,定向算是广告体系里的人群召回阶段,从基础的男女性别,到更高纬度的商业兴趣,诸如你要不要减肥,是不是要贷款等,而这些最具象化的形态就是用户标签。

每一个成熟的广告平台,都有一个完整且相对精准的标签体系,每个其体系里头的用户都或多或少能打上若干个标签。所以,总有某个合适的广告场景中,适合做出相应的推荐。

广告的本质就是流量和数据分发。虽然有点过于直白,但这就是终极的本质,将不同人群标签化。

而标签的制造说简单也简单,说难也难。举个简单例子来说,最基础的性别标签,如果有场景可以获取身份证号就自然很简单,但是如果没有,难道靠猜?所以,这里就是典型的二值分类场景了(也有做三分类的,比如微博里,除了男女,还有诸如机构属性的账号)。

除此之外,还有茫茫多数百个其他标签,各个层次的,各个细分领域的,简单一些的可以通过行为规则的方式打上一些标签。通过行为规则做判断,只要规则合理,准确性固然是可期的。但是,一方面是有显性行为的数量少,满足不了大规模曝光的需求,另一方面召回能力太差,用机器学习的专业术语叫泛化能力太差。

所以,从机器学习的角度来说,这又是典型的判别模型场景,而且是超多分类的场景。当然,你同样可以转化成二值分类,针对于每个标签,都是一个YES or NO的答案。

当然,在实际的处理中,大部分可能只会计算一个概率值,再来做进一步的计算和判断。而基于用户行为,肯定又会遇到大量的文本,自然语言处理的东西自然是少不了的。

异常分析

所谓异常分析应该属于偏反作弊的范畴了。比如,大规模的机器点击广告,造成假量怎么办,就算不是机器,也总有一部分人群喜欢点广告玩,更过分的就是那种连接投放收集信息的广告场景中或者二类电商。

(注:一类电商,指一般所熟悉的淘宝 / 京东 / 天猫等,严格定义来说是指在线支付的店铺推广形式的电商,具有在线支付、典型的商城结构、线上货架售货模式等。二类电商的核心是货到付款的推广形式,通常没有严格意义上的商城或者货架,典型模式是单品触达、在线下单、签收付款的逻辑。)

填个空号是常态,打个电话过去说非本人也是正常的,二类电商中,地址都到门牌号了,名字写着“周杰伦”,你是不是该犹豫了到底要不要发货呢,万一拒收来回邮费可白搭了。

广告主很忧桑,每个点击都是要扣钱的,每个被拒收的单子不单纯浪费发货精力,更重要的是来回邮费成本,都是小本生意,经不起折腾。

所以,二类电商一定是要控制主脏单率的(所谓脏单就是那种地址找不到,各种拒收的单子),而CPC那层,大量的恶意无效点击也是不可行的,这些压力最终必然会落实到平台上,平台必须要解决这一类问题。

把那些有恶意广告行为的用户区分出来(有历史污点的好处理),但是那些有这方面潜力的也需要区分出来。

从机器学习和算法的角度来看,这就是一个典型的分类场景,但这真的不是一个典型分类场景。要知道,坏人总是少数的,如果平台上都是坏人,那平台也不用玩了。

这是一个“大海捞针”的活,即要从数千万,甚至是数亿的用户里,捞出寥寥数十万,最多数百万的“可能坏人”出来。这是一个典型的正负样本不均衡的场景,而这又是分类场景里的大忌,属于非常难以处理的场景之一。


OPPO数智技术
612 声望950 粉丝