头图

来自中国、美国、新加坡、日本、印度等国家的400多支顶级团队参加了今年 WSDM Cup大赛,腾讯拿下两大子赛道冠军。

ACM 国际 WSDM(Web Search and Data Mining) 会议是信息检索领域顶级会议之一。
今年,第16 届 ACM 国际 WSDM 会议的论文的接收率为17.8%。WSDM Cup由 WSDM 会议举办,本次大赛共设置三个赛道:无偏排序学习和互联网搜索预训练模型赛道、跨语言连续体的多语言信息检索赛道和视觉问答挑战赛道。

在腾讯太极机器学习平台和混元AI大模型助力下,腾讯机器学习搜索团队(参赛队名:腾讯机平搜索团队(TMLPS))参加了无偏排序学习和互联网搜索预训练模型赛道,并在该赛道的两项子任务中(“Pre-training for Web Search”和“Unbiased Learning to Rank”)双双夺冠。与此同时,相关技术也广泛应用于微信搜一搜、腾讯广告等多个产品,取得了显著的业务收益。

我们是如何做到的?

任务介绍

1.1 数据集简介

  • 大型会话搜索数据集[1]

数据是主办方提供的搜索会话(Session)数据, 涉及到约3.8亿query及12亿的document。全数据经过脱敏处理,内容不具有可读性。Session数据中包含:1)记录了页面表现特征(文档媒体类型、文档展现高度和标题与摘要等)的候选文档列表 (通常少于10个);2)当前Session 下的用户行为特征(点击、停留时长和滑屏次数等)。

具体该数据集所记录的所有特征展现如下图所示:
图片

图左: Session数据中的页面文档表现特征。从 D1 到 D8 共有 8 个表现特征。 
图右: Session数据中用户行为特征。从 U1 到 U18 共有 18 种用户行为。

下图从不同的角度展示对该数据集的分析。
图片
Session数据的数据分析

  • 专家标注数据集

专家标注数据集从Session数据随机抽取,每个文档与query的相关性由标注人员判断标注。每个文档根据相关性的强弱被标注为 5 个等级。表1-1 展示了每个等级文档的比例分布。表1-1 不同等级文档的数量以及所占比例
图片

在本次比赛中,该数据集一共被分为了三份。一份用于验证集,一份用于比赛第一阶段测试集,最后一份用于比赛第二阶段的测试集。

1.2 任务描述

  • Pre-training for Web Search

预训练技术在深度学习中得到了广泛的运用。目前主流的预训练方式主要基于自然语言处理,学习给定语料中的语言建模能力,例如masking token prediction任务与next sentence prediction任务。然而这样的预训练并非与搜索排序相关,在预训练任务中引入搜索排序相关的任务使得模型更加贴近于下游任务成了搜索预训练研究中重要的课题。此任务中,参赛者需要在给定中大型搜索日志中进行搜索排序相关的预训练,并结合专家标注数据进行模型微调,产出一个有效地搜索排序模型。

  • Unbiased Learning to Rank

点击日志能提供大量的查询-文档相关性反馈,然而用户的点击信号通常存在很多噪音(bias),主要来源于诸如位置、展现形式、网页权威度、点击必要性等因素的影响。为了消除点击数据中潜在的噪音,无偏排序学习(Unbiased Learning to Rank,ULTR) 得到了广泛的研究。在此任务中,参赛者仅可利用大型搜索日志(不能使用专家标注数据),通过文章内容、展现特征、用户交互行为特征等因素进行无偏排序学习训练。

1.3 评测指标

本次比赛采用折损累积收益 (DCG) 用于评估排名模型的性能。对于𝑁 个已经排好顺讯的文档列表,DCG计算公式为:
图片

图片

Pre-training for Web Search赛道解决方案

2.1 整体方案

图片
图2-1 预训练赛道中的四阶段训练策略

在此任务中,我们旨在通过点击日志进行语言模型预训练与专家标注数据微调解决搜索排序任务。由于全数据经过脱敏处理,我们需要从随机参数模型进行预训练到微调的完整步骤。方案整体为以下四个阶段:

  • 阶段1——CTR任务预训练:

    图片

图片

图片

首先,我们通过语言建模任务masking language modeling (MLM)与CTR预估任务进行预训练。在MLM任务中,使用官方提供的unigram_dict.txt文件进行词组匹配,通过whole word masking的方式对掩码进行预测,实现语言建模能力。与此同时,我们构建了一种group-wise CTR 预估训练方式。一个大小为K的group包含了一个点击文档作为正例,与K-1的非点击文档作为负例。与基于完整文档列表的point-wise训练方式相比,group-wise训练方式通过点击文档与非点击文档之间的对比学习,更好地保证了点击文档的相关性要比非点击文档的相关性要高,进而提升了排序任务的效果。(point-wise预训练模型的效果约为DCG@10约为7.6~8,groupwise预训练模型的效果约为DCG@10约为8.6~9)

  • 阶段2——基于用户行为特征进行去噪预训练:

    图片

为了更好地减少预训练期间点击噪音的影响,我们利用用户行为特征来完善阶段1的预训练目标。具体来说,通过用户在每个点击文档上的停留时间来过滤阶段1中的训练组,要求点击文档的停留时间应比其他未点击文档长于一个给定阈值𝜖。通过数据过滤,进而通过group-wise CTR prediction的任务进行预训练。这样训练样本质量更好,点击的文档更有可能是一个真实正样本,进一步地优化了模型的排序效果。

  • 阶段3——专家标注数据微调:

    图片

在预训练完成后,我们使用专家标注数据集微调模型,其中每个候选文档都标记有五级相关性。我们使用margin ranking loss来微调我们的模型。其中𝑑+是从相关性大于或等于2的文档中采样,𝑑−是从相关性低于𝑑+的文档中采样。margin在我们的工作中设置为 1。微调模型前DCG@10约为9.1,微调后模型DCG@10约为11.3~11.9。

  • 阶段4——集成学习:

表2-1:额外引入的排序学习特征
图片

为了进一步提升模型的排序效果,我们使用了多个BERT ranker的分数与表2-1中的排序特征作为LambdaMart的输入进行集成学习。由于在人工标注数据上对LambdaMart进行训练,缺少可调参的数据集。我们采用五折交叉验证的方式,确定LambdaMart的参数设置,进而计算测试集上的文档的相关性分数。集成学习后,模型效果由DCG@10=11.9提升到12.16。

2.2 实验结果

表2-2:预训练BERT模型的效果
图片

图片
图2-2:集成学习中各种特征的重要性分数

我们列出了每个预训练BERT模型的效果与集成学习中的特征重要性分数,可以发现使用大模型(BERT-24层)能比BERT-12层有效地提升排序效果;同时,基于用户行为特征的debiased pre-training model能有效地减少点击噪声的影响,进而提升最终排序效果。

Unbiased Learning for Web Search 赛道解决方案

3.1 整体方案

图片
图3-1 经典基于PBM假设的方法与我们所提出方法的总体框架对比

如图 3-1(a) 所示,业界[3,4]常采用基于 Position-based Model(PBM)[2]假设的方法对训练 unbias learning to rank (ULTR) 模型。PBM的基本假设是:
图片

图片

换言之,PBM 认为 document (文档,以下简称doc) 只有在该 doc 被用户检验并且它与用户输入的 query 相关时才会被点击。如图3-1(a) 所示,大多数 PBM-based 方法在预测检验偏置项时,只考虑了位置信息。即,这些方法认为 doc 被用户检验的概率只与它排序的位置 (position) 有关 (排名靠前则更容易被用户看到)。然而,用户检验 doc 的步骤通常可以分为两步:

  • 首先用户需要能够观察到该文档;
  • 在观察到文档的基础上用户根据doc的表现形式来感知 query 与 doc 之间的相关性,如果用户觉得相关的话,就会进行点击。

在第一步中,doc 的排序位置确实对用户能否观察到该 doc 造成极大影响。但是在用户感知 doc 相关性时,位置的影响微乎其微,而包括 doc 的媒体类型(media type,以下简称mType)、doc 在搜索页面的展示高度 (以下简称serpH) 以及 doc 摘要中的 term 命中 query 中关键 term 的次数等 doc 在表现形式上的差异都对用户感知 doc 相关性造成关键性的影响。

因此我们提出了一种用于去除检验偏置 (包含感知偏置在内) 的多特征集成模型。模型的总体框架如图3-1 (b) 所示,它与图 3-1 (a) 有三个不同之处:

  • 在 examination-bias model 中除了依赖于位置偏置之外。我们还可以集成包括 mType、serpH、slipoff count (点击后用户的滑屏次数)。其中,mType 与 serpH 代表着显式的文档表示形式差异特征对检验偏置中用户感知偏置的影响。这些显式的特征在实际应用中需要根据搜索场景的不同而进行调整。而 slipoff count 则表示隐式的用户反馈特征。由于当用户因为感知错误而点进对应 doc 时,他很快能根据文档的内容判断 doc 的不相关性,一般也就不会进行滑屏而直接退出文档。因此,加入用户的隐式反馈作为 examination-bias model 估算检验偏置的依据是十分有必要的。同时,这种隐式反馈特征可以在任何搜索场景估算检验偏置时适用;
  • 由于在 examination-bias model 中集成了多种特征,所以我们适当的增加了它全连接层的深度(1层 --> 5层)。此外,BatchNorm (BN) 的引入对于加速模型的收敛起到了至关重要的作用;
  • 相比于图 3-1(a),我们还引入了一个实用的 trick ,即 Group Selection Layer,它等价于Pre-training 赛道所使用的 group-wise 预训练方式,在本次任务中起到了很好的效果。

除以上三点之外,relevance model 侧使用 pre-training 任务中预训练的模型参数作为热启动也是一个关键点。如果不做热启动, examination-bias model 和 relevance model 的初始预测值都比较差,极大地加大了模型初始的训练难度,并且两侧模型存在相互误导的风险。实验中,做热启动与否的 DCG@10 相差 0.8 左右,并且不做热启动的模型收敛时间是做了热启动的模型的三倍。

3.2 实验结果

如表 3-1 所示,我们测试了不同特征组合下,模型的性能变化。可以观察到在位置特征的基础上,引入 doc 的表现形式特征以及用户行为特征能够在 PBM-based 模型的基础上有效的提升模型的性能。

表3-1 使用不同特征时,模型的性能变化
图片

此外,如表 3-2 所示,我们还测试了不同超参数设置下,模型性能的变化趋势。经过参数搜索,在当前任务中,将 examination-bias model 的层数设置为 5 层,同时将 group size 参数设置为 6 时,模型性能最佳。

表3-2 不同超参数下,模型的性能变化(L代表层数,G代表训练组大小)
图片

总结与展望

4.1 Pre-training for Web Search

点击日志是预训练搜索排序任务的宝贵资源, 在该任务中我们总结了以下方法可以有效地提升排序效果:

  • Group-wise CTR prediction任务比Point-wise CTR prediction任务更好地提升排序效果。
  • Whole word masking在中文任务上能进一步提升语言建模能力。
  • 通过用户行为特征对点击数据进行清洗过滤,可以使得模型学习到更为可靠的相关性关系,进而提升模型效果。
  • 使用大模型在cross-encoder的结构上,能有效地提升相关性排序效果。

4.2 Unbiased Learning to Rank

在该任务中我们重点探索了以下两点:

  • 提出了一个能够借助更多上下文特征(用户行为特征与文档表现形式特征) 的多特征集成框架以更好的对点击数据进行去偏,验证了多种不同类特征在提升模型去偏能力上的效果。
  • 工作过程中发现,并不是加入越多的去偏特征模型的性能就会越好,特征过多反而会导致模型学习的难度变大、收敛更慢。实际应用中,需要通过实验合理地选择特征、表征特征以进行标签去噪。

比赛链接:Unbiased Learning to Rank and Pre-training for Web Search
比赛完整代码与论文:GitHub - lixsh6/Tencent_wsdm_cup2023


腾讯技术
43 声望12 粉丝