Pinterest Homefeed中基于嵌入的检索的进步

📖阅读时长:19分钟

🕙发布时间:2025-02-11

近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企
公众号【柏企科技说】【柏企阅文

引言

在Pinteres的t Homefeed中,基于嵌入的检索(也称为学习检索)是一种关键的候选生成器,用于检索高度个性化、有吸引力且多样化的内容,以满足用户的各种意图,并支持多种可操作行为,如保存Pin图和购物等。文章之前已经介绍过这种双塔模型的建立,包括其建模基础和服务细节。在这篇博客中,文章将重点介绍在基于嵌入的检索方面所做的改进:如何通过先进的特征交叉和ID嵌入进行扩展,升级服务语料库,以及目前文章如何利用最先进的建模技术推动基于机器学习的检索变革。

特征交叉

文章为模型提供了各种各样的特征,希望它能揭示用户参与度的潜在模式,这些特征从预训练的嵌入特征到分类或数值特征不等。所有这些特征都通过嵌入层或多层感知器(MLP)层转换为密集表示。推荐任务的一个先验知识是,融入更多的特征交叉可能有利于提升模型性能。例如,了解电影作者和类型的组合比单独了解这些特征能提供更多的上下文信息。

双塔模型的一般理念是建模简单;然而,这更多地体现在没有用户 - 物品特征交互,并且使用像点积这样简单的相似性度量。由于Pin塔是离线使用的,而用户塔在每次Homefeed请求时只获取一次,所以文章可以在每个塔内扩展到复杂的模型结构。以下所有结构都应用于两个塔。

文章的首次尝试是使用MaskNet[1]对模型进行升级,以实现逐位特征交叉。这个过程与原始论文有所不同:在嵌入层归一化和连接之后,文章的MaskNet模块被实现为输入嵌入与其通过两层MLP的投影的Hadamard乘积,然后再经过另一个两层MLP来优化表示。文章使用瓶颈式MLP并行化四个这样的模块。这种设置简化了模型架构,并通过每个塔内广泛的特征交叉带来了很强的可学习性。在Pinteres的t Homefeed中,文章使用参与会话(engaged sessions)来衡量推荐系统迭代的影响,参与会话指的是持续时间超过60秒的连续交互会话。这种模型架构的升级使Pinteres的t上的参与会话增加了0.15 - 0.35%。

文章进一步将架构扩展到DHEN[2]框架,该框架以串行和并行方式集成了多个不同的特征交叉层。文章将一个MLP层与相同的并行MaskNet并列,并附加另一层由MLP和变压器编码器[3]并列组成的层。这一附加层增强了字段级别的交互,因为注意力是在字段级别应用的,而基于点积的MaskNet特征交叉是在比特级别。这种扩展使参与会话又增加了0.1 - 0.2%,同时Homefeed的保存和点击量增加了超过1%。

采用预训练的ID嵌入

行业推荐表明,通过记忆用户参与模式,ID嵌入能带来好处。在Pinteres的t,为了克服众所周知的ID嵌入过拟合问题,并在下游机器学习模型中最大化投资回报率和灵活性,文章通过在跨平台大窗口数据集上对采样负样本进行对比学习,预训练大规模的用户和Pin ID嵌入,并且不对正样本进行下采样[7]。这为Pinteres的t的推荐带来了广泛的ID覆盖范围和丰富的语义。文章在检索模型中采用这个大型ID嵌入表来提高精度。在训练时,文章使用最近发布的torchrec库来实现,并在多个GPU之间共享大型Pin ID表。由于离线推理对延迟要求较低,文章使用CPU模型工件进行服务。

然而,尽管两个模型的训练目标相似(即在采样负样本上进行对比学习),但直接微调嵌入在在线应用中表现不佳。文章发现模型严重过拟合。为了缓解这个问题,文章首先固定嵌入表,并在ID嵌入之上应用概率为0.5的激进随机失活(dropout),这带来了不错的在线收益(首页推荐的重新保存和点击量增加了0.6 - 1.2%)。后来,文章发现简单地使用最新的预训练ID嵌入并不是最优选择,因为共同训练窗口和模型训练窗口之间的重叠会加剧过拟合。最后,文章选择了没有重叠的最新ID嵌入,这使得首页推荐的重新保存量增加了0.25 - 0.35%。

服务语料库升级

除了模型升级,文章还对服务语料库进行了更新,因为它定义了检索性能的上限。文章最初的语料库设置是根据Pin图的规范图像签名对其进行个性化处理,然后纳入过去90天内累积参与度最高的Pin图。为了更好地捕捉Pinteres的t上的趋势,文章不再直接对参与度进行求和,而是切换到时间衰减求和,以确定日期d时Pin图p的得分,公式如下:

此外,文章还发现训练数据和服务语料库在图像签名粒度上存在差异。服务语料库在更粗的粒度上运行,以去除相似内容的重复并减小索引大小;然而,这会导致统计特征漂移,比如Pin图的参与度,因为与训练数据相比,查找的图像签名不同。通过专门的图像签名重映射逻辑和时间衰减启发式方法来弥合这一差距,文章在没有进行任何模型更改的情况下,使参与会话增加了0.1 - 0.2% 。

革新基于嵌入的检索

在本节中,文章将简要展示近期如何利用最先进的建模技术,推动基于嵌入的检索产生更大影响。

多嵌入检索

与其他平台不同,Homefeed的用户意图多种多样,仅用单个嵌入来表示所有意图可能并不充分。经过大量实验,文章发现基于胶囊网络4修改的可微聚类模块比多头注意力和基于预聚类的方法等其他变体表现更好。文章使用最大最小初始化[6]来切换聚类初始化,以加快聚类收敛速度,并实施单分配路由,即每个历史项只能对一个聚类的嵌入有贡献,以增强多样性。文章将每个聚类嵌入与其他用户特征相结合,生成多个嵌入。

在服务时,文章只保留前K个嵌入并运行近似最近邻搜索(ANN search),K由用户历史记录的长度决定。得益于最大最小初始化的特性,前K个嵌入通常是最具代表性的。然后,结果以循环方式组合,并传递到排序和混合层。这种新的用户序列建模技术不仅提高了系统的多样性,还有助于增加用户的保存行为,这表明用户在Homefeed上获取了更多灵感。

首页推荐的条件检索

在Pinterest,多样性的一个重要来源是兴趣Feed候选生成器,这是一种基于令牌的搜索,根据用户明确关注的兴趣和推断出的兴趣进行。这些明确的兴趣信号除了用户参与历史之外,还可能为文章提供有关用户意图的辅助信息。然而,由于匹配的候选对象之间缺乏更细粒度的个性化,它们的参与率往往较低。

文章利用条件检索[8](一种带有条件输入的双塔模型)来提高个性化程度和用户参与度:在训练时,文章输入目标Pin图的兴趣ID,并将其嵌入作为条件输入到用户塔中;在模型服务时,文章将用户关注和推断出的兴趣作为条件输入来获取候选对象。该模型遵循早期融合范式,即条件兴趣输入与所有其他特征在同一层输入到模型中。令人惊讶的是,该模型能够学习根据条件输出,并产生高度相关的结果,即使是在长尾兴趣中也是如此。文章进一步为近似最近邻搜索配备了兴趣过滤器,以确保查询兴趣与检索到的候选对象之间具有高度相关性。在检索阶段实现更好的个性化和用户参与度,有助于提高推荐漏斗的效率,并显著提升用户参与度。

参考文献

[1] Wang, Zhiqiang, Qingyun She, and Junlin Zhang. “Masknet: Introducing feature-wise multiplication to CTR ranking models by instance-guided mask.” arXiv preprint arXiv:2102.07619 (2021).
[2] Zhang, Buyun, et al. “DHEN: A deep and hierarchical ensemble network for large-scale click-through rate prediction.” arXiv preprint arXiv:2203.11014 (2022).
[3] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017).
[4] Sabour, Sara, Nicholas Frosst, and Geoffrey E. Hinton. “Dynamic routing between capsules.” Advances in neural information processing systems 30 (2017).
[5] Li, Chao, et al. “Multi-interest network with dynamic routing for recommendation at Tmall.” Proceedings of the 28th ACM international conference on information and knowledge management. 2019.
[6] Arthur, David, and Sergei Vassilvitskii. k-means++: The advantages of careful seeding. Stanford, 2006.
[7] Hsu, Yi-Ping, et al. “Taming the One-Epoch Phenomenon in Online Recommendation System by Two-stage Contrastive ID Pre-training.” Proceedings of the 18th ACM Conference on Recommender Systems. 2024.
[8] Lin, Hongtao, et al. “Bootstrapping Conditional Retrieval for User-to-Item Recommendations.” Proceedings of the 18th ACM Conference on Recommender Systems. 2024.

本文由mdnice多平台发布


柏企科技圈
23 声望6 粉丝