Press "Enter" to skip to content

微信看一看基于未来信息构建对抗推荐模型丨WSDM 2022

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

本文基于论文《A Peep into the Future: Adversarial Future Encoding in Recommendation》,发表于WSDM 2022,论文作者来自微信看一看团队。

 

 

导语

 

在推荐系统中,用户的历史行为信息(user historical behaviors)是推荐个性化的重要信息来源。 所谓以史为鉴可知兴替,用户的历史行为和其未来行为之间存在极大的相关性。 因此,推荐系统的未来信息(future information)也包含着关键的用户偏好信息。遗憾的是,我们并不是能够观测未来的预言家——无法在真实线上系统中得到系统和用户未来的信息。

 

在这篇工作中,我们提出一个全新的基于未来信息的对抗建模(Adversarial Future Encoding, AFE),尝试构建一套通用的框架,在不同推荐模型上引入多种“未来信息”,辅助提升推荐效果。具体地,AFE模型包含一个未来感知的判别器模型(future-aware discriminator)和一个生成器模型(generator)。未来感知的判别器将未来信息特征(future features)和通用特征(common features,包括历史行为信息的常规推荐系统使用的特征)作为输入,以预言家的身份给user-item pair进行评分。相对地,生成器则作为挑战者,输入通用特征,输出尽可能真实的候选物品,尝试混淆未来信息加持后的预言家的判断。经过对抗博弈后,未来感知的判别器能够激发生成器的潜能,推荐出更好的结果。最终提升后的生成器被部署到线上执行推荐服务。

 

我们还设计了一组联合优化,结合对抗学习、直接监督学习和知识蒸馏等方式,使得生成器能够稳定训练。在实验中,AFE模型在离线和线上实验中均产生了显着的提升,验证了模型的有效性和普适性。 目前,AFE模型已经部署于看一看线上系统,服务千万用户。

 

模型背景与简介

 

在推荐系统中,用户的历史行为数据包含了用户丰富的个性化偏好信息,可以说是推荐模型绕不开的关键特征。目前,有海量的工作关注如何从用户的历史行为数据中挖掘用户的兴趣,基于序列建模、图建模、特征交互建模的推荐模型也层出不穷。

 

基于用户历史行为预测用户当前的点击行为,看起来似乎是直观且理所应当的。然而,其中隐含着一条关键假设:用户的历史行为和未来行为之间存在极大的相关性。基于此假设,如果我们能够像预言家一样观测到用户/系统未来的信息,那幺结合历史和未来信息的推荐模型一定会使得结果变得更加准确。这里,我们定义未来信息(future information)为只能在当前时间节点之后获得的信息,它可以是用户的未来行为信息,也可以包括系统或物品的未来信息。如下图1所示,在短期,用户行为比较连贯一致,未来信息能够作为历史信息的补充和细粒度注脚(如橘猫->奶牛猫)。在长期,用户兴趣点可能在不同主题中进行迁移,未来信息也能帮助捕捉不同兴趣点之间的潜在联系(如美食->烹饪工具)。

 

 

图1:推荐中的未来信息示意图

 

然而,在推荐系统中使用未来信息是十分困难的。时间轴上的序列建模和其它序列建模(如NLU中的文本序列建模)不同,真实推荐服务场景下的未来信息是无法观测和获取的。如果在训练中直接使用未来信息作为特征而在测试中丢弃,很容易造成训练测试输入特征不一致,导致模型效果大幅下降。目前有一些工作在序列推荐场景中引入了masked language model (MLM)这类预训练任务,基于上下文token(点击行为)预测当前token,可以说是间接地在序列推荐中使用了用户“未来”行为信息。但是,训练中的MLM和测试中的next item prediction任务在优化上有一定偏差,同时这种方式使用的未来信息局限于序列化推荐场景下的用户未来行为特征。我们希望能够提出一套使用未来信息的通用框架,能够在不同推荐模型中使用不同类型的未来信息,辅助提升推荐效果。

 

在本工作中,我们提出了一个全新的基于未来信息的对抗建模(Adversarial Future Encoding, AFE),构建了一套通用的框架,能够在不同推荐模型上引入不同类型的未来信息。具体地,AFE模型包括一个未来感知的判别器模型(future-aware discriminator)和一个生成器模型(generator)。未来感知的判别器将未来信息特征(future features)和通用特征(common features,包括历史信息在内的常规推荐系统使用的特征)作为输入,输出user-item pair的得分;相对地,生成器则作为判别器的挑战者,只输入通用特征,输出尽可能真实优质的候选物品(fake clicked items),尝试欺骗未来信息加持后的判别器预言家的判断。经过对抗博弈后,未来感知的判别器能够进一步激发生成器的潜能,推荐出更好的结果。我们将提升后的生成器部署到线上执行推荐服务,生成器的离线训练和在线测试的输入和优化目标都保持一致。我们还设计了一组多因素联合优化,结合直接监督学习和知识蒸馏等方式,使得生成器能够稳定训练。AFE模型的优势在于:

 

■ 离线训练中,判别器能够充分使用未来信息,提高挑战难度,鞭策生成器学习到更好的结果;

 

■ 通过判别器-生成器的设置,解耦了使用未来信息的模型(判别器)和真实线上部署的模型(生成器),避免了特征偏差和优化目标的偏差;

 

■ AFE是一个能使用未来信息的通用框架,能够在不同推荐模型场景和不同未来信息上应用。

 

在实验中,基于AutoInt的point-wise推荐场景和基于真实线上RL模型的list-wise推荐场景上验证了AFE框架的效果。AFE模型在离线和线上实验中均产生了显着的提升,验证了模型的有效性和普适性。消融实验也展示了未来信息和AFE框架的必要性。目前,AFE模型已经部署于看一看线上系统,服务千万用户。模型的贡献点如下:

 

■ 我们系统性地总结了推荐系统中使用未来信息的重要性和挑战。据我们所知,我们是第一个在通用推荐系统中引入未来信息建模的工作;

 

■ 我们提出了一个基于未来信息的对抗建模框架(AFE),通过未来感知的判别器激发生成器的潜能。我们也提出一套融合对抗学习、直接学习和知识蒸馏的联合训练目标,辅助模型训练;

 

■ 我们在point-wise推荐场景和基于真实线上RL模型的list-wise推荐场景上均取得显着提升,并部署于线上系统。

 

具体模型

 

▍ 2.1 模型整体结构及未来特征

 

图2给出了AFE框架的整体结构。我们将所有特征分为两类: 一类是未来特征 (future features),包括推荐系统中所有未来才能获得的信息; 一类是通用特征 (common features),包括经典推荐系统中历史和现在的所有可用信息。未来感知的判别器额外增加了未来特征的输入,而最后会被部署上线的生成器则需要对抗未来特征加持后的判别器预言家。为了保证生成器在这种高难度任务下稳定训练,我们基于对抗学习、直接学习和知识蒸馏对其联合优化。

 

 

图2:AFE框架整体结构

 

未来特征可以是任何形式的特征。不失一般性,我们选择了用户未来点击物品特征以及多个未来点击taxonomies的聚合特征作为未来特征的多个特征域。由于这里的未来特征是以特征域的形式输入到判别器,所以我们可以很容易地基于系统需求和线上效果,灵活选择未来特征的构成形式。

 

▍ 2.2 基于未来特征的对抗建模

 

AFE模型的核心思想很简单:使用未来信息直接强化判别器的判别能力,显着提升生成器的优化难度,在更激烈的攻防对抗中,间接地鞭策生成器获得更好的推荐能力。 通过这种方式,生成器间接地被未来信息提升了推荐能力,也使得其优化目标和输入特征能与线上预测时保持一致。

 

具体地,我们基于IRGAN模型的框架[10],生成器生成候选物品(fake clicked items,我们会将生成器生成的真实点击的物品去除),判别器在生成的候选物品和真实点击物品之间进行判别。判别器希望提升判别准确率,而生成器希望尽可能误导判别器的判断,产生高质量候选物品。对抗模块的损失函数如下:

 

 

其中f_c为common features,f_f为future features。由于生成器生成离散的物品,我们基于REINFORCE强化学习对生成器进行优化:

 

 

▍ 2.3 真实list-wise RL推荐模型上的实例化

 

为了简化模型、提升RL+GAN训练框架下的鲁棒性,我们使用了Double DQN作为基础强化学习模型,模型的state,action,reward如下:

 

 

模型的神经网络结构如下:

 

 

图3:AFE在list-wise RL模型下的模型结构

 

我们使用了AFN模型[5],建模历史行为序列上每个物品的特征交互(注意判别器多了future features作为输入),然后使用GRU&MLP建模用户历史行为序列,得到当前的state表示:

 

 

 

 

随后我们基于state和待评测物品d_t,得到当前的Q函数得分:

 

▍ 2.4 联合优化

 

为了保证模型稳定优化,我们联合使用了对抗学习、直接监督优化、以及知识蒸馏优化AFE模型。对抗部分损失函数为:

 

 

由于我们最终是直接将生成器部署在线上,所以我们直接将用户点击行为作为监督信息,直接优化生成器模型如下:

 

 

最后,我们还基于DRL-Rec模型[3]的思想,使用知识蒸馏间接优化生成器模型,减少生成器和判别器之间的Q函数得分差异以及隐向量的差异。这种基于知识蒸馏的间接使用未来信息的方式也能进一步提升模型效果:

 

 

模型最终的联合优化函数如下:

 

 

实验结果

 

我们进行了离线和线上实验。为了验证AFE框架的普适性和鲁棒性,我们在基于AutoInt的point-wise推荐场景和基于真实线上RL模型的list-wise推荐场景上验证了AFE框架的效果:

 

 

图4:list-wise离线实验结果

 

 

图5:point-wise离线实验结果

 

我们将模型部署于线上系统,得到了AFE的线上提升效果。模型在点击和时长相关指标上都有着显着的提升。

 

 

图6:AFE线上实验结 果

 

最后,我们还进行了消融实验。实验结果主要证明了(1)future information的重要性,(2)AFE建模中对抗学习、知识蒸馏、直接学习联合优化的有效性,以及(3)list-wise RL模型中各模块的有效性。

 

 

图7:AFE消融实验结果

 

总结

 

我们在这篇工作中探索了如何在推荐系统中使用“未来信息”这个看起来很重要但是无法直接使用的关键信息。我们提出了一个AFE框架,基于一个未来信息加强的判别器,激励生成器模型学到更好的推荐建模能力,并且融合对抗学习、直接学习和知识蒸馏进行联合优化。 模型具有令人满意的效果和普适性,能够在不同种类的推荐模型上引入不同种类的未来信息。

 

我们深信未来信息的充分使用能够带来推荐系统模型性能的进一步提升。我们将深入探索我们AFE模型与MLM类预训练模型的潜在联合优化,并且尝试将AFE模型应用于其它时间敏感的任务、领域与模型上。

 

参考文献:

 

[1] Xie R, Zhang S, Wang R, et al. Hierarchical Reinforcement Learning for Integrated Recommendation[C]//Proceedings of AAAI. 2021.

 

[2] Xie R, Liu Y, Zhang S, et al. Personalized Approximate Pareto-Efficient Recommendation[C]//Proceedings of the Web Conference 2021. 2021: 3839-3849.

 

[3] Xie R, Zhang S, Wang R, et al. Explore, Filter and Distill: Distilled Reinforcement Learning in Recommendation[C]//Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 2021: 4243-4252.

 

[4] Xu C, Li Q, Ge J, et al. Privileged features distillation at Taobao recommendations[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 2590-2598.

 

[5] Cheng W, Shen Y, Huang L. Adaptive factorization network: Learning adaptive-order feature interactions[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(04): 3609-3616.

 

[6] Clark K, Luong M T, Le Q V, et al. Electra: Pre-training text encoders as discriminators rather than generators[J]. arXiv preprint arXiv:2003.10555, 2020.

 

[7] Hao X, Liu Y, Xie R, et al. Adversarial Feature Translation for Multi-domain Recommendation[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021: 2964-2973.

 

[8] Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv preprint arXiv:1503.02531, 2015.

 

[9] Lu Y, Zhang S, Huang Y, et al. Future-Aware Diverse Trends Framework for Recommendation[C]//Proceedings of the Web Conference 2021. 2021: 2992-3001.

 

[10] Wang J, Yu L, Zhang W, et al. Irgan: A minimax game for unifying generative and discriminative information retrieval models[C]//Proceedings of the 40th International ACM SIGIR conference on Research and Development in Information Retrieval. 2017: 515-524.

 

[11] Yuan F, He X, Jiang H, et al. Future data helps training: Modeling future contexts for session-based recommendation[C]//Proceedings of The Web Conference 2020. 2020: 303-313.

 

[12] Yuan F, He X, Karatzoglou A, et al. Parameter-efficient transfer from sequential behaviors for user modeling and recommendation[C]//Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2020: 1469-1478.

 

[13] Zeng Z, Xiao C, Yao Y, et al. Knowledge transfer via pre-training for recommendation: A review and prospect[J]. Frontiers in big Data, 2021, 4.

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。