Press "Enter" to skip to content

微信看一看通过长短期时序元学习优化在线推荐丨WSDM 2022

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

本文基于论文《Long Short-Term Temporal Meta-learning in Online Recommendation》,发表于WSDM 2022,论文作者来自微信看一看团队。

 

 

导语

 

真实世界的推荐系统需要综合利用所有可用的多数据源信息,兼顾用户的长期和短期兴趣进行推荐。其中,我们把目标推荐场景上的用户行为称为用户内部行为(user internal behavior),把用户在同平台下其它场景中的行为称为用户外部行为(user external behavior)。 在对时新性要求比较高的新闻推荐或短视频推荐等场景中,模型需要能够对用户群体在新时段中的兴趣偏移进行快速适应。

 

然而,大规模推荐系统模型往往基于亿级别内外部行为数据进行训练,其中外部行为数据由于各种现实系统限制,可能难以稳定实时更新,这给模型的快速迭代带来不小的挑战。为了解决这些挑战,我们提出了一个新的长短期时序元学习框架(Long Short-Term Temporal Meta-learning framework, LSTTM)。

 

具体地,LSTTM模型基于全部用户行为构建一张全局长期图(global long-term graph),然后基于用户的内部行为构建一张内部短期图(internal short-term graph)。LSTTM基于不同的训练策略,使用两个图神经网络分别在两张图上学习用户长期和短期的表示。

 

为了能够更好地建模用户的实时兴趣,我们基于Model-agnostic meta-learning(MAML)的思想,提出一个全新的模型无关的时序元学习方法(temporal MAML),把不同时间段内的推荐看作时序元学习内的不同任务,以此增强模型在新时间段(新任务)上的快速适应能力。 我们对于用户的长期表示和短期表示使用了不同的训练方法进行异步更新,满足了线上使用全部行为信息并快速适应新热物品的需求。 LSTTM在离线和线上实验中均取得显着提升。

 

模型背景与简介

 

真实世界的推荐系统需要处理复杂的现实场景。

 

(1)用户行为是多源的。 超级平台往往基于一个用户账号连接复数个应用(例如Google的Email、Youtube、Feed、Google Scholar等),以满足用户的不同需求。我们把目标推荐场景上的用户行为称为用户内部行为(user internal behavior),把用户在同平台下其它场景中的行为称为用户外部行为(user external behavior)。在用户的允许下,用户在同一平台不同应用上的行为通过共享账号进行连接,能够在目标推荐场景下提供额外的用户偏好信息,提升推荐效果和用户体验。一个优秀的真实推荐系统需要能充分应用所有可使用的用户内部和外部行为。

 

(2)用户行为是易变的。 在大规模推荐系统中,每天新增的候选物品数量可达百万级。线上系统,特别是新闻推荐和短视频推荐场景,需要准确且快速地抓住用户的实时兴趣,因为这些场景中的用户往往容易被新热事件和话题所吸引。除此之外,用户的长期行为也能够聚沙成塔,提供用户长期稳定的兴趣,成为短期兴趣的有效补充。因此,一个优秀的真实推荐系统需要能够充分提取出用户多变的短期兴趣(user short-term preferences)和稳定的长期兴趣(user long-term preferences)。

 

 

在本工作中,我们希望能够设计一个兼顾效率和效果的在线推荐框架,同时从用户内部/外部行为中抽取用户的短期/长期兴趣。 这样的在线推荐框架有着以下三个挑战:

 

(1)如何同时考虑内部和外部的行为信息? 如上图所示,多源信息(视频、音乐、新闻等)有着不同特征,这些异质信息源的聚合是一个难题。另外,真实系统中由于一些限制(例如数据流差异等),内部和外部行为往往是不同步的(实时稳定的内部行为 V.S. 延迟且不可控的外部行为)。这种行为的不同步增加了稳定联合训练的难度。

 

(2)如何建模用户的短期和长期兴趣? 用户的长短期兴趣在推荐系统中都十分重要,但是它们之间也存在一定偏差。模型需要同时抽取这两个方面的用户兴趣,同时能够合理地判断什幺兴趣在当前推荐中处于主导作用。

 

(3)如何高效及时地获取用户的短期(实时)兴趣? 在对时新性要求高的推荐系统中,用户和用户群体的兴趣变化会受到当前热门事件和流行趋势的大幅影响,模型也需要能够及时获取用户群体的兴趣变迁。

 

然而,基于所有用户行为数据的模型完全重训练(complete model retraining)或复杂的微调(fine-tuning)是极其耗时的。效果和效率的平衡是线上系统的关键。这三项挑战在真实系统中广泛存在,但是已有工作没有系统性地联合考虑并解决这些问题。

 

为了解决这些问题,我们提出了一个全新的长短期时序元学习框架(Long Short-Term Temporal Meta-learning framework, LSTTM)。具体地,我们构建了两个异质大图:全局长期图(global long-term graph)和内部短期图(internal short-term graph)。

 

全局长期图是一张囊括了所有用户内部和外部行为的全局大图。它从全局视角审视用户的多种行为交互(侧重用户的长期行为),输出用户长期兴趣表示。 另一方面,内部短期图则更关注用户的短期内部行为,以抓住用户的实时兴趣。

 

LSTTM模型基于不同图神经网络分别在两张图上学习用户长期和短期的表示,然后基于门融合(gating fusion)的方式得到用户的行为特征。为了更好地学习用户的两种行为表示,我们对不同图上的用户向量使用了不同的训练策略,异步更新全局长期图和内部短期图两个部分。对于用户短期表示学习,我们基于Model-agnostic meta-learning(MAML)的思想,提出一个全新的时序元学习方法(temporal MAML),把不同时间段内的推荐看作时序元学习内的不同任务,以此增加模型在新时间段(新任务)上的快速适应能力。LSTTM模型的优势有以下三点:

 

■  LSTTM基于两张行为图,能够充分使用用户的多种行为信息;

 

■ 我们对于用户的全局长期行为和内部短期行为使用了不同的模型设定和训练方式,能够更加精细地建模用户的不同行为特征;

 

■ 我们使用了不同频次更新用户的全局长期图和内部短期图,在解耦不同信息来源表示学习的同时,提升模型建模短期兴趣时的快速适应能力。

 

我们进行了丰富的实验。在离线和线上场景中,LSTTM模型均获得显着提升。模型主要贡献点如下:

 

■  我们系统性地解决了联合使用用户内部/外部行为信息获取用户长期/短期兴趣时面临的多项现实挑战;

 

■   我们构建了两个不同的图侧重不同来源的用户行为,并使用不同训练策略和模型设定,专注学习用户不同方面的长期/短期表示;

 

■  我们提出一个全新的temporal MAML方法,把不同时间段内的推荐看作元学习内的不同任务,增加了模型在新时间段(新任务)上的快速适应能力。Temporal MAML的思想也能方便地迁移到其它时间相关的任务;

 

■ 模型在离线和在线实验中均取得了显着的提升效果。

 

具体模型

 

▍  2.1 模型整体结构

 

图1给出了LSTTM模型的整体结构。可以看到,模型在输入部分主要由全局长期图和内部短期图组成。全局长期图储存着用户的全量内外部行为信息,基于Neighbor-similarity based loss这类无监督目标进行优化。而内部短期图则注重提取用户短期信息,在节点聚合时优先考虑短期行为,并在模型训练中采用temporal MAML进行优化。整个线上模型的不同部分基于异步优化进行了解耦,以平衡效果和效率,并避免了外部信息延迟带来的整体模型迭代不稳定问题。

 

 

图1:LSTTM模型全局结构

 

▍  2.2 内部短期图建模

 

内部短期图以用户/物品作为节点,用户的内部行为作为边。由于内部短期图中物品节点是同质的,为了充分利用目标推荐场景下的用户/物品特征,我们使用其特征向量作为节点的raw input feature。不失一般性,我们使用GAT作为图聚合模型。为了凸显时间因素和用户(群体)的短期兴趣,我们在节点聚合sample时选择时间上最新的top k节点(例如用户最近点击的k个物品)进行聚合,最终得到节点的短期兴趣表示。在训练和预测阶段,内部短期图都会随着时间变化。每一个新的用户内部行为都会带来内部短期图的实时更新,这也是LSTTM模型的实时性来源之一。

 

▍ 2.3 全局长期图建模

 

全局长期图以用户/物品作为节点,用户的全体内部/外部行为作为边。全局长期图规模巨大(亿级别边),且物品节点异质化严重,节点特征也各不相同。因此,为了简化和普适性,我们使用了trainable ID embedding作为输入特征,并基于随机采样(也可以使用某种先验优先级)在GAT节点聚合中选择邻居(与内部短期图的选择策略相比,全局长期图聚合的用户行为可以看做长期行为)。全局长期图最终输出一个用户的长期兴趣表示。

 

▍ 2.4 长短期特征聚合

 

在得到用户的短期/长期兴趣表示后,我们基于gating策略聚合两种表示,然后此用户表示和目标物品、上下文特征向量等混合,一并作为后续特征交互模型(本文使用的是DeepFM模型)的输入,输出点击概率:

 

 

 

▍ 2.5 时序元学习(temporal MAML)

 

在真实系统中,我们难以实时(或高频)地对大模型进行更新。另外,外部行为信息很可能不如内部行为信息更新及时和稳定(例如延迟或不可控的数据错误)。因此,我们设计了一套异步优化的框架:全局长期图关注尽可能完整地建模用户全局信息,因此基于Neighbor-similarity based loss这类无监督目标进行低频次优化;内部短期图更关注用户实时兴趣,因此采用新提出的时序元学习temporal MAML进行高频次优化。

 

Model-agnostic meta-learning(MAML)是一项经典的模型无关元学习方法,能够通过基于meta task的内外循环优化,寻找到整个优化空间中能够针对特定task快速优化的最佳参数初始化点,在冷启动和少样本学习场景中大放异彩。我们基于MAML的框架,提出了时序元学习temporal MAML。它与经典推荐元学习模型MeLU,MAMO等不同,不是将不同用户、物品或者场景作为task,而是将不同时间段中的推荐当作不同的task。 由于整个推荐系统热点和时新内容层出不穷,用户兴趣存在快速的变化,这样的假设符合真实场景(特别是新闻推荐)。

 

具体地,在temporal MAML中,我们将每一个小时中的全体推荐行为作为一个task。相邻的两个小时作为一组,默认相邻小时的用户群体兴趣有很大相似点,在前一个小时中sample部分行为作为support set,后一个小时中sample部分行为作为query set。同一小时的物品可以在不同组中作为support或query set。这样,设定的元学习训练任务即为“基于用户群体前一小时的行为,预测其后一小时的行为”。当然,如果我们需要进行更精细的划分,可以尝试(1) 划分更小时间段作为task ;(2) 细分用户群体 (如互联网精英),将同类的用户群体的前后两小时的行为作为一组,这样可以学习到更精细的兴趣迁移。temporal MAML算法的伪代码如下:

 

 

在训练时,我们仿照MAML的内外循环设定,在task设置和batch sampling上遵循temporal MAML的设定,每个batch选择一定数量的temporal tasks进行内循环(Line4-Line7),然后在外循环(Line8)进行模型更新。需要注意的是,我们希望模型有强力的快速迭代能力,所以每个batch内的task之间应该尽可能不同。我们实际操作中要求一个batch内的task在星期、日期和时间段等多个时间维度上尽可能有差异,防止循环事件造成较大影响。经过temporal MAML的训练,模型将能够针对不同时间段,在support set(前一小时行为)的帮助下,快速迭代到适合推荐query set(后一小时行为)的定制化few-shot模型。这样,模型就拥有了快速适应新热内容推荐的能力。

 

LSTTM将顶层的gating fusion部分、DeepFM部分和内部短期图绑定在一起,都基于temporal MAML进行训练和高频参数更新,使用交叉熵损失函数:

 

 

而全局长期图则基于异步更新策略,在Neighbor-similarity based loss下进行传统的SGD-based低频更新:

 

 

这种异步更新优势在于:

 

■  分开考虑用户的长短期兴趣,使得系统更加灵活和专注;

 

■  解耦用户的内外部信息,使其既能产生帮助又不过分依赖,同时也能够使得核心目标推荐场景更加鲁棒,不易受到外部行为信息太大的影响;

 

■ 这种框架线上部署较为简便,也能够灵活运用于其它模型上。

 

▍ 2.6  线上 部署和使用

 

LSTTM的线上部署主要分为两个部分。在离线阶段,全局长期图进行完整训练(通常是天级别更新,基于模型离线训练效率和外部信息延迟情况共同决定),得到用户的长期兴趣特征。而内部短期图和融合预测部分则基于temporal MAML进行训练,使得这部分模型参数学习到一个能快速适应新时间段用户行为的最优初始化。

 

在线上服务阶段,随着热点和新话题的不断出现,真实推荐系统中用户群体的兴趣不断发生着变化。基于temporal MAML的设定,模型把每一个时间段内的用户群体的推荐看作不同的task,训练时前一时间段作为support set,辅助模型fine-tuning从而预测后一时间段的query set。仿照temporal MAML的离线训练,在t时刻,我们将所有t时刻前的用户群体的新行为作为support set,进行一步梯度的更新,以预测t时刻之后新任务下的用户行为(即为query set)。

 

在这种设定下,temporal MAML的线上更新和经典的模型一步微调一致,不会像复杂的model retraining或者其它meta learning方法一样带来额外的时间成本,也符合temporal MAML离线训练时的假设, 能够从更好的初始化参数上快速迭代适应新时间段上的用户偏好。

 

实验结果

 

我们进行了离线实验,将前n天数据作为训练集,选择最后一天数据作为测试集,每隔一小时划分成一个task。实验结果如下:

 

 

图2:离线实验结果

 

 

图3:模拟部署后24小时内各模型AUC趋势

 

可以看到,模型随着时间推移,LSTTM模型的AUC提升效果(相较没有temporal MAML的版本)逐渐拉大。 这说明我们的模型能够更好地抓住用户对于新热内容的偏好。

 

此外,我们还进行了消融实验,验证了LSTTM模型的temporal MAML、外部行为信息、gating-based fusion、以及GAT&Neighbor-similarity based loss的有效性。结果如下:

 

 

图4:消融实验结果

 

总结

 

本文我们基于真实推荐系统的限制和挑战,提出了LSTTM模型,能够同时从用户丰富的内部和外部行为信息中学习到用户的长期和短期兴趣,辅助在线推荐。

 

我们提出的temporal MAML训练策略,将不同时间段的用户群体推荐作为不同的时序元学习任务,能够快速适应时新性强的推荐场景(如新闻推荐、短视频推荐等)下用户群体多变的兴趣。

 

模型的有效性在离线和在线数据集中都得到了验证。我们很看好temporal MAML这种简单有效的策略在其它时间相关的任务上的应用空间,未来会进行更深入的研究。

 

参考文献

 

[1] Bharadhwaj H. Meta-learning for user cold-start recommendation[C]//2019 International Joint Conference on Neural Networks (IJCNN). IEEE, 2019: 1-8.

 

[2] Dong M, Yuan F, Yao L, et al. Mamo: Memory-augmented meta-optimization for cold-start recommendation[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 688-697.

 

[3] Du Z, Wang X, Yang H, et al. Sequential scenario-specific meta learner for online recommendation[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 2895-2904.

 

[4] Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//International Conference on Machine Learning. PMLR, 2017: 1126-1135.

 

[5] Lee H, Im J, Jang S, et al. Melu: Meta-learned user preference estimator for cold-start recommendation[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 1073-1082.

 

[6] Guo H, Tang R, Ye Y, et al. DeepFM: a factorization-machine based neural network for CTR prediction[J]. arXiv preprint arXiv:1703.04247, 2017.

 

[7] Lu Y, Fang Y, Shi C. Meta-learning on heterogeneous information networks for cold-start recommendation[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1563-1573.

 

[8] Luo M, Chen F, Cheng P, et al. Metaselector: Meta-learning for recommendation with user-level adaptive model selection[C]//Proceedings of The Web Conference 2020. 2020: 2507-2513.

 

[9] Yu Z, Lian J, Mahmoody A, et al. Adaptive User Modeling with Long and Short-Term Preferences for Personalized Recommendation[C]//IJCAI. 2019: 4213-4219.

 

[10] Zeng Z, Xiao C, Yao Y, et al. Knowledge transfer via pre-training for recommendation: A review and prospect[J]. Frontiers in big Data, 2021, 4.

 

[11] Zhang Y, Feng F, Wang C, et al. How to retrain recommender system? A sequential meta-learning method[C]//Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2020: 1479-1488.

 

[12] Zhu Y, Ge K, Zhuang F, et al. Transfer-Meta Framework for Cross-domain Recommendation to Cold-Start Users[J]. arXiv preprint arXiv:2105.04785, 2021.

 

[13] Zhu Y, Liu Y, Xie R, et al. Learning to Expand Audience via Meta Hybrid Experts and Critics for Recommendation and Advertising[J]. arXiv preprint arXiv:2105.14688, 2021.

 

[14] Zhu Y, Xie R, Zhuang F, et al. Learning to Warm Up Cold Item Embeddings for Cold-start Recommendation with Meta Scaling and Shifting Networks[J]. arXiv preprint arXiv:2105.04790, 2021.

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。