Press "Enter" to skip to content

SIGIR’22 | 大规模推荐系统中冷启动用户预热的融合序列建模

丨目录:

 

· 摘要

 

· 背景

 

· 方法

 

· 实验

 

· 结论

 

· 参考文献

 

摘要

 

冷启动用户推荐是推荐系统中的经典问题。现有的深度推荐系统希望对不同用户产生不同的个性化推荐,但由于以下挑战,其对冷启动用户的推荐效果与已有用户相比往往面临着显着的性能下降:(1) 冷启动客户与模型见过的已有用户之间在一些特征的分布上存在偏差;(2) 模型难以基于少量行为去表征冷启动客户。在本文中,我们提出了一种能够缓解上述问题的推荐模型(Cold-Transformer)。首先,我们设计了一个Embedding Adaption(EA)层用来消除这种特征分布偏差问题,它将冷启动用户的嵌入预热,转换为更类似于现有用户的嵌入,以表征相应的用户偏好。其次,为了利用冷启动用户的少量行为来帮助表征用户,我们提出了通过Label Encoding(LE)同时建模正负反馈混合序列,这样模型能够利用更多行为信息。最后,为了能够使模型应用在工业的大规模的推荐系统中,我们保留了将用户和目标项目分离的双塔架构。在公共和工业数据集上进行的大量实验表明,Cold-Transformer能够取得显着的好于目前SOTA方法的效果,对比方法包括非双塔的深度耦合模型。基于该项工作整理的论文已发表在SIGIR 2022,欢迎阅读交流。

 

论文:Transform Cold-Start Users into Warm via Fused Behaviors in Large-Scale Recommendation

 

下载: https://dl.acm.org/doi/abs/10.1145/3477495.3531797

 

▐ 背景

 

大多数推荐模型的有效性是通过利用大量的用户交互来实现的。然而,一小部分用户贡献了大部分交互数据的情况很常见(二八法则),许多冷启动用户只有非常有限的交互数据。这些冷启动用户,包括新用户和长尾用户,对平台的生态系统至关重要,但他们的推荐性能经常面临着显着下降,这就是众所周知的用户冷启动问题。

 

传统的深度推荐模型没有针对冷启动用户进行显式优化,因此由训练集中的用户(即现有用户)主导。而冷启动用户与现有用户之间的差距往往导致模型在冷启动用户上的表现不尽如人意,解决这个问题并非易事,原因如下:

 

冷启动用户和现有用户的特征分布可能完全不同。正如 [2] 所述,冷启动用户的嵌入是独特的,这是由于特征分布不同造成的。例如,在为商家推荐时,营销历史的统计特征对推荐质量起着至关重要的作用。而对于冷启动用户来说,这些特征与现有用户有很大不同,使得深度模型难以泛化推广。

 

冷启动用户的少数行为很难被利用。利用用户行为的直接方法是像序列模型一样将行为序列视为特殊的特征。然而,当用户行为较少时,大多数序列模型关注的正反馈将极其有限。因而,这些模型表现不佳。

 

解决用户冷启动问题的一个简单想法是生成一个好的用户 ID 嵌入,因为冷启动用户的 ID 嵌入是随机初始化的,并且与训练有素的 ID 嵌入显着的不同。之前的方法利用属性 [16]、图 [15] 和一些行为 [22] 来初始化冷启动用户 ID 嵌入。然而,尽管一个好的 ID 嵌入缓解了不同分布的问题,但其他特征仍然面临这个问题。在忽略用户和项目 ID 特征的情况下,MeLU [13] 利用 MAML [7] 来学习全局参数,基于该参数,个性化的模型参数将通过冷启动用户的少数行为来进行局部的更新。其他一些方法 [5, 14] 与 MeLU 有相似的想法。他们基于元学习的局部更新缓解了对少数样本的过度拟合问题。但是,它忽略了交互的顺序信息,这限制了它全面了解用户的能力,并且需要在推理时进行模型的微调,因此不容易部署。

 

为了缓解上述问题,我们做了三个关键工作。首先,我们提出了基于上下文的 Embedding Adaption,将冷启动用户的嵌入预热以和现有用户的嵌入处于同一个空间,抵消了特征分布的差异,使冷启动用户的嵌入与其偏好更加一致。具体来说,我们用融合行为序列表征用户的上下文,然后通过使用 Transformer [18] 聚合相应的上下文信息来调整用户嵌入。其次,我们提出进一步充分利用冷启动用户的少数行为来描述他们的上下文。由于用户的负反馈量相对充足,而正反馈的量则比较有限,我们将用户的正负反馈融合并按照对应的顺序排列以构成融合序列。基于此,我们保持用户行为的完整性并通过提出的 Label Encoding 减轻不同类型反馈的异质性。此外,我们提出了一种全局学习嵌入作为冷启动用户的 ID 嵌入,以避免随机初始化 ID 嵌入的影响。为了进行大规模的工业推荐,我们采用双塔架构 [11] 来解耦用户和目标项目。在各种数据集上进行的大量实验表明,我们提出的系统显着提高了冷启动用户的推荐效果,基本消除了冷启动用户与现有用户之间的推荐性能差距。

 

▐ 方法

 

用户冷启动问题

 

我们基于二分类推荐任务对用户冷启动问题进行建模,例如点击率 (CTR) 预测和用户偏好估计。和 [19] 一样,我们将用户分成两部分来模拟现实世界的推荐,即冷启动用户每天都会到来,需要与现有用户一起进行推荐。具体来说,训练中见过的用户称为现有用户,未见过的用户称为冷启动用户。注意,冷启动用户往往会在他们的交互行为被吸收用来训练模型之前积累一定量的行为。冷启动用户通常是用户冷启动推荐的主要关注点,而一些现有用户也可能有交互数据不足的问题(例如,长尾用户)。因此,我们评估现有用户和冷启动用户的推荐性能。

 

模型框架

用户嵌入自适应

 

这个方法的优势在于,我们将完整的用户嵌入从深度耦合的神经网络中解耦,并将其转换为上下文感知的预热状态,从而抵消了特征上的差异,使得冷启动用户的嵌入与他们的喜好更加一致。我们认为仅预热 ID 嵌入 [15, 16, 22] 并不是最优的。详细来讲,他们为冷启动用户或项目预热 ID 嵌入,然后将它们输入到针对现有用户训练的模型中。但是,如 [2] 中所示,现有用户和冷启动用户之间的特征分布可能有很大不同。因此,直接在现有用户上训练的模型可能难以推广到冷启动用户。

 

为此,我们提出对所有用户调整其表示用户特征的嵌入,称为 Embedding Adaption(嵌入自适应)。如图 1 所示,所提出的模型基于双塔架构 [11] 将用户嵌入与整体的深度网络分离。因此,用户嵌入可以显式地根据由融合行为表示的用户特定的动态上下文进行调整。该行为序列既有正面的也有负面的用户反馈,并根据时间戳排序,因此可以随着时间的推移积累更多的信息。直观上,行为受限的用户处于难以很好地学习,它们的嵌入是原始的,因此需要进一步的实时调整。上下文感知的嵌入自适应使模型能够利用少数行为来执行特定于用户的自适应,抵消现有用户与冷启动用户特征上的差异。

 

Embedding Adaption 的序列聚合是使用 Transformer [18] 架构实现的,因为它自然地对序列信息进行建模,并且可以通过 Self-Attention 来微调异质的融合行为。给定融合行为的嵌入序列,我们首先注入关于位置的信息以用余弦位置编码 [18] 来利用的序列信息。然后,原始用户嵌入和位置编码连接合并为初始的隐藏状态,其中是没有进行位置编码的,因为它与序列中的项目不同。之后,在 Transformer 的 MultiHead (multi-head self-attention) 机制中,我们将层的隐藏状态线性投影到个子空间,然后并行应用于 Attn (Scaled Dot-Product Attention)。最后,我们将这些头连接起来并再次投影,得到最终值:

 

其中

 

投影矩阵是可学习的参数矩阵,,和。Scaled Dot-Product Attention 如下所示:

 

其中温度用于缩放注意力分布以避免极小的梯度 [18]。每层中隐藏状态的整体计算公式如下:

 

其中 LN 指 LayerNormalization [1],Dropout [17] 是一种正则化技术。

 

在模型最后一层,由于我们只想获得上下文感知的用户嵌入,因此对 MultiHead 进行了如下修改:

 

其中是原始用户嵌入的相对应的隐藏状态。

 

利用用户的融合行为

 

用户冷启动问题的一个关键挑战是用户只有极其有限的行为,其中用户的正反馈数量更加稀少。例如,在电子商务平台上,冷启动用户的点击项目数可能很少,因此不能很好地表征用户上下文。幸运的是,曝光序列(即负反馈)的体量相对较大。但其经常被忽视。为了充分利用用户交互的短暂历史,我们认为利用曝光和点击的融合行为序列有利于表征用户上下文。

 

正如 EdgeRec [8] 中所讨论的,大多数以前的序列建模工作 [4, 21] 只考虑用户的正反馈。EdgeRec 意识到了正反馈(即点击的项目)和负反馈(即曝光的项目)的重要性,并由于这两种序列的异质性,提出将曝光序列和点击序列分别建模的方法。然而,它忽略了点击项目和曝光项目之间的顺序关系。例如,如果用户在看到时点击了,则可能暗示用户 相对于更喜欢,而不是不喜欢。因此,我们提出将曝光和点击序列同时建模为一个融合序列。

 

此外,考虑为历史交互项的最佳嵌入,它消除了不同类型交互的异质性并嵌入了充分的序列关系信息。显然,项目的原始嵌入与有很大的差距。因此,我们分两步逼近。

 

第一步,我们利用提出的 Label Encoding 来缓解异质性问题。我们直接估计一个只减少不同类型交互的异质性差距的。受 [10] 的启发,我们使用深度残差学习对残差向量进行编码,这通常比编码原始向量更有效。这可以表述为,并且在本文中通过线性映射来近似该残差向量。其中是参数矩阵,是嵌入的维度。给定用户交互项目的嵌入序列和相应的反馈类别,我们通过下式估计第项的消除了不同用户反馈异质性的嵌入:

 

在这里,为了更好地近似正负反馈交互的,我们会独立学习和。

 

在第二步中,我们嵌入点击项和暴露项之间的序列关系信息。如图 1 所示,它被集成到 Embedding Adaption 中。位置编码和自注意力机制使每个交互项目的嵌入能够根据用户嵌入与相关交互项目嵌入进行调整。

 

使用可学习全局冷嵌入去噪

 

对于在训练阶段未知的冷启动用户,其ID嵌入通常是随机初始化的。我们提出了一种可学习的全局冷嵌入,它取代了随机 ID 嵌入以消除随机性。通过在训练阶段用冷嵌入随机替换 ID 嵌入,我们可以全局学习获得所有用户的共同特征。它有助于在推理阶段对齐现有用户和冷启动用户之间的 ID 嵌入分布,也有助于冷启动用户的嵌入自适应。

 

▐ 实验

 

数据集

 

本文中,我们使用了两个流行且具有挑战性的公共数据集(MovieLens-1M 和 Taobao Display AD)来验证所提出的方法。此外,我们还进行了实验以评估来自阿里巴巴电子商务平台的具有 500 万条记录的工业曝光/点击数据集的冷启动性能。根据特定的时间戳将每个数据集拆分为训练集和测试集,以模拟真实世界的推荐场景。此时间戳之前的样本作为训练集,其余的作为测试集。测试集将被进一步分为现有用户集和冷启动用户集,其中在训练集中未知的用户将被视为冷启动用户。

 

冷启动用户通常只有少数行为(包含正反馈和负反馈)。例如,淘宝和工业数据集中 94.20% 和 77.98% 的冷启动用户的交互次数分别不超过 10 次。然而,由于 MovieLens 的低稀疏性 (95.53%),MovieLens 中的冷启动用户的行为要多得多。因此,在评估 MovieLens 时,我们将冷启动用户的行为长度限制为 10。在现实场景中,模型需要同时预测现有用户和冷启动用户。因此,我们对现有用户和冷启动用户都进行了实验验证,以评估模型的综合性能。对于所有数据集,我们根据用户在相应样本时间戳之前的交互为每个样本生成用户行为。

 

实验设置

 

评估指标: 为了评估二分类任务(推荐和广告中的典型任务)的性能,AUC 是一种广泛使用的度量方法 [6]。它通过使用预测分数对所有项目进行排名来衡量序的好坏。和冷启动工作 [16, 22] 一样,我们将 AUC 作为我们实验中的主要指标。此外,类似于 [21, 22],我们使用 RelaImpr 指标来衡量不同方法的相对改进。

 

实现细节: 我们使用 Adam [12] 来优化模型,学习率为 0.001。为了公平比较,我们在第 3 节中比较的所有深度模型中使用相同大小的嵌入层和相同的 MLP。具体来说,嵌入层的维数设置为 32,MLP 包含两个隐藏层,有 64 个单元。MovieLens 和工业数据集的 mini-batch 大小设置为 200,淘宝展示广告数据集为 2000。我们提出的 Embedding Adaption 层是用 2 层具有 2 个头的 Transformer 实现的,并且 dropout 率设置为 0.5。在实验中,行为序列的最大长度限制为 50。

 

表 1:对比实验

与最新技术的比较

 

我们对公共和工业数据集都进行了实验。表 1 报告现有用户和冷启动用户的结果。这里我们将双塔模型 DSSM [11] 表示为 BaseModel,因为我们的模型是基于它的。对于没有显式建模用户行为的方法,我们使用简单但有效的序列利用方法,即点击项目嵌入的平均值。从实验结果中,我们强调以下观察结果:

 

模型对冷启动用户的有效性。首先,我们注意到我们的模型在所有竞争对手中对冷启动用户的 AUC 表现最好,尽管这些其他方法同样具有竞争力。DIN、DIEN 和 EdgeRec 是流行的序列建模方法。他们的个性化兴趣提取利用行为对用户进行建模,但是当冷启动用户的行为数量很有限时,他们的表现不如我们的好。冷启动方法 DropoutNet 和 MWUF 也利用了行为序列并提高冷启动用户的预测性能。但是,它们仅利用行为信息生成的一个好的用户 ID 嵌入,而不是去调整适应整个用户嵌入。MAML 在推理期间为冷启动用户进行微调,忽略了行为的顺序信息。因此,我们的模型优于这些 SOTA,并且几乎消除了现有用户和冷启动用户之间的预测性能差距。

 

模型对现有用户的有效性。我们可以发现,我们的模型在现有用户上也始终优于所有竞争对手。这是因为一些现有用户也有有限的行为(例如,长尾用户),因此可以进一步优化。例如,工业数据集中大约一半的现有用户在训练期间几乎没有行为(少于 10 个),因此具有与冷启动用户相似的性能。此外,约 10% 和 30% 的现有用户在 MovieLens 和 Taobao Display Ad 中的行为分别少于 10 次。因此,我们的冷启动方法也提高了现有用户的预测性能,尽管改进不如冷启动用户那幺明显。

 

表 2:消融实验

消融实验

 

为了研究对比我们的序列建模方法 Embedding Adaption 和其他不同序列建模方法的效果,我们在 MovieLens-1M 上进行了一系列实验。我们提出的利用 Label Encoding 过的用户正反馈和负反馈的融合序列来适应调整用户嵌入(表示为 Embedding Adaption, EA ),这不同于将行为序列视为特征并提取一个或多个嵌入来表示此特征的典型方法(表示为 Feature Extraction, FE )。此外,典型的方法如 DIN [21] 只关注正反馈以利用用户的行为序列,而 EdgeRec [8] 等方法虽然意识到了正反馈和负反馈的重要性但对其进行了分别的建模。它们都需要与我们的序列建模方法进行公平比较。因此,如表 2 所示,我们将我们的序列建模方法与基于相同序列聚合层(即 Transformer)的其他方法进行了性能比较。我们可以发现,使用 Label Encoding 过的融合行为普遍且显着地提高了综合的性能,而 Embedding Adaption 则进一步提高了冷启动用户的性能。由于在正反馈极其稀缺的情况下,单纯的正反馈不能完全代表用户的上下文,因此 Embedding Adaption 在仅利用正反馈的情况下获得较低的性能是合理的。

 

▐ 结论

 

在本文中,我们深入研究了现实且具有挑战性的针对用户的冷启动推荐问题,它关系着电子商务平台上的消费者和商家。我们提出了一种称为 Cold-Transformer 的有效方法,该方法可以通过融合行为序列来调整用户嵌入进而利用其有限的行为。它通过预热用户嵌入,使其更接近于用户会点击的项目的嵌入。我们在不同数据集上的大量实验结果证明了 Cold-Transformer 的有效性。在未来,我们希望将这一工作进一步扩展到没有任何行为(即零样本)的冷启动用户。

 

参考文献

 

[1] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. 2016. Layer normaliza- tion. arXiv preprint arXiv:1607.06450 (2016).

 

[2] Zhihong Chen, Rong Xiao, Chenliang Li, Gangfeng Ye, Haochuan Sun, and Hongbo Deng. 2020. Esam: Discriminative domain adaptation with non-displayed items to improve long-tail performance. In Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 579–588.

 

[3] Heng-Tze Cheng, Levent Koc, Jeremiah Harmsen, Tal Shaked, Tushar Chandra, Hrishi Aradhye, Glen Anderson, Greg Corrado, Wei Chai, Mustafa Ispir, Rohan Anil, Zakaria Haque, Lichan Hong, Vihan Jain, Xiaobing Liu, and Hemal Shah. 2016. Wide & Deep Learning for Recommender Systems. In Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. 7–10.

 

[4] Paul Covington, Jay Adams, and Emre Sargin. 2016. Deep neural networks for youtube recommendations. In Proceedings of the 10th ACM conference on recommender systems. 191–198.

 

[5] Manqing Dong, Feng Yuan, Lina Yao, Xiwei Xu, and Liming Zhu. 2020. Mamo: Memory-augmented meta-optimization for cold-start recommendation. In Pro- ceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 688–697.

 

[6] Tom Fawcett. 2006. An introduction to ROC analysis. Pattern recognition letters 27, 8 (2006), 861–874.

 

[7] Chelsea Finn, Pieter Abbeel, and Sergey Levine. 2017. Model-agnostic meta- learning for fast adaptation of deep networks. In International Conference on Machine Learning. PMLR, 1126–1135.

 

[8] Yu Gong, Ziwen Jiang, Yufei Feng, Binbin Hu, Kaiqi Zhao, Qingwen Liu, and Wenwu Ou. 2020. EdgeRec: Recommender System on Edge in Mobile Taobao. In Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2477–2484.

 

[9] Huifeng Guo, Ruiming TANG, Yunming Ye, Zhenguo Li, and Xiuqiang He. 2017. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction. In Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, IJCAI-17. 1725–1731.

 

[10] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition. 770–778.

 

[11] Po-Sen Huang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Acero, and Larry Heck. 2013. Learning Deep Structured Semantic Models for Web Search Using Clickthrough Data. In Proceedings of the 22nd ACM international conference on Information & Knowledge Management. 2333–2338.

 

[12] Diederik P. Kingma and Jimmy Ba. 2015. Adam: A Method for Stochastic Opti- mization. In Proceedings of the 3rd International Conference on Learning Represen- tations.

 

[13] Hoyeop Lee, Jinbae Im, Seongwon Jang, Hyunsouk Cho, and Sehee Chung. 2019. MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1073–1082.

 

[14] Yuanfu Lu, Yuan Fang, and Chuan Shi. 2020. Meta-learning on heterogeneous information networks for cold-start recommendation. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1563–1573.

 

[15] Wentao Ouyang, Xiuwu Zhang, Shukui Ren, Li Li, Kun Zhang, Jinmei Luo, Zhaojie Liu, and Yanlong Du. 2021. Learning Graph Meta Embeddings for Cold-Start Ads in Click-Through Rate Prediction. arXiv preprint arXiv:2105.08909 (2021).

 

[16] Feiyang Pan, Shuokai Li, Xiang Ao, Pingzhong Tang, and Qing He. 2019. Warm Up Cold-Start Advertisements: Improving CTR Predictions via Learning to Learn ID Embeddings. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. 695–704.

 

[17] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. 2014. Dropout: a simple way to prevent neural networks from overfitting. The journal of machine learning research (2014), 1929–1958.

 

[18] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Advances in neural information processing systems. 5998–6008.

 

[19] Maksims Volkovs, Guang Wei Yu, and Tomi Poutanen. 2017. DropoutNet: Ad- dressing Cold Start in Recommender Systems.. In NIPS. 4957–4966.

 

[20] Guorui Zhou, Na Mou, Ying Fan, Qi Pi, Weijie Bian, Chang Zhou, Xiaoqiang Zhu, and Kun Gai. 2019. Deep Interest Evolution Network for Click-Through Rate Prediction. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 33. 5941–5948.

 

[21] Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, and Kun Gai. 2018. Deep Interest Network for Click- Through Rate Prediction. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1059–1068.

 

[22] Yongchun Zhu, Ruobing Xie, Fuzhen Zhuang, Kaikai Ge, Ying Sun, Xu Zhang, Leyu Lin, and Juan Cao. 2021. Learning to Warm Up Cold Item Embeddings for Cold-start Recommendation with Meta Scaling and Shifting Networks. arXiv preprint arXiv:2105.04790 (2021).

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注