Press "Enter" to skip to content

迁移学习在新闻推荐中的应用

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

文章作者:杨强、张宇、戴文渊、潘嘉林 等

 

内容来源:《

 

导读: 新闻推荐已经成为移动设备中的一项重要服务,其目的是让大多数用户知道世界上发生了什幺。在本文中,我们将重点介绍向新用户推荐最新的新闻文章。我们假设用户在某个新闻推荐服务中首次注册,并且以前没有读过任何新闻文章。此任务与新用户冷启动挑战和新物品 ( 即新闻文章 ) 冷启动挑战相关,因此称为双冷启动推荐 (  Dual Cold-Start Recommendation, DCSR )。

 

对于双冷启动推荐问题,现有的新闻推荐方法 (  Das等人,2007; Liu等人,2010a ) 不适用,因为这些方法依赖用户的历史阅读行为和新闻文章的内容信息,这些信息在双冷启动推荐问题中不可用。

 

可以从迁移学习的角度来解决双冷启动推荐问题。尽管在新闻领域中没有关于冷启动用户和冷启动物品的用户行为,但也可能存在其他相关领域的用户行为。具体来说,我们利用了相关领域 ( 即应用程序 (  APP ) 领域 ) 的一些知识,其中用户的应用程序安装行为在该领域可用。 新闻领域的大多数冷启动用户已经安装了一些应用程序,而这些信息可能有助于确定用户对新闻文章的偏好。 特别地,我们假设具有类似应用程序安装行为的用户可能对新闻文章有类似的兴趣。 有了这个假设,应用程序域中的邻域信息就可以作为知识来迁移到新闻文章的目标域。

 

01

 

问题定义

 

在新闻推荐问题中有两个领域: 一个是应用程序领域,作为源域; 另一个是新闻领域,作为目标域。

 

在应用程序领域中有一个三元组,即 ( u,g,G ug   ),表示用户u已经安装了属于类型g的移动应用程序G ug 次。然后,应用程序领域的数据可以表示为用户类型矩阵G,如图所示。

 

 

针对双冷启动推荐问题的NTL方法

 

在新闻领域,有一个用户物品矩阵 R 来表示用户是否读过某物品。每个物品i与一个一级类别c 1 (i)∈l 1 和一个二级类别c 2 (i)∈l 2 相关。因此有一个四元组集合,即 ( u,i,c 1 (i),c 2 (i) ),表示用户u已读过属于c 1 (i)和c 2 (i)的物品i。在预处理之后,可以得到一个用户类别矩阵C,其中每个条目表示属于某个用户已读类别的物品数。

 

该问题的目标是向以前没有阅读过任何物品的新用户推荐新物品 ( 即最新的新闻文章 ) 的排序列表。 注意,在双冷启动推荐设置下,我们只使用物品的类别信息,而不使用内容信息。

 

02

 

挑战和解决方案

 

双冷启动推荐问题的主要难点是缺乏针对新用户和新物品的历史偏好数据。 也就是说,我们面临的新用户冷启动的挑战在于,我们将为其提供推荐的目标用户是以前没有阅读过任何物品的; 面临的新物品冷启动的挑战在于,我们将向目标用户推荐的目标物品对于所有用户来说都是全新的。 在这种挑战下,大多数现有的推荐算法都不适用。

 

为了解决双冷启动推荐问题中的两个挑战,我们对应用程序领域和新闻领域进行了偏好假设,即两个领域中的邻域结构相似。我们引入了一种基于邻域的迁移学习 (  Neighborhood-based Transfer Learning, NTL ) 方法,它可以将邻域知识从应用程序领域迁移到新闻领域,从而解决新用户的冷启动挑战。 针对新物品冷启动挑战,我们设计了一种类别级偏好来取代传统的物品级偏好,因为后者不适用于DCSR问题中的新物品。 通过利用上述两种方法来解决这两个挑战,一些经过全面研究的基于邻域的推荐方法将适用于双冷启动推荐问题。

 

03

 

基于邻域的迁移学习

 

在大多数推荐方法中,用户用户 ( 或物品物品 ) 相似性是一个核心概念,因为邻域的构建可以用于志同道合的用户的偏好聚合,然后用于目标用户的偏好预测。用户u对物品i的偏好预测公式的数学形式 (  1 )  为 :

 

 

其中, N u 表示用户u的一组最近邻,用余弦相似度等进行度量。 r ^ u’,i 表示用户u’对物品i的偏好估计。取平均分 r ^ u,i 作为用户u对物品i的偏好,它将用于物品的排序和k项最佳推荐。

 

对于双冷启动推荐问题,我们无法仅使用来自新闻领域的数据在测试数据中的冷启动用户和训练数据中的热启动用户之间建立关联。 NTL方法的主要思想是利用应用程序领域中用户之间的相关性,并假定具有类似应用程序安装行为的用户在新闻领域中可能相似。 例如,两个已安装了相同类型应用程序 ( 如商业 ) 的用户可能都喜欢有关财务主题的新闻文章。

 

在该偏好假设下,我们首先计算在应用程序领域中冷启动用户 u和热启动用户u’之间的相似度:

 

 

其中G u · 是用户类型矩阵G中关于用户u的行向量。一旦我们计算了余弦相似度,则对于每个冷启动用户u,我们首先删除具有较小相似度值的用户 ( 例如S u,u’ <0.1 ),然后取最相似的用户来构造邻域N u 。

 

对于式 ( 1 ) 中的物品级偏好 r ^ u’,i ,我们无法直接获得其分数,因为物品i对于所有用户来说都是新的,包括热启动用户和目标冷启动用户u’。我们可以通过一个类别级偏好来近似物品级偏好:

 

 

其中 c(i) 是一级或二级类别。共有两种类别级的偏好:

 

 

其中,N u’, c 1 (i) 和N u’, c 2 (i) 分别表示 ( 用户u’ ) 属于一级类别c 1 (i)和二级类别c 2 (i)的物品数量。

 

最后, 利用上述各式, 可以将式 ( 1 ) 改写为 :

 

 

这将用于偏好预测。具体来说,近邻N u 帮助解决新用户冷启动挑战,而类别级别偏好 N u’, c 1 (i) 或 N u’, c 2 (i) 解决新物品冷启动挑战。

 

本次的分享就到这里,谢谢大家。

 

——本文摘自机械工业出版社华章图书 《迁移学习》,相关参考文献请参见原书。

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注