Press "Enter" to skip to content

[论文笔记] 概率矩阵分解:Probabilistic Matrix Factorization Abstract许多现有的协作过滤方法都…

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

目录

 

Abstract

 

许多现有的协作过滤方法都不能处理 非常大的数据  ,也不容易处理  评分很少的用户 。

 

在本文中,我们提出了 概率矩阵分解(PMF)  模型,该模型 与 观测数据的数量 成 线性关系( 为什幺线性: 因为一个样本,梯度下降就更新一次参数) ,更重要的是, 在大型、稀疏和非常不平衡的Netflix数据集上表现良好 。

 

我们进一步扩展了PMF模型,以包括一个自适应的先验模型参数,并展示了如何自动控制模型容量。d4

 

最后,我们介绍了PMF模型的一个受限制的版本,该模型基于这样一个假设: 对类似电影集进行评级的用户可能有类似的偏好。

 

此模型能够对评分很少的用户进行相当好的泛化性能。

 

当多个PMF模型的预测与预测受限玻尔兹曼机器模型

 

(怎幺结合的:不同模型预测结果的线性组合)

 

,我们实现了一个错误率0.8861,比Netflix自己的评分高出近7%。

 

Introduction

 

最流行的协同过滤方法之一是基于低维因子的模型。这些模型背后的想法是,用户的态度或偏好是由少量未被观察到的因素。在线性因素模型中,用户的偏好被建模通过使用用户特定系数线性组合项目因子向量。例如,N个用户,则N ×M偏好矩阵R由 N ×D用户系数的乘积给出

 

矩阵UT和D × M因子矩阵V。训练这样的模型就等于找到最好的在给定的损耗函数下,对观测到的N × M目标矩阵R进行秩d逼近。

 

MF

 

 

PMF

 

 

Constrained-PMF

 

如上所示,通过惩罚其Frobenius范数而正则化的两个低秩矩阵的乘积来近似L2意义上的矩阵的问题,可以看作是在低秩矩阵的行上具有球形高斯先验的概率模型中的MAP估计。

 

模型的复杂性由超参数控制: 噪声方差σ2和先验参数(σ2U和σ2V以上)。

 

如[6]所建议的,为超参数引入先验,并在参数和超参数上对模型的对数后验进行max,允许基于训练数据自动控制模型复杂度。F范数(对于矩阵的): sum(a_ij)^(1/2)

 

在该框架中对用户和电影特征向量采用球面先验,可自动选择λU和λV的PMF的标准形式。

 

这种正则化方法允许我们使用比简单惩罚特征矩阵Frobenius范数更复杂的方法。

 

例如,我们可以使用对角线或甚至全协方差矩阵的先验,以及可调节的手段为特征向量。混合高斯先验也可以很容易地处理。

 

一旦PMF模型被拟合,评分很少的用户将拥有接近的特征向量与之前的平均值,或平均用户,所以对这些用户的预测评级将接近电影平均评级。

 

在本节中,我们将介绍另一种约束特定于用户的方法对非频繁用户有强烈影响的特征向量。

 

 

Result

 

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注