itemKNN发展史----推荐系统的三篇重要的论文解读

itemKNN发展史----推荐系统的三篇重要的论文 解读

本文用到的符号标识

1、Item-based CF

基本过程：

计算相似度矩阵

Cosine相似度
皮尔逊相似系数
参数聚合进行推荐

根据用户项目交互矩阵 $A$ 计算相似度矩阵 $W$：

这样，用户对整个项目列表的偏好值可以如下计算：
\[{ {\tilde a_i}^T}={ a_i^T} \times W\]
例如，对于 j 号物品，用户的偏好值如此计算：
\[{ {\tilde a_{(u,j)}}}=\sum_{i\in { a_u^T}}{ { a_{(u,i)}}}W_{(i,j)}\]
由于交互矩阵 $A$ 的稀疏性，矩阵 $W$ 也应该是稀疏的。

2、SLIM: Sparse Linear Methods for Top-N Recommender Systems

基于邻居的协同过滤（代表，item-based CF）
【特点】：能快速生成推荐，推荐质量不高，没有从数据中学习。
基于模型的方法（代表，矩阵分解 MF 模型）
【特点】：模型训练慢，推荐质量高。

相比于以上两种方法，SLIM 既高效，推荐质量又高。

SLIM

保留 item-KNN 的稀疏矩阵 $W$ 的特点。
通过从 $A$ 中自学习矩阵 $W$ 来提高推荐性能。
学习过程
\[L(\cdot) =\frac{1}{2} ||A-AW||_F^2+\frac{\beta}{2} ||W||_F^2+\lambda||W||_1 \]\[ {subject\ \ to\ \ }W\geq0, {diag}(W)=0\]
其中：

${diag} = 0$ 约束同一项目与自己的相似度不加入计算。
$l1$ 正则化约束使得矩阵$ W $稀疏
弗罗贝尼乌斯范数类似于矩阵的平方，用来防止数据过拟合

可以看到，实际上这个过程是可以并行执行的。
SLIM 的 paper 中使用了坐标下降和软阈值的方法来实现问题的求解。
使用特征选择可以减少 SLIM 的计算量。文章中使用了item-KNN 的方式选择了与待估项目相似度靠前的作为特征选择方式。

3、FISM:Factor item Similarity Models for Top-N Recommender Systems

论文主要完成了以下四个工作：

将基于项目的隐因子的方法扩展到 top-N 问题，这使得它们能够有效地处理稀疏数据集;
使用结构方程建模方法评估基于项目的隐因子方法。
同时使用均方误差和排名误差来评估该模型
观察各种参数的影响，因为与偏置，邻居协议和引起模型的稀疏性有关。