Spark MLib 每季一算法 —— CollaborativeFiltering

2018-07-01

CollaborativeFiltering(协同过滤)

CollaborativeFiltering通常被使用在推荐系统(recommender system)中，在Spark中使用协同过滤是通过ALS(alternating least squares/交替最小二乘)这样一个Estimator对象。输入带有一组用户(user)对于一组产品(item)的评分(rating)矩阵数据作为训练集，通过交替最小二乘算法fit出最合适的矩阵分解数值(即ALSModel对象)，再通过分解后的用户向量和产品向量transform出用户产品矩阵中的缺失值作为某个用户针对某个产品的预测评分(prediction)。

伪算法过程

迭代算法
根据训练集中评分数据的含义不同，协同过滤的计算方式分成2种——显式的(Explicit)和隐式的(Implicit)。
1.当训练数据集表示的评分矩阵中的评分值来自实际的用户打分时，比如用户对电影的评分，可以采用显式计算的方式。这时算法直接拟合用户对产品的评分数据，损失函数(Loss function)如下：
$$\sum_{i,j}(r_{ij}-u_i^Tv_j)^2$$ 其中$r_{ij}$是评分矩阵中第i个用户u对第j个产品v的评分值，$u_i$表示第i个用户的因子向量，$v_j$表示第j个产品的因子向量。拟合过程就是评分矩阵分解为用户因子矩阵和产品因子矩阵的乘积过程，先随机产生2个因子矩阵，然后通过迭代逼近损失函数最小值。

2.当训练数据集表示的评分矩阵中的评分值无法直接表示用户对产品的打分时，比如训练数据只有用户对产品的购买记录，评分值相当于购买次数，又或者评分值表达用户收看某个节目的时长等情况，这时可以采用隐式计算方式，Spark采用《Collaborative Filtering for Implicit Feedback Datasets》这篇文章的方式，这时的损失函数(Loss function)如下：
$$\sum_{i,j}c_{ij}(p_{ij}-u_{i}^{T}v_{j})^{2}$$ 其中$p_{ij}=1\{r_{ij}>0\}$，表示用户对产品的偏好程度(preference)，当$r_{ij}>0$时为1，当$r_{ij}=0$时为0；
其中$c_{ij}=1+{\alpha}r_{ij}$，表示用户对商品的信任程度(confidence)，具有最小值1，$r_{ij}$越大表示用户对该产品越信任，对该产品的偏好加持就更大，系数α是对信任程度加持权重的可调整参数。

正则化
正则化(Regularization)是用来防止模型过拟合(overfitting)的。Spark采用《Large-Scale Parallel Collaborative Filtering for the Netflix Prize》这篇论文中使用的吉洪诺夫正则(Tikhonov regularization)，实际惩罚函数如下：
$$\sum_{i}n_{u_i}||u_i||^2+\sum_{j}n_{v_j}||v_j||^2$$其中$n_{u_i}$为第i个用户的评分总计次数，$n_{v_j}$为第j个产品的被评分总次数，$||u_i||^2$表示第i个用户的因子向量1范数的平方，$||v_j||^2$表示第j个产品的因子向量1范数的平方。
和逻辑回归算法类似，Spark提供了regParam参数来调整正则化的权重，越大表示对模型训练集进行迭代后，因子向量的系数越接近或者等于0。

参数

输入输出相关:

userCol: 输入训练集中标记用户id的字段名称，该字段值必须是整数类型 (默认值: user)
itemCol: 输入训练集中标记产品id的字段名称，该字段值必须是整数类型 (整数类型，默认值: item)
ratingCol: 输入训练集中标记产品id的字段名称，该字段值必须是浮点数类型 (默认值: rating)
predictionCol: 输出结果数据中最终用户的产品的评分预测值的字段名称 (默认值: prediction)

算法模型相关:

implicitPrefs: 是否采用隐式评价模型，具体使用方式见上面算法介绍部分。 (boolean类型，默认值: false)
alpha: 当采用隐式模型后，该参数表示训练数据中评分值对偏好的信任程度加持权重，具体公式见上面算法介绍部分。(>=0的实数，默认值: 1.0)
maxIter: 迭代算法最大迭代次数 (>0的整数，默认值: 10)
seed: 迭代算法的初始随机值的seed (long类型，默认值: 1994790107)
nonnegative: 给最终因子向量的解增加约束，向量系数必须>=0，在某些评分必须是正的业务场景下使用。(boolean类型，默认值: false)
rank: 因子向量的长度，即系数个数 (正整数，默认值：10)
regParam: 正则化惩罚程度参数，具体使用方式见上面正则化相关介绍。(>=0的实数，默认值：0.1)

Spark实现相关:

numUserBlocks: 并行时，每个分区包含多少个用户。(正整数，默认值：10)
numItemBlocks: 并行时，每个分区包含多少个产品。(正整数，默认值：10)

model对象的成员

coldStartStrategy: 冷启动策略 (默认值：nan)
可选项1. nan-当模型对象在transform时遇到训练数据中未出现过的产品或者用户时，返回NaN的预测分数；
可选项2. drop-当模型对象在transform时遇到训练数据中未出现过的产品或者用户时，返回的预测矩阵直接不包含该行或者该列，一般在评估模型性能时才设置为该选项。
userFactors: 用户因子向量。
itemFactors: 产品因子向量。
recommendForAllItems(numUsers): 返回所有产品评分最高的numUsers个用户和其评分值。
recommendForAllUsers(numItems): 返回所有用户最高评分的numItems个产品和其被评分值。
recommendForItemSubset(itemIds, numUsers): 返回itemIds指定的产品评分最高的numUsers个用户和其评分值。
recommendForUserSubset(userIds, numItems): 返回userIds指定的用户最高评分的numItems个产品和其被评分值。

例子

case class Rating(userId: Int, movieId: Int, rating: Float)
import spark.implicits._
	
val ratings = spark.read.textFile("data/sample_movielens_ratings.txt")
  .map[Rating]((row: String) => {
    val fields = row.split("::")
    assert(fields.size > 2)
    Rating(fields(0).toInt, fields(1).toInt, fields(2).toFloat)
  })
  .toDF

val training = ratings.filter($"userId" < 5 && $"movieId" < 5)
training.show(false)
//    +------+-------+------+
//    |userId|movieId|rating|
//    +------+-------+------+
//    |0     |2      |3.0   |
//    |0     |3      |1.0   |
//    |1     |2      |2.0   |
//    |1     |3      |1.0   |
//    |1     |4      |2.0   |
//    |2     |4      |3.0   |
//    |3     |0      |1.0   |
//    |3     |1      |1.0   |
//    |3     |2      |1.0   |
//    |4     |1      |1.0   |
//    +------+-------+------+
//  5个用户(0~4)对5个产品(0~4)的评分矩阵，缺失的值代表未给出评分，需要预测

val als = new ALS()
  .setMaxIter(5)
  .setRegParam(0.01)
  .setUserCol("userId")
  .setItemCol("movieId")
  .setRatingCol("rating")
  .setRank(3)
val model = als.fit(training)

println("Model's userFactors: " + model.userFactors.show(false))
//    +---+--------------------------------------+
//    |id |features                              |
//    +---+--------------------------------------+
//    |0  |[0.46956787, -0.21544717, 0.44395432] |
//    |1  |[0.26013312, 0.7097482, 0.35004103]   |
//    |2  |[-0.054062564, 1.0743616, 0.069483235]|
//    |3  |[0.019214045, 0.8779476, 0.28457534]  |
//    |4  |[0.060183235, 0.77000576, -0.17054395]|
//    +---+--------------------------------------+
//  各个用户因子向量，系数个数为3，和模型设置的rank参数一致

println("Model's itemFactors: " + model.itemFactors.show(false))
//    +---+---------------------------------------+
//    |id |features                               |
//    +---+---------------------------------------+
//    |0  |[-3.7709295E-4, 0.99906933, 0.34551093]|
//    |1  |[0.09559269, 1.223047, -0.27088535]    |
//    |2  |[3.2378314, -0.0062164725, 3.3140914]  |
//    |3  |[1.1507114, 0.37215897, 1.2418063]     |
//    |4  |[-0.13939548, 2.770145, 0.1791563]     |
//    +---+---------------------------------------+
//  各个产品因子向量，系数个数为3，和模型设置的rank参数一致


println("Top3 user ratings: " +
  model.recommendForAllItems(3).orderBy("movieId").show(false))
//    +-------+-------------------------------------------------+
//    |movieId|recommendations                                  |
//    +-------+-------------------------------------------------+
//    |0      |[[2, 1.0973892], [3, 0.9754472], [1, 0.8299326]] |
//    |1      |[[2, 1.2900047], [3, 0.99852073], [4, 0.9937042]]|
//    |2      |[[0, 2.9930263], [1, 1.9979231], [3, 0.99986285]]|
//    |3      |[[0, 1.0114617], [1, 0.9981605], [3, 0.7022333]] |
//    |4      |[[2, 2.9961216], [3, 2.4803472], [4, 2.0940843]] |
//    +-------+-------------------------------------------------+


println("Top3 preferred items: " +
  model.recommendForAllUsers(3).orderBy("userId").show(false))
//    +------+--------------------------------------------------+
//    |userId|recommendations                                   |
//    +------+--------------------------------------------------+
//    |0     |[[2, 2.9930263], [3, 1.0114617], [0, -0.06203267]]|
//    |1     |[[2, 1.9979231], [4, 1.9925562], [3, 0.9981605]]  |
//    |2     |[[4, 2.9961216], [1, 1.2900047], [0, 1.0973892]]  |
//    |3     |[[4, 2.4803472], [2, 0.99986285], [1, 0.99852073]]|
//    |4     |[[4, 2.0940843], [1, 0.9937042], [0, 0.71034163]] |
//    +------+--------------------------------------------------+


val test = spark.createDataFrame(
  Seq.tabulate(6, 6)((i, j) => Rating(i, j, 0.0f)).flatten)
  .toDF
model.transform(test).orderBy("userId", "movieId").show(40, truncate = false)
//    +------+-------+------+-----------+
//    |userId|movieId|rating|prediction |
//    +------+-------+------+-----------+
//    |0     |0      |0.0   |-0.06203267|
//    |0     |1      |0.0   |-0.3388755 |
//    |0     |2      |0.0   |2.9930263  |
//    |0     |3      |0.0   |1.0114617  |
//    |0     |4      |0.0   |-0.5827383 |
//    |0     |5      |0.0   |NaN        |
//    |1     |0      |0.0   |0.8299326  |
//    |1     |1      |0.0   |0.79810125 |
//    |1     |2      |0.0   |1.9979231  |
//    |1     |3      |0.0   |0.9981605  |
//    |1     |4      |0.0   |1.9925562  |
//    |1     |5      |0.0   |NaN        |
//    |2     |0      |0.0   |1.0973892  |
//    |2     |1      |0.0   |1.2900047  |
//    |2     |2      |0.0   |0.048549592|
//    |2     |3      |0.0   |0.4239076  |
//    |2     |4      |0.0   |2.9961216  |
//    |2     |5      |0.0   |NaN        |
//    |3     |0      |0.0   |0.9754472  |
//    |3     |1      |0.0   |0.99852073 |
//    |3     |2      |0.0   |0.99986285 |
//    |3     |3      |0.0   |0.7022333  |
//    |3     |4      |0.0   |2.4803472  |
//    |3     |5      |0.0   |NaN        |
//    |4     |0      |0.0   |0.71034163 |
//    |4     |1      |0.0   |0.9937042  |
//    |4     |2      |0.0   |-0.37512177|
//    |4     |3      |0.0   |0.14403555 |
//    |4     |4      |0.0   |2.0940843  |
//    |4     |5      |0.0   |NaN        |
//    |5     |0      |0.0   |NaN        |
//    |5     |1      |0.0   |NaN        |
//    |5     |2      |0.0   |NaN        |
//    |5     |3      |0.0   |NaN        |
//    |5     |4      |0.0   |NaN        |
//    |5     |5      |0.0   |NaN        |
//    +------+-------+------+-----------+
//  默认使用NaN的冷启动策略后，没有在训练集中出现的user5和item5的预测结果都为NaN。

model.setColdStartStrategy("drop")
  .transform(test).orderBy("userId", "movieId").show(40, truncate = false)
//    +------+-------+------+-----------+
//    |userId|movieId|rating|prediction |
//    +------+-------+------+-----------+
//    |0     |0      |0.0   |-0.06203267|
//    |0     |1      |0.0   |-0.3388755 |
//    |0     |2      |0.0   |2.9930263  |
//    |0     |3      |0.0   |1.0114617  |
//    |0     |4      |0.0   |-0.5827383 |
//    |1     |0      |0.0   |0.8299326  |
//    |1     |1      |0.0   |0.79810125 |
//    |1     |2      |0.0   |1.9979231  |
//    |1     |3      |0.0   |0.9981605  |
//    |1     |4      |0.0   |1.9925562  |
//    |2     |0      |0.0   |1.0973892  |
//    |2     |1      |0.0   |1.2900047  |
//    |2     |2      |0.0   |0.048549592|
//    |2     |3      |0.0   |0.4239076  |
//    |2     |4      |0.0   |2.9961216  |
//    |3     |0      |0.0   |0.9754472  |
//    |3     |1      |0.0   |0.99852073 |
//    |3     |2      |0.0   |0.99986285 |
//    |3     |3      |0.0   |0.7022333  |
//    |3     |4      |0.0   |2.4803472  |
//    |4     |0      |0.0   |0.71034163 |
//    |4     |1      |0.0   |0.9937042  |
//    |4     |2      |0.0   |-0.37512177|
//    |4     |3      |0.0   |0.14403555 |
//    |4     |4      |0.0   |2.0940843  |
//    +------+-------+------+-----------+
//  使用drop的冷启动策略后，未在训练集中出现的user5和item5都不会给出预测结果。