当前位置：

首页
/
IT
/
程序
/
Python
/
Spark 机器学习实战 (十二) - 推荐系统实战

Spark 机器学习实战 (十二) - 推荐系统实战

0 相关源码

将结合前述知识进行综合实战, 以达到所学即所用. 在推荐系统项目中, 讲解了推荐系统基本原理以及实现推荐系统的架构思路, 有其他相关研发经验基础的同学可以结合以往的经验, 实现自己的推荐系统.

1 推荐系统简介

1.1 什么是推荐系统

1.2 推荐系统的作用

1.2.1 帮助顾客快速定位需求, 节省时间

1.2.2 大幅度提高销售量

1.3 推荐系统的技术思想

1.3.1 推荐系统是一种机器学习的工程应用

1.3.2 推荐系统基于知识发现原理

1.4 推荐系统的工业化实现

Apache Spark

Apache Mahout

SVDFeature(C++)

LibMF(C+ +,Lin Chih-Jen)

2 推荐系统原理

可能是推荐系统最详细且简单的入门教程

官方文档指南

协同过滤

协同过滤通常用于推荐系统. 这些技术旨在填写用户项关联矩阵的缺失条目.

spark.ml 目前支持基于模型的协同过滤, 其中用户和产品由一小组可用于预测缺失条目的潜在因素描述.

spark.ml 使用交替最小二乘 (ALS) 算法来学习这些潜在因素. spark.ml 中的实现具有以下参数:

numBlocks

用户和项目将被分区为多个块的数量, 以便并行化计算(默认为 10).

rank

模型中潜在因子的数量(默认为 10).

maxIter

要运行的最大迭代次数(默认为 10).

regParam

指定 ALS 中的正则化参数(默认为 1.0).

implicitPrefs

指定是使用显式反馈 ALS 变体还是使用适用于隐式反馈数据的变量(默认为 false, 这意味着使用显式反馈).

alpha

适用于 ALS 的隐式反馈变量的参数, 其控制偏好观察中的基线置信度(默认为 1.0).

nonnegative 指定是否对最小二乘使用非负约束(默认为 false).

注意: 基于 DataFrame 的 ALS API 目前仅支持用户和项 ID 的整数. user 和 item id 列支持其他数字类型, 但 id 必须在整数值范围内.

显性与隐性反馈

基于矩阵分解的协同过滤的标准方法将用户项矩阵中的条目视为用户对项目给出的显式偏好, 例如, 给予电影评级的用户.

在许多现实世界的用例中, 通常只能访问隐式反馈(例如, 观看, 点击, 购买, 喜欢, 分享等).

spark.ml 中用于处理此类数据的方法取自 Collaborative Filtering for Implicit Feedback Datasets. 本质上, 这种方法不是试图直接对评级矩阵进行建模, 而是将数据视为表示用户操作观察强度的数字(例如点击次数或某人花在观看电影上的累积持续时间). 然后, 这些数字与观察到的用户偏好的置信水平相关, 而不是与项目的明确评级相关. 然后, 该模型试图找到可用于预测用户对项目的预期偏好的潜在因素.

缩放正则化参数

我们通过用户在更新用户因素时产生的评级数或在更新产品因子时收到的产品评级数来缩小正则化参数 regParam 以解决每个最小二乘问题. 这种方法被命名为 "ALS-WR", 并在 "Netflix 奖的大规模并行协同过滤" 一文中进行了讨论. 它使 regParam 较少依赖于数据集的规模, 因此我们可以将从采样子集中学习的最佳参数应用于完整数据集, 并期望获得类似的性能.

冷启动策略

在使用 ALS 模型进行预测时, 通常会遇到测试数据集中的用户和 / 或项目, 这些用户和 / 或项目在训练模型期间不存在. 这通常发生在两种情况中:

在生产中, 对于没有评级历史且未对模型进行过训练的新用户或项目(这是 "冷启动问题").

在交叉验证期间, 数据在训练和评估集之间分割. 当使用 Spark 的 CrossValidator 或 TrainValidationSplit 中的简单随机分割时, 实际上很常见的是在评估集中遇到不在训练集中的用户和 / 或项目

默认情况下, 当模型中不存在用户和 / 或项目因子时, Spark 会在 ALSModel.transform 期间分配 NaN 预测. 这在生产系统中很有用, 因为它表示新用户或项目, 因此系统可以决定使用某些后备作为预测.

但是, 这在交叉验证期间是不合需要的, 因为任何 NaN 预测值都将导致评估指标的 NaN 结果(例如, 使用 RegressionEvaluator 时). 这使得模型选择不可能.

Spark 允许用户将 coldStartStrategy 参数设置为 "drop", 以便删除包含 NaN 值的预测的 DataFrame 中的任何行. 然后将根据非 NaN 数据计算评估度量并且该评估度量将是有效的. 以下示例说明了此参数的用法.

注意: 目前支持的冷启动策略是 "nan"(上面提到的默认行为)和 "drop". 将来可能会支持进一步的战略.

在以下示例中, 我们从 MovieLens 数据集加载评级数据, 每行包含用户, 电影, 评级和时间戳. 然后, 我们训练一个 ALS 模型, 默认情况下, 该模型假设评级是显式的(implicitPrefs 为 false). 我们通过测量评级预测的均方根误差来评估推荐模型.

import org.apache.spark.ml.evaluation.RegressionEvaluator
import org.apache.spark.ml.recommendation.ALS
case class Rating(userId: Int, movieId: Int, rating: Float, timestamp: Long)
def parseRating(str: String): Rating = {
  val fields = str.split("::")
  assert(fields.size == 4)
  Rating(fields(0).toInt, fields(1).toInt, fields(2).toFloat, fields(3).toLong)
}
val ratings = spark.read.textFile("data/mllib/als/sample_movielens_ratings.txt")
  .map(parseRating)
  .toDF()
val Array(training, test) = ratings.randomSplit(Array(0.8, 0.2))
// Build the recommendation model using ALS on the training data
val als = new ALS()
  .setMaxIter(5)
  .setRegParam(0.01)
  .setUserCol("userId")
  .setItemCol("movieId")
  .setRatingCol("rating")
val model = als.fit(training)
// Evaluate the model by computing the RMSE on the test data
// Note we set cold start strategy to 'drop' to ensure we don't get NaN evaluation metrics
model.setColdStartStrategy("drop")
val predictions = model.transform(test)
val evaluator = new RegressionEvaluator()
  .setMetricName("rmse")
  .setLabelCol("rating")
  .setPredictionCol("prediction")
val rmse = evaluator.evaluate(predictions)
println(s"Root-mean-square error = $rmse")
// Generate top 10 movie recommendations for each user
val userRecs = model.recommendForAllUsers(10)
// Generate top 10 user recommendations for each movie
val movieRecs = model.recommendForAllItems(10)
// Generate top 10 movie recommendations for a specified set of users
val users = ratings.select(als.getUserCol).distinct().limit(3)
val userSubsetRecs = model.recommendForUserSubset(users, 10)
// Generate top 10 user recommendations for a specified set of movies
val movies = ratings.select(als.getItemCol).distinct().limit(3)
val movieSubSetRecs = model.recommendForItemSubset(movies, 10)

如果评级矩阵是从另一个信息源派生的(即从其他信号推断出来), 您可以将 implicitPrefs 设置为 true 以获得更好的结果:

val als = new ALS()
  .setMaxIter(5)
  .setRegParam(0.01)
  .setImplicitPrefs(true)
  .setUserCol("userId")
  .setItemCol("movieId")
  .setRatingCol("rating")

3 推荐系统实战 coding

3.1 分割数据集

数据集 tab 分割

代码分割数据集

分割结果

3.2 预测评分

预测代码

预测结果

3.3 MovieLens 数据集推荐

数据集推荐代码

MovieLens 数据集由 GroupLens 研究组在 University of Minnesota - 明尼苏达大学 (与我们使用数据集无关) 中组织的. MovieLens 是电影评分的集合, 有各种大小. 数据集命名为 1M,10M 和 20M, 是因为它们包含 1,10 和 20 万个评分. 最大的数据集使用约 14 万用户的数据, 并覆盖 27,000 部电影. 除了评分之外, MovieLens 数据还包含类似 "Western" 的流派信息和用户应用的标签, 如 "over the top" 和 "Arnold Schwarzenegger". 这些流派标记和标签在构建内容向量方面是有用的. 内容向量对项目的信息进行编码, 例如颜色, 形状, 流派或真正的任何其他属性 - 可以是用于基于内容的推荐算法的任何形式.

MovieLens 的数据在过去 20 年中已经由大学的学生以及互联网上的人们进行收集了. MovieLens 有一个网站, 您可以注册, 贡献自己的评分, 并接收由 GroupLens 组实施的几个推荐者算法这里之一的推荐内容.

用户 ID

所推电影

Spark 机器学习实践系列

基于 Spark 的机器学习实践 (一) - 初识机器学习

基于 Spark 的机器学习实践 (二) - 初识 MLlib

基于 Spark 的机器学习实践 (三) - 实战环境搭建

基于 Spark 的机器学习实践 (四) - 数据可视化

基于 Spark 的机器学习实践 (六) - 基础统计模块

基于 Spark 的机器学习实践 (七) - 回归算法

基于 Spark 的机器学习实践 (八) - 分类算法

基于 Spark 的机器学习实践 (九) - 聚类算法

基于 Spark 的机器学习实践 (十) - 降维算法

基于 Spark 的机器学习实践(十一) - 文本情感分类项目实战

基于 Spark 的机器学习实践 (十二) - 推荐系统实战

来源: http://www.jianshu.com/p/182ae2ceb1d3

与本文相关文章

暂无,快来抢沙发吧！