Hadoop协同过滤算法的商品-电商推荐系统

本文是对电商中对常见的推荐算法分析，侧重点为研究协同过滤算法，并且对各个算法进行了比较，有电子商务推荐系统面临的计算效率、可扩展性、灵活性等问题，本文先对Hadoop平台的两大核心技术HDFS分布式文件系统和MapReduce并行计算框架的原理和使用进行了分析，并且在此基础上设计了基于Hadoop的电子商务推荐系统，推荐算法运行在Hadoop平台上。本文的章节安排如下:

第一章:绪论。研究背景与意义。信息过载与个性化服务现阶段关于推荐系统的现状论文的主要工作及结构安排

第二章:Apache Hadoop平台,此章节对Hadoop生态简单描述， HDFS分布式文件系统MapReduce并行计算框架运行流程进行了较为详细的分析。

第三章:Hadoop的电商的推荐系统设计。基于Hadoop大型分布式大处理处理系统实现分析并设计合适的Map方案和Reduce方案来实现了协同过滤推荐算法并行化。

第四章:基于Hadoop推荐系统算法具体实现。具体是Hadoop平台上运行分布式推荐算法，本论文主要介绍ItemCF算法。

第五章:实验。用Hadoop平台的电商推荐系统进行了实验，包括对实验的环境简单介绍、数据集采集、进行描写。最后对实验结果进行了分析。

用户向量

Step1程序是，使用原始数据，用userID来作为Map的Key，用movieId：rating作为value，发送到reducer端。Reducer端依据userId来做个汇总，values为movieId：rating，moiveId：rating，moiveId：rating...

共现矩阵

Step2程序是创建商品的共现矩阵，Step1处理完成的数据集，去掉userId，把用户购买历史里面的movieId两两匹配做为key，这里我们把两个物品id做个比较，较小的id位于第一列，较大的Id位于第二列，为了避免重复，1作为value,输出到reducer端，reducer端做汇总输出，出一个物品的共现矩阵。

...............

除去用户已经购买过商品

Step6:程序是除去用户已经购买过的商品，剩下用户未购买的商品，用户的iD，用户未购买商品的商品ID，和对于该用户的该商品的推荐系数，去重的目的是为了，用户已经购买过得商品不做推荐

验证

Step7：是做验证用未训练过的数据集来验证我们的推荐，算法是，我们计算得出的推荐商品数目除以用户的未验证数据集的购买数量，最后计算得出每个用户预测准确率为百分之比，然后把百分比高的用户数据做推荐，详情见代码Step7

Hdfs 上数据集：

数据集的介绍

本论文采用GroupLens小组提供的MovieLens数据集合来评测[4]，该数据集是对外公开的，方便学习参考实验，网站提供了各种不同大小的数据集来供学习和研究。本次使用的是大小为1M的数据集，因为该小组推荐系统就是通过采用协同过滤推荐算法完成了电影推荐，所以，这个MovieLens数据集的可靠性很高，本数据集由，100000评级和1300标签应用到9000电影由700用户。最后更新10/2016，本数据集包含了:movies.dat ，ratings.dat和users.dat，其中ratings.dat就是用户商品评分文件，文件中依次表示的是:用户ID，商ID，用户对商品的评分，时间戳

首页 > jsp/java设计 > 正文

快捷导航

最近更新

热门作品

首页 > jsp/java设计 > 正文