2014数学建模mathorcup获奖论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于层次分析法和BP神经网络对书籍推荐的研究
1.问题的重述
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载的时代。此时,无论是信息消费者还是信息生产者都遇到了很大的挑战:对于信息消费者,从大量信息中找到自己感兴趣的信息是一件非常困难的事情;对于信息生产者,让自己生产的信息脱颖而出,受到广大用户的关注,也是一件非常困难的事情。
推荐,就是解决这一矛盾的重要工具,在互联网的产品和应用中被广泛采用,包括大家经常使用的相关搜索、话题推荐、电子商务的各种产品推荐、社交网络上的交友推荐等。
我们获得了一个著名网上书店的用户行为信息,包括对于书籍的评分数据,书籍的标签信息以及用户的社交关系,请你根据数据完成以下问题。
1.分析影响用户对书籍评分的因素;
2.建立一个模型,预测predict.txt附件中的用户对书籍的评分;
3.针对predict.txt附件中的用户,给每个用户推荐3本没看过的书籍。
2.问题的分析
对于书籍的评分与推荐,主要是基于对大量统计数据的处理。所以,对于问题的解决需要抓住关键有用的数据,并对数据进行转变、筛选、分析、归纳,分析用户对书籍评分的影响因素,以此为依据,通过建立用户对书籍评分的模型,进而完成用户对书籍的评分预测和书籍推荐。
2.1问题一的分析
问题一要求分析影响用户对书籍评分的因素,是对附件中数据的综合分析,首先对user_book_score.txt进行原始数据筛选分别得到用户对书籍的评价为1—5分的数据;考虑到不同影响因素对书籍评分的影响,然后再对其他数据进行筛选,分析,初步得到各阶段书籍的评价分数与标签数的关系、与社交好友的关系、与书籍浏览量的关系。最后对得到的数据进行科学分析和归纳总结,得到影响用户对书籍评分的因素。
2.2问题二的分析
问题二要求建立模型,预测predict.txt附件中的用户对书籍的评分。首先对标签数量,社交关系,书籍浏览量三个方面进行研究,这是一个多目标决策问题。根据问题,可以运用YAAHP层次分析软件建立总评分-准则层两层次分析模型,利用层次分析法综合分析确定各指标对总评分的权系数,并确定综合书籍评价公式,从而得到书籍评分模型,进行预测评分。其次为了更加充分的考虑模型的准确性,运用BP神经网络模型,首先建立一个神经网络结构,把不同用户对书籍的标签数量、用户好友数量、书籍浏览量和对应的书籍评分作为输入量,预测其他用户对书籍的评分作为输出量,根据已知数据训练神经网络,该过程不断调整网络结构,直到到达满意,为止,最后利用该训练好的网络进行用户对书籍评分
的预测。
2.3问题三的分析
问题三要求针对predict.txt附件中的用户,给每个用户推荐3本没看过的书籍。考虑到书籍的好评频率越高,用户对书籍的喜爱程度越高,运用SPSS软件对user_book_score.txt附件进行筛选,得到所有书籍评分为五分的频率,然后在EXCEL中进行排序处理,运用LOOKUP函数筛选得到该用户未看过书的ID,选取前三本评分为五分频率最高的书籍,即为推荐给该用户的三本书籍ID,然后循环五次进行分析最终得到问题所要求的五个用户的推荐书籍ID。
3.符号约定
4.问题假设
1、假设影响用户对书籍评分的因素相互独立。
2、假设影响书籍评分的因素只有书籍标签,用户好友数量,书籍浏览量。
3、假设书籍的好评频率越高,用户对书籍的喜爱程度越高。
5.模型的建立与求解
5.1问题一模型的建立
5.1.1对书籍评分数据的处理
题目要求分析影响用户对书籍评分的因素,运用SPSS统计软件[1]对附件user_book_score.txt(用户评分数据)对书籍分数进行排序,然后进行筛选,从而得到评分为5分好评对应的书籍。
5.1.2书籍标签对书籍评分的影响
考虑到书籍标签的数量对书籍评分结果存在着一定的影响关系,因此要对标签数量进行综合分析。首先运用SPSS统计软件对附件book_tag.txt(书籍的标签数据)进行数据筛选,得到不同的书籍评分为5分出现的频数;然后运用EXCEL 统计软件进行计数处理,得到评分为5分的所有书籍的标签数量。再次运用SPSS 软件对其进行双变量相关分析[2],得到标签数量影响因素下的描述性统计量表包括均值、标准差、观测样本数,如表1所示:
表1 标签数量与好评的描述性统计量
表
表示二者之间存在不完全相关且为正相关。两者之间的不相关的双侧显著性的值为0.414,否定了二者不相关的假设。所以,根据表2可以得出结论:用户对书籍的的评分与书籍标签数量之间存在正相关性,标签数量越多,书籍评分越高。
5.1.3社交关系对书籍评分的影响
基于对社交关系的考虑,用户的好友人数对书籍评分出现五分好评的频数有一定的影响,首先运用SPSS软件对附件user_social.txt(用户的社交关系数据)进行数据筛选,得到每个用户对书籍评分为5分出现的频数;然后运用EXCEL统计软件进行计数处理,得到评分为5分的用户的好友人数。再次运用SPSS软件对其进行双变量相关分析,得到用户影响关注好友的数目对评分影响因素下的描述性统计量表包括均值、标准差、观测样本数,如表3所示:
表3 用户好友人数与其好评的描述性统计量表
0.164,表示二者之间存在不完全相关且为正相关。两者之间的不相关的双侧显著性的值为0,否定了二者不相关的假设。所以,根据表4可以得出结论:用户对书籍的的评分与书用户的好友人数之间存在正相关性,用户好友人数越多,用户对书籍的评分越高。
5.1.4历史浏览量对书籍评分的影响
首先运用SPSS统计软件对附件user_read_history.txt(用户看过的书籍数据)进行数据筛选,得到在此附件中不同的书籍评分为5分出现的频数;然后运用EXCEL统计软件进行计数处理,得到评分为5分的所有书籍的历史浏览量。再次运用SPSS软件对其进行双变量相关分析,得到只考虑书籍历史浏览量此因素下的描述性统计量表包括均值、标准差、观测样本数,如表5所示:
表6 历史浏览量与评分的相关分析结果表