移动环境下个性化推荐系统的设计实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

移动环境下个性化推荐系统的设计实现

【摘要】随着移动互联网的发展,在移动网络有效获取信息将会变得愈发的困难。个性化推荐技术的提出与应用,使得传统Internet上信息过载的局面得到了一定程度上的缓解。本文在现有的推荐算法的基础之上提出了一种基于用户分类与记录可信度加权的协同过滤推荐算法。并使用J2ME技术设计了一个移动网络个性化推荐原型系统。

【关键词】个性化推荐;移动网络;J2ME;协同过滤;记录可信度

1.引言

近年来,随着移动互联网的迅速发展,特别是国内3G牌照发放后,移动互联网用户增长迅速。根据中国互联网络信息中心(CNNIC)发布的《第30此中国互联网络发展状况统计报告》显示,2012年上半年中国互联网电脑网民规模达到5.38亿,而手机网民数量将达到3.88亿。据DDCI互联网数据中心预测,到2013年中国手机网民将达7.2亿,首次超越电脑网民[1]。随之而来的是移动互联网上各类信息的爆炸式增长,使得人们通过移动网络获取信息更加方便的同时,也使得人们获取有价值的信息愈发的困难。

为解决Internet上信息淹没的现状,个性化推荐技术得到了广泛的应用。针对移动互联网的特殊性,本文把传统Internet上个性化推荐技术应用到移动互联网上,提出了移动个性化推荐的离线解决方案,并且设计了基于J2ME的移动个性化推荐系统。

2.ATC与CF结合的推荐模型

2.1 相关技术概述

为解决文本分类中人为因素的影响,自动文本分类(Automatic Text Cat-egorization)技术得到了快速的发展与应用。目前比较常用的有KNN,朴素贝叶斯分类,SVM等分类方法。这些方法都是建立在统计学的基础上,通过特征提取来标注文本文档,建立文档模型后不同的方法应用不同的分类器来进行文本分来处理。文本分类建立在大量文档的基础之上,从而消除了不同的人对文档文类不同的分歧,使得分类过程不受人为因素的影响。

协同过滤(Collaborative Filt-ering,CF),又称协作型过滤,是在信息过滤与信息发现领域非常受欢迎的技术。一个协作型过滤算法通常的做法是对一大群人进行搜索,从中找出与当前用户喜好相同的一小群人,并且对这些人的偏好内容进行考察,将结果组合起来构造出一个经过排名的推荐列表[2]。协同过滤技术分为基于用户相似性的协同过滤(User-based),基于推荐项目的协同过滤(Item-based)与基于模型的协同过滤(Model-based)三种基本方式。User-based 协同过滤是发现相似用户群体,根据相似用户的浏览记录来进行兴趣发现并推荐

给用户;Item-based协同过滤计算推荐项目之间的相似性,把与用户以前浏览的项目相似的项目推荐给用户;Model-based协同过滤首先建立个性化推荐的数学模型,根据数学模型来计算推荐集。

本文主要应用朴素贝叶斯分类器与基于项目的协同过滤算法来构建移动网络的个性化推荐系统。

2.2 个性化推荐模型

基于J2ME的移动网络个性化信息推荐系统整体架构如图1所示,系统模型基于C/S结构设计,客户端采用J2ME技术实现手机客户端信息浏览系统,服务器端采用Servlet实现。

由图1可以看出推荐模型可以分为四个主要部分:

1)用户信息采集分为显性的信息采集与隐性信息采集方式。显性的信息采集方式为在用户的终端浏览界面设置信息反馈栏目,在该栏目中用户可以设置自己的使用偏好信息;隐性的信息采集方式为根据用户对信息的浏览时间,对信息是否保存,对信息是否转发等情况对信息内容做出隐性的评价。本文使用5分制规则,对信息保存,转发评分为5分,根据用户对信息浏览时间的长短为信息设置1-5分的分值。

2)信息发布系统主要负责添加推荐信息,在此过程中使用朴素贝叶斯文本分类器对文本类别进行划分。

3)个性化推荐引擎采用基于用户背景信息分类与历史记录可信度加权的Item-Based协同过滤算法产生推荐信息集。

4)终端系统采用基于J2ME技术实现,提供信息浏览与用户偏好采集功能等。

2.3 朴素贝叶斯文本分类

文本分类是将未知的文本类型划分到规定好的类别中,从而降低人为因素的影响。朴素贝叶斯分类以古典数学理论为基础,分类效率稳定,同时模型构建简单,性能优越。因此本文选取朴素贝叶斯分类器作为文本分类的工具。

本文使用的基于朴素贝叶斯分类的文本分类过程如下:

(1)训练文本的向量空间表示

生成向量空间模型的步骤有文本分词处理,除去停用词,特征选择等。经过各个阶段,最终将确定一组特征词作为特征词空间W={w1,w2,w3,…,wm},w表示特征词。将文本映射到该组特征词空间,使文本的表示形如T(A)={pA1,

pA2,pA3,…,pAm},pAi为文档频率法表示词wi在文档A上的权重。pAi 还可以通过信息增益法,开方拟合检验等其他方法表示[3]。

(2)计算每个特征词所属类别的概概率分布

计算每个特征词属于每个类别的概率,具体计算方法:分别计算每类文件的质心,并计算出每个词能够代表每个类别的概率,最终形成如表1所示的特征词-文本类别对应矩阵。关于文件集质心的计算可以参考文献[4][5]。

(3)向量空间模型的形成

根据已选定的特征词空间,将待分类文本映射到特征词空间中,使其表示为向量空间形式:T(X)={pX1,pX2,pX3…pXm}。

(4)根据特征词的概率分布情况,计算待分类文本所属类别的概率

确定待分类文本T(X)属于分类Ck(Ck∈{C1,C2,C3…Cn})的概率R (k),R(k)的计算方法如公式1所示。JA V A ME API提供了J2ME MIDlet程序与服务器端通信两种方法:基于socket连接的方式和基于超文本传输协议的HTTP通信方式,本文使用HTTP方式实现客户端-服务器端通信。客户端与服务器通过HTTP输入/输出流的方式进行数据交换,程序的一端使用特定的编码格式向输出流(OutputStream)中写数据,在另一端打开输入流(DataInputStream),并且从流输入流中读取数据,解码后完成信息的传递。下面给出了一个Post方式提交信息的Http方式连接服务器的代码片段。

在上文提出的移动个性化信息推荐模型的基础上,本文作者在实验室环境下设计开发了一种基于J2ME的移动个性化信息推荐原型系统,系统运行界面如图4所示。

为测试系统推荐的正确性,在实验室六名志愿者的参与下,根据他们前四天的浏览记录推荐第五天的偏好信息,推荐正确率在80%左右。

5.结束语

本文为解决移动网络上的信息过载状况提出了一种解决方案,设计实现了基于J2ME的移动网络个性化推荐原型系统,并且取得了较好的推荐效果。由于时间有限,该原型系统在推荐效率和通用性方面仍然有待改进。

参考文献

[1]工业和信息化部运行监测协调局[EB/OL].http:///n11293472/n11295057/n11298508/14741971.html.

[2]Toby Segaram.Programming Collaborative Intelligence[M].O’Reilly Media,

相关文档
最新文档