一种分布式智能推荐系统的设计_陶剑文

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

少图遍历的时间而定义的一个系统阈值,也可以由外部指定。
系统认为只有大于 minclustersize 值的聚簇才是有意义的遍历
聚簇,顶点数低于 minclustersize 值的聚簇将被系统忽略。
3.1 MASWSIRS 实现算法描述 某个新用户请求到达 Web 服务器,后台的知识库将被更
新,同时一列推荐信息被附加到请求页,并反馈给该用户。
陶剑文
(浙江工商职业技术学院计算机应用研究所,宁波 315012)
摘 要:引入移动 Agent 技术,提出了一种面向 E-learning 的集成群 Agent 与 Web 服务的分布式智能推荐系统模型 MASWSIRS,构造了 MASWSIRS 的体系结构,并给出了系统的工作流程和 MASWSIRS 的实现算法。 关键词:移动代理;个性化;推荐系统;Web 使用挖掘;服务合成
(3)推荐服务模块,主要由多个 Web services 构成,实现 基于用户信息知识库的推荐信息的构建,并将该推荐信息返 回给推荐代理。 2.2 MASWSIRS 工作流程
离线部分的工作流程为:MASWSIRS 离线部分的工作流 程遵循 WUM 的工作过程,包括原始数据的收集、数据预处 理并入库、对预处理后的数据采取某些 WUM 算法,进行分
2 MASWSIRS 的体系结构与工作流程
2.1 MASWSIRS 体系结构 MASWSIRS 主要包括离线部分、在线部分 2 个部分,如
图 1 所示。
学 员 学 学习系统1 员 学习系统2
学 ...
员 学习系统n
推荐代理1


推荐代理 2
代 理
...
推荐代理 n
推荐服务 1 推荐服务 2
...
推荐服务 n
第 33 卷 第 15 期 Vol.33 No.15
计算机工程 Computer Engineering
2007 年 8 月 August 2007
·人工智能及识别技术·
文章编号:1000—3428(2007)15—0207—02 文献标识码:A
中图分类号:TP 311.13
一种分布式智能推荐系统的设计
// 将 i 赋予聚簇 clust
end for
if F <>Φthen
h = pop (F);
E源自文库se
if (C <>Φ) then h = pop(C); clust = h; else h = NULL;
u},其中,M 代表当前站点的邻接矩阵;L 指聚簇列表;
PageWindow 指会话标识符号索引列表;u 指用户请求页的
URL。
定义 5 最小相关度(minfreq),表示两个页面间的最小关
联程度。minfreq 一般由外部指定,大于该值的关联页面才认
为是有价值的。
定义 6 最小聚簇大小(minclustersize),系统为了消耗较
Design of Distributed Intelligent Suggestion System
TAO Jian-wen
(Institute of Computer Application Research, Zhejiang Business Technology Institute, Ningbo 315012)
输出:一个实时的聚簇结构 C。
ret_val = L; clust=L [page_idu];
C={n∈[1..|L|] s.t. L [page_idu] = clust}; // C 指由 clust 指定的
cluster 的所有节点的集合
h=pop(C);
//从 C 中取第一个元素
ret_val[h] = h;
PW = Page_Windows[session_id]; If (! Exists (page_idu, page_idv, PW)) then // 如果(u,v)已出现
//在 Page_Windows[session_id]中则返回 true
M [page_idu, page_idv]++; If ((Wuv > minfreq) & (L [page_idu] <> L [page_idv])) then
资源数据库
数据挖 掘 Agent
Web Server
数据库
在线处理部分
图 1 MASWSIRS 系统结构
知识库
文本文件
离线处理部分
离线部分主要基于 WUM(Web usage mining)技术对 Web Server 的历史数据(log 文件、用户注册信息、其它文本数据 等)进行分析处理,以发现用户的使用模式,构建一个基于用 户的在线知识库供在线部分查询参考[4]。
系统标识用户请求 URL u 和该用户所属的会话,通过会话标
识符,系统识别用户所来自的 URL v 的标识符,根据当前会
话特征,系统自动更新知识库并产生推荐信息。在会话标识
符及用户会话整个过程中,所访问的页面的标识符被存储到
一个简单的映射数组中,会话标识符用于访问该数组的键值。
URL 标识符到 URL 的映射关系被存储到一个字符串数据结
在线部分将利用知识库丰富学习系统的内容,其表现形 式包括基于个体偏好的页面链接、教育宣传、学习提示等。 在线部分主要包括:
(1)学习系统模块,为学员在线学习的平台(e-portal),为 学员提供可视化的学习资源;
(2)推荐代理模块,主要包括控制代理(control agent, CA) 及多个派发的移动代理。CA 主要负责推荐代理的协调(如推 荐代理的调用、多代理的协作与合成等)、用户的信息接受与 推荐;推荐代理负责推荐服务的发现、调用等;
基金项目:浙江省教育厅科研基金资助项目(20040120) 作者简介:陶剑文(1973-),男,硕士、讲师,主研方向:分布式智 能计算,数据挖掘 收稿日期:2006-10-08 E-mail:tjw@zjbti.net.cn
—207—
析处理、发现用户的使用模式、形成在线用户知识库。为了
不影响系统的工作性能,离线部分的处理可放在系统使用负
算得到
Wij = Ni j /max{Ni , N j }
(1)
其中,Nij 代表同时包含页面 i 和页面 j 的会话数;Ni、Nj 分
别表示仅包含页面 i 或页面 j 的会话数。
定义 3 邻接矩阵 M={Mij},其中 Mij 是由公式 Wij 计算 所得出的权重值。
定义 4 基于用户会话的推荐列表 S={M, L, PageWindow,
【Abstract】This paper puts forward a distributed intelligent suggestion system based on mobile agent and Web services and constructs the architecture of the system. It narrates workflow of the system and explains algorithms implementing main functions of the system. 【Key words】mobile agent; personalization; suggestion system; Web usage mining; services synthesis
1 概述
E-learning 系统可以为在线学员提供学习资源的选择,但 其复杂的结构使学员无法顺利找到所需的资源,“E-learning 推荐系统”可以解决此类问题,但存在的问题如下[1,2]:
(1)不能灵活提供多种推荐功能; (2)异构、分布式资源的存取困难; (3)难以动态、有效地管理和维护多个推荐工具和大量 数据; (4)异步协调问题,离线执行部分为了保持给在线执行部 分提供最新的分析模式,需要调节对模式库的更新频率,频 率的选定有赖于特定系统。 随着人工智能技术的发展,应用移动 Agent 技术建立一 种异构分布式的智能推荐系统,为解决上述问题提供了一条 新的思路。移动代理(mobile agent)是代码、数据以及执行语 境的软件包,在执行过程中,有目的地、自治地在网络中移 动,利用与分布资源的局部交互,完成分布任务的软件 实体[3]。 MASWSIRS 的主要特点为: (1)离线执行部分采用 WUM 技术,对用户的历史数据进 行挖掘,构建一个基于用户使用信息的知识库,为在线个性 化推荐功能的可靠实现提供了最有价值的参考语境,由于 WUM 的挖掘操作主要在推荐系统负载较小或关闭的情况下 执行,因此对在线推荐功能的执行性能影响较小; (2)利用 Web Services 技术,解决了异构、分布式资源存 取困难的问题。采用移动 Agent 发现并调用不同功能的推荐 服务,为系统提供多样化的推荐功能成为可能; (3)由于移动 Agent 分布在远端执行,因此避免了传统系 统的响应延时问题。
荷较低或系统关闭的情况下执行。
在线部分工作流程为:学员 e 登录学习系统,系统将用
户信息及其推荐请求传递给控制代理 CA,CA 将对用户信息
予以分析并派发一个与 e 实时绑定的移动 Agent a,a 将搜寻
合适的推荐服务 s,s 通过用户标识符检索在线知识库获取 e
的个性化信息,如果 e 的用户信息在知识库中不存在(e 是初
定义 1 访问一致性(visit coherence),指的是用户在同一 个会话过程中所访问的页面在概念逻辑上是一致的[3,5]。
定义 2 用户导航信息图 G=(V,E),其中,顶点 V 是 Web
服务器中不同 Web 页面的标识符集合;边 E 代表关联 Web
页面 i 与 j 间的权重 Wij,根据访问一致性,Wij 由下述公式计
次登录系统),s 将返回一个空信号给 CA 并由其触发挖掘代
理(Mining Agent)对知识库进行更新;否则(e 是老用户)s 通过
推荐算法计算出推荐结果 L,a 接收到 s 返回的推荐结果 L
后,经过加权处理将其中前 n 个推荐信息传回给 CA 并由其转
交给用户 e。
3 MASWSIRS 的实现算法
义 2 个系统阈值 minfreq 与 minclustersize 对 DFA 遍历算法进
行一定限制。MASWSIRS 聚簇函数 Cluster(M, L, page_idu) 的实现算法描述为:
输入:邻接矩阵 M;聚簇结构 L。如果页面标识符 i 赋
予聚簇 c,L[i]=c;页面标识符 page_idu。
Push(u, PW); S = Create_Suggestions (PW, L, page_idu ); //产生推荐信息 Return (S);
3.2 聚簇实现算法描述 从 u 开始,在图 G 中利用深度优先算法(depth first
algorithm, DFA)进行遍历,递归性扫描所有节点,直到每个 节点归宿于某个聚簇[4]。出于时间与性能上的考虑,通过定
page_idu = Identify_Page(u); //基于当前会话用户,通过访问 trie,检取 u 的 id
—208—
session_id = Identify_Session(); //利用 Cookies
page_idv = Last_Page(session_id); //返回当前会话中最近访问页.
MergeCluster(L[page_idu ], L[page_idv ]); //合并 2 个分别包含页 u 与 v 的簇
endif
M[page_idu, page_idu]++; New_L = Cluster(M, L, page_idu); //产生聚簇列表 L = New_L;
endif
// 设置聚簇标识符为 h
clust = h; F =Φ;
While h <> NULL do
for all (i ∈ C s.t. h <> i & Whi > minfreq) do
remove(C, i); push (F, i); //从 C 中移除节点 i,将其插入 F
ret_val[i] = clust;
构 trie 中,其在系统初始化阶段由系统静态组建。MASWSIRS
整个工作流程的实现基于图论模型,为了抽取用户的浏览模
式信息,系统将用户的使用信息抽象为一个完整的图模型 G。
MASWSIRS 整体实现算法形式化描述为:
初始值:M,L,PageWindow。
输入:用户请求 URL u。
输出:对会话用户有价值的推荐信息列表 S。
相关文档
最新文档