基于协同过滤的图书馆文献数据挖掘系统设计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019 年 10 月 机械设计与制造工程 Oct. 2019
第 48 卷 第 10 期 Machine Design and Manufacturing Engineering Vol. 48 No. 10
{ u1 ꎬu2 ꎬꎬu m } ꎬ文献信息项目共有 n 个ꎬ 用户 u m
的图书文 献 喜 好 评 价 资 源 集 为 IꎬI = { i1 ꎬi2 ꎬꎬ
i n } ꎮ 假设 R m × n 表示 m × n用户对图书文献的评价
矩阵ꎬr ij 表示第 i 个用户在第 j 个文献的访问记录ꎬ
表征用 户 浏 览 该 文 献 时 的 兴 趣 评 价ꎮ 利 用 矩 阵
容ꎮ 图书信息表包含图书名称、路径、出版社和已
书馆文献浏览记录进行分析ꎬ完成图书馆文献数据
经被借阅的次数等ꎮ 管理员信息表包含图书馆管
的分类ꎮ 其具体实现过程如图 2 所示
[7]
ꎮ
理员基本情况ꎬ留言表包含读者对书籍的评价ꎬ主
要是书籍和读者编号以及评价内容ꎮ
1. 3 协同过滤算法
图书馆数据挖掘系统最关键的环节是图书文
于协同过滤的图书馆文献数据挖掘系统ꎮ 采用 UML 建模语言构建支撑系统运行的数据库ꎬ通过
协同过滤算法ꎬ依据用户浏览记录匹配对应的图书文献ꎬ完成图书馆文献数据精准挖掘ꎮ 实验结
果表明ꎬ当同时在线人数达到 400 时ꎬ该系统能够在 2 s 内完成响应ꎬ推荐准确率高达 90% ꎬ具有
较高的实用性ꎮ
关键词:协同过滤ꎻ图书馆ꎻ文献ꎻ数据挖掘
中图分类号:TP391 文献标识码:A 文章编号:2095 - 509X(2019)10 - 0119 - 04
随着网络的迅猛发展ꎬ网络个性化服务逐渐完
善ꎮ 越来越多的人通过电子图书馆获得知识ꎬ考虑
1 基于协同过滤的图书馆文献数据挖掘系
统
到用户对图书馆文献的需求各不相同ꎬ为了使用户
献过滤挖掘过程ꎮ 本文利用协同过滤算法实现图
书馆文献数据挖掘ꎮ 协同过滤基本理念为:依据用
户兴趣相似程度推荐文献ꎬ将与当前用户相似的其
他用户常浏览的文献推荐给当前用户ꎬ根据当前用
户对图书馆文献的评价以及其他相似用户对文献
图 2 文献数据分析模块
的评价ꎬ挖掘获得当前用户未浏览过的文献ꎬ同时
3) 文献数据分类模块ꎮ 该模块具体挖掘过程
DOI:10. 3969 / j. issn. 2095 - 509X. 2019. 10. 026
基于协同过滤的图书馆文献数据挖掘系统设计
哈金花
( 青海省西宁市大通回族土族自治县图书馆ꎬ青海 西宁 810100)
摘要:针对当前图书馆文献数据挖掘系统存在响应时间长、推荐准确率低等问题ꎬ设计了一种基
如图 3 所示ꎮ 由图可知ꎬ当文献浏览频率超过 0. 3
时ꎬ图书文献信息才会被系统记录ꎬ浏览频率低于
0. 3 的图书文献信息会被系统过滤掉ꎬ以减少对非
关键数据的分析ꎬ提高了对图书馆文献数据的挖掘
效率ꎮ
进行推荐ꎮ
一般情况下ꎬ协同过滤算法可描述成以下形
式:参与协同过滤的用户共有 m 个ꎬ 表示为 U =
1. 1 图书馆文献数据挖掘系统功能模块
获得更加优质的体验ꎬ一种通过浏览记录获得用户
图书馆文献数据挖掘系统功能模块主要由图
喜好的图书馆挖掘技术正在兴起 [1] ꎮ 相关专家对
书馆文献采集模块、文献数据分析模块、文献数据
此技术进行了大量的研究ꎮ 乔岚 [2] 着重从总体架
分类模块、图书馆文献存储模块组成ꎮ 详细设计如
119
2019 年第 48 卷 机械设计与制造工程
2) 文献数据分析模块ꎮ 该模块通过图书馆文
数据表包含读者的基本情况信息和读者类别等内
献采集模块获得原始数据ꎬ采用协同过滤算法对图
R m × n 生成用户资源的近邻集合 Mꎮ
针对当前用户 u k ꎬ 图书馆文献数据挖掘系统
根据其历史访问记录和兴趣爱好评价ꎬ获取与该用
户访问行为最为相似的多个用户作为 u k 最近邻集
合ꎬ统计 u k 最近邻用户访问过但用户 u k 没有访问
过的文献ꎬ利用这些文献构建候选推荐集合ꎬ再计
算候选推荐集合中各文献对 u k 的推荐度ꎬ选取前 N
构和逻辑架构两个方面进行了一套个性化的电子
下:
商务推荐系统的设计ꎬ并通过用户行为提取和分析
1) 图书馆文献采集模块ꎮ 该模块能够对用户
模块、相关推荐模块、过滤和排名模块以及推荐解
的个人浏览记录进行采集ꎬ获得不同用户的图书文
释模块来实现系统功能ꎮ 因为该系统是对用户喜
献喜好ꎬ完成图书馆文献数据挖掘系统的数据采集
的硬件设计过程ꎬ通过引入数据挖掘方法实现对软
件部分的设计ꎬ但系统对未登录的用户则没有推荐
功能ꎬ因此具有一定的局限性ꎮ
针对上述系统存在的问题ꎬ本文设计了基于协
同过滤的图书馆文献数据挖掘系统ꎮ
图 1 图书馆文献采集模块流程图
收稿日期:2018 - 12 - 14
作者简介:哈金花(1974—) ꎬ女ꎬ中级馆员ꎬ主要研究方向为信息资源自动化ꎬhajinhua77468@ 163. com.
息以及读者信息等 [6] ꎮ 具体流程如图 1 所示ꎮ
过程中ꎬ设计并实现了基于云计算的数据挖掘系
统ꎬ该系统能对用户的个人兴趣准确做出判断ꎬ所
以在响应速度方面具有较大优势ꎬ但该系统需要一
定的时间进行分析才能使用ꎬ可操作性较差ꎮ 阎星
宇 [4] 提出并设计了基于数据挖掘的图书馆读者借
阅系统ꎮ 在分析其整体结构的基础上ꎬ给出了详细
好文献进行实时采集并处理后响应的ꎬ所以存在响
应速度过慢的问题ꎮ 王晓妮等 [3] 通过采用 Map /
Reduce 这种能够处理大量半结构化数据集合的并
行编程模型方法ꎬ将云计算技术融入海量数据挖掘
过程 [5] ꎬ会定期为文献分析模块提供数据来源ꎬ并
定期从图书馆的数据集成管理平台和联机公共资
源体系中获得具有一定流通性的数据ꎬ包括图书信
第 48 卷 第 10 期 Machine Design and Manufacturing Engineering Vol. 48 No. 10
{ u1 ꎬu2 ꎬꎬu m } ꎬ文献信息项目共有 n 个ꎬ 用户 u m
的图书文 献 喜 好 评 价 资 源 集 为 IꎬI = { i1 ꎬi2 ꎬꎬ
i n } ꎮ 假设 R m × n 表示 m × n用户对图书文献的评价
矩阵ꎬr ij 表示第 i 个用户在第 j 个文献的访问记录ꎬ
表征用 户 浏 览 该 文 献 时 的 兴 趣 评 价ꎮ 利 用 矩 阵
容ꎮ 图书信息表包含图书名称、路径、出版社和已
书馆文献浏览记录进行分析ꎬ完成图书馆文献数据
经被借阅的次数等ꎮ 管理员信息表包含图书馆管
的分类ꎮ 其具体实现过程如图 2 所示
[7]
ꎮ
理员基本情况ꎬ留言表包含读者对书籍的评价ꎬ主
要是书籍和读者编号以及评价内容ꎮ
1. 3 协同过滤算法
图书馆数据挖掘系统最关键的环节是图书文
于协同过滤的图书馆文献数据挖掘系统ꎮ 采用 UML 建模语言构建支撑系统运行的数据库ꎬ通过
协同过滤算法ꎬ依据用户浏览记录匹配对应的图书文献ꎬ完成图书馆文献数据精准挖掘ꎮ 实验结
果表明ꎬ当同时在线人数达到 400 时ꎬ该系统能够在 2 s 内完成响应ꎬ推荐准确率高达 90% ꎬ具有
较高的实用性ꎮ
关键词:协同过滤ꎻ图书馆ꎻ文献ꎻ数据挖掘
中图分类号:TP391 文献标识码:A 文章编号:2095 - 509X(2019)10 - 0119 - 04
随着网络的迅猛发展ꎬ网络个性化服务逐渐完
善ꎮ 越来越多的人通过电子图书馆获得知识ꎬ考虑
1 基于协同过滤的图书馆文献数据挖掘系
统
到用户对图书馆文献的需求各不相同ꎬ为了使用户
献过滤挖掘过程ꎮ 本文利用协同过滤算法实现图
书馆文献数据挖掘ꎮ 协同过滤基本理念为:依据用
户兴趣相似程度推荐文献ꎬ将与当前用户相似的其
他用户常浏览的文献推荐给当前用户ꎬ根据当前用
户对图书馆文献的评价以及其他相似用户对文献
图 2 文献数据分析模块
的评价ꎬ挖掘获得当前用户未浏览过的文献ꎬ同时
3) 文献数据分类模块ꎮ 该模块具体挖掘过程
DOI:10. 3969 / j. issn. 2095 - 509X. 2019. 10. 026
基于协同过滤的图书馆文献数据挖掘系统设计
哈金花
( 青海省西宁市大通回族土族自治县图书馆ꎬ青海 西宁 810100)
摘要:针对当前图书馆文献数据挖掘系统存在响应时间长、推荐准确率低等问题ꎬ设计了一种基
如图 3 所示ꎮ 由图可知ꎬ当文献浏览频率超过 0. 3
时ꎬ图书文献信息才会被系统记录ꎬ浏览频率低于
0. 3 的图书文献信息会被系统过滤掉ꎬ以减少对非
关键数据的分析ꎬ提高了对图书馆文献数据的挖掘
效率ꎮ
进行推荐ꎮ
一般情况下ꎬ协同过滤算法可描述成以下形
式:参与协同过滤的用户共有 m 个ꎬ 表示为 U =
1. 1 图书馆文献数据挖掘系统功能模块
获得更加优质的体验ꎬ一种通过浏览记录获得用户
图书馆文献数据挖掘系统功能模块主要由图
喜好的图书馆挖掘技术正在兴起 [1] ꎮ 相关专家对
书馆文献采集模块、文献数据分析模块、文献数据
此技术进行了大量的研究ꎮ 乔岚 [2] 着重从总体架
分类模块、图书馆文献存储模块组成ꎮ 详细设计如
119
2019 年第 48 卷 机械设计与制造工程
2) 文献数据分析模块ꎮ 该模块通过图书馆文
数据表包含读者的基本情况信息和读者类别等内
献采集模块获得原始数据ꎬ采用协同过滤算法对图
R m × n 生成用户资源的近邻集合 Mꎮ
针对当前用户 u k ꎬ 图书馆文献数据挖掘系统
根据其历史访问记录和兴趣爱好评价ꎬ获取与该用
户访问行为最为相似的多个用户作为 u k 最近邻集
合ꎬ统计 u k 最近邻用户访问过但用户 u k 没有访问
过的文献ꎬ利用这些文献构建候选推荐集合ꎬ再计
算候选推荐集合中各文献对 u k 的推荐度ꎬ选取前 N
构和逻辑架构两个方面进行了一套个性化的电子
下:
商务推荐系统的设计ꎬ并通过用户行为提取和分析
1) 图书馆文献采集模块ꎮ 该模块能够对用户
模块、相关推荐模块、过滤和排名模块以及推荐解
的个人浏览记录进行采集ꎬ获得不同用户的图书文
释模块来实现系统功能ꎮ 因为该系统是对用户喜
献喜好ꎬ完成图书馆文献数据挖掘系统的数据采集
的硬件设计过程ꎬ通过引入数据挖掘方法实现对软
件部分的设计ꎬ但系统对未登录的用户则没有推荐
功能ꎬ因此具有一定的局限性ꎮ
针对上述系统存在的问题ꎬ本文设计了基于协
同过滤的图书馆文献数据挖掘系统ꎮ
图 1 图书馆文献采集模块流程图
收稿日期:2018 - 12 - 14
作者简介:哈金花(1974—) ꎬ女ꎬ中级馆员ꎬ主要研究方向为信息资源自动化ꎬhajinhua77468@ 163. com.
息以及读者信息等 [6] ꎮ 具体流程如图 1 所示ꎮ
过程中ꎬ设计并实现了基于云计算的数据挖掘系
统ꎬ该系统能对用户的个人兴趣准确做出判断ꎬ所
以在响应速度方面具有较大优势ꎬ但该系统需要一
定的时间进行分析才能使用ꎬ可操作性较差ꎮ 阎星
宇 [4] 提出并设计了基于数据挖掘的图书馆读者借
阅系统ꎮ 在分析其整体结构的基础上ꎬ给出了详细
好文献进行实时采集并处理后响应的ꎬ所以存在响
应速度过慢的问题ꎮ 王晓妮等 [3] 通过采用 Map /
Reduce 这种能够处理大量半结构化数据集合的并
行编程模型方法ꎬ将云计算技术融入海量数据挖掘
过程 [5] ꎬ会定期为文献分析模块提供数据来源ꎬ并
定期从图书馆的数据集成管理平台和联机公共资
源体系中获得具有一定流通性的数据ꎬ包括图书信