图书馆数据挖掘技术研究的现状与发展

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Advances in Social Sciences 社会科学前沿, 2017, 6(11), 1394-1399

Published Online November 2017 in Hans. /journal/ass

https:///10.12677/ass.2017.611196

Status Quo and Development

of Technology of Library Data Mining

Zhengya Ma

Xi’an Technological University Library, Xi’an Shaanxi

Received: Oct. 27th, 2017; accepted: Nov. 10th, 2017; published: Nov. 17th, 2017

Abstract

This paper retrieves the papers on library data mining published from 2010 to 2016,based on the academic literature in the field of academy culture database research from CNKI. Some aspects of them are analyzed such as the reader service, personalized document acquisition and digital re-sources, information service. This paper points out the problems existing in the research of li-brary data mining.

Keywords

Data Mining, Library, Overview

图书馆数据挖掘技术研究的现状与发展

马征亚

西安工业大学图书馆，陕西西安

收稿日期：2017年10月27日；录用日期：2017年11月10日；发布日期：2017年11月17日

摘要

以中国知网的“中国学术期刊网络出版总库”为数据源，检索2010年~2016年国内图书馆数据挖掘研究论文，对其从读者个性化服务、文献采访、数字资源建设、信息服务等方面进行主题评述，指出现阶段图书馆数据挖掘研究存在的问题。

关键词

数据挖掘，图书馆，综述

This work is licensed under the Creative Commons Attribution International License (CC BY).

/licenses/by/4.0/

1. 前言

随着计算机技术、通信技术和多媒体技术的迅速发展与综合利用，人类已经进入信息时代。如今各行各业都建立了信息化系统，每天都会产生大量的数据。这些数据通常数量很多，并且以其原始形式显示时并没有什么直接用处。数据挖掘就是通过数据库、机器学习、人工智能、统计学等领域的技术，从这些原始数据中提取出那些隐含的、未知的和有价值的潜在的信息的过程[1]。图书馆的各种信息资源(如图书借还日志、WEB访问记录、书目检索记录等)包含着大量潜在、有价值的信息，这些信息往往能反映出读者实际的信息需求。通过数据挖掘技术所挖掘出有意义的隐藏信息，不仅有益图书馆了解读者信息需求，而且对于图书馆的各项业务如开展个性化服务、文献采访工作、数字图书馆建设、参考咨询工作等都具有重要的参考价值。近几年来由于数据挖掘在图书馆行业得到不断广泛的应用，吸引了更多的图书馆研究人员关注这个领域的发展，研究成果颇多。笔者统计了近六年我国有关图书馆数据挖掘领域的论文，对其进行整理和归纳，分析数据挖掘在国内图书馆领域研究的现状，并指出研究的不足之处，为进一步的研究指明了方向。

2. 数据挖掘技术在图书馆应用的研究现状分析

2.1. 文献计量分析

通过对中国知网“中国学术期刊网络出版总库”收录的2010~2016年间有关国内数据挖掘技术在图书馆应用研究方面的论文进行定量、归纳分析，以展示其研究现状。采用检索表达式“主题= (图书馆)并且主题= (数据挖掘)并且时间= (2010~2016)”进行检索，得到有效记录856条(以上检索时间为2016年11月24日)。

从发表论文的年代分布看，国内数据挖掘技术在图书馆的应用研究所发表的论文数量先逐年递增，在2014年达到最高值后又逐年递减。发表论文的数量说明学者在这一领域的研究热情很高，数据挖掘技术在图书馆的应用具有广阔前景；2014年以后逐年递减说明学者在这一领域的研究可能遇到了瓶颈。

从发表论文的来源期刊看(表1)，856篇公开发表的期刊论文均分布在省级以上刊物中。其中发表在核心期刊上的论文为176篇，占总发表量的20.6%，被中国社会科学引文索引(CSSCI)收录的论文87篇，占论文总数的10.2%。这表明其研究成果主要集中在普通刊物，学术成果价值较高的论文不多。

2.2. 研究方向和算法

图书馆应用数据挖掘研究主要集中在三个研究方向：关联分析、聚类分析和决策树，其中应用关联分析数据挖掘的文献量占总量的60%，聚类分析的文献量占30%，决策树应用比率较低，只占10%。也有些文献进行数据挖掘时综合应用两种手段，如《基于Weka读者借阅行为分析》应用了聚类和关联规则两种技术[2]，《基于数据挖掘的高校图书馆个性化信息推荐方法研究》先从读者借阅图书类别入手对读者进行聚类分析，把高校图书馆中的读者细分为不同的群体，然后再进行有针对性的关联挖掘[3]。《基于数据挖掘的图书馆书目推荐服务的研究》采用决策树和聚类分析[4]。大部分关联分析采用最常用的Apriori算法，也有用CARMA算法或者基于邻接矩阵的算法；聚类分析大部分采用K-Means算法，也有用两步聚类模型及使用基于目标函数的模糊聚类算法。决策树采用C4.5算法。有的研究探讨了一些算法