数据挖掘技术在数字图书馆中的应用研究热

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘技术在数字图书馆中的应用研究热

[ 作者:王路漫 | 转贴自:本站原创 | 点击数:335 | 更新时间:2009-8-18 | 文章录入:imste 2009年第 4 期 ]

(北京大学医学部,北京 100191)

摘要:文章介绍了数据挖掘的主要技术,即关联规则和聚类算法,并针对北京林业大学数字图书馆数据的具体特点,将这两种关键技术运用到图书馆借阅信息挖掘过程中,通过分析挖掘结果,寻找借阅书刊一些潜在的规律,优化图书馆的馆藏布局,提高个性化服务质量。

关键词:数据挖掘;关联规则;聚类算法;数字图书馆

中图分类号:TP274 文献标识码:A 文章编号:[HT K]1007—6921(2009)04—0158—03

随着高校图书馆数据库中数据量的迅速增加,如何使高校图书馆朝着自动化、数字化和信息化的方向发展,已成为目前迫切需要解决的问题。如果将数据挖掘技术很好的运用到图书馆数据库中,将会使其职能相应地实现转型,即除了传统的服务和教育职能外,还可以为高校的决策、管理及建设发展提供信息咨询与服务。这样可以使高校图书馆逐步成为开放的社会化数字图书馆,为师生的学习及科研创造更好的环境和氛围。

1 数据挖掘及其关键技术

1.1 数据挖掘的定义

数据挖掘(Data Mining,简称DM),就是从大量的、不完全的、有噪声的、模糊的、随机的数据库中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程 [1] 。它主要研究发现知识的各种方法和技术,并利用各种分析工具在海量数据中分析发现模型和数据间的潜在关系。

1.2 数据挖掘中的主要技术

1.2.1 关联规则。关联规则是数据挖掘的主要技术之一。所谓关联规则,就是寻找数据库中数据项(属性、变量)之间存在(潜在)的关联规则。利用关联规则的数据挖掘技术,可以找出大量数据之间未知的依赖关系。例如:通过对读者借阅行为进行关联规则分析,可以分析出不同图书类别中的潜在关系。虽然数据挖掘中频繁项集挖掘算法对于一些非稠密数据库能够取得较好的性能,但对于稠密数据库或者支持度阈值比较小时,频繁项集的数量会以指数形式增长,使得找出所有的频繁项集成为不可能的任务。但实际上,在频繁项集中,存在着较多的冗余,最大频繁项集的规模是所有频繁项集中最小的,并且可以导出频繁项集。因此我们可以使用最大频繁项集数据挖掘,提高关联规则挖掘效率。

1.2.2 聚类分析。聚类是一种常见的数据分析工具,其目的是把大量数据点的集合分成若干类,使得每个类中的数据之间最大程度地相似,而不同类中的数据最大程度地不同。因此在数据进行聚类这一过程中没有指导,是一种无监督分类。聚类分析是用数学方法研究和处理所给对象的分类以及各类之间的亲疏程度,是在对数据不作任何假设的条件下进行分析的技术 [2] 。

2 数据挖掘技术在图书馆借阅信息中的应用

数据挖掘在商业领域内的应用给图书馆带来了很大启发,图书馆读者的特点是数量巨大、读者的年龄不同、工作性质和专业方向不同、研究领域更是差别很大,这样的读者特点给图书馆提出了不同的个性化要求。如何满足读者的需求,提高读者的满意度,给读者更好的服务,是一个值得研究的问题[3]。

在读者利用图书馆的资源过程中会留下诸如读者基本信息、借阅历史、检索历史等有价值的大量信息,这正是图书馆工作者获取读者信息需求、

读者分类、需求聚类的宝贵数据,获取这些信息就可以据此提供个性化信息服务,即根据读者兴趣文件或兴趣规则主动向读者提供有价值的资源。通过分析数据挖掘的结果,寻找各个学科领域中的一些相互关联的知识、优化图书馆的馆藏布局。图书馆数据库的各个表中包含很多信息,其中读者的借阅信息是主要信息之一,它直接面向读者,反应读者的借阅需求。下面以北京林业大学数字图书馆为例,对读者的借阅信息进行数据挖掘。

2.1 关联规则算法的应用

应用关联规则算法对借阅数据进行挖掘,在图书馆优化书架书库的管理、发现学科间的隐性关联、指导读者的借阅行为和提供个性化服务等方面有积极作用。

2.1.1 提供个性化特色服务。在传统的期刊服务过程中,一般是用户提出信息服务请求,然后由图书馆员做出解答,后来出现了定制式服务,由图书馆员定期向用户提供与其所从事的课题有关的信息资料。显然,这二者都是由客户首先提出服务需求,然后才得到相应的服务。利用数据挖掘,完全可以根据用户借阅、查阅的历史资料以及正在从事的课题研究进行数据挖掘,从而了解用户的所需,确定个性化服务内容,主动将相关资料发送到他们手中[4]。另外,由于有的读者在借阅图书之前,有一些盲目性,不知道自己需要哪类书,什么书适合自己,因此可以根据挖掘出来的关联规则,指导读者借阅书籍,也利于他们今后的学习和研究。

在进行数据挖掘前,首先选取2005年至2007年三年内北京林业大学图书馆所有读者借阅数据,并对数据进行预处理,将一些属性根据实际需要进行离散化,例如:用年级将大学生的年龄离散化为:00级、01级、02级、03级、04级、05级……。在本文挖掘的数据库中,由于借阅信息表中有一个“学号”的属性,学号前两位标识该学生所在的年级,所以用年级将大学生的年龄离散化,可操作性强,并且含义清晰。同理,由于北京林业大学图书馆图书是按照中图法进行分类上架的,我们只需选取读者借阅图书索书号的前3位,就可将图书种类进行离散化。最后我们对数据运用清理、转换、消减等其他方法进行预处理。

对数据进行预处理之后,使用Apriori关联规则挖掘算法,设最小支持度为1%,最小置信度为50%,进行关联规则挖掘,可以得到最大频繁项集。从挖掘结果可以看出,大部分院系的读者借阅与本专业相关的图书比较频繁,例如:信息学院电子信息科学与技术专业借阅计算机技术类图书的支持度为1.5%,同时可以看出,借阅计算机类图书(TP3)比较频繁的读者有:电子信息科学与技术系、自动化系、木材科学与工程系、计算机艺术设计系、工商管理系、电子信息科学与技术系、信息管理与信息系统系、工业设计系、机械设计制造自动化系、林学系。因此可以在新书推荐时,针对这些系的学生推荐计算机类图书。由于北京林业大学的学生的自身特点,对于地下建筑类(TU9)、建筑设计类(TU2)图书,主要是园林学院的学生借阅较多,这也因为此类图书内容和读者专业知识关系比较密切。因此在新书推荐中,可以针对园林学院学生的特点,将地下建筑类及建筑设计类图书推荐给他们,更好地方便这些读者的借阅。

2.1.2 发现学科间隐性关联。此外,针对学科领域的主要研究人员进行关联关系挖掘还能发现最新学科发展动向,我们选取前面已经处理过的数据表,并对该读者借阅信息表进行降维,使它只包含每个读者借阅的所有图书种类。然后使用挖掘速度较快的FP-growth算法,挖掘最大频繁项集,设置最小置信度为80%。从挖掘结果可以看出,在同一个大类学科中有些小类之间有很强的关联关系,例如:频繁二项集F71,F27(国内贸易经济,企业经济)的支持度为17.9%,即同时借阅国内贸易经济与企业经济类的书籍的借阅信息占总借阅信息的17. 9%,因此可以说在F (经济类)图书中,国内贸易经济和企业经济这两类有很强的隐性关联和隐含的学科动向。其他频繁二项集有相同结果。同样,频繁三项集I25,I26,I24(报告文学,散文,小说)的支持度为 1

3.4% ,报告文学,散文,小说三种小类的图书存在隐性关联关系。

同理,在不同大类中的频繁项集也存在隐含的关联,例如:频繁二项集C91,B84(社会学,心理学)的支持度为18.0%,即从挖掘结果看在C(社

相关文档
最新文档