浅析数据挖掘在数字图书馆信息服务中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第8卷 第2期2009年6月
高校图书情报论坛
A cademic Librar y and Information Ser vice
V ol.8 No.2
June.2009
浅析数据挖掘在数字图书馆信息服务中的应用
梁 田
(华中科技大学图书馆 湖北武汉 430074)
摘 要:介绍了数据挖掘的概念及其形式,阐述了数据挖掘在数字图书馆信息服务中的作用及功能,并指出数据挖掘在数字图书馆应用中需要注意的问题。
关键词:数字图书馆;数据挖掘;信息服务
中图分类号:T P274
Application of Data Mining in Information Services of Digital Library
LIAN G Tian
(H uaz hong Univ er sity of Science and T echnology,H ubei W uhan430074)
Abstract:Introduces the co ncepts and form s o f data m ining,discusses the roles and func tions of data m ining in inform ation serv ices o f digital libraries,and points out so me questions w hich should be taken no tice.
Key words:digital library;data mining;information serv ices
自从数字化的生存方式逐渐为人们所了解和接受以来,数字图书馆的研究也开始吸引越来越多人的关注。当前对数字图书馆的定义很多,概括来讲,数字图书馆就是基于计算机网络、信息提取、(图书)分类、法律、管理等技术,集数字信息收集、整理、保存、保护、使用于一体化的综合智能数字信息资源管理和服务系统,其中涉及了大量的人工智能、互联网、数据库、人机界面、图书情报学等技术。
数字图书馆的信息服务是基于信息用户的信息使用行为、习惯、偏好、特点及用户特定的需求,向用户提供满足其个性化需求的信息内容和系统功能的一种服务。它首先应该是一种能够满足数字图书馆用户个体信息需求的一种服务;其次应该是一种培养个性、引导需求的服务,以促进社会的多样性和多元化发展。当前国内外数字图书馆的信息服务系统的研究已逐步深入,信息服务的应用也迅速发展。数据挖掘在图书馆中的应用将为数字资源的组织和管理,服务质量的提升和服务方式的拓展等方面提供技术支持,并显示强大生命力。1 数据挖掘形式
数据挖掘又称数据库中的知识发现,是目前信息技术领域中的一个热门课题。所谓数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律等看作知识,把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理、查询优化、决策支持和过程控制等,也可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
由于数据的表现形式多种多样,人们可根据其主要研究对象的数据结构形式,将数据挖掘分为数据挖掘、Web数据挖掘和文本数据挖掘。1.1 数据挖掘
这种数据挖掘所针对的是结构化的数据,如常见的SQL,Server,Qracle,Informix等数据库或数据仓库。目前这方面可以使用下列软件: IBM的DB2Intelligent Miner for Data SA S En terprise M iner等。
1.2 Web挖掘
数据挖掘的对象是传统的数据库或数据仓库,而Web数据挖掘是指针对包括Web页面内容、页面之间的结构、用户访问信息、商务交易信息等在内的各种Web数据,应用数据挖掘方法及技术以发现有用的知识来帮助人们从万维网中提取知识,改进站点设计,更好地开展电子商务或改进服务。Web数据挖掘分为Web内容挖掘、Web访问信息挖掘、Web结构挖掘。
1.3 文本数据挖掘
文本信息的数据挖掘,通常称文本数据挖掘。当数据挖掘的对象完全由文本类型组成时,结合使用数据挖掘算法与信息检索算法对巨量文本信息进行自动化信息处理与分析的过程叫文本数据挖掘。它包括特征提取、文本摘要、文本分类与聚类、概念操作以及探索性数据分析等工作。文本数据挖掘所应用的技术包含用于表示文档的词频反文献频率向量表示法、词串表示法,用于文本分类的贝叶斯分类算法、词集合算法,基于概念的文本聚类算法以及K-最近邻参照分类算法等。
数据挖掘技术及其应用是目前国际上的一个研究热点,并在许多行业中得到了很好的应用,体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。
数字图书馆的数据挖掘是从数字图书馆大型数据库和浩瀚的网络信息空间中发现并提取隐藏在其中的信息,目的是帮助信息工作人员寻找数据间潜在的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为也许是十分有用的。
2 数据挖掘的功能特性
数据挖掘通过预测未来趋势及行为,做出基于知识的决策,数据挖掘的目标是从数据库中发现隐含的、有意义的知识。概括起来,它主要有以下五大功能:
1)自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,它根据时间序列型数据,从历史的和当前的数据中去推测未来的数据。
2)关联分析 它反映一个事件和其他事件之间依赖或关联的知识,如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。
3)聚类 聚类是把一组个体按照相似性归成若干类别,目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别的个体间的距离尽可能的大,它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。通过聚类,数据库中的记录可被划分为一系列有意义的子集。
4)概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征,概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别,生成一个类的特征性描述,只涉及该类对象中所有对象的共性。
5)偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义,偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差,量值随时间的变化等。
3 数据挖掘在数字图书馆信息服务中的作用
3.1 提高信息获取速度
为保证用户在尽可能短的响应时间内获取所需信息,首先可以收集用户每次阅读的专题集合(浏览模式)作为一个事务,记录所有用户每一次浏览过程构成事务库,再对事务库进行如下操作:第一,利用关联规则采掘算法找到访问频率超过给定阈值的专题(项目)集,进而用分类算法把客户的浏览模式与频繁项目集进行相似匹配,将具有相似浏览模式的客户组织到一个服务器上,从而减少服务器缓存和传输页面的数量;第二,找到
32
梁 田,等:浅析数据挖掘在数字图书馆信息服务中的应用2009年6月