数据挖掘在数字图书馆中的应用研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘在数字图书馆中的应用研究

潘旭武 陈玲洪

(浙江工业大学图书馆 杭州 310014)

摘 要 数据挖掘技术在信息的利用和提取中发挥着日益重要的作用。本文在描述数据挖掘技术的基础上,探讨了数据挖掘在数字化图书馆中应用的三个方面,说明数据挖掘技术在数字图书馆应用的必要性,并提出一个基于数据挖掘技术的数字图书馆的挖掘系统模型。

关键词 数据挖掘 数字图书馆 结构挖掘 内容挖掘 用户使用记录挖掘

1 引言

在现代科学技术推动下,高校图书馆正朝着自动化、数字化和信息化的方向发展。同时,其职能也相应地实现了转型:除了传统的服务和教育职能外,为高校的决策、管理及建设发展提供信息咨询与服务正逐步成为日益开放和社会化的高校图书馆的重要职能。

数据挖掘,这种全新的技术,是为解决当前“信息丰富而知识贫乏”这一问题而出现的。目前,它已经在银行业、零售业、工程技术和医学等领域得到成功应用和空前发展,在这些领域的成功应用鼓舞着人们将数据挖掘技术应用到更多、更广泛的领域中去。数字图书馆是综合运用多方面高新技术的数字信息资源管理系统,从它产生起就得到广泛的关注和蓬勃的发展,目前,网络上数字图书馆越来越多,数字图书馆的数据挖掘和知识发现研究具有较大的实用价值。数据挖掘技术在图书馆中的应用将为图书馆在数字资源的组织和管理、服务质量的提升和服务方式的拓展等方面提供了技术支持,并显示出强大的生命力。

2 数据挖掘概述

数据挖掘(Data Mining,简称DM)是近10年来计算机科学研究的一个热点。它是指从大量数据中提取或挖掘隐含的信息或知识。数据挖掘可以在任何类型的信息载体或存储上进行。比如数据仓库、关系数据库、事务数据库、面向对象数据库、对象—关系数据库、空间数据库、时间数据库、文本数据库、多媒体数据库、Web数据库等等。这种从大型的数据库或数据仓库中提出隐藏的预测性信息的新技术,能挖掘出数据间潜在的模式,自动预测知识和行为、自动发现以前未知的模式。数据挖掘提取的知识可以表示为概念(C on2 cepts)、规律(Rule)、模式(Pattern)、约束(C on2 straints)、可视化(Visualization)等等。数据挖掘过程可分为3个阶段:数据准备、采掘操作、结果表达和解释。整个采掘过程是个反复精练的过程,离不开用户的参与。数据挖掘使挖掘大型数据库中的大量数据变得更加容易,挖掘人员并不需要经过多年的统计分析或数据分析方面的训练。数据挖掘和知识发现存在着一定的联系和差别。一般认为,数据挖掘是知识发现过程中的一个特定步骤,它用专门算法从数据库中抽取模式,然后通过系统解释和评价模块将模式转换成用户可以理解的知识。不过,广义的数据挖掘通

63

常被认为是数据准备、模式抽取、知识表示等一系列步骤组成的知识发现全过程。数据挖掘和信息检索存在着一定的差别,主要表现为:信息检索是目标驱动的,用户需要明确提出查询要求,而数据挖掘是随机的,其结果是用户所无法预知的;信息检索的目的在于帮助用户从大量文档中找到满足其查询请求的文档,而数据挖掘是为了揭示文档中隐含的知识。但二者是相辅相成的。我们可以利用数据挖掘的研究成果来提高信息检索的精度和效率,改善检索结果的表达,使信息检索系统发展到一个新的水平。联机分析处理技术虽然也属于分析工具,但二者有着明显的区别。联机分析处理技术是一种非自动过程,用户提出问题,联机分析处理负责提取出关于此问题的详细信息。数据挖掘的过程通常是自动的,用户不必提出确切的问题,从而更有利于发现隐藏的知识。

3 数据挖掘在数字图书馆中的应用

数字图书馆是多方面高新技术支持的数字信息资源系统。它将分散于不同载体、不同地域的数字化信息资源以网络化方式互相联结,提供利用,实现资源共享。数字图书馆是计算机可处理的、有序组织的知识集合。它使用数字技术进行信息资源的组织和管

理,能够存储海量信息,用户可以通过网络高效方便地查询、检索信息以获得信息服务,并且其信息存储和用户访问不受时间和地域限制。它不是简单的互联网上的图书馆主页,而是一整套面向对象的、分布式的、与平台无关的数字化资源的集合。数字图书馆可以突破文献单元的局限,以知识单元作为基准进行信息挖掘和知识发现,从而发现有规律的认识。随着网络上数字图书馆越来越多,数字图书馆的数据挖掘和知识发现研究具有较大的应用价值。按照处理对象的不同,可以将数字图书馆数据挖掘分为三大类:结构挖掘、内容挖掘和用户使用记录挖掘。结构挖掘指的是从Web 文档的结构信息中推导知识,结构挖掘不仅仅局限于文档之间的超链接结构,还包括文档内部的结构、文档UR L 中的目录路径结构等;内容挖掘指的是从Web 文档的内容信息中抽取知识,内容挖掘

又分为对文本文档(包括text 、html 、pdf 等格式)、多媒体文档(包括图像、声音、视频等媒体类型)和分布式数据的挖掘。用户使用记录挖掘主要是对服务器日志、C ookie 、用户注册数据、电子邮件查询响应数据和Web 购买数据的挖掘。数字图书馆数据挖掘的主要内容如图所示

:

7

3

3.1 对数字图书馆的结构进行挖掘

基于数字图书馆的结构的挖掘主要是从网页的组织结构和链接关系中发现知识。目的是发现数字图书馆页面的结构和结构模式,在此基础上对页面进行分类和聚类,或对相关网页进行分析,从而可以评价网页的质量,优化检索方式,指导网站建设,也可以通过链接分析和掌握学科发展状况。如美国伯克利加州大学信息管理与系统学院的雷・拉森(Ray Lars on)教授曾利用Alta Vista搜索引擎收集到有关地球科学文献的情况数据,用同引频率矩阵分析了地球科学、地理信息系统、卫星遥感等学科相互关系以及发展趋势。

3.2 对数字图书馆的内容进行挖掘

基于数字图书馆的内容的挖掘是通过对数字图书馆信息的模式识别和分析理解,从中发现有意义的知识。内容挖掘包括:①对文献数据进行组织。利用机器学习技术对文档数据进行学习,形成层次分类结构,不用预先定义好主题类别,而是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大,不同簇间的相似度尽可能地小,利用文本聚类技术将搜索引擎的检索结果划分为若干个簇,用户只需要考虑那些相关的簇,大大缩小了所需要浏览的结果数量。②特征的自动提取和描述。由于数字图书馆中的数字化信息量是庞大的,同时又要为网络用户提供检索服务,因而数字图书馆都必须采用较先进的技术手段对数据进行合理有效的描述。进行数据描述,就是按照一定的语言将创建的数字化信息描述出来。特征选择是用来识别存储对象单个特征的过程,对已选择特征的对象可对其进行有效检索。因此特征选择有利于索引和高效检索。特征的自动化选取通过一个内容分析器决定对内容理解的级别来执行相应的分析,从中抽取信息的有关内容特征并加以标示和组织,用户以此作为检索的依据,完成信息数据库中存储信息的匹配,从而实现信息的直接定位和查找。

③文本总结或摘要。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本总结在搜索引擎向用户返回查询结果时,通常需要给出文档的摘要。④文档自动分类。文档分类是指根据文档的内容或属性,将大量的文档归到一个或多个类别的过程。其关键是构造一个分类模型,并利用此分类模型将未知文档映射到给定的类别空间。分类器的构造一般采用机器学习方法、神经网络方法等。⑤自动采集和整理专题信息。从数字图书馆大量的原始数据中,挖掘出能反映其中规律的知识提供给用户。根据某一领域的信息需求,自动捕捉、采集和整理领域所需信息,然后根据信息源提供的信息筛选信息源,确定信息源后,再根据模型算法,计算确定搜索路径,并自动优先最佳搜索路径,按逻辑式自动组织搜索关键词,可同时对应多个特定领域内的信息捕捉。其主要功能是过滤无用冗余信息、智能概念抽取、生成信息概要等。

3.3 数字图书馆的用户挖掘

从数字图书馆的大量访问信息中挖掘用户的访问模式,也可从用户访问文档的超链接来预测用户的访问兴趣,采用关联性法则和聚类方法发现不同的用户群体,然后对这些不同的群体提供信息定制服务,帮助群体成员搜索、处理知识。支持多用户的Web开发,以使成员定制自己的Web站点。数字图书馆中的互动性研究强调建立一个统一信息提供平台,让不同用户群体实现信息共享。通过对用户访问信息、使用信息的挖掘,在数字对象和用户、对象分类和主题之间进行模

83

相关文档
最新文档