数据挖掘技术在电子期刊及数字图书馆中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘技术在电子期刊及数字图书馆中的应用

发表时间:2010-08-04T16:54:40.607Z 来源:《价值工程》2010年第4月上旬供稿作者:朱京凤[导读] 近年来,随着计算机技术和网络技术的迅猛发展,电子期刊作为一种新的期刊资源,由于其更新速度快朱京凤(江南大学,无锡 214122)摘要:本文介绍了数据挖掘的概念及主要技术,数字图书馆个性化服务的含义,分析了数据挖掘技术在电子期刊及数字图书馆中的应用。

关键词:数据挖掘;电子期刊;数字图书馆个性化服务中图分类号:TP391 文献标识码:A 文章编号:1006-4311(2010)10-0155-02 0 引言

当前,随着网络技术的迅速发展,集信息资源的收集、创建、加工、服务和长期保存等于一体的数字图书馆因信息丰富,可实现真正意义上的资源共享,而且更新速度快等特点越来越受到人们的关注。不过拥有丰富信息的数字图书馆极容易陷入“数据丰富,但信息贫乏”的局面,因此,图书馆有必要增加对信息的处理能力以及对信息资源的组织能力,尤其是对海量信息的深层次开发,提取表面上庞杂无序的信息的内在联系供读者使用。因此,给图书馆提出了不少个性化要求。而利用数据挖掘技术因能为读者开展个性化服务,变被动服务为主动服务,因此在这个信息迅速发展的时代,有着重要的理论和实践意义。

1 数据挖掘的概念及主要方法 1.1 数据挖掘的含义数据挖掘是指从数据及数据库中抽取隐含的、先前未知的并有潜在价值的信息的过程;也有人认为数据万巨额是数据库中的知识发现,是从大数据中集中快速高效地发现令人感兴趣的规则,数据挖掘是数据库知识发现中的重要技术,是数据库研究的新领域,它通过查询内容进行模式的总结和内在规则的搜索,帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。从而为决策行为提供有利的支持。

1.2 数据挖掘的主要方法数据挖掘的工具和方法,常用的有:分类、聚类、关联分析、偏差检测、孤立点分析、模式识别、可视化、决策树、遗传算法、不确定性处理等。下面简要介绍一下我们用比较常用的方法:①分类②聚类③关联分析④偏差检测。

2 期刊服务形式的演变

2.1 传统期刊服务流程传统期刊服务流程如图1所示。在期刊管理周期中,期刊征订有着极为重要的作用。合理的期刊定购能够保证在有限的采购经费下最大限度的满足学校的教学和科研工作的需要。影响期刊征订的因素很多,传统的征订工作是在初步调研的基础上,主要通过读者使用频率的统计和读者使用意见的反馈来决定后续的征订的工作。

2.2 期刊来源的演变近年来,随着计算机技术和网络技术的迅猛发展,电子期刊作为一种新的期刊资源,由于其更新速度快,检索和索取方便,正日益成为图书馆期刊管理的重要方式之一。期刊馆藏按照其存储介质的不同,分为纸质期刊和电子期刊两大类。电子期刊按照其信息类型,主要分为联机型电子期刊、光盘型电子期刊和网络型电子期刊。电子期刊按照其发行文字又可分为中文期刊和外文期刊。中文期刊的适用面较广,征订费用相对较少,着名的中文期刊主要包括中国学术期刊、重庆维普和万方数据库,因此一般院校均已定购。外文数据库由于种类繁多,价格高昂,合理的征订方案往往难以确定。

2.3 使用新技术的必要性目前,除少量综合性大学由于其学科齐全,资金雄厚,能够提供较为完善的电子期刊资源外,很多院校只是少数学科具备较强的科研实力,同时存在部分为适应国民经济和学校发展需要正在重点建设的学科。这就要求图书馆在资金有限的情况下,既要考虑到各学科的平衡发展,又要为本校重点发展的学科提供尽量完善的电子期刊资源。对于部分高等院校而言,由于受资金、场地等因素的影响,纸质期刊的征订数量正呈下降趋势,而电子期刊的征订数量和占用资金则呈上升趋势。传统的期刊征订准备工作是在期刊和数据库订阅之前,采取问卷调查和座谈会的形式,图书管理人员根据学校学科建设和学科发展需要,向领域专家、有关教师和科研人员征求各自学科的权威期刊或引用较高的期刊名称和出版单位等信息。这种方式获取信息只是一种感性程度的不精确信息。电子期刊的征订准备工作主要依赖于数据库使用。数据库试用是在综合了各学科反馈信息和采购成本之后,通过数据库提供商的简单介绍和培训,有数据库供应方给本校教师和学生提供一段时间的试用,以确定该数据库是否适合本校的教学和科研工作。由于试用时间较短,参与试用的人员有限,对数据库的适合程度的评判往往存在着一定的不完全性。电子期刊使用过程的统计分析则显得更为困难。统计分析作为一个有效的分析工具,分析得到的只是一些表面信息,对于整个学校在使用数据库的过程中保存下来的庞大记录则显得无能为力,无法获知数据内在存在的各种关联。

3 据挖掘技术在期刊服务中的应用 3.1 基于数据挖掘的期刊服务模式架构

使用数据挖掘技术服务于期刊服务的流程示意图。在传统电子期刊征订前的用户需求信息搜集和数据库试用的基础上,充分利用用户在使用过程中留下大量浏览、搜索和下载记录。这些存储于服务器中的大量数据对于人而言只是抽象的数据,由于数量庞大,传统的统计方法所获得的各种报表形式的分析数据难以描述其中隐含的知识关联。数据挖掘技术主要任务就是挖掘大量数据中隐含的各种模式类型,从而为数据关联分析、聚类分析、演变分析以及各种数据分类和预测提供显式的知识表示形式,从而通过数据挖掘技术的使用,为更加科学高效的电子期刊征订工作提供一种有效途径。

3.2 基于数据挖掘的期刊服务模式提供的新服务 3.2.1 为期刊征订计划的修改提供直接的分析依据,利用数据挖掘技术,通过分析服务器中用户浏览和下载文献的记录,可以获取不同专业,不同层次人员使用数据库的偏好模式,从而可以为期刊征订工作提供直接的分析依据。

3.2.2 据用户检索和下载的文献记录,利用数据挖掘技术获取不同学科、不同专业人员的检索策略和下载记录,从而可以为后续用户的使用提供具有参考价值的检索策略和研究热点,提高检索效率,提升图书馆的服务质量。

3.2.3 使用数据关联分析和演变分析,获取适合本校教学与科研的相关数据,分析和预测不同期刊的贡献率,从而为更加科学的征订和使用数据库提供帮助。数据挖掘技术作为一门新兴的交叉学科,在商业、金融等领域已有成功应用的范例。数据挖掘技术是一项正在发展的复杂技术,将其用于期刊管理,应该结合具体的使用目标,根据用户的具体要求逐步开发。尽管数据挖掘技术仍然面临着许多有待完善的地方,但是随着技术的不断发展和电子期刊的大量使用,数据挖掘将对提升图书馆期刊管理和服务质量产生积极影响。

4 个性化服务的概念及方式

相关文档
最新文档