浅析馆藏文献资源的文本挖掘及技术步骤

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅析馆藏文献资源的文本挖掘及技术步骤

摘要:数字人文学科的迅猛发展,有力地冲击着图书馆的传统服务工作,迫使图书馆急需针对馆藏文献资源进行深度挖掘。文章概述了馆藏文献和文本挖掘的基本含义,指明了开展馆藏文献资源文本挖掘的意义,对文本挖掘技术及步骤进行了简要地分析,进一步应用开源文本挖掘工具,使馆藏文献资源真正得到深度挖掘。

关键词:馆藏文献;文献资源;文本挖掘

近年来,现代信息技术与人文研究融合而形成的新兴的数字人文学科的迅猛发展,有力地冲击着图书馆的传统服务工作,使常规的阅读和分析已经无法应对内容稀薄而数量庞大的馆藏文献,迫使图书馆急需针对海量的馆藏文献资源进行深度的挖掘。由于数字人文研究的一个重要趋势,就是对海量文献的深度挖掘和深度处理;又由于在现阶段印刷型文献在整个馆藏文献资源中普遍占有80%的比重,因此,对印刷型文献的深度文本挖掘,显得更为十分的重要。本文就馆藏文献资源的文本挖掘即技术步骤进行简要地浅析。

1馆藏文献及文本挖掘概述

1.1馆藏文献概述

馆藏文献是指图书馆收集、整理保存并为读者利用的各类文献资源的总和,是一个集合的概念,主要包括印刷型文献、数字文献及其它类型文献(光盘、磁带、缩微胶卷等),并有其形成发展的过程。在现阶段,印刷型文献占主导地位,在整个馆藏文献资源中普遍占有80%的比重,而数字文献的比重逐年上升。如今,现代图书馆集文献信息组织、传递、利用为一体,重视文献使用价值,要求我们以信息资源开发利用的程度及满足社会信息需求的能力作为深度挖掘馆藏文献资源的基本标准。

1.2文本挖掘概述

20世纪80年代中期,最早出现劳工密集型的人工纯文字挖掘方法。后来,随着现代信息技术与人文研究融合,数字人文学科的迅猛发展,已经使这一领域迅速取得进展。随着网络时代的到来,用户可获得的信息包含了从技术资料、商业信息到新闻报道、娱乐资讯等多种类别和形式的文档,构成了一个异常庞大的具有异构性、开放性特点的分布式数据库,而这个数据库中存放的是非结构化的文本数据。结合人工智能研究领域中的自然语言理解和计算机语言学,从数据挖掘中派生了两类新兴的数据挖掘研究领域:网络挖掘(Network Mining)和文本挖掘(Text Mining)。传统的信息检索技术对于海量数据的处理并不尽如人意,

文本挖掘便日益重要起来,文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。文本挖掘是近几年来数据挖掘领域的一个新兴分支,目前关于文本挖掘并没有一个统一的定义,有人认为,文本挖掘是指为了发现知识,从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程。也有人认为,文本挖掘也称为文本数据库中的知识发现,总从大量文本的集合或讲料库中抽取事先未知的、可理解的、有潜在价值的模式和知识。还有人认为,文本挖掘,是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程。又还有人认为,文本挖掘是以计算语言学、统计数理分析为理论基础,结合机器学习和信息检索技术,从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。它是一个从文本信息描述到选取提取模式,最终形成用户可理解的信息知识的过程。文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生。文本挖掘通常涉及输入文本的处理过程(如通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中),产生结构化数据,并最终评价和解释输出。文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源,抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。也就是说,文本挖掘是一个分析文本数据,抽取文本信息,进而发现文本知识的过程。文本挖掘通常具有某种组合的相关性,新颖性和趣味性。1998年底,国家重点研究发展规划首批实施项目中明确指出,文本挖掘是“图像、语言、自然语言理解与知识挖掘”中的重要内容。

2 馆藏文献资源文本挖掘的意义

近年来,人们在数字人文研究中,越来越多的论文探讨文本挖掘技术的应用,并产生了一大批重要的实践项目,研究热点包括作者归属与风格分析、作品情感分析、人物关系挖掘、模式发现与可视化、人文学科领域本体构建等。从一大批重要的实践项目和这些研究热点表明,在数字人文中对馆藏文献资源进行文本挖掘,有着十分重要的意义。一是有利于改变读者无法阅读、无法浏览或无法知晓一个学科或主题的全部文献,从而提高图书馆馆藏文献资源的利用率,提高图书馆读者服务工作的质量;二是有利于图书馆改变常规的阅读和分析,以应对内容稀薄而数量庞大的馆藏文献资源,从而拓宽图书馆对馆藏文献资源进行深度挖掘和深度处理的视野,开发馆藏文献资源文本挖掘的服务平台;三是有利于提升图书馆馆藏文献资源的资料价值和商业潜在价值;四是有利于图书馆在数字人文背景下所进行的人文学科研究,呈现出研究对象数字化,研究方法智能化,研究范式多样化,研究团队多学科化,从而促进图书馆事业的发展;五是有利于与国际数字人文研究的大好形势接轨。

3 馆藏文献资源的文本挖掘技术

图书馆开展数字人文研究,其目的就是对馆藏文献资源进行深度的文本挖掘。要进行深度的文本挖掘,在确定文本挖掘的工具和平台之后,面临的文本挖

掘技术,则是最难的一项工程,它涉及到信息检索、数据挖掘、机器学习、统计学、自然语言处理、可视化技术、数据库技术等多个学科领域的知识和技术。它有很大的技术难度,必须加大力度攻克它。因此,我们要十分重视文本挖掘技术。

近年来,由于现代信息的猛烈剧增以及大量数字图书馆项目产生的海量数字资源,文本挖掘技术在人文和社科研究领域的应用得到了人们越来越多的关注。目前,这一技术在多个领域取得了广泛的应用。例如,在自然科学研究领域,尤其是生物学、医学等,这一技术在基因、蛋白质及其相互关系的研究中发挥了巨大的作用。在商业领域中,这一技术被广泛应用于客户关系挖掘、用户使用偏好挖掘、竞争情报分析。由此说明,文本挖掘技术在人文和社科研究领域中起到了很大的作用。

从近年来国内外对文本挖掘技术的研究所取得的一大批重要的实践项目表明,文本挖掘技术包括一系列广泛的文本处理与数据挖掘技术,其完整过程包括预处理、模式挖掘、模式评价等多个步骤。最常见的文本挖掘技术包括文本结构分析、文本摘要、文本分类、文本聚类、关联规则、分布分析与趋势预测、可视化技术等。此外还有概念∕实体挖掘、生产精确分类、观点分析、文档摘要和实体关系模型等。在此必须明白,文本的特征表示是文本挖掘的基础,而文本分类和聚类是文本挖掘的最重要、最基本的挖掘功能,也是文本挖掘中应用的比较广泛的一个领域。这些技术的综合运用,可使图书馆从海量的文本数据中发现相关的、新颖的、有趣的知识提供了重要的技术手段。

4 文本挖掘技术步骤分析

4.1文本预处理

文本挖掘是从数据挖掘发展而来,但并非意味着简单地将数据挖掘技术运用到大量文本的集合上就可以实现文本挖掘,还需要做很多准备工作。这些工作就是文本预处理。文本预处理是文本挖掘技术过程中至关重要的一步,它是从文本中提取关键词来表示文本的处理过程。它直接影响到文本分类、文本聚类、关联规则、回归等后期工作的效果,它的主要任务是进行中文分词和去停用词。文本预处理这一步骤包括噪音消除、文本分词、拼写检查、词性标注、去停用词、命名实体识别、词频分析、情感分析、社会网络和语义网络分析、相似性分析、支持自定义词库、语言辨别、特征表示、特征提取、奇异值分解(SVD)等。其中文本分词、去停用词、词频分析、特征提取是较为常规的操作,也是文本预处理最核心的内容。在了解这些步骤之后,就要选用好的文本预处理功能的工具。有人认为,在选用文本预处理工具上,Rost CM和LingPipe的文本预处理功能都比较完善,但是前者的中文支持更好。Weka不支持中文的分词和消噪,需要自己修改程序实现。目前文本特征表示模型有向量空间模型、布尔模型、概率检索模型、语言模型等,其中向量空间模型处于主流地位。Weka的过滤器能将ARFF 格式转换为向量空间模型。LIBSVM的前期处理功能相对较弱,只针对数据进行特征表示和特征提取以实现降维。

4.2文本分类

相关文档
最新文档