文本挖掘技术研究及其在信息检索中的应用

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

作者简介：乔良（1980－），男，河北博野人，硕士，华北科技学院助教，研究方向为数据挖掘。

文本挖掘技术研究及其在信息检索中的应用

乔

良

（华北科技学院，河北三河101601）

摘

要：文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程，已经成为数据挖

掘中一个日益流行而重要的研究领域。给出了文本挖掘的定义和框架，对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析，并归纳了最新的研究进展，指出了文本挖掘在信息检索中的作用。关键词：文本挖掘；数掘挖掘；信息检索中图分类号：TP311．11

文献标识码：A

文章编号：1672-7800（2009）04－0160－02

文本挖掘概述

1．1

文本挖掘的定义

借鉴Choon Yang Quek 对Web 挖掘的定义，我们给出文本

挖掘的定义：

文本挖掘是指从大量文本的集合C 中发现隐含的模式p 。如果将C 看作输入，将p 看作输出，那么文本挖掘的过程就是从输入到输出的一个映射ξ：C →P 。

1．2文本挖掘的一般过程

文本挖掘的主要处理过程是：对大量文档集合的内容进行

预处理、特征提取、结构分析、文本摘要、文本分类、文本聚类、关联分析等。图1给出了文本挖掘的一般处理过程。

第８卷%第４期

２００９年４月

Ｖｏｌ．８Ｎｏ．４Ａｐｒ．２００９

第４期

分析了。常用的文本挖掘分析技术有：文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。

2．2．1文本结构分析

其目的是为了更好地理解文本的主题思想，了解文本所表达的内容以及采用的方式。最终结果是建立文本的逻辑结构，即文本结构树，根节点是文本主题，依次为层次和段落。2．2．2文本摘要

文本摘要是指从文档中抽取关键信息，用简洁的形式对文档内容进行解释和概括。这样，用户不需要浏览全文就可以了解文档或文档集合的总体内容。任何一篇文章总有一些主题句，大部分位于整篇文章的开头或末尾部分，而且往往是在段首或段尾，因此文本摘要自动生成算法主要考察文本的开头、末尾，而且在构造句子的权值函数时，相应地给标题、子标题、段首和段尾的句子较大的权值，按权值大小选择句子组成相应的摘要。

2．2．3文本分类

文本分类的目的是让机器学会一个分类函数或分类模型，该模型能把文本映射到已存在的多个类别中的某一类，使检索或查询的速度更快、准确率更高。训练方法和分类算法是分类系统的核心部分。用于文本分类的分类方法较多，主要有朴素贝叶斯分类（Native Bayes）、向量空间模型、决策树、支持向量机、后向传播分类、遗传算法、基于案例的推理、K－最临近、基于中心点的分类方法、粗糙集、模糊集以及线性最小二乘（L inear Least Square Fit，LLSF）等。有文献指出传统特征提取的方法是基于词形的，并不考察词语的意义，忽略了同一意义下词形的多样性、不确定性以及词义间的关系，尤其是上下位关系。2．2．4文本聚类

文本分类是将文档归入到已经存在的类中，文本聚类的目标和文本分类是一样的，只是实现的方法不同。文本聚类是无教师的机器学习，聚类没有预先定义好的主题类别，它的目标是将文档集合分成若干个簇，要求同一簇内文档内容的相似度尽可能大，而不同簇间的相似度尽可能小。Hearst等人的研究已经证明了“聚类假设”，即与用户查询相关的文档通常会聚类得比较靠近，而远离与用户查询不相关的文档。目前，有多种文本聚类算法，大致可以分为两种类型：以G2HAC等算法为代表的层次凝聚法和以K2means等算法为代表的平面划分法。2．2．5关联分析

关联分析是指从文档集合中找出不同词语之间的关系。Feldman和Hirsh研究了文本数据库中关联规则的挖掘，有人提出了一种从大量文档中发现一对词语出现模式的算法，并用来在Web上寻找作者和书名的出现模式，从而发现了数千本在Amazon网站上找不到的新书籍；还有的以Web上的电影介绍作为测试文档，通过使用OEM模型从这些半结构化的页面中抽取词语项，进而得到一些关于电影名称、导演、演员、编剧的出现模式。

2．2．6分布分析与趋势预测

分布分析与趋势预测是指通过对文档的分析，得到特定数据在某个历史时刻的情况或将来的取值趋势。

2．3可视化技术

数据可视化（Data Visualization）技术指的是运用计算机图形学和图像处理技术，将数据转换为图形或图像在屏幕上显示出来，并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。

3文本挖掘技术在信息检索系统中的应用

基于内容检索由于仅用几个关键词难以充分描述具有丰富内涵的信息，而且关键词的选取也有很大的主观性，文本挖掘技术采用区别于传统检索手段的基于内容检索技术。尽管目前基于内容检索技术很初级，只能利用一些相对简单的特征来进行检索，但随着研究的深人，必将可以从文本信息抽取一些更为详细的、经过特殊加工的特征信息，大大提高检索的全面性和准确性。

3.1信息智能代理

主要为在分布式信息网络环境下的信息的查询服务，信息智能代理使用户可以不知道所要检索信息的具体形式、存储于何处、何种介质中，只需要用户提出查找要求即可。文本挖掘技术会自动把各种信息源中各种形式的相关信息检索出来，供用户使用，使用户可以立即获得较为满意的检索结果。

3．2信息过滤

根据用户需要，通过对多个不同信息集之间的比较，进行信息过滤，产生适量的、合乎用户需求的信息。文本信息文摘用包括题目和具有代表性关键词字，进行抽取、计算和表达，自动选择重要的句子，产生文本信息摘要。

3．3信息表现

信息挖掘技术关心的是信息的方方面面，从多角度表现信息的本质和特征，文本挖掘技术能动态地、实时在线地表现信息的相关属性，使用户及时发现信息、及时更新信息和及时地发现信息的演变方向。

从上面所叙述的内容可以看出，传统的信息检索系统，通常是用户从信息库中查找想要的信息，而应用文本挖掘技术则可以智能地从信息库中检索出符合用户需求的信息。

参考文献：

［1］陈京民．数据仓库与数据挖掘技术［M］．北京：电子工业出版社，2002．

［2］范明，孟小峰．数据挖掘——

—概念与技术［M］．北京：机械工业出版社，2001．

（责任编辑：杜能钢）

乔良：文本挖掘技术研究及其在信息检索中的应用

161··