文本挖掘理论概述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

知识领域有深入的了解［４］。
３）文本挖掘可以对大量文档集合的内容进行总结、分类、聚
类．、关联分析以及利用文档进行趋势预测等。
４）解释与评估：将挖掘得到的知识或者模式进行评价，将符
合一定标准的知识或者模式呈现给用户。
３、Ｗｅｂ文本挖掘的一般处理过程无论是在数据结构还是分析处理方面，Ｗｅｂ文本挖掘和数
并根据该结构发现新的概念和获取相应的关系［２］。
２．１文本挖掘具有两个主要困难点
１．人工进行多样且大量的文件特征选择，缺乏效率且不符
成本。
２．文件数据的内容维度数量过多，即特征的属性不易清楚
含信息和知识的重要方法和途径［１］，而文本挖掘主要着力于从非
结构化或者半结构化的文本中抽取有用的知识。文本挖掘，文本
数据挖掘又称文本知识发现（ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙｉｎＴｅｘｔｓ）涵盖
多种技术，包括信息抽取，信息检索，自然语言处理和数据挖掘
技术。
２、文本挖掘概述
Ｃ中找到与给定的查询请求ｑ相关的、恰当数目的文档子集Ｓ。
的目的是根据用户的查询请求从文档库中找出相关的文档。用
户必须从找到的文档中翻阅自己所要的信息。
２）信息抽取（ＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎ：ＩＥ）是把文本里包含的
信息进行结构化处理，变成表格一样的组织形式。输入信息抽取
文本挖掘是一个崭新的人工智能研究方向，本文根据所阅读的大量现有有关论文对文本挖掘技术作了详细的综述，还有许多技术是有待于进一步研究和改进的。
参考文献：１．周雪忠吴朝晖文本知识发现：基于信息抽取的文本挖掘计算机科学２００３２．ＫｏｄｒａｔｏｆｆＹ．ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙｉｎＴｅｘｔｓ：ＡＤｅｆｉｎｉｔｉｏｎ，ａｎｄＡｐｐｌｉｃａ－ｔｉｏｎｓ．Ｐｒｏｃ．ＩＳＭＩＳ＇９９，Ｗａｒｓａｗ，Ｊｕｎｅ１９９９ａ３．Ｓｔｅｐｈｅｎ，Ｐｏｔｔｅｒ．Ａｓｕｒｖｅｙｏｆｋｎｏｗｌｅｄｇｅａｃｑｕｉｓｉｔｉｏｎｆｒｏｍｎａｔｕｒａｌｌａｎｇｕａｇｅ．ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＡｐｐｌｉｃａｔｉｏｎｓＩｎｓｔｉｔｕｔｅ，ＤｉｖｉｓｉｏｎｏｆＩｎｆｏｒｍａｔｉｃｓ，Ｕｎｉｖｅｒ－ｓｉｔｙｏｆＥｄｉｎｂｕｒｇｈ４．ＳｕｌｌｉｖａｎＤ．ＴｈｅＮｅｅｄｆｏｒＴｅｘｔＭｉｎｉｎｇｉｎＢｕｓｉｎｅｓｓＩｎｔｅｌｌｉｇｅｎｃｅ．ＰｕｂｌｉｓｈｅｄｉｎＤＭＲｅｖｉｅｗｉｎＤｅｃ．２０００５．ＩＭＡ＂ＨＯＴＴＯＰＩＣＳ＂Ｗｏｒｋｓｈｏｐ，Ａｐｒ．２０００６．王丽坤，王宏，陆玉昌。文本挖掘及其关键技术与方法计算机科学２００２７．张卫丰，徐宝文，周晓宇．Ｗｅｂ搜索引擎综述【Ｊ】．计算机科学，２００１，２８（９）：２４－２８
２００８年第９期
福建电脑
２１
文本挖掘理论概述
巩知乐，张德贤
（河南工业大学信息科学与工程学院河南郑州４５０００１）
【摘要】：文本挖掘是一个从非结构化文本信息中获取用户关心或感兴趣模式的过程。对文本挖掘进行深入的研究将大大提高从海量的文本数据中获取有用知识的效率。本文首先介绍了文本数据挖掘的研究概况，之后着力对当前基于Ｗｅｂ文本挖掘的一般处理过程进行了详细的描述，同时总结了文本分类和文本聚类的一些主要算法，在文章的最后对文本挖掘在信息技术中的发展前景做了合理的预测和展望。
系统的是原始文本，输出的是固定格式的信息点。
信息抽取有两大方法：一是知识工程方法（ＫｎｏｗｌｅｄｇｅＥｎｇｉ－
ｎｅｅｒｉｎｇＡｐｐｒｏａｃｈ），二是自动训练方法（ＡｕｔｏｍａｔｉｃＴｒａｉｎｉｎｇＡｐ－
ｐｒｏａｃｈ）。知识工程方法主要靠手工编制规则的知识工程师对该
在机器学习中常用的模型质量评估指标有分正确率（Ｃｌａｓ－ｓｉｆｉｃａｔｉｏｎＡｃｃｕｒａｃｙ），查准率（Ｐｒｅｃｉｓｉｏｎ）与查全率（Ｒｅｃａｌｌ），查准率与查全率的几何平均数，信息估值（ＩｎｆｏｒｍａｔｉｏｎＳｃｏｒｅ）兴趣性（Ｉｎｔｅｒｅｓｔｉｎｇｎｅｓｓ）。其中兴趣性是一个主客观结合的评价指标。４、结论和展望
【关键词】：文本挖掘；Ｗｅｂ文本挖掘；文本分类；文本聚类
１、引言
＂数据丰富，但信息贫乏＂的现状导致了数据挖掘（ＤａｔａＭｉｎ－
ｉｎｇ）技术研究的兴起，数据挖掘又称数据库知识发现（Ｋｎｏｗｌｅｄｇｅ
ＤｉｓｃｏｖｅｒｙｉｎＤａｔａｂａｓｅｓ）是从海量的结构化信息中抽取或挖掘隐
定义或界定。
２．２文本挖掘的一般流程
从大量文本数据中抽
取事先未知的、可理解的、
最终可用的信息或知识的
过程。直观地说，当数据挖
掘的对象完全由文本这种
数据类型组成时，这个过程
就称为文本挖掘［３］。文本挖
掘的一般流程如图１所示。
图１．文本挖掘的一般流程图
１）信息检索（ＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ：ＩＲ）是指从大量文档集合
源自文库
基金项目：河南省科技攻关项目（０３２４２２００２４）
２２
福建电脑
２００８年第９期
词。虚词例如英文中的＂ａ，ｔｈｅ，ｏｆ，ｆｏｒ，ｗｉｔｈ，ｉｎ，ａｔ， ……＂，中文中的＂的，得，地， ……＂；实词例如数据库会议上的论文中的＂数据库＂一词，视为非用词。
图３．中文文本挖掘模型结构示意图主要的分词方法有最大匹配法（ＭａｘｉｍｕｍＭａｔｃｈｉｎｇｍｅｔｈｏｄ，ＭＭ法）：选取包含６－８个汉字的符号串作为最大符号串，把最大符号串与词典中的单词条目匹配，如果不能匹配，就删掉一个汉字继续匹配，直到在字典中找到相应的单词为止。匹配的方向是从右向左。逆向最大匹配法（ＲｅｖｅｒｓｅＭａｘｉｍｕｍｍｅｔｈｏｄ，ＲＭＭ法）：匹配方向与ＭＭ法相反，是从左向右。实验表明，对于汉语来说，逆向最大匹配法比最大匹配法更有效。双向匹配法（Ｂｉ－ｄｉｒｅｃｔｉｏｎＭａｔｃｈｉｎｇｍｅｔｈｏｄ，ＢＭ法）：比较ＭＭ法与ＲＭＭ法的分词结果，从而决定正确的分词。最佳匹配法（ＯｐｔｉｍｕｍＭａｔｃｈｉｎｇｍｅｔｈｏｄ，ＯＭ法）：将词典中的单词排在前，频度低的单词排在后，从而提高匹配的速度。联想－回溯法（Ａｓｓｏｃｉａｔｉｏｎ－Ｂａｃｋｔｒａｃｋｉｎｇｍｅｔｈｏｄ，ＡＢ法）：采用联想和回溯的机制来进行匹配。３．３．２特征提取特征提取（ＦｅａｔｕｒｅＥｘｔｒａｃｔｉｏｎ）是对文件中出现的词汇、短语的特征提取，由原始数据创建新的特征集，生成挖掘目标的特征矢量，特征项集提取应该根据两个基本原则即完全性和区分性原则来进行，并将提取得到的特征矢量经过特征子集的选取后存放到文本特征库中形成文本中间表示形式［６］。在不影响特征分类准确度的情况下，减少文本描述空间的高维特征数量是很有必要的，这个过程称为特征提取。特征提取的方式有４种：（１）用映射或变换的方法把原始特征变换为较少的新特征。（２）从原始特征中挑选出一些最具代表性的特征。（３）根据专家的知识挑选最有影响的特征。（４）用数学的方法进行选取，找出最具分类信息的特征，这种方法是一种比
较精确的方法，人为因素的干扰较少，尤其适合于文本自动分类挖掘系统的应用。３．４模式质量的评价
后期处理中的一个重要的环节是对模型进行质量评价。在机器学习基础上进行的数据挖掘使我们得到了隐含的、先前未有的、潜在的知识、规则和信息。但这些信息是否是有价值的或是在某种意义下满足用户目标，这就需要通过模式质量评价来做出评价。
文本特征指的是关于文本的原数据。文本特征可分为描述性特征和语义性特征。描述性特征包括文本的名称、日期、大小、类型等；语义性特征包括文本的作者、标题、机构、内容等。描述性特征易于获得，而语义性特征则较难获得。３．２特征集的缩减
当文档转化为一种类似于关系数据库中记录的较规整且能反映文档内容特征的表示（文档特征向量）后，会发现一个不合人意的地方：文本特征向量具有惊人的维数。使得特征集的缩减成文文本数据挖掘中必不可少的一步。３．２．１潜在语义标引（ｌａｔｅｎｔｓｅｍａｎｔｉｃｉｎｄｅｘｉｎｇ）技术
潜在语义标引（ｌａｔｅｎｔｓｅｍａｎｔｉｃｉｎｄｅｘｉｎｇ）方法：利用矩阵理论中的＂奇异値分解（ｓｉｎｇｕｌａｒｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎ，ＳＶＤ）＂技术，将词频矩阵转化为奇异矩阵（Ｋ ×Ｋ）［５］。
潜在语义标引方法基本步骤：１）．建立词频矩阵，ｆｒｅｑｕｅｎｃｙｍａｔｒｉｘ；２）．计算ｆｒｅｑｕｅｎｃｙｍａｔｒｉｘ的奇异値分解，分解ｆｒｅｑｕｅｎｃｙｍａ－ｔｒｉｘ成３个矩阵Ｕ，Ｓ，Ｖ。Ｕ和Ｖ是正交矩阵（ＵＴＵ＝Ｉ），Ｓ是奇异値的对角矩阵（Ｋ ×Ｋ）；３）．对于每一个文字檔ｄ，用排除了ＳＶＤ中消除后的词的新的向量替换原有的向量ｐ；４）．保存所有向量集合，用高级多维索引技术为其创建索引；５）．用转换后的文字檔向量进行相似度计算。３．２．２语义自动标注的方法以字义为词义；词＝字＋…＋字；利用检索上下文中出现的相关词的方法来确定多义词的义项；利用上下文搭配关系来确定多义词的词义；用最大可能义项来消解多义。３．３学习与知识模式的提取完成文档特征向量维数的缩减后，便可利用机器学习的各种方法来提取面向量特定应用目的的知识模式。３．３．１分词及非用词处理技术分词就是在中文文件的词与词之间加上空格。非用词又称停用词，是在文件中其辅助作用的词。非用词又分为虚词和实
据挖掘相差很大。Ｗｅｂ文本数据挖掘的主要过程是对大量文本资料的内容进行特征的建立、特征集的缩减、学习与知识模式的提取、模型质量的评价、知识模式。
Ｗｅｂ文本挖掘的一般处理过程可用图２来概括描述。
图２ｗｅｂ文本挖掘的一般处理过程３．１文本特征的建立
对Ｉｎｔｅｒｎｅｔ上的文本数据进行文本挖掘可以看作是一种机器学习的过程。在机器学习中学习的结果是某种知识模型Ｍ，机器学习的一个重要组成部分便是对产生的模型Ｍ进行评估。对所获取的知识模式进行质量评价，若评价的结果满足一定的要求，则存储知识模式，否则返回到以前的某个环节分析改进后进行新一轮的挖掘工作［７］。
文本挖掘（ＴＭ，ＴｅｘｔＭｉｎｉｎｇ）是近几年来数据挖掘领域的一
个新兴分支，其基本思想是首先利用文本切分技术，抽取文本特
征，将文本数据转化为能描述文本内容的结构化数据，然后利用
聚类、分类技术和关联分析等数据挖掘技术，形成结构化文本，