文本挖掘
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本挖掘简述
摘要:文本挖掘是数据挖掘的一个重要分支, 其应用前景十分广泛。本文对文本挖掘的
基本概念和主要内容进行介绍, 并且说明了挖掘的过程以及它的应用领域和它与其他相关
领域的关系。
关键词: 文本挖掘; 数据挖掘; 文本分类
目前随着信息技术的快速发展, 特别是网络的普及, 以文本形式表示的信息越来越多, 如何
在纷繁芜杂的信息海洋中找到自己需要的有用信息, 具有广泛的应用背景和实用价值。文本挖掘作为从浩瀚的文本数据中发现潜在的有价值知识的一种有效技术, 已经成为近年来的
研究热点, 研究人员对文本挖掘技术进行了大量的研究, 但这些研究大部分是在英文环境
下进行的, 对中文的研究却很少。以下介绍了文本挖掘的主要内容, 挖掘过程以及与其它领域关系。
1. 文本挖掘概述
( 1) 定义
文本挖掘的定义: 文本挖掘是指从大量文本的集合C 中发现隐含的模式P。如果将C 看作输入, 将P 看作输出, 那么文本挖掘的过程就是从输入到输出的一个映射N: Cy P。
( 2) 包括的内容
1. 文本分类:文本分类指按照预先定义的主题类别, 为文档集合中的每个文档确定一个类别。这样用户不但能够方便地浏览文档, 而且可以通过限制搜索范围来使查询文档更容易、快捷。目前, 用于英文文本分类的分类方法较多, 用于中文文本分类的方法较少, 主要有朴素贝叶
斯分类, 向量空间模型以及线性最小二乘LLSF。
2.文本聚类文本分类是将文档归入到己经存在的类中, 文本聚类的目标和文本分类是一
样的, 只是实现的方法不同。文本聚类是无教师的机器学习, 聚类没有预先定义好的主题类别, 它的目标是将文档集合分成若干个簇, 要求同一簇内文档内容的相似度尽可能大, 而不
同簇间的相似度尽可能小。Hearst 等人的研究已经证明了/ 聚类假设0 , 即与用户查询相
关的文档通常会聚类得比较靠近, 而远离与用户查询不相关的文档。目前, 有多种文本聚类算法, 大致可以分为两种类型: 以G) HAC 等算法为代表的层次凝聚法和以K. means 等算
法为代表的平面划分法。
3. 文本结构分析:为文本结构进行分析是为了更好地理解文本的主题思想, 了解文本所
表达的内容以及采用的方式。最终结果是建立文本的逻辑结构, 即文本结构树, 根结点是文本主题, 依次为层次和段落。
4.Web 文本数据挖掘:在Web 迅猛发展的同时, 不能忽视“信息爆炸”的问题, 即信息极大丰富而知识相对匮乏。据估计,web 已经发展成为拥有3 亿个页面的分布式信息空间。在这些大量、异质的Web 信息资源中, 蕴含着具有巨大潜在价值的知识。这样就需要一种
工具使人们能够从Web 上快速、有效的发现资源和知识。
2. 文本挖掘过程
( 1) 特征表示及预处理
文本特征指的是有关文本的元数据, 分为描述性特征,例如文本的名称、日期、大小、类型等, 以及语义性特征, 例如文本的作者、机构、标题、内容等。对于内容这个难以表示的
特征, 要找到一种能够被计算机所处理的表示方法。矢量空间模型( VSM) 是近年来应用较
多的并且效果较好的方法之一。在该模型中, 文档空间被看作由一组正交词条矢量所组
成的矢量空间, 每个文档表示为其中的一个规范化特征矢量V( d) = ( t1 ,w1 ( d) ; ,ti , wi( d) ; ,; tn, wn ( d) ) , 其中ti 为词条项, wi ( d) 为ti 在d 中的权值。可以将文档d 中出现的所有单
词作为ti , 也可以要求ti 是文档d 中出现的短语, 从而提高内容特征表示的准确性。wi( d)
一般被定义为ti 在d 中的出现频率tfi( d) 的函数, 即wi ( d) = ( tfi( d) ) 。常用的( 有布尔函数、平方根函数、TFIDF 函数、对数函数等。预处理的过程首先排除出现频率高但是含义虚泛的词语, 例如英文中的a, the, each, for, 汉语中的/ 地、得、的、这、虽然等; 然后排除那些在文档集合中出现频率很低的单字; 在英文中还可以去前缀找词根, 如
worker,working, worked 都可以表示同一个词work。
( 2) 特征集约简
一个有效的特征集直观上说必须具备以下两个特点: ¹
完全性: 确实体现目标文档的内容;
区分性: 能将目标文档
特征集约减的目的是为了提高程序效率和运行速度, 并且防止过拟合( Overfit) 。数万维的
特征对文本分类的意义是不同的, 一些通用的、各个类别都普遍存在的特征对分类的贡献不大, 在某个特定的类中出现的比重大而在其他类中出现比重小的特征对文本的贡献大。对每一类, 去除对分类贡献小的特征, 筛选出针对反映该类的特征集合。用向量空间法表示文档时, 文本特征向量的维数往往达到数十万维, 即使经过删除停用词表中的停用词以及应ZIP
法则删除低频词, 仍会有数万维特征留下。最后一般只选择一定数目的最佳特征来开展各种文本挖掘工作, 所以进一步对特征进行约减就显得异常重要。通常, 特征子集的提取是通过构造一个特征评估函数,对特征集中的每个特征进行评估, 每个特征获得一个评估分数, 然
后对所有的特征按照分数大小进行排序, 选取预定数目的最佳特征作为特征子集。文本特征选择中的评估函数是从信息论中延伸出来的, 用于给各个特征词条打分, 很好地反映了词
条与各类之间的相关程度。常用的评估函数有文档频数、信息增益、期望交叉熵、互信息、
x2 统计、单词权、文本证据权和几率比等。
( 3) 文本挖掘方法
文本分类算法主要包括以下几个分类模型: 相似度模型、组合模型、线形模型、非线形模型、概率模型。在相似度模型中, 方法有计算文档与代表某一文档类别的中心向量之间的相似度( dk , ci) , 类别中心向量是根据测试文本统计计算的估计值。另一种方法不需建立描述文档类别的中心向量, 而是依赖于测试文档与训练文档之间的相似度,K 邻近算法是这个模型的
典型算法, 它的主要思想是计算找到训练集与测试文本距离最近的k 个文本。线形模型有线形最小二乘拟合方法和支持向量机。非线形模型包括层次模型和网络模型。层次模型的典
型算法是决策树, 该算法以自顶向下递归的方式构造一树型结构, 从具有最优信息增益的
属性开始, 对测试树型的每个已知值创建一个分支,直到需要分类的样本测试完所有的树型。网络模型的主要算法是神经网络方法。概率模型中典型算法是朴素贝叶斯算法。它的主要
思想是基于贝叶斯假设, 即文档中的词汇在确定文本类别的作用上相互独立。它首先计算特征词属于每个类别的先验概率, 在新文本到达时, 根据特征词的先验概率计算该文本属于
每一个类别的后验概率, 最后取后验概率最大的类别作为分类结果。
3. 文本挖掘应用的领域