人工智能的文本分类方法简述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

人工智能的文本分类方法简述

摘要:本文阐述了一些基本的文本分类的方法,以及一些改进的文本文类的方法,并包含了一些文本分类的实际应用。其中着重阐述了贝叶斯分类以及一些其他的的文本分类方法。最后提出了现在文本分类方法中存在的一些问题。

关键词:文本分类;贝叶斯方法;数据挖掘;分类算法。

0 引言

文本分类是指在给定分类体系下, 根据文本内容(自动) 确定文本类别的过程。20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法, 即由专业人员手工进行分类。目前在国内也已经开始对中文文本分类方法进行研究, 相比于英文文本分类, 中文文本分类的一个重要的差别在于预处理阶段: 中文文本的读取需要分词, 不像英文文本的单词那样有空格来区分。从简单的查词典的方法, 到后来的基于统计语言模型的分词方法, 中文分词的技术已趋于成熟。并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。

人工智能的基本方法就是对人类智能活动的仿真。小样本数据可以看作是一种先验知识不完全的数据集。人类在处理类似的决策问题时,通常采用的策略为: 1,利用多专家决策来提高决策的可信度; 2,专家的决策技能在决策的过程中可以得到不断的增强,即专家具有学习功能; 3,在专家的技能得到增强的基础上,再进行决策可以提高决策的正确性。

这种方法同样适用于小样本数据的分类识别。通过对上述方法的仿真,本文提出了智能分类器,它不仅可以对未知样本进行分类,同时它还具有多专家决策、预分类和学习功能。

1 分类的基本概念

分类就是根据数据集的特点找出类别的概念描述, 这个概念描述代表了这类数据的整体信息,也就是该类的内涵描述,并使用这种类的描述对未来的测试数据进行分类。

分类的过程一般分为两个步骤:第一步, 通过已知数据集建立概念描述模型; 第二步, 就是利用所获得的模型进行分类操作。

对各种分类方法的评估可以根据以下几条标准进行: 1)预测准确率,指模型能够正确预测未知数据类别的能力; 2)速度,指构造和使用模型时的计算效率; 3) 鲁棒性,指在数据带有噪声或有数据遗失的情况下,模型仍能进行正确预测的能力; 4) 可扩展性, 指对处理大量数据并构造相应有效模型的能力; 5) 易理解性, 指所获模型提供的可理解程度。

2 常用的分类算法

2.1基于决策树的分类

所谓决策树就是一个类似流程图的树型结构,其中树的每个节点对应一个非类别属性,每条边对应这个属性的每种可能值,而树的每个叶结点代表一个类别( 如图1)。生成决策树的一个著名的算法是Quinlan 提出的ID3算法, ID3 算法从树的根节点处的所有训练样本开始, 选取一个属性来区分这些样本, 属性的每一个值产生一个分支。将分支属性值的相应样本子集移到新生成的子节点上。这个算法递归地应用于每个子节点, 直到一个节点上的所有样本都分区到某个类中。

属性选择采用信息增益的方法来确定。选择具有最高信息增益( 熵减少的程度最大) 的属性作为当前结点的测试属性, 这样保证所产生的决策树最为简单,工作量最小。设S 为一个包含了S 个数据样本的集合,且类别属性可以取m 个不同的值{ C 1, C 2……, Cm }。假设Si 为类别Ci 中的样本个数; 则对一个给定数据对象进行分类所需要的信息量为:

其中p i= s i/ s。

设一个属性A 取v 个不同的值{ a1 , a2……, av} , 利用属性A 将S 划分为v 个子集{ S 1, S 2 ……, Sv } , 设S i j 为子集Sj中属于Ci 类别的样本数。那么利用属性A 划分当前样本集合所需要的信息(熵)可以按如下公式计算:

这样利用属性A 对当前分支结点进行相应样本集合划分所获得的信息增益就是:

通过以上公式计算每个属性的信息增益。选择具有最高信息增益的属性作为给定集合S 的测试属性, 创建一个节点,并以该属性标记, 对属性的每个值创建分支,进行样本

划分。

ID3 算法在选择属性时利用了信息增益的概念,算法的基础理论清晰;决策树的每个分支都对应一个分类规则, 因此产生的分类规则易于理解;同时, 分类速度较快,准确率较高。但是ID3 算法也存在着许多不足: 1) 不能够处理连续值属性; 2) 计算信息增益时偏向于选择取值较多的属性; 3)对噪声较为敏感; 4) 在构造树的过程中, 需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效; 5) 只适合于能够驻留于内存的数据集使用,当训练集大得无法在内存容纳时程序无法运行。

ID3 的改进算法有C4. 5, C4. 5 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择属性值多的属性的不足。此外,在树构造过程中或构造完成后进行剪枝, 提高了抗噪声能力;能够对连续值属性进行离散化处理; 能够对不完整数据进行处理。

常用的决策树算法还有SLIQ 算法。SLIQ 算法对C4. 5分类算法的实现方法进行了改

进,在决策树的构造过程中采用了预排序与广度优先增长策略,使得该算法能够处理更大的训练集,因此在一定程度上具有良好的随记录个数和属性个数增长的可扩展性。但是它仍然存在着一些不足; 1) 由于需要将类别列表存放于内存,在一定程度上限制了可以处理的数据集的大小; 2) 由于采用了预排序技术, 而排序算法的复杂度本身并不是与记录个数成线性关系, 因此使得SLIQ 算法不可能达到随记数目增长的线性可扩展性。

2.2 贝叶斯分类

贝叶斯分类是统计学分类在方法,它可以预测一个给定样本属于某一类别的概率。贝叶斯分类是基于贝叶斯定理而构造出来的。

基本贝叶斯分类( Naive Bayes) 首先假设一个属性值对

给定类的影响独立于其它属性的值, 即类条件独立, 它可以帮助有效减少在构造贝叶斯分类器时所需要的计算量。

基本贝叶斯分类的工作过程如下:

给定一个没有类标号的数据样本X ,用X = { x 1, x 2 ……,x n}表示,分别描述X 在n 个属性{ A 1 , A 2 ……, An }上的属性值。设有m 个类{ C1 , C2 ……, Cm} ,那么, 将样本X 分配给类Ci 的条件就是:

根据贝叶斯定理:

其中, P ( X )对于所有类来说为常数, P ( Ci) = si/ s。假定各属性值相互条件独立(类条件独立) , 这样P ( X | Ci )的计算可使用公式:

概率P( x k | Ci)可以由训练样本估算: 1) 如果Ak 是分类属性, 则P ( x k | Ci) = s ik / si。2) 如果Ak 是连续值属性,则通常假定该属性服从高斯分布, 用高斯密度的数计算。因而, 对未知样本X 分类,样本X 被分类到类Ci,而且仅当

基本贝叶斯分类假定类条件独立, 简化了计算。当假定成立时, 与其它分类算法相比,基本贝叶斯分类是最精确的。但实际上变量间的相互依赖情况是较为常见的。为解决这个问题, 可使用贝叶斯信念网络描述这种相互关联的概率分布。该网络能够描述各属性子集之间有条件的相互独立, 它提供了一个图形模型来描述其中的因果关系。

贝叶斯分类在处理大规模数据库时, 表现出了较高的分类准确性和运算性能。它还可为其它分类算法提供理论判定。但是, 该算法没有直接的分类规则输出。

2.3 神经网络

神经网络就是一组相互连接的输入输出单元( 又称神经元) , 单元之间的每个连接都与一个权重相关联。在网络学习阶段, 网络通过调整权重来实现输入样本与其相应类别的对应。神经网络训练完毕后, 只要把数据输入到已训练好的神经网络输入端, 就可以从输出端直接得到分类结果。

相关文档
最新文档