基于TAN结构的贝叶斯文本分类器
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2012.1
53
基于TAN 结构的贝叶斯
文本分类器研究
王景中 易路杰
北方工业大学信息工程学院 北京 100144
摘要:朴素贝叶斯分类器是一种简单且有效实现的文本自动类方法,但其独立性假设在实际中是不存在的。在TAN 结构贝叶斯分类算法中,考虑了两两属性间的关联性,对属性间的独立性假设有了一定程度的降低。
关键词:文本分类;贝叶斯;TAN
0 引言
朴素贝叶斯分类器是贝叶斯分类中一种最常见且原理简单,实际应用很成功的方法。朴素贝叶斯分类器中的“朴素”主要是指假设各属性间相互独立。在文本分类中,假设不同的特征项在确定的类别下的条件概率分布相互独立,这样在计算特征项之间的联合分布概率时可以大大提高分类器的速度。目前,很多文本分类系统都采用贝叶斯分类算法,在邮件分类、电子会议、信息过滤等方面都有了广泛的应用。
1 朴素贝叶斯分类器 1.1 贝叶斯公式介绍
贝叶斯定理为:设S 为试验E 的样本空间,A 为E 的事件,1B ,2B ,…n B 为S 的一个划分,且有P(A)>0,P(i B )>0 (i=1,2,…n),则有:
1
(/)()
(/)(/)()
i i i n
j j j P A B P B P B A P A B P B ==∑ ,i=1,2,…n 。 1.2 贝叶斯文本分类
贝叶斯文本分类模型是一种基于统计方法的分类模型,是现有文本分类算法中最有效的方法之一。其基本原理是:通过样本数据的先验概率信息计算确定事件的后验概率。在文本分类中的应用为:通过计算给定文本的特征值在样本库中某一确定类i C 中的先验概率,
得出给定文本的特征值属于 i C 类的后验概率,再通过比较,得出后验概率最大的即为给
定文本最可能属于的类别。因此,贝叶斯类别判别式为:
12arg max (/,,)NB i n C P C w w w = (1)
本文采用布尔表示法描述文本,每个文本表示为特征矢
量(1w ,2w ,
…V w ),V 为特征词表,V 为特征词表总词数,V=(1B ,2B ,…V B )。特征矢量中的i w ={0,1},1表示特
征词表中的第i 个词出现,0表示没有出现。
根据贝叶斯公式:
121212(,,/)()
(/,,)(,,)
n i i i n n P w w w C P C P C w w w P w w w =
(2)
式中()i P C 为样本集中属于i C 类的概率,12(,,/)n i P w w w C …为i C 类中给定文本特征词的概率。
要求12max (/,,)i n P C w w w …,(2)式中分母12(,,)n P w w w …在给定的所有类别中为固定值,即为常量。因此,只需求:
12arg max (,,/)()NB n i i C P w w w C P C = (3)
式中()i P C 的值为每个类别在样本集中的频率,即为样本集中属于i C 类的文本数与样本集中的总的文本数的比率。12(,,/)n i P w w w C …的值计算比较困难,理论上只有建立一个
足够大的样本集才能准确得到。如何得出12(,,/)n i P w w w C …的值也是贝叶斯算法的关键,直接影响分类的性能。目前只能通过估算得出。
由于贝叶斯分类模型的假设,文本特征属性之间独立同分布,因此各属性联合概率等于各属性概率的乘积,即:
2012.1
54
12(,,/)(/)n i j i j
P w w w C P w C =∏ (4)
式中(/)j i P w C 为i C 类文本中j w 的词频与i C 类文本的总词频的比率。在本文中(/)j i P w C 的值估算采用下式:
111
1(/)(/)(/)
j s
D
w i k k j i V D w i k s k N B C d P w C V N
B C d ===+=
+∑∑
∑ (5)
式中j w N 表示特征词的词频,D 表示类文本数,(/)i k B C d ={0,1},1表示文本k d 属于i C 类,0表示不属于i C 类。
1.3 TAN 结构的贝叶斯文本分类
由Friedman 等人提出的TAN(Tree Augmented Naive)树状结构模型,使朴素贝叶斯模型独立性假设更符合实际。在应用中的主要思路是采用贝叶斯网络中的表示依赖关系的方法,在其中的各叶节点之间增加一些必要的边,用来表示各属性变量之间的关系,从而放宽了朴素贝叶斯中的独立性假设。
朴素贝叶斯理论的独立性假设即要求每个属性有且仅有一个父节点,为类节点。而TAN 模型中,用节点表示属性,通过有向边表示属性间的关系,把类别属性作为根节点,其余属性作为它的子节点。在具体实现时这些增加的边需满足两个条件,首先,类别变量没有父节点。其次,每个属性变量有一个类变量为父节点和最多另一个属性变量作为其父节点,即2i w π≤。
在给定待分类文本中,贝叶斯分类器选择后验概率最大的NB C 为该文本所属类别,据(3)式、(4)式得:
arg max ()(/)NB i j i j
C P C P w C =∏=
arg max ()(/)j i j w j
P C P w π∏ (6)
式中j w π代表j w 的父节点集。增加有向边后j w π具有两种形式:j w π没有非类父节点和j w π有一个非类父节点。因此要计算(6)式就需要估算出三个值:()i P C 、(/)j i P w C 、(/,)j i s P w C w 。前两个值在上文中已经说明,而(/,)
j i s P w C w 为在i C 类中,s w 出现时j w 的概率。因此这里就考虑了两个词之间的关系。(/,)j i s P w C w 的值等于i C 类文本中出现s w 的文本中j w 的总词频与i C 类中出现s w 的文档的总词频的比率。即:
1
11
1(/)(/)(/,)(/)(/)
j j D
w i k k s k j i s V D
w i k k s s k N B C d B d w P w C w V N B C d B d w ===+=
+∑∑
∑ (7)
式中(/)k s B d w ={0,1},1表示s w 出现在文本k d 中,0表示s w 不出现在文本k d 中。
2 实验结果
目前,人们最常用的评价分类性能的指标是查准率(精确率)和查全率(召回率)。查准率是指分类器正确判别为该类的测试样本数与分类器判别为该类的测试样本总数的比率。查全率是指分类器正确判别为该类的测试样本数与该类的总测试样本数的比率。以上两个指标体现了文本分类质量的两
个方面,需要综合考虑,因此有F1测试作为综合评估指标。
F1测试值=2
××+准确率召回率准确率召回率
实验选取中文自然语言处理开发平台提供的语料库的文章,选择六类文本进行测试,分别是计算机、农业、经济、艺术、环境、政治,共1800篇,每类300篇。其中从每类中选取200篇为训练样本文档,余下100篇为测试文档。测试结果见表1。
表1 实验结果
类别 查准率 查全率 F1测试值
计算机 0.92 0.77 0.84 农业 0.70 0.82 0.75 经济 0.69 0.82 0.75 艺术 0.85 0.78 0.81 环境 0.85 0.75 0.80 政治
0.78 0.81 0.79
从表1可看出,在所取测试集中,平均查准率达到0.80,平均查全率达到0.79,平均F1测试值达到0.79。基本达到了文本分类的效果。
3 结束语
上述朴素贝叶斯分类算法基本实现了文本分类,但是还存在着一些问题。首先TAN 结构虽然考虑了两两属性间的关联,但文本中属性之间可能存在的其他更多的关联并没有考虑到,因此适用范围还是有一定的局限性。还有在计算特征词属于某一确定的类的概率时,由于训练集的选择不同,或者训练集不足够大,这会有某些不常见的特征词在训练库中不出现,而朴素贝叶斯判别式是一个乘积的值,这样就会对结果影响很大。这些问题在以后的工作中还需要不断的改进。
参考文献
[1]陈叶旺,余金山.一种改进的朴素贝叶斯文本分类方法[J].华侨大学学报(自然科学版).2011.
[2]陈欣,张菁,李晓光.一种面向中文敏感网页识别的文本分类方法[J].测控技术.2011.
[下转43页]