朴素贝叶斯多项式模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
朴素贝叶斯分类--多项式模型
1.多项式模型简介
朴素贝叶斯分类器是一种有监督学习,针对文本分类常见有两种模型,多项式模型(词频型)和伯努利模型(文档型)。多项式模型以单词为粒度,伯努利模型以文件为粒度。对于一个文档A,多项式模型中,只有在A中出现过的单词,才会参与后验概率计算。
2.多项式模型基本原理及实例
2.1基本原理
已知类别C={C1,C2,C3,⋯,C k}与文档集合
D={D1,D2,⋯,D n}
设某一文档D j的词向量为D j={d j1,d j2,⋯d j l
j
}(可重复)设训练文档中出现的单词(单词出现多次,只算一次)即语料库为V
对于待分类文档A={A1,A2,⋯A m},则有:
1)计算文档类别的先验概率
P C i=
D j D j∈C i
D j n
j=1
P(C i)则可以认为是类别C i在整体上占多大比例(有多大可能性)。
2)某单词d j l
j
在类别C i下的条件概率
P d j l
j C i=
d j l
j
+1
D j+V
D j∈C i
P d j l
j C i可以看作是单词d j l
j
在证明D j属于类C i上提供了
多大的证据。
3)对于待分类文档A被判为类C i的概率
假设文档A中的词即A1,A2,⋯A m相互独立,则有
P C i A=P C i∩A
=
P C i P A C i
=P C i P A1,A2,⋯A m C i
P A
=P C i P A1C i P A2C i⋯P A m C i
P A
对于同一文档P A一定,因此只需计算分子的值。
多项式模型基于以上三步,最终以第三步中计算出的后验概率最大者为文档A所属类别。
2.2 实例
给定一组分好类的文本训练数据,如下:
给定一个新样本A,对其进行分类。该文本词向量表示为
A={Chinese ,Chinese ,Chinese ,Tokyo ,Japan},类别集合为C={yes, no}.
解题步骤:
类yes下总共有8个单词,类no下总共有3个单词,训练样本
单词总数为V=11,因此P(yes)=8/11, P(no)=3/11。类条件概率计算如下:
P(Chinese | yes)=(5+1)/(8+6)=6/14=3/7
P(Japan | yes)=P(Tokyo | yes)= (0+1)/(8+6)=1/14
P(Chinese|no)=(1+1)/(3+6)=2/9
P(Japan|no)=P(Tokyo| no) =(1+1)/(3+6)=2/9
分母中的8,是指yes类别下单词(可重复记)的长度,也即训练样本的单词总数,6是指训练样本有Chinese,Beijing,Shanghai, Macao, Tokyo, Japan 共6个单词,3是指no类下共有3个单词。
有了以上类条件概率,开始计算后验概率:
P(yes |A)=(3/7)3×(1/14)×(1/14)×(8/11)=216/739508≈0.00029209
P(no |A)=(2/9)3×(2/9)×(2/9)×(3/11)=96/649539≈0.00014780
比较大小,即可知道这个文档属于类别yes。