朴素贝叶斯多项式模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

朴素贝叶斯分类--多项式模型

1.多项式模型简介

朴素贝叶斯分类器是一种有监督学习,针对文本分类常见有两种模型,多项式模型(词频型)和伯努利模型(文档型)。多项式模型以单词为粒度,伯努利模型以文件为粒度。对于一个文档A,多项式模型中,只有在A中出现过的单词,才会参与后验概率计算。

2.多项式模型基本原理及实例

2.1基本原理

已知类别C={C1,C2,C3,⋯,C k}与文档集合

D={D1,D2,⋯,D n}

设某一文档D j的词向量为D j={d j1,d j2,⋯d j l

j

}(可重复)设训练文档中出现的单词(单词出现多次,只算一次)即语料库为V

对于待分类文档A={A1,A2,⋯A m},则有:

1)计算文档类别的先验概率

P C i=

D j D j∈C i

D j n

j=1

P(C i)则可以认为是类别C i在整体上占多大比例(有多大可能性)。

2)某单词d j l

j

在类别C i下的条件概率

P d j l

j C i=

d j l

j

+1

D j+V

D j∈C i

P d j l

j C i可以看作是单词d j l

j

在证明D j属于类C i上提供了

多大的证据。

3)对于待分类文档A被判为类C i的概率

假设文档A中的词即A1,A2,⋯A m相互独立,则有

P C i A=P C i∩A

=

P C i P A C i

=P C i P A1,A2,⋯A m C i

P A

=P C i P A1C i P A2C i⋯P A m C i

P A

对于同一文档P A一定,因此只需计算分子的值。

多项式模型基于以上三步,最终以第三步中计算出的后验概率最大者为文档A所属类别。

2.2 实例

给定一组分好类的文本训练数据,如下:

给定一个新样本A,对其进行分类。该文本词向量表示为

A={Chinese ,Chinese ,Chinese ,Tokyo ,Japan},类别集合为C={yes, no}.

解题步骤:

类yes下总共有8个单词,类no下总共有3个单词,训练样本

单词总数为V=11,因此P(yes)=8/11, P(no)=3/11。类条件概率计算如下:

P(Chinese | yes)=(5+1)/(8+6)=6/14=3/7

P(Japan | yes)=P(Tokyo | yes)= (0+1)/(8+6)=1/14

P(Chinese|no)=(1+1)/(3+6)=2/9

P(Japan|no)=P(Tokyo| no) =(1+1)/(3+6)=2/9

分母中的8,是指yes类别下单词(可重复记)的长度,也即训练样本的单词总数,6是指训练样本有Chinese,Beijing,Shanghai, Macao, Tokyo, Japan 共6个单词,3是指no类下共有3个单词。

有了以上类条件概率,开始计算后验概率:

P(yes |A)=(3/7)3×(1/14)×(1/14)×(8/11)=216/739508≈0.00029209

P(no |A)=(2/9)3×(2/9)×(2/9)×(3/11)=96/649539≈0.00014780

比较大小,即可知道这个文档属于类别yes。

相关文档
最新文档