朴素贝叶斯算法介绍

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

)
最大化的类别,数学表达式为:
C(result) =argmaxP(Y=Ck|X=X(test))
ar=g max( P( X X (test) | Y Ck )P(Y Ck ) / P( X X (test) ))
由于对于所有的类别计算
P(Y=Ck|X=X(test))时,上式的分母是一样的,都是P(X=X(test),因此, 我们的预测公式可以简化为:
牺牲了准确性,但是得到的好处是模型的条件分布的计算大大简化了,
这就是贝叶斯模型的选择。
最后回到我们要解决的问题,我们的问题是给定测试集的一个新样本
特征
x ( te st ) 1
,
x ( te st ) 2
,...
xn(te
st
)
,我们如何判断它属于哪个类型?
既然是贝叶斯模型,当然是后验概率最大化来判断分类了。我们只 要计算出所有的K个条件概率
则p(不嫁)=6/12 = 1/2
则p(不帅|嫁) = 1/6
则p(性格不好|不嫁) =3/6 = 1/2
p(矮|不嫁) = 6/6 = 1
p(不上进|不嫁) = 3/6 = 1/2
p (不嫁|不帅、性格不好、身高矮、不上进) = ((1/6*1/2*1*1/2)*1/2)/(1/3*1/3*7/12*1/3)
对于
P(X j
X
(test) j
|Y
Ck
)(
j
1,2,...n)
取决于我们的先验条件。
例:
现在给我们的问题是,如果一对男女朋友,男生想女生求婚,男生的四个 特点分别是不帅,性格不好,身高矮,不上进,请你判断一下女生是嫁还 是不嫁?这是一个典型的分类问题,转为数学问题就是比较p(嫁|(不帅、 性格不好、身高矮、不上进))与p(不嫁|(不帅、性格不好、身高矮、不上 进))的概率,谁的概率大
的联合分布P(X,Y)了。联合分布P(X,Y)定义为:
P(X,Y=Ck)=P(Y=Ck)P(X=x|Y=Ck)
(1)
=P(Y=Ck)P(X1=x1,X2=x2,...Xn=xn|Y=Ck)
(2)
从上面的式子可以看出
P(Y=Ck) 比较容易通过最大似然法求出,得到的P(Y=Ck)就是类别Ck在训练集里面出的频数。 但是 P(X1=x1,X2=x2,...Xn=xn|Y=Ck)很难求出,这是一个超级复杂的有n个维度的条件分布。 朴素贝叶斯模型在这里做了一个大胆的假设,即X的n个维度之间相互独立,这样就可 以得出: P(X1=x1,X2=x2,...Xn=xn|Y=Ck)=P(X1=x1|Y=Ck)P(X2=x2|Y=Ck)...P(Xn=xn|Y=Ck)
我们需要求p(嫁|(不帅、性格不好、身高矮、不上进),这是我们不 知道的,但是通过朴素贝叶斯公式可以转化为好求的三个量. p(不帅、性格不好、身高矮、不上进|嫁)、p(不帅、性格不好、身 高矮、不上进)、p(嫁)
下面我也一个一个来进行统计计算,这里与上面公式中,分母是一样的,于 是我们分母不需要重新统计计算!
P(Yk|X)=P(X|Yk)P(Yk)/∑P(X|Y=Yk)P(Yk)
2. 朴素贝叶斯的模型
从统计学知识回到我们的数据分析。假如我们的分类模型样本是:
(x1(1) , x2(1) ,• • •xn(1) , y1)(, x1(2) , x2(2) ,• • •xn(2) , y2 ),• •( • x1(m) , x2(m) ,• • •xn(m) , ym ),
很显然(1/6*1/2*1*1/2) > (1/2*1/6*1/6*1/6*1/2) 于是有p (不嫁|不帅、性格不好、身高矮、不上进)>p (嫁|不帅、性格不好、身高矮、 不上进) 所以我们根据朴素贝叶斯算法可以给这个女生答案,是不嫁!!!!
THANKS!
从上式可以看出,这个很难的条件分布大大的简化了,但是这也可能
带来预测的不准确性。你会说如果我的特征之间非常不独立怎么办?
如果真是非常不独立的话,那就尽量不要使用朴素贝叶斯模型了,考
虑使用其他的分类方法比较好。但是一般情况下,样本的特征之间独
立这个条件的确是弱成立的,尤其是数据量非常大的时候。虽然我们
P(Xj=Xj(test)|Y=Ck)(j=1,2,...n),我们通过比较就可以得到朴素贝叶斯 的推断结果。这一节我们就讨论怎么通过训练集计算这两个概率。
对于P(Y=Ck),比较简单,通过极大似然估计我们很容易得到P(Y=Ck)
为样本类别Ck出现的频率,即样本类别Ck出现的次数mk除以样本总数m。
我们先看看条件独立公式,如果X和Y相互独立,则有:
P(X,Y)=P(X)P(Y)
我们接着看看条件概率公式:
P(Y|X)=P(X,Y)/P(X) P(X|Y)=P(X,Y)/P(Y) 或者说:
P(Y|X)=P(X|Y)P(Y)/P(X)
接着看看全概率公式 P(X)=∑P(X|Y=Yk)P(Yk)其中∑P(Yk)=1 从上面的公式很容易得出贝叶斯公式:
P(Y=Ck|X=X(test)) ,然后找出最大的条件概率对应的类别,这就是朴素贝叶斯的预测了。
3. 朴素贝叶斯的推断过程 • 上节我们已经对朴素贝叶斯的模型也预测方法做了一个大概的解释,这里我
们对朴素贝叶斯的推断过程做一个完整的诠释过程。我们预测的类别 Cresult
是使
x(test)
P(Y=Ck|X=
贝叶斯学派的思想可以概括为先验概率+数据=后验概率。也就是说我们在实际 问题中需要得到的后验概率,可以通过先验概率和数据一起综合得到。数据大家好 理解,被频率学派攻击的是先验概率,一般来说先验概率就是我们对于数据所在领 域的历史经验,但是这个经验常常难以量化或者模型化,于是贝叶斯学派大胆的假 设先验分布的模型,比如正态分布,beta分布等。这个假设一般没有特定的依据, 因此一直被频率学派认为很荒谬。虽然难以从严密的数学逻辑里推出贝叶斯学派的 逻辑,但是在很多实际应用中,贝叶斯理论很好用,比如垃圾邮件分类,文本分类。
即我们有m个样本,每个样本有n个特征,特征输出有K个类别,定义C1,C2,...,CK
从样本我们可以学习得到朴素贝叶斯的先验分布P(Y=Ck)(k=1,2,...K),接着学习到条件概
率分布
P(X=x|Y=Ck)=P(X1=x1,X2=x2,...Xn=xn|Y=Ck),然后我们就可以用贝叶斯公式得到X和Y
朴 素 贝 叶 斯
朴素贝叶斯
1. 朴素贝叶斯相关的统 计学知识 2. 朴素贝叶斯的模型 3. 朴素贝叶斯的推断过 程 4. 朴素贝叶斯的参数估 计
1. 朴素贝叶斯相关的统计学知识
在了解朴素贝叶斯的算法之前,我们需要对相关必须的统计学知识做一个回顾。 贝叶斯学派很古老,但是从诞生到一百年前一直不是主流。主流是频率学派。频率 学派的权威皮尔逊和费歇尔都对贝叶斯学派不屑一顾,但是贝叶斯学派硬是凭借在 现代特定领域的出色应用表lt) arg max( P( X X (test) | Y Ck )P(Y Ck ))
接着我们利用朴素贝叶斯的独立性假设,就可以得到通常意义上的朴素
贝叶斯推断公式:
n
C(result) arg max(P(Y Ck )
P( X
(te st ) j
|Y
Ck
)
j 1
4. 朴素贝叶斯的参数估计 • 上一节中,我们知道只要求出P(Y=Ck)和
相关文档
最新文档