数据挖掘_贝叶斯定理(第三章) (1)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X1=(<30, 高, N, 一般,N);


X2=(<30, 高, N, 很好,N); X3=(30~40, 高, N, 一般,Y); X4=(>40, 中, N, 一般,Y); X5=(>40,低, Y, 一般,Y); X6=(>40, 低, Y, 很好,N); X7=(30~40,低, Y,很好,Y); X8=(<30, 中,N, 一般,N); X9=(<30,低, Y,一般,Y); X10=(>40,中, Y,一般,Y); X11=(<30,中,Y,很好,Y); X12=(30~40,中,N,很好,Y); X13=(30~40,高,Y, 一般,Y); X14= (>40,中,N,很好,N); 利用贝叶斯法则预测,符合下列条件的人员购买计算机的可能 性 X=(年龄<30,收入=中,学生否=Y,信用=一般)
表2-1身高分wenku.baidu.com样本数据
Gender F M F F F M F M M M F M F F F Height 1.6m 2m 1.9m 1.88m 1.7m 1.85m 1.6m 1.7m 2.2m 2.1m 1.8m 1.95m 1.9m 1.8m 1.75m Output1 Short Tall Medium Medium Short Medium Short Short Tall Tall Medium Medium Medium Medium Medium Output2 Medium Medium Tall Tall Medium Medium Medium Medium Tall Tall Medium Medium Tall Medium Medium
本例只有两个类别,即C1={购买计算机},C2={不购买计
算机},P(Ci)为每个事件的事前概,P(C1)=9/14=0.643, P (C2)=5/14=0.357,为了计算P(X|Ci)(i=1,2),先进行以下 运算:
P(年龄<30|C1)=2/9, P(收入=中|C1)=4/9, P(学生否=Y|C1)=6/9, P(信用=一般|C1)=6/9,
可以通过贝叶斯定理计算这些概率:
P(Ci X )
[ P( X Ci ) P(Ci )]
P( X )
因为 P( X ) 对所有的类别都是个常量,仅要
求乘积 P( X Ci ).P(Ci ) 的最大值。我们用下面的 式子计算一个类别的先验概率。 P(Ci ) = 类别 Ci 的训练样本数量/m(m是训 练样本的总数). 因为P( X Ci ) 的计算是极其复杂的,特别 是对大量的数据集来说,所以要给出零假设: 样本各属性之间条件独立。利用这个假设, P( X . i ) C 我们用一个乘积来表示 n P( X Ci ) = P( xt Ci ) 其中 xt 是样本X的属性值,
P( X )
现在假定有一组m个元素的样本
S={ S1 , S2 ,..., Sm }(训练数据集),其中每一个 样本代表了一个n维向量{ x1 , x2 ,..., xn }。 i x 值分别和样本属性 A1 , A2 ,..., An 相对应。并且 有k个样本类 C1 , C2 ,..., Ck , 每一个样本属于其中一个类。另外给出一个 数据样本X(它的类是未知的),可以用最 高的条件概率 P(Ci X ) 来预测X的类,这里 i=1,…,k。这是朴素贝叶斯分类的基本思想。


贝叶斯定理为解决归纳-推理分类 问题的统计方法提供了理论背景。我 们首先介绍贝叶斯定理中的基本概念, 然后在运用这个定理说明朴素贝叶斯 分类过程和简单贝叶斯分类。

设X是一个未知类标号的数据样本, 设H为某种假定: 数据样本X属于某特 定的类C。我们希望确定 ,即 P( H X ) 给定观测数据样本X后假定H成立的概 率。它是表示给出数据集X后我们对假 定的信任度的后验概率。相反,不管 数据样本看上去如何,对于任何样本 P( H ) 来说 都是先验概率。后验概率 P( H X ) 比先验概率 基于更多的信息。
因为
P(X|C1)*P(C1)>P(X|C2)*P(C2) 所以根据贝叶斯分类方法可知,数据对象 X属于购买计算机类,即X∈C1
分母相同只需比较分子的大小即可。
应用例2
Name Kristina Jim Maggie Martha Stephanie Bob Kathy Dave Worth Steven Debbie Todd Kim Amy W ynette
Taxable Income Cheat 75K 50K 150K ? ? ? ? ? ?
Yes No No Yes No No Yes No No No
Single Married Single Married
Divorced 95K Married 60K
Divorced 90K Single Married 40K 80K
最后,可得到每个事件的实际概率为: P(矮|t)=0*0.267/0.0832=0
P(中|t)=0.031*0.533/0.0832=0.2
P(高|t)=0.333*0.2/0.0832=0.8 因此基于这些概率,可以将新元组分配到身高为高的类别 中,这是因为它具有最高的概率。 怎样可视化?

表3-2 对应于属性的概率
属性 性别 值 男 女 身高 (0,1.6] 1 3 2 计 数 矮 中 2 6 0 0 3 4 1 0 高 3 0 0 0 0 0 1 2 矮 1/4 3/4 2/4 2/4 0 0 0 0 概 率 中 2/8 6/8 0 0 3/8 4/8 1/8 0 高 3/3 0/3 0 0 0 0 1/3 2/3
(1.6,1.7] 2 (1.7,1.8] 0 (1.8,1.9] 0 (1.9,2.0] 0 (2.0,∞) 0
利用训练数据可以估计出先验概率 P(矮)=4/15=0.267, P(中)=8/15=0.533 , P(高)=3/15=0.2 利用上述数值对一个新元组进行分类。例如,希望对 t=(Adam,男,1.95m)进行分类。由上述数值及对应于性 别和身高的相应概率,可得到下列估计 P(t|矮)=1/4*0=0 P(t|中)=2/8*1/8=0.031 P(t|高)=3/3*1/3=0.333 进而可得 P(t|矮) P(矮)=0*0.267=0 P(中) P(t|中)= 0.031*0.533=0.0166 P(高) P(t|高)= 0.333*0.2=0.0666 由于t 可能为矮、中、高三者之一,所以三个单个的似然 值加起来,即可得到P(t)的估计,即 P(t)=0+0.0166+0.0666=0.0832
P(年龄<30|C2)=3/5 P(收入=中|C2)=2/5 P(学生否=Y|C2)=1/5 P(信用=一般|C2)=2/5


因此 P(X|C1)=(2/9)*(4/9)*(6/9)*(6/9)=0.044 P(X|C2)=(3/5)*(2/5)*(1/5)*(2/5)=0.019 最后计算 P(X|Ci)*P(Ci) (i=1,2) P(X|C1)*P(C1) =0.044*0.643=0.028 P(X|C2)*P(C2)=0.019*0.357=0.007
贝叶斯分类
不难想象,数据并不是总体或系统建 模是唯一可利用的信息资源。 贝叶斯方法提供了一套将外部客观信 息融入数据分析过程中的原理方法。这个 分析过程是先给出一个待分析数据集的概 率分布。因为这个分布是没有考虑任何数 据而给出的,所以称为先验分布。这个新 的数据集将先验分布修正后得到后验分布。 贝叶斯定理就是在知道新的信息后修正数 据集概率分布的基本工具。
Divorced 220K Single Married Single 85K 75K 90K
数据样本是数据挖掘过程的基本组成部分
贝叶斯定理提供了一种由概率 P( H ) 、 ( X ) P
和 P( X H ) 来计算后验概率的方法,其基本关系 是:
[ P( X H )P(H )] P( H X )
t 1
P( xt Ci )
能够通过训练数据集来计算 .
例如:一个销售的顾客数据库(训练样本集合),对购买计算机
的人员进行分类: 字段为(年龄(取值:<30,30~40,>40);收入(高,中,低);学生否 (Y,N);信用(一般,很好);购买计算机否(Y,N)) 记录为14个,具体数据如下:
P( H )
Tid Refund Marital Status 1 2 3 4 5 6 7 8 9 10
10
Taxable Income Cheat 125K 100K 70K 120K No No No No Yes No No Yes No Yes
10
Refund Marital Status No Yes No Yes No No Single Married Married
相关文档
最新文档