贝叶斯推理(1).

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

贝叶斯推理的缺点: 1、需要先验概率和似然函数 2、要求各个假设事件互斥 3、当多个假设事件和各事件条件相关时,计算复 杂 • 4、不能处理不确定性问题
p( EH ) p( E | H ) p( H )
的概率。
( 1)
我们称 p( E | H ) 为 在发生事件H的条件下事件E
2.乘法公式
将(1)式改写成如下形式:
p( EH ) p( E | H ) P( H )
( 2)
我们将此公式称为概率的乘法公式。
3.全概率公式
假设事件 H1 , H 2 ,, H n 的并集是整个样本空间,即 H1 , H 2 ,, H n 是事件 H的一个划分,则任一事件E可以 表示为与所有假设事件 H j 交集的并集,即:
P( A | B ) P( B )
i 1 i i
4
而: 从而得:
P( A | B4 ) P( B4 ) 0.02 0.35 0.007
0.007 P( B4 | A) 0.222 0.0315
由此可知,第4条流水线应负22.2%的责任。 同理可以计算出,第1,2,3条流水线分别负23.8% 25.4%,28.6%的责任。
3)综合考虑两个哈希表,共有四个TOKEN串: 法 轮 功 律
4)当邮件中出现“法”时,该邮件为垃圾邮件的概率为: P=0.3/(0.3+0.5)=0。375 出现“轮”时: P=0.3/(0.3+0)=1 出现“功“时: P=0.3/(0.3+0)=1 出现“律”时 P=0/(0+0.5)=0;
本章小结
• 贝叶斯推理的优点: • 1、使用贝叶斯推理融合算法与没有进行数据融合 前相比,提高了推理的可信度; • 2、不需要各传感器的概率密度函数,可以用主观 概率代替事件的先验概率; • 3、各传感器给出不同判决结果后,能够推理得到 一个判决结果; • 4、能够用测量结果对先验概率进行更新。
• • • •
在T时间段内 物体的类型
GPR
P GPR (数据 | O j )
因为两传感器产生的信号相互独立,所以 传感器联合报表概率为:
P(数据 | O j ) Pi (数据 | O j )
i
其中,i即为MD和GPR。 最后利用贝叶斯法则来计算物体是第j类 的后验概率:
P(O j | 数据) P(数据 | O j ) P(O j ) P(数据)
5)由此可得第三个哈希表: hashtable_probability 其数据为: 法:0.375 轮:1 功:1 律:0
当新到一封含有“功律”的邮件时,我们可得到 两个TOKEN串: 功 律 查询哈希表hashtable_probability可得 P(垃圾邮件|功)=1 P(垃圾邮件|律)=0 此时该邮件为垃圾邮件的可能性为: P=(0*1)/[0*1+(1-0)*(1-1)]=0 由此可推出该邮件为非垃圾邮件。
二.用来自两个传感器的不同类型的量测 数据提高矿物的检测率
通过融合来自多个传感器的数据可以提高对矿 物的检测率,这些传感器能够响应各独立物理现象 所产生的信号,在这个例子中使用金属检测器和地 下探测雷达这两种传感器就能达到此目的。金属检 测器(MD)能检测出大于1cm且只有几克重的金 属碎片的存在,地下探测雷达(GPR)能利用电磁 波的差异从土壤和其他背景中发现大于10cm的物 体。尽管金属检测器只能简单地区分物体是否含有 金属,但是地下探测雷达却具有物体地分类功能, 因为它能对物体地多个属性有所响应,如尺寸,形 状,物体类型及内部结构等。
j 1 n


( 5)
上式即为全概率公式。
4.贝叶斯法则
在贝叶斯推理中,我们主要关心的是 在给定证据E的情况下,假设事件 H j 发生 的概率,可用如下的数学式子表示:
P( H i | E ) P( EHi ) P( E )
( 6)
将式(2)和式(5)代入式(6)中, 就导出了贝叶斯推理法则:
贝叶斯推理
概述
贝叶斯推理是一种统计融合算法,主要是基于 贝叶斯法则来进行推理的。该方法需要根据观测空 间的先验知识来实现对观测空间里的物体的识别。 在给定证据的条件下,贝叶斯推理能提供一种计算 条件概率即后验概率的方法。
一.贝叶斯法则
1.条件概率
假设在某一条件H发生的条件下,求任意另一事 件E发生的概率,可以用如下公式:
4) 计算每个哈希表中TOKEN串出现的概率 P=(某TOKEN串的字频)/(对应哈希表的长度); 5) 综合考虑hashtable_good和hashtable_bad, 推断出当新来的邮件中出现某个TOKEN串时,该新邮件 为垃圾邮件的概率。数学表达式为: 事件A----邮件为垃圾邮件; t1,t2 ……tn 代表TOKEN串; 则P(A|ti)表示在邮件中出现TOKEN串ti时,该邮件为 垃圾邮件的概率。 设 P1(ti):(ti在hashtable_good中的值) P2(ti):(ti在hashtable_ bad中的值) 则 P(A|ti)= P2(ti)/[(P1(ti)+ P2(ti)];
贝叶斯推理过滤垃圾邮件举例:
例如:一封含有“法轮功”字样的垃圾邮件 A和 一封含有“法律”字样的非垃圾邮件B 1)根据邮件A生成hashtable_bad,该哈希表中的记录为: 法:1次 轮:1次 功:1次 计算得在本表中: 法 出现的概率为0.3 轮 出现的概率为0.3 功 出现的概率为0.3
2)根据邮件B生成hashtable_good,该哈希表中的记录为: 法:1 律:1 计算得在本表中: 法 出现的概率为0.5 律 出现的概率为0.5
再进一步假设:
PMD (1 | O1 ) 0.8 PMD (1 | O2 ) 0.1 PGPR (1 | O1 ) 0.9 PGPR (1 | O2 ) 0.05
用贝叶斯方法来进行数据融合可以其过程如 如下图所示:
在T-1时间段 内物体的类型 MD
PMD (数据| O j )
传感器 联合报表 P(数据 | O j )
可以用贝叶斯推理来计算被测物体是属于哪类 的后验概率。因为这里主要检测矿物,所以简单地 将物体的类别限定为矿物和非矿物。设矿物类为 O1 非矿物类为 O2 。 并假设:
P(O1 ) 0.2 P(O2 ) 0.8
物体为矿物的概率为0.2 物体为非矿物的概率为0.8
并且假设金属检测器和地下探测雷达这两个 传感器所观测到的数据均为: 1:代表矿物 0:代表非矿物
解:
(1)设:
A = {任取一件,恰好抽到不合格品};
Bi ={任取一件,恰好抽到第 i条流水线的产品}
( i = 1,2,3,4); 于是由全概率公式可得:
P( A) P( A | Bi ) P( Bi )
i 1 4
0.15×0.05+ 0.20×0.04+ 0.30×0.03+ 0.35×0.02 = 0.0315= 3.15%。
P( H i ) ——假设事件 H i 发生的先验概率;
P( E | H
j
j
) P( H j ) ——出现证据E的全概率,
即在各假设事件 H i 都可能发生的情况下, 证据E出现的概率和。
贝叶斯公式举例
例:某工厂有 4条流水线生产同一种产品,4 条流水线的产量分别占总产量的 15% ,20% , 30% ,35% ,且这 4条流水线的不合格品率依次 为 0.05,0.04,0.03及 0.02。(1)现在从该厂 产品中任取一件,问恰好抽到不合格品的概率为 多少?(2)若该厂规定,出了不合格品要追究有 关流水线的经济责任。现在在出厂产品中任取一 件,结果为不合格品,但该件产品是哪一条流水 线生产的标志已脱落,问厂方如何处理这件不合 格品比较合理?第 4条流水线应该承担多大责任?
P( H i | E ) P( E | H i ) P( H i ) P( E | H j ) P( H j )

( 7)
j
式中 P( Hi | E) ——在给定证据E的情况下,假设
事件 H i 发生的后验概率;
P( E | Hi ) ——在假设事件 H i 发生的条件下
证据E出现的概率;
1)收集大量的垃圾邮件和非垃圾邮件,建立垃圾邮件 集和非垃圾邮件集; 2) 提取邮件主题和邮件体中的独立字串例如 ABC32, ¥234等作为TOKEN串并统计提取出的TOKEN串出现的 次数即字频。按照上述的方法分别处理垃圾邮件集和 非垃圾邮件集中的所有邮件; 3) 每一个邮件集对应一个哈希表,hashtable_good 对应非垃圾邮件集,而hashtable_bad对应垃圾邮件 集。表中存储TOKEN串到字频的映射关系;
E EH1 EH2 EHn
(3)
因为各 EH j 是互斥的,所以可以把各 EH j 所对应 事件的概率求和:
P( E ) P( EH j )
j 1 n
( 4)
在式(2)中用 H j 代替 H ,并对所有的j求和,
代入式(4)中,有:
P( E ) P( E | H j ) P( H j )
其中: P(数据) P(数据| Oj )P(Oj )
为全概率。
当观测到的数据为(1,1)时,计算可得:
P(1,1| O1 ) PMD (1 | O1 ) PGPR (1 | O1 ) 0.8 0.9 0.72 P(1,1| O2 ) PMD (1 | O2 ) PGPR (1 | O2 ) 0.1 0.05 0.005 0.72 0.2 0.973 0.72 0.2 0.8 0.005 P(O2 |1,1 ) 0.027 P(O1 |1,1 ) P(O1 |1,1 ) P(O2 |1.1 )
所以,根据贝叶斯推理可知,当观测到的 数据为(1,1)时,可以判断该物体类型为矿 物。
当观测到的数据为(1,0)时,计算可得:
P(1, 0 | O1 ) PMD (1 | O1 ) PGPR (0 | O1 ) 0.8 0.1 0.08 P(1, 0 | O2 ) PMD (1 | O2 ) PGPR (0 | O2 ) 0.1 0.95 0.095 0.08 0.2 0.1739 0.08 0.2 0.095 0.8 P(O2 |1, 0 ) 0.Baidu Nhomakorabea261 P(O1 |1,0 ) P(O2 |1, 0 ) P(O1 |1,0 )
P( A | Bi ) 其中,由题意可知, 分别为 0.05,0.04,0.03及 0.02。在实际问题中,这些数据可以从过去生产的产品中统 计出来。
(2) 从贝叶斯推理的角度考虑,可以根据 P( Bi | A) 的大小来追究第i条流水线的经济责任。如对于第 四条流水线,由贝叶斯公式可知:
P( B4 | A) P( A | B4 ) P( B4 )
6) 建立新的哈希表 hashtable_probability存储TOKEN 串ti到P(A|ti)的映射; 7)根据建立的哈希表 hashtable_probability可以估计 一封新到的邮件为垃圾邮件的可能性。 当新到一封邮件时,按照步骤2)生成TOKEN串。 查询hashtable_probability得到该TOKEN 串的键值。 假设由该邮件共得到N个TOKEN串,t1,t2…….tn, hashtable_probability中对应的值为P1,P2,……PN, P(A|t1 ,t2, t3……tn)表示在邮件中同时出现多个TOKEN 串t1,t2……tn时,该邮件为垃圾邮件的概率。 由复合概率公式可得 P(A|t1 ,t2, t3……tn)=(P1*P2*……PN)/ [P1*P2*……PN+(1-P1)*(1-P2)*……(1-PN)] 当P(A|t1 ,t2, t3……tn)超过预定值时,就可以判断 邮件为垃圾邮件。
所以,根据贝叶斯推理可知,当观测到的数据 为(1,0)时,可以判断该物体类型为非矿物。
三.贝叶斯推理在过滤 垃圾邮件中的应用
贝叶斯推理在过滤垃圾邮件中也发挥着 非常重要的作用,下面主要讲解一下贝叶斯过 滤算法的基本步骤,然后再举一个简单的例子 再次加深大家对贝叶斯推理的认识。
贝叶斯推理在处理垃圾邮件过程 中的基本步骤:
相关文档
最新文档