浅谈贝叶斯公式的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅谈贝叶斯公式的应用
北京科技大学数理学院 数学 1002
摘 要:介绍贝叶斯公式字实际生活中的一些实例及分析,根据这些实例及分析使同学们对 贝叶斯公式有更深的了解。从而加强同学们对贝叶斯公式的印象,增加学习中的趣味性。使 同学们了解到数学知识在实际生活中是非常重要的。从而使之对数学学习更加投入。 关键词:贝叶斯公式,应用,案例,分析 在课本中讲到的全概率公式与贝叶斯公式的知识点是比较浅显的, 不是那么深入。 而且 在这一部分, 有很多同学对全概率公式与贝叶斯公式的理解不是很到位。 所以具体解析贝叶 斯公式的运用是有必要的。贝叶斯公式的应用领域比较广泛,对初学者来说,此文介绍的各 种实例都是简明易懂的。 一、公式介绍 贝叶斯算法是著名数学家托马斯。贝叶斯(Thomas Bayes) (1702—1761)命名的一种 基于概率分析可能性推理理论,通过分析过去事件的只是,来预测未来的事件。 1、 全概率公式 [1] 定理 1 设试验 E 的样本空间为 S,A 为 E 的事件,B1, B2,„,Bn 为 S 的一个划分, 且P(Bi) > 0, i = 1,2,3 … ,n,则
P( A | B)
P( A) P( B | A) 0.001 0.95 0.018664 P( A) P( B | A) P( A) P( B | A) 0.001 0.95 0.999 0.05
同理, “被检验出的正品中实际正品率”为: P( A | B) 0.999947 由 P( A | B) = 0.018664 可知,如果产品的成本较高,厂长就不能采用这台新仪器,因 为被仪器判为次品的产品中实际上有 98%以上的是正品,这样导致损耗过高。同时,我们也 注意到该仪器对正品的检验还是相当精确的,若检验对产品没有破坏作用,倒是可以在“被 认定次品”的产品中反复检验,挑出“假次品” ,这就降低了损耗,又保证了正品具有较高 的可信度。
P( B | A)
P( B) P( A | B) 0.001 0.05 0.00006 0.98906 P( A)
因此,通过这项检测 , 检查呈阴性的人大可放宽心 , 他患有艾滋病的概率已从千分之一 降低到十万分之六. 3、 实际比赛[2] 例 5: 某射击小组共有 20 名射手, 其中一级射手 4 人, 二级射手 8 人, 三级射手 8 人, 一、二、三级射手能通过选拔进入比赛的概率分别是 0.9、 0.7、 0.4. 求任选一名射手能通 3
P(B|A) =
0.001 0.95 0.087 0.01094
也就是说,被检测患有艾滋病而此人确实患有该病的概率大约为 0. 087.这个结果使人难 以接受,好像与实际不符.从资料显示来看 ,这种检测的精确性似乎很高 . 因此,一般人可能猜 测, 如果一个人检测为阳性,他患有艾滋病的可能性很大,估计应在 90%左右, 然而计算结果 却仅为 8. 7%. 如果通过这项计划,势必给申请登记的新婚夫妇带来不必要的恐慌.因为约有 91. 3%的人并没有患艾滋病. 为什么会出现与直觉如此相悖的结果呢? 这是因为人们忽略了一些基础信息,就是患有 艾滋病的概率很低,仅为千分之一.因此,在检测出呈阳性的人中大部分是没有患艾滋病的 .具 体的说, 若从该地随机抽取 1000 个居民, 则根据经验概率的含义, 这 1000 个居民中大约有 1 人患有艾滋病, 999 人未换艾滋病.检查后,大约有 1×0. 95﹢999×0. 01= 10. 94 个人检查 为阳性,而在这个群体中真正患有艾滋病却仅有 1 人.因此有必要进行进一步的检测. 但是,我们也应该注意到,这项检测还是为我们提供了一些新的信息. 计算结果表明,一个 检测结果 呈阳性的人患有艾滋病的概率从最初的 0. 001 增加到了 0. 087,这是原来患有艾滋病概 率的 87 倍. 进一步的计算, 我们得到一个检查呈阴性而患有艾滋病的概率为
P (B) = P(A1)P(B|A1) + P(A2) P( B | A2 ) + P( A3 ) P(B | A3) = 4 8 8 × 0.9 + × 0.7
+ × 0.4 20 20 20 =62% 即任选一名选手能通过选拔进入比赛的概率为 62%.这个数比 0.9、 0.7 都小, 但比 0.4 大,就是因为三种可能性都考虑到了. 4、 说谎了吗?[3] 测谎仪是用来检测一个人是否说谎的仪器,经常用于征兵、安全部门的筛查、侦破、诉 讼等领域. 定义事件 T = 检测为一个人在说谎, L = 一个人真正在说谎。 根据经验, P(T|L) = 0. 88 ,
P( L | T ) = 0. 86 ,这个概率还是可以接受的.
5、 诉讼[3] 例 7:1981 年 3 月 30 日,一个大学退学学生欣克利( John H inckley Jr. )企图对里根总统 行刺. 他打伤了里根、里根的新闻秘书以及两个保安.在 1982 年宣判他时, 欣克利的辩护律 师以精神病为理由作为其无罪的辩护.作证的医师告诉法院当给被诊断为精神分裂症的人以 CAT 扫描时,扫描显示 30%的案例为脑萎缩,而给正常人以 CAT 扫描时,只有 2%的扫描显示 脑萎缩.欣克利的辩护律师试图拿欣克利的 CAT 扫描结果为证据,争辩说因为欣克利的扫描 显示了脑萎缩, 他极有可能患有精神病, 从而应免受到法院的起诉. 用贝叶斯方法对欣克利是否患有精神病作出判断.一般地,在美国精神分裂症的发病率大 4
过选拔进入比赛的概率? 分析:问题实质上涉及到两个部分: 第一, 选出的射手不知道是哪个级别的, 由全概率公式知, 都应该考虑到, 才为全面. 第二, 某个级别的射手能通过选拔进入比赛的概率这是已知道的, 记为: Ai =“选出的 i 级射手” ,i = 1, 2,3 , 则 A1 , A2 , A3 构成一个完备事件组, 有: A1 U A2 U A3 = 1 , 且 Ai Aj = ? , i ≠ j , i、j = 1, 2,3 由题意: P ( A1 ) = 8 4 , P ( A2 ) = , P ( A3 ) = 8 20 20 20 B = “选出的射手能通过选拔进入比 赛” ,要求: P ( B ) = ? 则:
wk.baidu.com
P (B) = 0. 001, P( A | B) = 0. 95, P(B) = 1- 0. 001= 0. 999, P( B | A) = 1- 0. 99= 0. 01.
由( 4)得
P( A) = 0. 001× 0. 95+ 0. 999 ×0. 01= 0. 01094.
根据公式( 3) ,得到
P( L | T )
P( L) P(T | L) 0.01 0.88 0.06 P(T ) 0.1474
从计算结果来看, 94%的检测都是错误的.如果测谎试验导致被检测者逮捕或被指控 ,后 果该有多么严重! 这也显示了在一般人群中使用这种筛查的危险性 .如果检验用在嫌疑犯身 上 , 危险性将大大降低 . 一般嫌疑犯说谎的概率都很高 , 假设 P(T ) = 0. 5 , 这时我们得到
P(i | A)=
P(Bi)P(|i )
P(Bj )P(|j )
j 1
n
, i =1,2,„n
贝叶斯公式是专门用于计算机后验概率的,也是通过事件 A 发生这个信息,来对 Bi 的 概率做出修正。 (贝叶斯方法) 二、贝叶斯公式的应用
1、工业产品检查
[2]
例 1、某厂生产的产品次品率为 0.1%,但是没有适当的仪器进行检验,有人声称发明 一种仪器可以用来检验,误判的概率仅为 5%. 试问厂长能否采用该人所发明的仪器? 分析:“5% 的误判率”给检验带来怎样的可信度,这是厂长决策的依据,即弄清“被检验 出的正(或次)品中实际正(或次)品率”。 1
P(A )P(B|A )
i i
P(B) = P( A) P( B | A) P( A) P( B | A) = p × 0.08 +(1-p)0.08
=0.08 所以, P (B) = P(B|A) = P (B |A) = 0.08 ,事件 A 与事件 B 相互独立. 经过以上分析得出结论:耳聋与色盲无关. 例 3:某地居民肝癌病发率为 0.0004,用甲胎蛋白质法检查肝癌:患病则呈阳性,未患 病则呈阴性。假阴性和假阳性的概率分别是 0.01 和 0.05。 试问,某人经检验结果呈阳性,他患肝癌的概率有多大? 解:设事件 A 表示“患有肝癌” ,事件 B 表示“检验结果呈阳性” , 由题意知 P( A) = 0.0004, P( A) = 0.9996, P( B | A) = 0.01, P( B | A) = 0.05, 由贝叶斯 公式可知“他确实患有肝癌的概率”为:
2、 医疗诊断
[2]
贝叶斯公式在疾病诊断方面的应用很多,下面我们就通过几个案例对其进行说明。 例 2:据调查,在 50 个耳聋人中有 4 人色盲,在 9950 个非耳聋人中有 796 人色 盲,分析两种疾病是否相关。 分析:设事件 A 为耳聋人,事件 B 为色盲人, P( A) = p , 则 P( A) = 1-p 依题意可得, P(B|A) = 4 50 0.08, P(B) 4 50 0.08, P(B|A) =796 9950= 0.08
P(T|L) = 0. 86 . 看起来,测谎仪比较精确.
例 6: 假设在一次试验中, 检测出被测对象在说谎. 按照上面所给资料,也许很多人都认 为这个人说谎的概率会很高 , 也许在 0.87 左右. 然而, 在安全部门的招募筛查中, 大多数 人都是诚实的, 假设 P(T ) = 0. 01 ,
P(T ) P( L) P(T | L) P( L) P(T | L) 0. 01 ×0. 88+ 0. 99× 0. 14= 0. 1474 .
P( B) P( A) P( B | A) P( A) P( B | A) 0.05394
P( B | A)
P( AB) P( A)
P( A B ) P ( B| A ) P ( A )
P( A | B)
P( AB) 0.007341 P( B)
2
显然,这使他大吃一惊,患有肝癌的可能不到 0.01.仔细一想,也是可以理解的。因为 1000 人中约有 4 人患有肝癌,9996 人不患肝癌,这 1000 人的检验中约有 504 人的结果 呈阳性,其中约 500 人都是“虚惊一场”。因此,减少“虚报”是提高诊断的关键所在。实际 上可先由医生使用简单易行的方法进行查对,再对有可疑之人进行“甲胎蛋白质检查”。 例 4:资料显示, 某项艾滋病血液检测的灵敏度(即真有病的人检查为阳性)为 95%, 而 对没有得病的人这种检测的准确率( 即没有病的人检查为阴性) 为 99%. 美国是一个艾滋病 比较流行的国家, 估计大约有千分之一的人患有这种病. 为了能有效地控制、 减缓艾滋病的 传播,几年前有人建议对申请新婚登记的新婚夫妇进行这种血液检查 .该计划提出后,征询专 家意见,遭到专家的强烈反对,计划没有被通过. 用贝叶斯公式分析专家为何反对通过这项计划. 设 A = {检查为阳性} , B = {一个人患有艾滋病} .根据文中叙述可知,
解:设事件 A 表示“客观的次品”,事件 B 表示“经检验判为次品的产品” , ̅ ) = 0.999 ,P ( B | A) = 0.95 , P ( B | A ̅ ) = 0.05 . 由题意知:P ( A) = 0.001 , P ( A 由贝叶斯公式可计算“被检验出的次品中实际次品率”为:
n
P(A)=P(B1 )P(A|B1 )+P(B2 )P(A|B2 )+
2、贝叶斯公式
+P(Bn )P(A|Bn )= P(Bi )P(A|Bi )
(i=1)
n
定理 2 若 B1,B2,„,Bn 为 S 的一个划分,且
i 1
Bi S , P( Bi) 0, i 1, 2,…n,则
对任一事件 A,有
北京科技大学数理学院 数学 1002
摘 要:介绍贝叶斯公式字实际生活中的一些实例及分析,根据这些实例及分析使同学们对 贝叶斯公式有更深的了解。从而加强同学们对贝叶斯公式的印象,增加学习中的趣味性。使 同学们了解到数学知识在实际生活中是非常重要的。从而使之对数学学习更加投入。 关键词:贝叶斯公式,应用,案例,分析 在课本中讲到的全概率公式与贝叶斯公式的知识点是比较浅显的, 不是那么深入。 而且 在这一部分, 有很多同学对全概率公式与贝叶斯公式的理解不是很到位。 所以具体解析贝叶 斯公式的运用是有必要的。贝叶斯公式的应用领域比较广泛,对初学者来说,此文介绍的各 种实例都是简明易懂的。 一、公式介绍 贝叶斯算法是著名数学家托马斯。贝叶斯(Thomas Bayes) (1702—1761)命名的一种 基于概率分析可能性推理理论,通过分析过去事件的只是,来预测未来的事件。 1、 全概率公式 [1] 定理 1 设试验 E 的样本空间为 S,A 为 E 的事件,B1, B2,„,Bn 为 S 的一个划分, 且P(Bi) > 0, i = 1,2,3 … ,n,则
P( A | B)
P( A) P( B | A) 0.001 0.95 0.018664 P( A) P( B | A) P( A) P( B | A) 0.001 0.95 0.999 0.05
同理, “被检验出的正品中实际正品率”为: P( A | B) 0.999947 由 P( A | B) = 0.018664 可知,如果产品的成本较高,厂长就不能采用这台新仪器,因 为被仪器判为次品的产品中实际上有 98%以上的是正品,这样导致损耗过高。同时,我们也 注意到该仪器对正品的检验还是相当精确的,若检验对产品没有破坏作用,倒是可以在“被 认定次品”的产品中反复检验,挑出“假次品” ,这就降低了损耗,又保证了正品具有较高 的可信度。
P( B | A)
P( B) P( A | B) 0.001 0.05 0.00006 0.98906 P( A)
因此,通过这项检测 , 检查呈阴性的人大可放宽心 , 他患有艾滋病的概率已从千分之一 降低到十万分之六. 3、 实际比赛[2] 例 5: 某射击小组共有 20 名射手, 其中一级射手 4 人, 二级射手 8 人, 三级射手 8 人, 一、二、三级射手能通过选拔进入比赛的概率分别是 0.9、 0.7、 0.4. 求任选一名射手能通 3
P(B|A) =
0.001 0.95 0.087 0.01094
也就是说,被检测患有艾滋病而此人确实患有该病的概率大约为 0. 087.这个结果使人难 以接受,好像与实际不符.从资料显示来看 ,这种检测的精确性似乎很高 . 因此,一般人可能猜 测, 如果一个人检测为阳性,他患有艾滋病的可能性很大,估计应在 90%左右, 然而计算结果 却仅为 8. 7%. 如果通过这项计划,势必给申请登记的新婚夫妇带来不必要的恐慌.因为约有 91. 3%的人并没有患艾滋病. 为什么会出现与直觉如此相悖的结果呢? 这是因为人们忽略了一些基础信息,就是患有 艾滋病的概率很低,仅为千分之一.因此,在检测出呈阳性的人中大部分是没有患艾滋病的 .具 体的说, 若从该地随机抽取 1000 个居民, 则根据经验概率的含义, 这 1000 个居民中大约有 1 人患有艾滋病, 999 人未换艾滋病.检查后,大约有 1×0. 95﹢999×0. 01= 10. 94 个人检查 为阳性,而在这个群体中真正患有艾滋病却仅有 1 人.因此有必要进行进一步的检测. 但是,我们也应该注意到,这项检测还是为我们提供了一些新的信息. 计算结果表明,一个 检测结果 呈阳性的人患有艾滋病的概率从最初的 0. 001 增加到了 0. 087,这是原来患有艾滋病概 率的 87 倍. 进一步的计算, 我们得到一个检查呈阴性而患有艾滋病的概率为
P (B) = P(A1)P(B|A1) + P(A2) P( B | A2 ) + P( A3 ) P(B | A3) = 4 8 8 × 0.9 + × 0.7
+ × 0.4 20 20 20 =62% 即任选一名选手能通过选拔进入比赛的概率为 62%.这个数比 0.9、 0.7 都小, 但比 0.4 大,就是因为三种可能性都考虑到了. 4、 说谎了吗?[3] 测谎仪是用来检测一个人是否说谎的仪器,经常用于征兵、安全部门的筛查、侦破、诉 讼等领域. 定义事件 T = 检测为一个人在说谎, L = 一个人真正在说谎。 根据经验, P(T|L) = 0. 88 ,
P( L | T ) = 0. 86 ,这个概率还是可以接受的.
5、 诉讼[3] 例 7:1981 年 3 月 30 日,一个大学退学学生欣克利( John H inckley Jr. )企图对里根总统 行刺. 他打伤了里根、里根的新闻秘书以及两个保安.在 1982 年宣判他时, 欣克利的辩护律 师以精神病为理由作为其无罪的辩护.作证的医师告诉法院当给被诊断为精神分裂症的人以 CAT 扫描时,扫描显示 30%的案例为脑萎缩,而给正常人以 CAT 扫描时,只有 2%的扫描显示 脑萎缩.欣克利的辩护律师试图拿欣克利的 CAT 扫描结果为证据,争辩说因为欣克利的扫描 显示了脑萎缩, 他极有可能患有精神病, 从而应免受到法院的起诉. 用贝叶斯方法对欣克利是否患有精神病作出判断.一般地,在美国精神分裂症的发病率大 4
过选拔进入比赛的概率? 分析:问题实质上涉及到两个部分: 第一, 选出的射手不知道是哪个级别的, 由全概率公式知, 都应该考虑到, 才为全面. 第二, 某个级别的射手能通过选拔进入比赛的概率这是已知道的, 记为: Ai =“选出的 i 级射手” ,i = 1, 2,3 , 则 A1 , A2 , A3 构成一个完备事件组, 有: A1 U A2 U A3 = 1 , 且 Ai Aj = ? , i ≠ j , i、j = 1, 2,3 由题意: P ( A1 ) = 8 4 , P ( A2 ) = , P ( A3 ) = 8 20 20 20 B = “选出的射手能通过选拔进入比 赛” ,要求: P ( B ) = ? 则:
wk.baidu.com
P (B) = 0. 001, P( A | B) = 0. 95, P(B) = 1- 0. 001= 0. 999, P( B | A) = 1- 0. 99= 0. 01.
由( 4)得
P( A) = 0. 001× 0. 95+ 0. 999 ×0. 01= 0. 01094.
根据公式( 3) ,得到
P( L | T )
P( L) P(T | L) 0.01 0.88 0.06 P(T ) 0.1474
从计算结果来看, 94%的检测都是错误的.如果测谎试验导致被检测者逮捕或被指控 ,后 果该有多么严重! 这也显示了在一般人群中使用这种筛查的危险性 .如果检验用在嫌疑犯身 上 , 危险性将大大降低 . 一般嫌疑犯说谎的概率都很高 , 假设 P(T ) = 0. 5 , 这时我们得到
P(i | A)=
P(Bi)P(|i )
P(Bj )P(|j )
j 1
n
, i =1,2,„n
贝叶斯公式是专门用于计算机后验概率的,也是通过事件 A 发生这个信息,来对 Bi 的 概率做出修正。 (贝叶斯方法) 二、贝叶斯公式的应用
1、工业产品检查
[2]
例 1、某厂生产的产品次品率为 0.1%,但是没有适当的仪器进行检验,有人声称发明 一种仪器可以用来检验,误判的概率仅为 5%. 试问厂长能否采用该人所发明的仪器? 分析:“5% 的误判率”给检验带来怎样的可信度,这是厂长决策的依据,即弄清“被检验 出的正(或次)品中实际正(或次)品率”。 1
P(A )P(B|A )
i i
P(B) = P( A) P( B | A) P( A) P( B | A) = p × 0.08 +(1-p)0.08
=0.08 所以, P (B) = P(B|A) = P (B |A) = 0.08 ,事件 A 与事件 B 相互独立. 经过以上分析得出结论:耳聋与色盲无关. 例 3:某地居民肝癌病发率为 0.0004,用甲胎蛋白质法检查肝癌:患病则呈阳性,未患 病则呈阴性。假阴性和假阳性的概率分别是 0.01 和 0.05。 试问,某人经检验结果呈阳性,他患肝癌的概率有多大? 解:设事件 A 表示“患有肝癌” ,事件 B 表示“检验结果呈阳性” , 由题意知 P( A) = 0.0004, P( A) = 0.9996, P( B | A) = 0.01, P( B | A) = 0.05, 由贝叶斯 公式可知“他确实患有肝癌的概率”为:
2、 医疗诊断
[2]
贝叶斯公式在疾病诊断方面的应用很多,下面我们就通过几个案例对其进行说明。 例 2:据调查,在 50 个耳聋人中有 4 人色盲,在 9950 个非耳聋人中有 796 人色 盲,分析两种疾病是否相关。 分析:设事件 A 为耳聋人,事件 B 为色盲人, P( A) = p , 则 P( A) = 1-p 依题意可得, P(B|A) = 4 50 0.08, P(B) 4 50 0.08, P(B|A) =796 9950= 0.08
P(T|L) = 0. 86 . 看起来,测谎仪比较精确.
例 6: 假设在一次试验中, 检测出被测对象在说谎. 按照上面所给资料,也许很多人都认 为这个人说谎的概率会很高 , 也许在 0.87 左右. 然而, 在安全部门的招募筛查中, 大多数 人都是诚实的, 假设 P(T ) = 0. 01 ,
P(T ) P( L) P(T | L) P( L) P(T | L) 0. 01 ×0. 88+ 0. 99× 0. 14= 0. 1474 .
P( B) P( A) P( B | A) P( A) P( B | A) 0.05394
P( B | A)
P( AB) P( A)
P( A B ) P ( B| A ) P ( A )
P( A | B)
P( AB) 0.007341 P( B)
2
显然,这使他大吃一惊,患有肝癌的可能不到 0.01.仔细一想,也是可以理解的。因为 1000 人中约有 4 人患有肝癌,9996 人不患肝癌,这 1000 人的检验中约有 504 人的结果 呈阳性,其中约 500 人都是“虚惊一场”。因此,减少“虚报”是提高诊断的关键所在。实际 上可先由医生使用简单易行的方法进行查对,再对有可疑之人进行“甲胎蛋白质检查”。 例 4:资料显示, 某项艾滋病血液检测的灵敏度(即真有病的人检查为阳性)为 95%, 而 对没有得病的人这种检测的准确率( 即没有病的人检查为阴性) 为 99%. 美国是一个艾滋病 比较流行的国家, 估计大约有千分之一的人患有这种病. 为了能有效地控制、 减缓艾滋病的 传播,几年前有人建议对申请新婚登记的新婚夫妇进行这种血液检查 .该计划提出后,征询专 家意见,遭到专家的强烈反对,计划没有被通过. 用贝叶斯公式分析专家为何反对通过这项计划. 设 A = {检查为阳性} , B = {一个人患有艾滋病} .根据文中叙述可知,
解:设事件 A 表示“客观的次品”,事件 B 表示“经检验判为次品的产品” , ̅ ) = 0.999 ,P ( B | A) = 0.95 , P ( B | A ̅ ) = 0.05 . 由题意知:P ( A) = 0.001 , P ( A 由贝叶斯公式可计算“被检验出的次品中实际次品率”为:
n
P(A)=P(B1 )P(A|B1 )+P(B2 )P(A|B2 )+
2、贝叶斯公式
+P(Bn )P(A|Bn )= P(Bi )P(A|Bi )
(i=1)
n
定理 2 若 B1,B2,„,Bn 为 S 的一个划分,且
i 1
Bi S , P( Bi) 0, i 1, 2,…n,则
对任一事件 A,有