贝叶斯公式的经验之谈
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
贝叶斯公式的经验之谈
一、综述
在日常生活中,我们会遇到许多由因求果的问题,也会遇到许多由果溯因的问题。比如某种传染疾病已经出现.寻找传染源;机械发生了故障,寻找故障源就是典型的南果溯因问题等。在一定条件下,这类由果溯因问题可通过贝叶斯公式来求解。以下从几个的例子来说明贝叶斯公式的应用。
文【1】主要应用贝叶斯公式的简单情形,从“疾病诊断”,“说谎了吗”,“企业资质评判”,“诉讼”四个方面讨论其具体应用。文【2】用市场预测的实例,介绍了贝叶斯公式在市场预测中的应用。贝叶斯市场预测能对信息的价值是否需要采集新的信息做出科学的判断。文【3】、文【4】介绍贝叶斯过滤技术的工作原理及技术原理,讨论了邮件过滤模块,通过分析研究该模块中垃圾邮件关键词的统计概率分布,提出了基于贝叶斯概率模型的邮件过滤算法,并对该算法的合理性和复杂度进行了分析。可以根据垃圾邮件内容的特征,建立贝叶斯概率模型,计算出一封邮件是垃圾邮件的概率,从而判断其是否为垃圾邮件。文【5】基于贝叶斯公式中概率统计的重要性与在日常生活中应用的广泛性,概述了贝叶斯统计的基本思想及其与其他统计学派的争论,并对作为贝叶斯统计基石的贝叶斯公式进行了归纳。
二.内容
1.疾病诊断.
资料显示, 某项艾滋病血液检测的灵敏度( 即真有病的人检查为阳性) 为95%, 而对没有得病的人,种检测的准确率( 即没有病的人检查为阴性) 为99%. 美国是一个艾滋病比较流行的国家, 估计大约有千分之一的人患有这种病. 为了能
有效地控制、减缓艾滋病的传播, 几年前有人建议对申请新婚登记的新婚夫妇进行这种血液检查. 该计划提出后, 征询专家意见, 遭到专家的强烈反对, 计划
没有被通过.
我们用贝叶斯公式分析专家为何反对通过这项计划.
设A= {检查为阳性}, B = { 一个人患有艾滋病}。据文中叙述可知:
()0.001,(|)0.95,()10.0010.999,(|)10.990.01P B P A B P B P A B ===-==-= 由公式: ()()(|)()((|)P A P B P A B P B P A B =+
得: ()0.001*0.950.999*0.010.01094P A =+= 由公式:()(|)(|)()P A P A B P A B P A = 得:0.001*0.95(|)0.0870.01094
P B A =≈ 也就是说, 被检测患有艾滋病而此人确实患有该病的概率大约为0. 087. 这个结果使人难以接受, 好像与实际不符. 从资料显示来看, 这种检测的精确性似乎很高. 因此, 一般人可能猜测, 如果一个人检测为阳性, 他患有艾滋病的可能性很大, 估计应在90% 左右, 然而计算结果却仅为8. 7%. 如果通过这项计 划, 势必给申请登记的新婚夫妇带来不必要的恐慌. 因为约有91. 3%的人并没有患艾滋病. 为什么会出现与直觉如此相悖的结果呢? 这是因为人们忽略了一些基础信息, 就是患有艾滋病的概率很低, 仅为千分之一. 因此, 在检测出呈阳性的人中大部分是没有患艾滋病的. 具体的说, 若从该地随机抽取1000 个 居民, 则根据经验概率的含义, 这1000 居民中大约有1 人患有艾滋病, 999人未换艾滋病. 检查后, 大约有1*0.95999*0.0110.94+=个人检查为阳性, 而在这个群体中真正患有艾滋病却仅有1 人. 因此有必要进行进一步的检测. 但是, 我们也应该注意到, 这项检测还是为我们提供了一些新的信息. 计算结果表明, 一个检测结果呈阳性的人患有艾滋病的概率从最初的0. 001 增加到了0. 087, 这是原来患有艾滋病概率的87倍.
进一步的计算, 我们得到一个检查呈阴性而患有艾滋病的概率为: ()(|)0.001*0.05(|)0.000060.98906()
P B P A B P B A P A ==≈ 因此, 通过这项检测, 检查呈阴性的人大可放宽心, 他患有艾滋病的概率已从千分之一降低到十万分之六。
2. 诉讼.
1981 年3 月30 日, 一个大学退学学生欣克利( John Hinckley Jr. ) 企图对里根总统行刺. 他打伤了里根、里根的新闻秘书以及两个保安. 在1982 年宣判他时, 欣克利的辩护律师以精神病为理由作为其无罪的辩护。 作证的医师告诉法院当给被诊断为精神分裂症的人以CAT 扫描时, 扫描显示30% 的案例为脑萎缩, 而给正常人以CAT 扫描时, 只有2%的扫描显示脑萎缩. 欣克利的辩护律师
试图拿欣克利的CA T 扫描结果为证据, 争辩说因为欣克利的扫描显示了脑萎缩, 他极有可能患有精神病, 从而应免受到法院的起诉。
我们尝试用贝叶斯方法对欣克利是否患有精神病做出判断. 一般地, 在美国精神分裂症的发病率大约为1. 5% :设A = {CAT 扫描显示脑萎缩} ; B = { 做扫描的人患有精神病} . 根据上文的叙述可知,
()0.005,(|)0.3,()10.0150.985,(|)0.02P B P A B P B P A B ===-==
由公式:()()(|)()((|)
P A P B P A B P B P A B
=+
得:()0.005*0.30.985*0.020.0242 P A=+=
由公式:
()(|)
(|)
()
P A P A B
P A B
P A
=得:
0.015*0.05
(|)0.186
0.0242
P B A=≈
这意味着即使欣克利的扫描显示了脑萎缩, 他也只有18. 6%的可能患有精神病, 因此CAT 扫描无法作为其无罪的证据.
3. 贝叶斯公式在市场预测中的应用(修正主观概率).
在定性预测方法中,有一种集合意见法,就是主管人员召集营销人员对预测对象进行座谈讨论,提出方案。在集中意见时,常采用主观概率法加以合成,求出期望值。如甲营销人员对某种商品销售量的估计最高为1000,最可能为800,最低为500,主持预测者将根据他平时对市场行情的了解程度和分析判断能力,给三种估计以可能实现的概率。设过去十次预测中,这位营销人员的预测期望值为: 100*0.3800*0.5500*0.2800
++=
如果我们把每次预测成功置于一定的条件下来考察(见表1),就是贝叶斯公式对原先所给的主观概率予以修正。
表1 甲营销人员预测效果表
表中数字为预测成功的次数,成功的标准可以假定一个区间,如5%
+,实际值落入这个区间即为成功。
在进行这一次新的预测时,已知该商品的货源偏紧,在此信息条件下计算验后概率,先确定检验前概率P(Bi)。即原先给的主观概率:从过去10 次成功的预测中,最高销售量是3 次,最可能销售量是5 次,最低销售量是2 次。从而可推断P(Bi)分别为3/10、5/10、2/10 最为确切。再找条件概率P(A/Bi),这是指以三种预测结果为条件能获信息A 的概率。由表1 可知预测最高销售量成功三次,其中货源偏紧的一次,即有:(/1)1/3
P A B=,预测最可能销售量成功五次,其中
货源偏紧二次,即有:(/2)2/5
P A B=,预测最低销售量成功二次,其中货源偏
紧一次,即有:(/3)1/2
P A B=,最后计算检验后概率