贝叶斯公式浅析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

说起贝叶斯公式,学过概率论的人肯定学过(如果没学过,那就去了解下"条件概率”),一个条件概率的转换公式,如下:

P(A|E)=[ P(E|A)P(A)] / P(E),稍微变形下就是最简单的等式了P(A|E)P(E)= [P(E|A)P(A)

这么一个简单的公式为什么能引起科学上的革命?

这是一个统计学上的公式,但是却被证明是人类唯一能够运用自如的东西。伯克利大学心理学家早在2004年就证明,Bayesian统计法是儿童运用的唯一思考方法,其他方法他们似乎完全不会。

废话不多说,举个例子来说明就很明白了:假设在住所门口看到自己“女朋友or男朋友”(没有的自己找去,这里不负责介绍,还假设她or他在外地)你会产生三种假设(很多人都会这么想):

A1=男朋友or女朋友没告诉你就跑来你的城市

A2=自己看模糊了

A3=那个人跟自己男朋友or女朋友确实长得很像

那么这三种假想哪个更有可能? 更准确地说就是,在“事实”(看到了男朋友or女朋友的情况)那种假设更有可能呢?解释成数学语言就是 P(A1|E), P(A2|E), P(A3|E)。哪个更大些?

于是脑子就开始启动贝叶斯程序, 计算比较这三个的概率到底哪个更大:

因为P(E)对于三个式子来说都是一样的,所以贝叶斯公式可以看成P(A|E)正相关于P(E|A)P(A),先看看P(A)是什么? P(h)在这个公式里描述的是你对某个假想h的可信程度。(不用考虑当前的事实是什么)

P( A1)=男朋友or女朋友没告诉你就跑来你的城市,可能性比较低

P( A2)=自己看模糊了,可能性比较高

P( A3)=那个人跟自己男朋友or女朋友确实长得很像,可能性比较高

P(E|A)表示的就是假想产生对应的这个事实的可能性多大

P(E| A1)=男朋友or女朋友想给你惊喜,来找你的,当然很高的概率出现在你住所门

P(E| A2)=自己看模糊了,对自己男朋友or女朋友非常熟悉,看不清楚的可能性很低 P(E|A3)=那个人跟自己男朋友or女朋友确实长得很像,人很多,相似的也有不少,可能性比较高

然后把P(E|A)和P(A)相乘就得到了自己的判断结果:

P(A1|E) = 低 (没告诉你就跑来的可能性不大,虽然来了很有可能会出现你住所前的路上,当时总体还是很低)

P(A2|E) = 低 (虽然看模糊的可能性很大,但是自己对熟悉人看模糊看错的概率很小,总体上也是很低)

P(A3|E) = 高 (那人跟男朋友or女朋友很像,那么多人长得像也不足为奇,总体概率比较高)

这个过程就判断完毕了,最后给出的结论就是那个人跟自己男朋友or女朋友比较像而已,这就是用贝叶斯函数判断的过程,无非就是在判断假设成立的可能性和假设成立的情况下与眼前事实一样的可能性的综合权衡,看哪种可能性更高。

而这些P(A)和P(E|A)值都都是人们的一种经验积累,不同的人都有可能不一样,比如或高度近视没带眼镜就会觉得自己看模糊的的概率高的多,如果自己男朋友or女朋友有非常显著的特征(姚明、凤姐、华仔、林志玲…………)那么就会把长得像的概率降低很多。这种情况下更相信眼前的就是真的没告诉你就跑来了。现在看来概率问题不只是掷筛子那种纯随机不可左右的了,它无处不在。

总之,贝叶斯是一种统计法,最善于的就是用统计和利用历史经验,来对未知的情况做出推测。这也就是为什么贝叶斯算法在搜索引擎、电子商务、电子地图等电子信息时代的产业有巨大作用的原因,可以用历史数据来分析的出你想搜索什么网页,通过浏览过的商品推测出你想买什么东西,预测你想去哪个地方,在大量数据的积累下会越做越准确。我相信大数据背景下贝叶斯必定会起到决定性的作用。

最后补充说的一个问题就是主观的经验在大多数情况下都是没问题的,但是有些时候会不准确,直觉其实是错误的,这种情况下贝叶斯能够很好的起到纠正作用。

说完了理论再看下实际的应用,下面通过计算来分析一个实际的例子,计算结果与想象的结果

可能出入比较大,谈癌色变不如相信概率。

某地区有一台XX癌检测仪:

这一个地区的XX癌发病率为1%.

已经患XX癌的人里面会有80%会被仪器正确地检测出”某指数”呈阳性.

但有9.6%的正常人也被检测出”某指数”成阳性.

此地区一人去体检,很不幸被检测出了”某指数”呈阳性。如果你做为一个医生,你觉得这个人患XX癌的概率是多少?很多人会第一时间地认为,既然80%的患者能被正确的检测出来,那么这台机器的准确率也就是80%. 那么既然已经被检测出患病,那么她患病的概率应该为80%左右。即使有9.6%的正常人的误检率,那么患病率的也应该不低于70%. (我认为会有绝大多数的医生也是这么认为的,如果我去看病我肯定觉得我完了,我还是听怕死的哈...绝大多数医生这个说法是在网上看来的,大概是85%左右,不一定准确啊,不是在这里黑医生啊,如果有亲戚朋友是医生的就忽略此处哈)

事实真的是想的这样么,下面用贝叶斯来算一下:

P(患病|阳性)=【P(阳性|患病)P(患病)】/P(阳性)

= 【P(阳性|患病)P(患病)】/【P(阳性|患病)P(患病)+P(阳性|无病)P(无病)】

=【80%*1%】/【80%*1%+9.6%*99%】

=7.76%

没错,才7.76%,为什么这么低?我们的直觉为什么出错了? 如果换一种说法,这个问题就不容易产生错觉。

有1000人去体检,有10人真的患病,这10个人里有8个能被检测出阳性。还有剩下的990个正常人里,有95个人也被误检测呈阳性。

现在再问你,有一妇女被检测出了阳性, 那么你觉得这个结果准确的概率是多少? 这时候,你做出判断时就会更加谨慎。你会觉得103个被检测出阳性的人里面,只有8个人真正地得了病,那么这位妇女患病的几率其实并不是太高的。

我们直觉出错的原因在于,我们把先验概率忽略了。虽然只有9.7%的正常人被误检成阳性了,但是正常人的数量是患者数量的90倍有余,那么误检的人就有很多很多。其数量远远大于80%的患者。

所以这件事情再次告诉我们,如果你在制造一台检测仪的话,不仅要提高对患者的检测率,而且也需要提高对正常人的排查率,这样才能使得这台机子的结果让人信服。

再次总而言之,这个部分又告诉了我们一个重要的事实,我们不能对一件事情因果倒置,两件事不能混为一谈。原因产生结果,但是结果往往是不能对原因起直接作用的。表现在这里,就是因果倒置的概率发生了剧烈的变化。

各位大神,小弟在这卖弄了,才疏学浅,不喜勿喷哈!

相关文档
最新文档