贝叶斯定理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

贝叶斯定理 (重定向自后验概率)

贝叶斯定理(Bayes theorem),是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法。

通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。

作为一个规范的原理,贝叶斯定理对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中,概率如何被赋值,有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是,贝叶斯主义者有更多的机会使用贝叶斯定理。本文深度讨论了这些争论。

贝叶斯定理的陈述

贝叶斯定理是关于随机事件A和B的条件概率和边缘概率的一则定理。

其中P(A|B)是在B发生的情况下A发生的可能性。

在贝叶斯定理中,每个名词都有约定俗成的名称:

按这些术语,Bayes定理可表述为:

后验概率= (相似度* 先验概率)/标准化常量

也就是说,后验概率与先验概率和相似度的乘积成正比。

另外,比例P(B|A)/P(B)也有时被称作标准相似度(standardised likelihood),Bayes定理可表述为:

后验概率= 标准相似度* 先验概率

从条件概率推导贝叶斯定理

根据条件概率的定义 . 在事件B发生的条件下事件A发生的概率是

同样地, 在事件A发生的条件下事件B发生的概率

整理与合并这两个方程式, 我们可以找到

这个引理有时称作概率乘法规则.上式两边同除以P(B), 若P(B)是非零的, 我们可以得到贝叶斯定理:

二中择一的形式

贝叶斯定理通常可以再写成下面的形式:

在更一般化的情况,假设{A i}是事件集合里的部份集合,对于任意的A i,贝叶斯定理可用下式表示:

其中

定义为B发生时,A发生的可能性(odds);

则是A发生的可能性。相似率(Likelihood ratio)则定义为:

贝叶斯定理与概率密度

贝叶斯定理亦可用于连续机率分布。由于概率密度函数严格上并非机率,由机率密度函数导出贝叶斯定理观念上较为困难。贝叶斯定理与机率密度的关系是由求极限的方式建立:

全机率定理则有类似的论述:

如同离散的情况,公式中的每项均有名称。f(x, y)是X和Y的联合分布;f(x|y) 是给定Y=y后,X的后验分布;f(y|x) = L(x|y)是Y=y后,X的相似度函数(为x的函数);f(x) 和f(y)则是X和Y 的边际分布;f(x)则是X的先验分布。为了方便起见,这里的f在这些专有名词中代表不同的函数(可以由引数的不同判断之)。

贝叶斯定理的推广

对于变量有二个以上的情况,贝式定理亦成立。例如:

这个式子可以由套用多次二个变量的贝式定理及条件机率的定义导出:

一般化的方法则是利用联合机率去分解待求的条件机率,并对不加以探讨的变量积分(意即对欲探讨的变量计算边缘机率)。取决于不同的分解形式,可以证明某些积分必为1,因此分解形式可被简化。利用这个性质,贝叶斯定理的计算量可能可以大幅下降。贝氏网络为此方法的一个例子,贝氏网络指定数个变量的联合机率分布的分解型式,该机率分布满足下述条件:当其他变量的条件机率给定时,该变量的条件机率为一简单型式。

范例

吸毒者检测

贝叶斯定理在检测吸毒者时很有用。假设一个常规的检测结果的敏感度与可靠度均为99%,也就是说,当被检者吸毒时,每次检测呈阳性(+)的概率为99%。而被检者不吸毒时,每次检测呈阴性(-)的概率为99%。从检测结果的概率来看,检测结果是比较准确的,但是贝叶斯定理确可以揭示一个潜在的问题。假设某公司将对其全体雇员进行一次鸦片吸食情况的检测,已知0.5%的雇员吸毒。我们想知道,每位医学检测呈阳性的雇员吸毒的概率有多高?令“D”为雇员吸毒事件,“N”为雇员不吸毒事件,“+”为检测呈阳性事件。可得

P(D)代表雇员吸毒的概率,不考虑其他情况,该值为0.005。因为公司的预先统计表明该公司的雇员中有0.5%的人吸食毒品,所以这个值就是D的先验概率。

∙P(N)代表雇员不吸毒的概率,显然,该值为0.995,也就是1-P(D)。

∙P(+|D)代表如果吸毒者阳性检出率,这是一个条件概率,由于阳性检测准确性是99%,因此该值为0.99。

∙P(+|N)代表不吸毒者阳性检出率,也就是出错检测的概率,该值为0.01,因为对于不吸毒者,其检测为阴性的概率为99%, 因此,其被误检测成阳性的概率为1-99%。

∙P(+)代表不考虑其他因素的影响的阳性检出率。该值为0.0149 或者1.49%。我们可以通过全概率公式计算得到:此概率= 吸毒者阳性检出率(0.5% x 99% = 0.495%)+ 不吸毒者阳性检出率

(99.5% x 1% = 0.995%)。P(+)=0.0149 是检测呈阳性的先验概

率。用数学公式描述为:

根据上述描述,我们可以计算某人检测呈阳性时确实吸毒的条件概率P(D|+):

尽管我们的检测结果可靠性很高,但是只能得出如下结论:如果某人检测呈阳性,那么此人是吸毒的概率只有大约33%,也就是说此人不吸毒的可能性比较大。我们测试的条件(本例中指D,雇员吸毒)越难发生,误判的可能性越大。

References

Versions of the essay

∙Thomas Bayes (1763), "An Essay towards solving a Problem in the Doctrine of Chances. By the late Rev. Mr. Bayes, F. R. S.

communicated by Mr. Price, in a letter to John Canton, A. M. F. R.

S.", Philosophical Transactions, Giving Some Account of the

Present Undertakings, Studies and Labours of the Ingenious in

Many Considerable Parts of the World 53:370–418.

∙Thomas Bayes (1763/1958) "Studies in the History of Probability and Statistics: IX. Thomas Bayes's Essay Towards Solving a

Problem in the Doctrine of Chances", Biometrika 45:296–315.

(Bayes's essay in modernized notation)

∙Thomas Bayes "An essay towards solving a Problem in the Doctrine of Chances". (Bayes's essay in the original notation)

相关文档
最新文档