贝叶斯统计简介
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
抛出一枚硬币,硬币落地,现在我不知道结果如何,问是
还是反?
答案有三个:A 正面朝上、B 反面朝上、C 正面朝上反面朝上的概率各占1/2
哪个正确?
经典统计学里面正确答案能是A或者B,只有在贝叶斯统计学里面答案C是才是被允许的
一次实验的结果在经典统计学里面被叫做样本点,是确定的。
那么为什么在贝叶斯统计学里面第三个的答案的说法是正确的呢?关键在于贝叶斯学派关于随机变量的定义:任何一个未知量*都可以看做一个随机变量。
这也是贝叶斯学派最基本的观点,只要是未知的量都可以看做随机变量。
仅仅从这一个简单的例子就已经可以看到经典统计学派与贝叶斯统计学派的争议来了,其实两个学派在一些问题上的争论是相当深刻而激烈的,当然也有相同相通之处,在这里就不便展开详细的讨论了。就我本人还是比较倾向于贝叶斯学派的。
我们在回到上面的问题,看答案C正面朝上反面朝上的概率各占1/2,仔细想想这句话,实际上我们已经给出了未知量(本次实验结果)一个概率分布的描述。要么正面朝上要么反面朝上,概率各占1/2,这个概率分布被叫做先验分布。先验分布是指根据先验信息所给出的随机变量的分布,这里的先验信息是指在抽样之前有关统计问
题的一些信息。那么先验分布与经典统计学里面的概率分布有什么区别呢?在所要满足的条件上,如……是一致的,主要区别在与概率分布得到的途径上。经典统计学里概率及其分布的确定来自大量重复实验,与频率密切相关,由大数定律、中心极限定理这些基本定理做为理论基石而得来。特别强调的是经典统计学的概率分布包含了所有样
,即所有可能的实验结果都要被包含进去。这是与贝叶斯统计学里的先验分布不同的地方,贝叶斯统计学的先验概率分布来自于过去的经验,这里之所以加上”过去的“三个字并且对其强调,是想告诉大家先验分布只考虑已出现的样本点,不是所有的样本点。并且可以由经验而来不必做大量的重复实验。在这一点上克服了经典统计学的一些局限性,使得我们的研究深入到那些不适宜或不能大量重复的随机现象中来。当然这也使先验分布带有的主观性色彩。关于这一点也是一个经典统计学与贝叶斯统计学的一个争议点,有很多深入的问题正在探讨中。在这里我们就不讨论了。
若仅仅研究先验分布贝叶斯估计也就没大意思了,与先验分布对应的还有后验分布。我们先来看一下后验分布的定义,在样本x 给定下θ的条件分布被称为θ的后验分布。我们分析一下这句话,首先可以明白后验分布是一个条件分布,怎样的条件分布呢,在样本x 给定的条件下的条件分布,看来仍然是需要样本,在贝叶斯统计中的样本又是什么样子的呢?从贝叶斯观点看,样本),(1n x x x =的产生主要分两步。首先设想从先验分布()θπ产生一个样本θ',这一步是“老天爷” 做的,人们是看不见得,故用“设想”二字。第二步是从总体分布()θ'x p
产生一个样本),(1n x x x =,这个样本是具体的,人们能看的到的,此时样本x 发生的概率与如下联合密度函数成正比
()()θθ'∏='=i n i x p x p 1
这个联合密度函数综合了总体信息与样本信息,常被称为似然函数,及为()θ'L .由于θ'是设想出来的,他仍然是未知的,它是按先验分布()θπ而产生的,要把先验分布进行综合,不能只考虑θ',而应对θ 的所有可能加以考虑。这样一来就有了样本x 与参数θ的联合分布
()()()θπθθx p x h =,
把先验信息,总体信息,样本信息都综合进去了。
我们在是件形式初等概率中已经学过贝叶斯公式的事件形式
()()()()()()()
∑===n i i i i i i i B P B A P B P B A P A P AB P A B P 1
根据贝叶斯公式我们也可把()θ,x h 做如下分解
()()()x g x x h θπθ=,
这里()x g 是x 的边缘分布函数,与θ无关,不含有θ的任何信息。 在θ是离散型随机变量时,()()()θπθθ∑=x q x g ; 在是连续型随机变量时,()()()θθπθd x q x g ⎰+∞
∞-=;
这样我们就可以得到条件分布()()()()()()x g x q x g x h x θπθθθπ==,
()x θπ就是给定样本x 下,θ的条件分布了,也即θ的后验分布。 可以说后验分布是对先验分布的调整,它是集中了总体,样本和先验等三种信息中有关θ的一切信息后的结果。
为了更好的理解后验分布我们来看一个例子
例1:为提高某产品的质量,公司经理考虑增加投资来改进生产设备,预计需投资90万元,但从投资效果上看下属两个部门有两种意见: 1θ:改进生产设备后,高质量产品可占90%
2θ:改进生产设备后,高质量产品可占70%
经理当然希望1θ发生,但根据两部门过去意见被采纳的情况,经理认
为40%第一个部门是可信度的,60%第二个部门是可信度,即随机变量投资结果过θ 的先验分布列为:()%401=θπ;()%602=θπ 这是经理的主管意见,经理不想仅用过去的经验来决策此事,想慎重一些,通过小规模实验,观察其结果后再定。为此做了一项实验,实验结果(记为A )如下:
A :试制五个产品,全是高质量产品。
经理很高兴,希望通过这次结果来修正他原来对1θ和2θ的看法。下面
我们分别来求一下1θ和2θ的后验概率。
如今已有了()1θπ和()2θπ.还需要条件概率()1θA P 和()2θA P ,这可根据二项分布算的,
()590.09.051==θA P ;()168.07.052==θA P
由全概率公式可算的()()()()()337.02211=+=θπθθπθA P A P A P 最后由后验分布公式可求得:
()()()()7.0337.0/236.0/111===A P A P A θπθθπ
()()()()3.0337.0/01.1.0/222===A P A P A θπθθπ
这表明,纪理根据实验A 的信息调整了自己对投资结果的看法,把对1θ和2θ的信任度由0.4,和0.6分别调整到了0.7和0.3。后者综合了
经理的主观概率和实验结果而获得,要比主观概率更具有吸引力,更贴近当前实际。当然经过实验A 后经理对投资改进质量的兴趣更大了,但如果为了进一步保险起见可以把这次得到的后验分布列再一次作为先验分布在做实验验证,结果将更贴近实际。
从上面这个例子中我们初步体验到了后验的求法,同时也能够看到贝叶斯统计的实用性。贝叶斯统计应用最做的是在决策方面,决策就是对一件事做出决定,它与统计推断的区别在于是否涉及到后果。统计推断依统计理论而进行,很少考虑到推断结果被使用时所带来的利润或造成的损失,这在决策中恰恰是不能忽略的。度量利损得失的尺度就是收益函数与损失函数,把收益函数和损失函数加入到贝叶斯推断就形成了贝叶斯决策论。
在这里首先明确几个概念
状态集{}θ=Θ,其中θ表示自然界(或社会)可能出现的一种状态,所有可能的状态的集合组成状态集。
行动集{}a =A ,其中每一个元素表示人对自然界可能采取的一个行动。
损失函数 ,在一个决策问题中假设状态集为{}θ=Θ,行动集为{}a =A ,定义在A ⨯Θ上的二元函数()a L ,θ称为损失函数,假如它能表