贝叶斯统计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
英国学者T.贝叶斯1763年在《论有关机遇问题的求解》中提出一种归纳推理的理论,后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法。贝叶斯的基本观点:1.认为未知参数是一个随机变量,而非常量。2.在得到样本以前,用一个先验分布来刻画关于未知参数的信息。3. 贝叶斯的方法是用数据,也就是样本,来调整先验分布,得到一个后验分布。4.任何统计问题都应由后验分布出发。
统计推断中主要有三种信息,一是总体信息,即总体分布或总体所属分布族给我们的信息;二是样本信息,即总体中抽取的样本给我们提供的信息;三是先验信息,即抽样之前有关统计问题的一些信息。贝叶斯学派和经典学派的不同在于对统计推断的三种信息使用的不同,基于前两种信息的统计推断称为经典统计学,它的基本观点是把数据看成是来自具有一定分布的总体,所研究的对象是这个总体而不局限于数据本身。基于以上三种信息进行的统计推断被称为贝叶斯统计学。它与经典统计学的主要差别在于是否利用先验信息,在使用样本信息上也是有差异的。
贝叶斯学派的最基本的观点是:任何一个未知量θ都可看作一个随机变量,应用一个概率分布去描述对θ的未知状况。这个概率分布是在抽样前就有的关于θ的先验信息的概率陈述。因为任一未知量都有不确定性,而在表述不确定性程度时,概率与概率分布是最好的语言。这个概率分布就被称为先验分布。贝叶斯学派认为先验分布不必有客观的依据,它可以部分地或完全地基于主观信念。这个是经典学
派与贝叶斯学派争论的一个焦点,经典学派认为经典统计学是用大量重复试验的频率来确定概率、是“客观”的,因此符合科学的要求,而认为贝叶斯统计是“主观的”,因而只对个人做决策有用。这是当前对贝叶斯统计的主要批评。贝叶斯学派认为引入主观概率及由此确定的先验分布至少把概率与统计的研究与应用范围扩大到了不能大量重复的随机现象中来。其次,主观概率的确定不是随意的,而是要求当事人对所考察的事件有较透彻的了解和丰富的经验,甚至是这一行的专家,在这个基础上确定的主观概率就能符合实际。
若仅仅研究先验分布贝叶斯统计也就没大意思了,与先验分布对应的还有后验分布。我们先来看一下后验分布的定义,在样本x 给定下θ的条件分布被称为θ的后验分布。我们分析一下这句话,首先可以明白后验分布是一个条件分布,怎样的条件分布呢,在样本x 给定的条件下的条件分布,看来仍然是需要样本,在贝叶斯统计中的样本又是什么样子的呢?从贝叶斯观点看,样本),(1n x x x =的产生主要分两步。首先设想从先验分布()θπ产生一个样本θ',这一步是“老天爷”做的,人们是看不见得,故用“设想”二字。第二步是从总体分布()θ'x p 产生一个样本),(1n x x x =,这个样本是具体的,人们能看的到的,此时样本x 发生的概率与如下联合密度函数成正比
()()θθ'∏='=i n i x p x p 1
这个联合密度函数综合了总体信息与样本信息,常被称为似然函数,及为()θ'L .由于θ'是设想出来的,他仍然是未知的,它是按先验分布()θπ而产生的,要把先验分布进行综合,不能只考虑θ',而应对
θ
的所有可能加以考虑。这样一来就有了样本x 与参数θ的联合分布
()()()θπθθx p x h =,
把先验信息,总体信息,样本信息都综合进去了。
我们在是件形式初等概率中已经学过贝叶斯公式的事件形式
()()()()()()()
∑===n i i i i i i i B P B A P B P B A P A P AB P A B P 1
根据贝叶斯公式我们也可把()θ,x h 做如下分解
()()()x g x x h θπθ=,
这里()x g 是x 的边缘分布函数,与θ无关,不含有θ的任何信息。 在θ是离散型随机变量时,()()()θπθθ
∑=x q x g ;
在是连续型随机变量时,()()()θθπθd x q x g ⎰+∞∞-=;
这样我们就可以得到条件分布
()()()()()()x g x q x g x h x θπθθθπ==
,
()x θπ就是给定样本x 下,θ的条件分布了,也即θ的后验分布。 一般说来,先验分布是反映人们在抽样前对θ的认识,后验分布()x θπ是反映人们在抽样后对θ的认识。之间的差异是由于样本x 出现后人们对θ认识的一种调整。所以后验分布是集中了总体,样本和先验等三种信息中有关θ的一切信息后的结果。
为了更好的理解后验分布我们来看一个例子
例1:为提高某产品的质量,公司经理考虑增加投资来改进生产设备,预计需投资90万元,但从投资效果上看下属两个部门有两种意见:
1θ:改进生产设备后,高质量产品可占90%
2θ:改进生产设备后,高质量产品可占70%
经理当然希望1θ发生,但根据两部门过去意见被采纳的情况,经理认为40%第一个部门是可信度的,60%第二个部门是可信度,即随机变量投资结果过θ 的先验分布列为:()%401=θπ;()%602=θπ
这是经理的主管意见,经理不想仅用过去的经验来决策此事,想慎重一些,通过小规模实验,观察其结果后再定。为此做了一项实验,实验结果(记为A )如下:
A :试制五个产品,全是高质量产品。
经理很高兴,希望通过这次结果来修正他原来对1θ和2θ的看法。下面我们分别来求一下1θ和2θ的后验概率。
如今已有了()1θπ和()2θπ.还需要条件概率()1θA P 和()2θA P ,这可根据二项分布算的,
()590.09.051==θA P ;()168.07.052==θA P
由全概率公式可算的()()()()()337.02211=+=θπθθπθA P A P A P
最后由后验分布公式可求得:()()()()7.0337.0/236.0/111===A P A P A θπθθπ