贝叶斯统计经典统计区别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
贝叶斯统计与经典统计的区别
摘要:21世纪,贝叶斯统计打破经典统计独树一帜的局面,已经开始应用到各个领域,但是两个学派存在着很多争论。本文从经典统计和贝叶斯统计在基础理论方面是否利用先验信息,在基本性质方面是否把参数当做随机变量、是否重视未出现的样本信息、对概率的理解的不同以及在点估计、区间估计等方面等来分析它们的区别,并比较分析了他们在统计推断中的优缺点。
关键词:贝叶斯统计,经典统计,先验信息,点估计,区间估计,假设检验
一、贝叶斯统计和经典统计基本理论的区别
统计推断所依据的信息不同:
经典统计,即基于总体信息、样本信息所进行的统计推断。它的基本观点是:把数据看成是来自具有一定概率分布的总体,所研究的对象是这个总体而不局限于数据本身。而贝叶斯统计是基于总体信息、样本信息、先验信息进行的统计推断。它最基本的观点是:任一个未知量?%a 都可以看做是一个随机变量,应用一个概率分布去描述对 ?%a的未知状况。这个概率分布是在抽样前就有的关于?%a的先验信息的概率陈述。
经典统计和贝叶斯统计最主要的区别就是在于是否利用了先验
信息。贝叶斯推断是基于总体信息、样本信息、先验信息,而经典统计推断只依赖于总体信息和样本信息。
二、贝叶斯统计和经典统计的基本性质不同:
1.对概率的理解不同
经典统计学派认为经典统计学是用大量实验来确定概率、是”客观的”、是符合科学要求的,认为贝叶斯统计的确定的概率是”主观的”,因此至多只对个人决策有用。
贝叶斯学派认为引入主观概率及由此确定的先验分布,首先至少可以把概率与数理统计的研究与应用的范围扩大到大量不能重复的随机现象中来,其次,主观概率的确定也不是随意的,而是要求当事人对所考查的时间有比较透彻的了解,甚至是这一行的专家,在这个基础上确定的主观概率就能符合实际。
2.使用样本信息上也有差异
贝叶斯学派重视已出现的样本观察值,而对尚未发生的样本观察值不予考虑,贝叶斯学派很重视先验信息的收集、挖掘和加工,使它数量化,形成先验分布,参加到统计推断中来,以提高统计推断的质量。而忽视先验信息的利用,有时是一种浪费,有时还会导致不合理的结果。
经典统计学派还考虑未出现的样本信息,虽然在实际中样本空间中绝大多数样本可能未出现过,甚至重复数百次也不会出现。这个观点是不被贝叶斯学派所接受的。
3.对总体参数认识不同
依赖于参数?%a的密度函数在经典统计中记为p(x; ?%a)或者p?%a(x) ,他表示在参数空间?%a={?%a}中不同的?%a对应不同的分布。这里?%a 是一个未知的常量,不存在着分布。可在贝叶斯统计
中,依赖于参数 ?%a的密度函数为p(x│?%a) ,它表示在随机变量 ?%a给定某个值是,总体指标x的条件分布。这里?%a 是一个随机变量,给定一个 ?%a的值,便有一个对应的分布。
4.应用领域不同
由于经典统计学实用大量重复试验的频率来确定概率的,所以它的应用领域局限于能够大量重复的随机现象。但是很多经济现象都是不能重复或者大量重复的,在这类事件中用频率的方法去确定有关事件的概率常常是不可能的或者很难实现的。贝叶斯由于引入主观概率及由此确定的先验分布把概率与数理统计的研究与应用的范围扩大到大量不能重复的随机现象中来。
三、贝叶斯统计和经典统计在统计推断上的差异
1.点估计差异
经典统计学认为参数的无偏估计为e ?%a(x) = ?%a(x)p(x │?%a)dx=?%a ,其中的平均是对空间中所有出现的样本而求的,实际中可能这些样本尚未出现过或者说重复几百次也不会出现,但是它们也要在评价估计量?%a的好坏中占有一席之地。这叫无偏估计,但是在贝叶斯推断中不用无偏性而是用易于被实际工作者理解和接受的条件方法。最大似然估计值是指固定样本观察值
x1,x2,...,xn ,在?%a的取值范围内挑选使似然函数
l(x1,x2,...,xn; ?%a) 达到最大的参数值,即使得
l(x1,x2,...,xn; )=maxl(x1,x2,...,xn; ?%a);?%a∈?%a
经典统计中评定估计量好坏的标准为无偏性、一致性、有效性。
在没有充分的样本信息时,用贝叶斯点估计,往往能够达到更好的精度,因为它充分利用了先验信息。在二项分布的场合, ?%a的最大后验估计就是经典统计中的极大似然估计。
2.区间估计差异
区间估计问题,贝叶斯方法处理方便、含义清除,而经典统计方法寻求的置信区间常常受到批评。贝叶斯方法中叫可信水平、求得到的区间叫可信区间,而在经典统计中叫置信水平、求得到的区间叫置信区间。这两组概念是同类的概念,但是两者有本质的差别:首先,在条件方法下,给定了样本x和可信水平1-?hq 后通过后验分布可以求得具体的可信区间 (l,u),我们可以说” ?%a落在这个区间的概率为1-?hq “,也可以说”这个区间包含 ?%a的概率为1-?hq”。但是如果是用经典统计方法求得的置信区间,我们不能这样表述,因为在经典统计中, ?%a是一个常量,要么在求得的置信区间(l,u)内,要么不在区间(l,u)内,不能说”落在这个区间的概率为1-?hq “,只能说”在100次试验中,该区间大约100( 1-?hq)盖住了?%a 。这种频率的解释对于仅仅使用一次或者二次的人来说是毫无意义的。在实际情况中就有很多人把求得的置信区间按照可信区间去理解。其次,在经典统计中寻求置信区间有时是困难的,因为需要构造一个枢轴统计量(含有被估参数的随机变量),使它的分布不含有位置参数,这是一项技术性很强的工作,不熟悉 ?%a∈?%a0分布”是很难完成的,而寻求可信区间只需要利用后验分布,不需要再去寻求另外的分布,两种方法相比,可信区
间的寻求简单的多。
3.假设检验差异.
(1)两种检验思想
经典统计假设检验的思想:
①建立原假设 h0与被择假设h1 :
h0:?%a∈?%a0 h1:?%a∈?%a1
其中 ?%a0和?%a1是参数空间?%a 中不想交的二个非空子集。
②选择统计量,使其在原假设为真时的概率分布已知,这在经典统计方法中是最困难的一步。
③对给定的显著性水平?hq(0<?hq<1) ,确定拒绝域w,使犯第一类错误的概率不超过?hq。
④.当样本观察值x落入拒绝域w时,就拒绝原假设,接受被择假设,否则就拒绝原假设。
(2)贝叶斯假设检验思想
在有后验分布?%i(?%a│x) 后,直接计算原假设和备择假设的后验概率,即为ai=p(?%ai│x) d?%a,i=0,1。计算得到 a0和 a1,然后直接比较它们的大少,当a0 / a1>1时就接受原假设,当a0 / a1<1,就接受备择假设,而如果当 a0/a1≈ 1时,则需要进一步抽样或者进一步搜集先验信息。
贝叶斯假设检验比较简单,它不需要事先确定抽样分布以及选择检验统计量,也不需要事先给出显著性水平,确定拒绝域。并且由于在经典统计中把参数看做是一个常量,而不是一个随机变量,