6.4贝叶斯估计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
h(x,θ) Γ(n + 2) π (θ | x) = = θ (x+1)−1(1−θ)(n−x+1)−1, m(x) Γ(x +1)Γ(n − x +1)
θˆB = E (θ | x) =
郑州轻工业学院数学系
0 < θ <1
最后的结果说明θ |X ∼Be(x+1,n-x+1),其后验期望估计为
x +1 n+2
郑州轻工业学院数学系
由此即可利用贝叶斯公式求出θ 的后验分布。具体如下: 先写出X和θ 的联合分布 然后求X的边际分布
x
n x h(x,θ) = θ (1−θ )n−x , x
n−x
x = 0,1,L, n, 0 < θ <1
θ (1−θ ) 最后求出θ 的后验分布
n Γ(x +1)Γ(n − x +1) dθ = Γ(n + 2) x
郑州轻工业学院数学系
例6.4.3 设x1, x2 , …, xn是来自正态分布N(µ,σ02)的 一个样本,其中σ02已知,µ 未知,假设µ 的先 验分布亦为正态分布N(θ ,τ 2),其中先验均值θ 和先验方差τ 2均已知,试求µ 的贝叶斯估计。 解:样本x的分布和µ 的先验分布分别为
1 n 2 −n/2 2 p(x | µ) = (2πσ0 ) exp − 2 ∑(xi − µ) 2σ0 i=1 1 2 −1/2 2 π (µ) = (2πτ ) exp − 2 (µ −θ) 合,贝叶斯估计要比极大似然估计更合理 一点。比如: “抽检3个全是合格品”与“抽检10 个全是合格品”,后者的质量比前者更信得过。 这种差别在不合格品率的极大似然估计中反映不 出来(两者都为0),而用贝叶斯估计两者分别是 0.2 和 0.83。 由此可以看到,在这些极端情况下,贝叶斯估计 比极大似然估计更符合人们的理念。
郑州轻工业学院数学系
(1)总体信息:总体分布提供的信息。 总体信息: 总体信息 (2)样本信息:抽取样本所得观测值提供的信息。 样本信息: 样本信息 先验信息: (3)先验信息:人们在试验之前对要做的问题在经 先验信息 验上和资料上总是有所了解的,这些信息对 统计推断是有益的。先验信息即是抽样(试 验)之前有关统计问题的一些信息。一般说 来,先验信息来源于经验和历史资料。先验 信息在日常生活和工作中是很重要的。
郑州轻工业学院数学系
6.4.3 贝叶斯估计
基于后验分布π(θ x1, x2 , …, xn )对θ 所作的贝叶 斯估计有多种,常用有如下三种: 使用后验分布的密度函数最大值作为θ 的点估计, 称为最大后验估计; 使用后验分布的中位数作为θ 的点估计,称为后 验中位数估计; 使用后验分布的均值作为θ 的点估计,称为后验 期望估计。 用得最多的是后验期望估计,它一般也简称为 ˆ 贝叶斯估计,记为 θB。
郑州轻工业学院数学系
例6.4.2 设某事件A在一次试验中发生的概率为θ , 为估计θ ,对试验进行了n次独立观测,其中事件A 发生了X次,显然 X|θ ∼b(n,θ ),即
n x P( X = x | θ ) = θ (1−θ )n−x , x x = 0,1,L, n
假若我们在试验前对事件A没有什么了解,从而对 其发生的概率θ 也没有任何信息。在这种场合,贝 叶斯本人建议采用“同等无知”的原则使用区间 (0,1)上的均匀分布U(0,1)作为θ 的先验分布,因 为它取(0,1)上的每一点的机会均等。贝叶斯的 这个建议被后人称为贝叶斯假设。
郑州轻工业学院数学系
θ0 是未知的,它是按先验分布π(θ )产生的。 为把先验信息综合进去,不能只考虑θ0,对θ
的其它值发生的可能性也要加以考虑,故要 用π(θ )进行综合。这样一来,样本x1 , …, xn和 参数θ 的联合分布为: 联合分布为: 联合分布为 h(x1, x2 , …, xn, θ ) = p(x1, x2 , …, xn|θ )π(θ ), , 这个联合分布把总体信息、 这个联合分布把总体信息、样本信息和先验 信息三种可用信息都综合进去了;
郑州轻工业学院数学系
注意到A,B,C均与µ 无关,由此容易算得样本的边 际密度函数
1 m(x) = ∫ h(x, µ)dµ = k1 exp − (C − B2 / A)(2π / A)1/2 −∞ 2
∞
应用贝叶斯公式即可得到后验分布
h(x, µ) 1 1/2 2 π (µ | x) = = (2π/ A) exp − (µ − B / A) m(x) 2/ A
郑州轻工业学院数学系
在没有样本信息时,人们只能依据先验分布对θ 作出推断。在有了样本观察值 x1, x2 , …, xn 之后, 则应依据 h(x1, x2 , …, xn , θ )对θ 作出推断。由于 h(x1,x2 ,…,xn , θ ) =π(θ | x1,x2 ,…,xn )m(x1,x2 ,…,xn), 其中 是x1, m(x1,…,xx)n= ∫Θh(x1,L, xn,θ)dθ = ∫Θ p(x1,L, xθ| θ)π (θ)dθ x2 , L, n 的边际概率函数,它与 n 无关,不 含θ 的任何信息。因此能用来对θ 作出推断的仅 是条件分布π(θ | x1, x2 , …, xn),它的计算公式是
郑州轻工业学院数学系
内容总结
1. 2.
郑州轻工业学院数学系
郑州轻工业学院数学系
基于上述三种信息进行统计推断的统计学称为 贝叶斯统计学。它与经典统计学的差别就在于 贝叶斯统计学 是否利用先验信息。贝叶斯统计在重视使用总 体信息和样本信息的同时,还注意先验信息的 收集、挖掘和加工,使它数量化,形成先验分 布,参加到统计推断中来,以提高统计推断的 质量。忽视先验信息的利用,有时是一种浪费, 有时还会导出不合理的结论。
郑州轻工业学院数学系
6.4.2 贝叶斯公式的密度函数形式
总体依赖于参数θ 的概率函数在贝叶斯统计中记 为P (x | θ ),它表示在随机变量θ取某个给定值 时总体的条件概率函数; 条件概率函数; 条件概率函数 根据参数θ 的先验信息可确定先验分布π(θ ); 先验分布 ; 从贝叶斯观点看,样本 x1, x2 , …, xn 的产生分 两步进行:首先从先验分布π(θ )产生一个样本θ0, 然后从P (x |θ0)中产生一组样本。这时样本的联 联 n p(x1,L, xn | θ0 ) = ∏p(xi | θ0 ) 合条件概率函数为 ,这个 合条件概率函数 i =1 分布综合了总体信息和样本信息;
θ θ2 A = 2 + 2 , B = 2 + 2 , C = i=1 2 + 2 σ0 τ σ0 τ σ0 τ
n 1 nx
∑x
2 i
则有 h(x, µ) = k1 exp{− 1 [Aµ2 − 2Bµ + C]}
2 (µ − B / A)2 1 = k1 exp{− − (C − B2 / A)} 2/ A 2
它是样本均值 x 与先验均值θ 的加权平均。
郑州轻工业学院数学系
6.4.4 共轭先验分布
若后验分布π(θ |x)与π(θ )属于同一个分布族,则 称该分布族是θ 的共轭先验分布(族)。 共轭先验分布( 共轭先验分布 二项分布b(n, θ )中的成功概率θ 的共轭先验分布 是贝塔分布Be(a,b); 泊松分布P(θ )中的均值θ 的共轭先验分布是伽玛 分布Ga(α,λ); 在方差已知时,正态均值θ 的共轭先验分布是正 态分布N(µ,τ 2); 在均值已知时,正态方差σ 2的共轭先验分布是倒 伽玛分布IGa(α,λ)。
§6.4 贝叶斯估计
6.4.1 统计推断的基础
经典学派的观点:统计推断是根据样本信息 经典学派 对总体分布或总体的特征数进行推断,这里 用到两种信息:总体信息 样本信息 总体信息和样本信息 总体信息 样本信息; 贝叶斯学派的观点:除了上述两种信息以外, 贝叶斯学派 统计推断还应该使用第三种信息:先验信息。 先验信息。 先验信息
这说明在样本给定后,µ 的后验分布为
− nxσ0 2 +θτ −2 1 , −2 −2 N(B/A,1/A),即µ | x ~ N −2 −2 nσ0 +τ nσ0 +τ
郑州轻工业学院数学系
后验均值即为其贝叶斯估计:
2 n / σ0 1/τ 2 ˆ µ= x+ θ 2 2 2 2 n / σ0 +1/τ n / σ0 +1/τ
郑州轻工业学院数学系
由此可以写出x与µ 的联合分布
n 2 2 1 nµ − 2nµx + ∑xi µ2 − 2θµ +θ 2 i=1 h(x, µ) = k1 ⋅ exp − + 2 2 σ0 τ2
其中
1 n − x = ∑xi , k1 = (2π )−(n+1)/2τ −1σ0 n。若记 n i=1 n
h(x1,L, xn ,θ ) p(x1,L, xn | θ )π (θ ) π (θ | x1,L, xn ) = = m(x1,L, xn ) ∫ p(x1,L, xn | θ )π (θ)dθ
Θ
郑州轻工业学院数学系
这个条件分布称为θ 的后验分布,它集中了总体、 样本和先验中有关θ 的一切信息。 后验分布π(θ x1, x2 , …, xn )的计算公式就是用密度 函数表示的贝叶斯公式。它是用总体和样本对先 验分布π(θ )作调整的结果,贝叶斯统计的一切推 断都基于后验分布进行。
郑州轻工业学院数学系
贝叶斯学派的基本观点: 贝叶斯学派的基本观点:任一未知量θ 都可看 作随机变量,可用一个概率分布去描述,这个 作随机变量 分布称为先验分布;在获得样本之后,总体分 布、样本与先验分布通过贝叶斯公式结合起来 得到一个关于未知量θ 新的分布—后验分布; 任何关于θ 的统计推断都应该基于θ 的后验分 布进行。