第3章先验分布的确定
第3章先验分布的确定
m(
x)
p( x
|
)
(
)d, 为连续时
p( x | ) ( ), 为离散时
(3.1)
当先验分布含有未知参数时,譬如π(θ)=π(θ|λ),那么
边缘分布m(x)依赖于λ,可记为m(x|λ).
例 设总体X~N(, σ2) 其中σ2已知。
取另一正态分布N(μπ,τπ2)作为正态均值的先验分布 , 则可以算得X的边缘分布为N(μπ,τπ2+σ2)
2.若还有σ2 (θ)= σ2(与θ无关的常数 ),则
m2 2 2
其中
2
E
2
例3.14 设X
~
N
(
,1),的先验分布类为{N
(
,
2
)}
主观经验预测X的均值为1, 方差为3,即m
10和
2 m
3,
试确定其先验分布.
解 :已知m
1;
2 m
3,由X
~
N ( ,1)知 2
1,利用推论1,
( ) m 10
2.注意的问题
(1)所咨询专家应是声誉良好的和富有经验的
(2)这两个方法相比,决策者更愿意使用变分度法.
§3.3利用边缘分布m(x)确定先验密度
一、边缘分布m(x)
设总体X的密度函数为p(x|θ),它含有未知参数θ,若θ 的先验分布选用形式已知的密度函数π(θ),则可算得 X的边缘分布(即无条件分布)
取
d
d
2
[ln
(
2
)]
2(
2
n
2
)
ns2
2(
2
2
)2
0
得
2
第3篇先验分布的确定
3.假如有历史数据,要尽量利用,帮助形成初步概念, 然后再做一些对比修正,再形成个人信念.
注意:1.利用先验信息确定主观概率没有固定模式; 2.主观概率必须满足概率的3条公理.
总结 1.理解主观概率的定义 2.了解主观概率确定的常用方法
§3.2 利用先验信息确定先验分布 在贝叶斯统计方法中关键的一步是确定先验分布。1.
要进一步分析先验信息.先验信息很分散;柯西分布
先验信息较为集中:正态分布
3.两个先验分布都满足给定的先验信息。
(1)如果两个先验分布差别不大,对后验分布的影响 也不大,那可任选一个。
(2)假如面临两个差异较大的先验分布可供选择时, 应慎重选择。因不同的选择对后验分布的影响也会很大.
三、定分度法与变分度法 两种方法的共同点:通过咨询专家获得各种主观概 率,然后经过整理加工可得到累积概率分布曲线.
例3.12 设总体X~N(, σ2) 其中σ2已知。
取另一正态分布N(μπ,τπ2)作为正态均值的先验分布
则可以算得X的边缘分布为N(μπ,τπ2+σ2)
设X 在给定时条件分布为N ( ,
2 ),
(
)
~
N (
,
2
),
则边缘分布m( x
)
~
N (
,
2
2)
n
由 m( X ) m(xi )
i 1
第三章 先验分布的确定
§3.1 主观概率 §3.2 利用先验信息确定先验分布 §3.3 利用边缘分布m(x)确定先验密度 §3.4 无信息先验分布 §3.5 多层先验
概率的公理化定义
定义:设Ω 为一个样本空间, F为Ω的某些子集组成 的一个事件域,如果对任一事件A∈F,定义在F上 一个实值函数P(A)满足下列条件:
先验分布的确定
先验分布的确定幻灯⽚67 其步骤如下:(1)写出样本的对数似然函数∑∏====ni i n i i x p x p x l 11)|(ln )|(ln )|(θθθ(2)求样本的信息阵pj i l E I j i x ,...,2,1,,)(2|=-=θθθθ2|2(),x l I Eθθθ=-??在单参数(p=1)场合,(3)Θ的⽆信息先验密度为2/1)]([det )(θθπI =1/2()[()]I πθθ=在单参数(p=1)场合,幻灯⽚682122(,,...,)(,),(,).n X x x x N Jeffreys µσθµσ==设是来⾃正态分布的⼀组样本试求的先验2211:()ln[]2i x ni l x e µσθπσ--==∑写出样本的对数似然函数22111(,)ln(2)ln ().22ni i l n x µσπσµσ=?=---∑22222222()()0:(,);20()()ll nE E Fisher I n ll E E µµσσµσσµσσ-- ??==?? -- ??其信息阵42),(det -=?σσµn I22,(,):(,)2.Jeffreys n µσπµσσσ--=∝所以的先验为幻灯⽚6911:,(),:()1;,()2,();,(,);nI I n σµπµσµσσπσσµσπµσσ---=∝=∝∝注当已知当已知当和独⽴幻灯⽚70 例3.22关于成功概率的⽆信息先验分布⾄今已有4种π1(θ)=1 ——正常π2(θ)=θ-1(1-θ)-1 ——不正常π3(θ)=θ-1/2(1-θ)-1/2 ——正则化后可成为正常π4(θ)=θθ(1-θ)(1-θ) ——正则化后可成为正常注意:1.⼀般说来,⽆信息先验不是唯⼀的.但它们对贝叶斯统计推断的影响都很⼩,很少对结果产⽣较⼤的影响2.任何⽆信息先验都可以采⽤。
一先验分布和后验分布
2[ E( | x)][E( | x) d( x)]h( | x)d
又因为 E( | x) h( | x)d 则 [ E( | x)][E( | x) d( x)]h( | x)d
[E( | x) d( x)][ E( | x)]h( | x)d
[E( | x) d( x)][E( | x) E( | x)] 0
由第一小节内容可知,给定损失函数以后,风险函数定 义为
R( , d ) E (L( , d( X ))
L( , d( x))q( x | )dx
此积分仍为的函数,在给定的先验分布()时,定义
R(d ) E (R( , d ))
R( , d )π( )d
为决策函数d在给定先验分布()下的贝叶斯风险,简 称为d的贝叶斯风险.
0,
0,
x 0,
设Y X 1,则Y的密度函数为
f
(
y;
,
)
(
)
(
1 y
)
1
e
y,y
0,
0,
y 0,
此分布密度为倒分布的密度函数, 设 ²的先验分布为倒
分布,即
(
2
)
(
)
(1
2
) 1
e 2,y
0,
0,
y 0,
则 ²的后验分布为
h( 2 | x) q( x | 2 )π( 2 )
min R(d ) min m( x){ [ d( x)]2 h( | x)d }dx
min a.s [ d( x)]2 h( | x)d
又因为
[ d( x)]2 h( | x)d
[ E( | x) E( | x) d( x)]2 h( | x)d
贝叶斯统计3.4,3.5教材
27
例3.22
关于成功概率的无信息先验分布至今已有4种 π1(θ)=1 π2(θ)=θ-1(1-θ)-1 π3(θ)=θ-1/2(1-θ)-1/2 ——正常 ——不正常 ——正则化后可成为正常
π4(θ)=θθ(1-θ)(1-θ) ——正则化后可成为正常
注意:1.一般说来,无信息先验不是唯一的.
但它们对贝叶斯统计推断的影响都很小,很少对结 果产生较大的影响
2.任何无信息先验都可以采用。
28
总结
1. 掌握贝叶斯假设
2.掌握位置参数和尺度参数的无信息先验分布
3.会用Fisher信息阵确定无信息先验
29
§3.5 多层先验
一、多层先验 二、多层模型
30
一、多层先验
1.定义
当所给先验分布中超参数难于确定时,可以对超参数 再给出一个先验,第二个先验称为超先验。由先验和 超先验决定的一个新先验称为多层先验。
试求分布参数 与的无信息先验.
取为位置参数, 为尺度参数, 令 1, ln( ), w ln( x), 则有
p( w; , )
1
w
d * 由随机变量函数知, ( ) ( ) 1 , 2 ( ) 1 , d
浙江财经学院本科教学课程经济数学三概率统计精品文档贝叶斯统计34352第三章先验分布的确定31主观概率32利用先验信息确定先验分布33利用边缘分布mx确定先验密度34无信息先验分布35多层先验334无信息先验分布一贝叶斯假设二位置尺度参数族的无信息先验三用fisher信息阵确定无信息先验4所谓参数??的无信息先验分布是指除参数??的取值范围和??在总体分布中的地位之外再也不包含??的任何信息的先验分布
例3.23 设对某产品的不合格品率了解甚少,只知道 它比较小。现需要确定θ的先验分布。决策人经过 反复思考,最后把他引导到多层先验上去,他的思 路是这样的: (1)开始他用(0,1)上的均匀分布U(0,1)作为θ的先 验分布。
第三章 先验分布的确定
则称该分布族{p(x | , )} 为Cramer-Rao正则分布族,简称 C—R正则族。
在C—R正则族前提下,记分向量S (x) 的方差协方差阵
' 称为该分布族中参数 (1 ,..., p ) 的Fisher信息阵,简称θ 的信息阵。
二、Jeffreys先验 设总体密度函数为p(x | , ) ,又设参数θ 的无信息先验 ( ) ,由于一一 为π (θ )。若对参数θ 作一一对应变换; 对应变换不会增加或减少信息,故新参数η 的无信息先验 * ( ) 与 ( ) 在结构上应完全相同,即 ( ) * ( ) 。另一方 面,按随机变量函数的运算规则,θ 与η 的密度函数间应满 足如下关系式
假如混合样本 x (x1 , x 2 ,..., x n ) 所涉及的先验密度函数的形式 已知,未知的仅是其中的超参数,即先验密度函数族可表示 如下:
{ ( | ), }
ˆ 使得 这时寻求ML-II先验是较为简单的事,只要寻求这样的
这可用最大化似然函数方法来实现。
第一节 主观概率 第二节 利用先验信息确定先验分布 第三节 利用边际分布m(x) 确定先验密度 第四节 无信息先验分布 第五节 多层先验
3.1.1 主观概率 贝叶斯统计中要使用先验信息,而先验信息主要是指经验和 历史资料。因此如何用人们的经验和过去的历史资料确定概 率和先验分布是贝叶斯学派要研究的问题。 贝叶斯学派认为:一个事件的概率是人们根据经验对该事件 发生可能性所给出个人信念。这样给出的概率称为主观概率。
此外σ 的参数空间与η 的参数空间都为 R ,可见(X,σ )问题 ( ) 与(y,η )问题的统计结构完全相同,故σ 的无信息先验 与η 的无信息先验 * ( ) 应相同,即 ( ) * ( ) 另一方面,由变换 c 可以得η 的无信息先验
贝叶斯讲义先验分布的确定解析
13
14
15
说明:如果有两个甚至多个先验分布都满足给定的先 验信息,则要看情况选择:假如这两个先验分布差异 不大,对后验分布影响也不大,则可任选一个;如果 我们面临着两个差异极大的先验分布可供选择时,一 16 定要根据实际情况慎重选择。
三、定分度法与变分度法
基本概念: (1)定分度法:把参数可能取值的区间逐次分 为长度相等的小区间,每次在每个小区间上 请专家给出主观概率. (2)变分度法:该法是把参数可能取值的区间 逐次分为机会相等的两个小区间,这里的分 点由专家确定. 例3.9(自学)
17
§3.3 利用边缘分布m(x)确定先验密度
一、边缘分布m(x)
二、混合分布 三、先验选择的ML-II方法
四、先验选择的矩方法
18
一、边缘分布m(x) 设总体X的密度函数为p(x|θ ),它含有未 知参数θ ,若θ 的先验分布选用形式已知的 密度函数π (θ ),则可算得X的边缘分布(即 无条件分布): 当为连续时 p( x | ) ( )d , m( x) p ( x | ) ( ) , 当 为离散时
P( Ai ) P( Ai )
i 1 i 1
(2)如果发现所确定的主观概率与上述三个公理 及其推出的性质相悖,必须立即修正。直到两者一 致为止。(例3.5)
9
10
§3.2 利用先验信息确定先验分布
一、直方图法 二、选定先验密度函数形式再估计其超参数 三、定分度法与变分度法
11
一、直方图法
23
24
三、先验选择的ML-Ⅱ方法
定义:设 { ( | ), } 为所考虑的先 验类,且x=(x1,x2,…,xn)是来自Г 中某一 ˆ ) 满足(对 ˆ ( 分布的样本,若存在 n 观测数据x): ˆ ) sup m(x | m( xi | )
一先验分布和后验分布
i 1
i 1
第二种方法 设总体X的分布密度为p(x|),统计量
T ( X ) T ( X1X2 , , X n )是参数的充分统计量,则有
定理3.1 设f ( )为任一固定的函数,满足条件
(1) f ( ) 0, ,
(2) 0 gn(t | ) f ( )d
则
D f
{
gn (t | ) f ( ) gn (t | ) f ( )d
由第一小节内容可知,给定损失函数以后,风险函数定 义为
R( , d ) E (L( , d( X ))
L( , d( x))q( x | )dx
此积分仍为的函数,在给定的先验分布()时,定义
R(d ) E (R( , d ))
R( , d )π( )d
为决策函数d在给定先验分布()下的贝叶斯风险,简 称为d的贝叶斯风险.
X N (9.80, 0.12 )
这个信息就是重力加速度的先验信息.
在统计学中,先验信息可以更好的帮助人们解决 统计决策问题. 贝叶斯将此思想应用于统计决策中,形成了 完整的贝叶斯统计方法.
2、先验分布
对未知参数的先验信息用一个分布形式()来 表示,此分布()称为未知参数的先验分布.
例如 例1中重力加速度的先验分布为
则的贝叶斯估计为
d*( x) E(( ) | x) E(( ) | x)
证明略,此证明定理3.2的证明类似.
定理3.4 设参数为随机向量,先验分布为()
和损失函数为二次损失函数
L( , d ) (d )T Q(d )
1:改进生产设备后,高质量产品可占90%,
:改进生产设备后,高质量产品可占70%,
2
经理根据以往的经验,两个顾问建议可信度分别为
贝叶斯讲义 先验分布的确定
p(x | ) ( )d , p(x | ) ( ),
当为连续时 当为离散时
当先验分布含有未知参数,譬如π(θ)= π(θ|λ),那 么边缘分布m(x)依赖于λ,可记为m(x|λ),这种边缘分 布在寻求后验分布时常遇到。
19
20
21
二、混合分布
(1)混合分布的概念:设随机变量X以概率π在总体F1 中取值,以概率1-π在总体F2中取值。若F(x|θ1)和 F(x|θ2)分别是这两个总体的分布函数,则X的分布 函数为:F(x)= πF(x |θ1)+(1-π)F(x|θ2) 或用密度函数(或概率密度)表示:
则约有nπ(θ1)个来自F(x |θ1),约有nπ(θ2)个来自F(x |θ2)。 (3)实例分析:
23
24
三、先验选择的ML-Ⅱ方法
定义:设 { ( | ), }为所考虑的先
验类,且x=(x1,x2,…,xn)是来自Г中某一 分布的样本,若存在 ˆ (ˆ ) 满足(对
观测数据x):
40
(一)位置参数的无信息先验
定理:位置参数族的先验分布可用贝叶斯假设作为无
信息先验分布。
证明:设总体X的密度具有形式p(x-θ),其样本空间
与参数空间均为实数集。对X作一个平移Y=X+c,则
Y的密度具有形式:p(y-c-θ),这相当于对参数θ作
一个平移η=θ+c,即Y的密度形式为p(y-η),它仍
MMaaddeebbyyccyyhh
第三章 先验分布的确定
经济学院统计系:陈耀辉
11
第三章 先验分布的确定
§3.1 主观概率 §3.2 利用先验信息确定先验分布 §3.3 利用边缘分布m(x)确定先验密度 §3.4 无信息先验分布 §3.5 多层先验
先验分布的确定
m(x)
p(x | ) ( )d
p(x | ) ( )
(3.1)
当先验分布含有未知参数时,譬如π(θ)=π(θ|λ),那么边缘分布 m(x)依赖于λ,可记为 m(x|λ). 幻灯片 91 (一)、先验选择的 ML—Ⅱ方法
m(x)
p(x | ) ( )d
p(x | ) ( )
(3.1)
§3.1 主观概率 §3.2 利用先验信息确定先验分布 §3.3 利用边缘分布 m(x)确定先验密度 §3.4 无信息先验分布 §3.5 多层先验
幻灯片 82 总结
1.理解主观概率的定义,了解主观概率确定的常用方法. 2.了解直方图法 3.掌握选定先验密度函数形式再估计其超参数 4.理解定分度法与变分度法
称H ( ( ))为的熵.
如果部分验前信息由下式给出:
m
E [gk ( )] gk (i ) (i ) k , k 1,2,...,m i1
则在上述约束下使熵取 最大值时的 ( )作为的验前密度 ,表示为 :
m
exp[ k gk ( )]
( ) n
k 1 m
exp[k gk ( )]
5. 掌握利用边缘分布 m(x)确定先验密度的先验选择的 ML—Ⅱ方法和先验选择的矩方法 6. 掌握贝叶斯假设 7.掌握位置参数和尺度参数的无信息先验分布 8.会用 Fisher 信息阵确定无信息先验 9.理解多层先验
幻灯片 83 一、主观概率 1.定义:一个事件的概率是人们根据经验对该事件发生的可能性大小所给出的个人信念, 这样给出的概率称为主观概率 幻灯片 84 说明:1.主观概率不是随意决定的,而是要求当事人对所考察的事件有较透彻的了解和丰 富的经验,甚至是这方面的专家。并能对周围信息和历史信息进行仔细分析,在这个基础 上确定的主观概率就能符合实际。所以应把主观概率与主观臆造,瞎说一通区别开来。 2.主观概率要受到实践检验,要符合概率的三条公理,通过实践检验和公理验证,人们会 接受其精华,去其糟粕。 3.主观概率是频率方法和经典方法的一种补充,有了主观概率至少使人们在频率观点不适 用时也能谈论概率,使用概率和统计方法。 4.主观概率并不反对用频率方法确定概率,但也要看到它的局限性。 幻灯片 85 二、确定主观概率的方法 1.用对立事件的比较来确定主观概率(最简单的方法) 2.用专家意见来确定主观概率的方法(最常用的). 注意:(1).向专家提的问题要设计好,既要使专家易懂又要使专家回答不是模棱两可。 (2).要对专家本人比较了解,以便做出修正,形成决策者自己的主观概率. (3).通过向多位专家咨询后,经修正和综合获得主观概率,关键在于把问题设计好,便 于往后综合,即在提出问题时,就要想到如何综合。 3.假如有历史数据,要尽量利用,帮助形成初步概念,然后再做一些对比修正,再形成个 人信念. 幻灯片 86 二、 利用先验信息确定先验分布
ch3先验分布的确定
利用边缘分布m(x) m(x)确定先验密度 §3.3 利用边缘分布m(x)确定先验密度
一、边缘分布m(x) m(x) 二、混合分布 三、先验选择的ML-II方法 四、先验选择的矩方法
18
一、边缘分布m(x) 设总体X的密度函数为p(x|θ),它含有未 知参数θ ,若θ的先验分布选用形式已知的 密度函数π(θ),则可算得X的边缘分布(即 无条件分布): p( x | θ )π (θ )dθ , 当θ为连续时 ∫Θ m( x ) = 当θ为离散时 ∑θ ∈Θ p( x | θ )π (θ ),
4
1.利用对立事件的比较确定主观概率 1.利用对立事件的比较确定主观概率 利用对立事件的比较确定
5
2.利用专家意见确定主观概率 2.利用专家意见确定主观概率 利用专家意见确定
6
3.向多位专家咨询确定主观概率 3.向多位专家咨询确定主观概率 向多位专家咨询确定
7
4.充分利用历史资料, 4.充分利用历史资料,考虑现有信息加以修正 充分利用历史资料
40
(一)位置参数的无信息先验
定理:位置参数族的先验分布可用贝叶斯假设作为无 信息先验分布。 证明:设总体X的密度具有形式p(x-θ),其样本空间 与参数空间均为实数集。对X作一个平移Y=X+c,则 Y的密度具有形式:p(y-c-θ),这相当于对参数θ作 一个平移η=θ+c,即Y的密度形式为p(y-η),它仍 然是位置参数族的成员,且其样本空间与参数空间没 有发生改变。因此θ与η应具有相同的无信息先验分 布。即 π(τ)=π*(τ) 其中π*(τ)为η的无信息先验分布。同时,由变换 η=θ+c可算得η的无信息先验分布为 dθ * π (η ) = π (η − c) = π (η − c) dη 比较上述两式就可知道θ的无信息先验分布是常数。 41
贝叶斯统计学3
确定图形的曲线形式,并确定相应的超参 数和进行检验。
2020/7/20
14
3.3利用边缘分布m(x)确定先验分布
1.边缘分布m(x)特征 2.混合分布 3.先验分布选择的ML-Ⅱ方法 4 先验分布选择的矩法
)
2
2020/7/20
29
所以 m(x
,
2
)
2
(
2
2
)
n 2
exp
1 2
n i 1
( xi
xx
2
2
)2
2
(
2
2
)
n 2
exp
1 2
n
(xi x)2
i 1
2
2
n(x )2
2
2
2
(
2
2
)
n 2
exp
1 2
n
(xi x)2
i 1
2
2
exp
的合理程度。这里,把m(x)记为 m (x),表
示m(x)依赖于先验分布及其超参数,当观测值
x对二个不同的先验分布1和 2 有
m1 (x) m2 (x) 时的,支人持们。自这然样会人认们为也数自据然x对就会1比想对到利2 用提m供(更x)多这
一特征来确定先验分布(假定先验分布形式已 定时,实际上是先验分布的超参数)。
20
所以 m(x)
1
2
exp
1 2
C
B2 A
1
2 1
exp
1 21
先验分布确定方法的分类研究
l 主观 先验 分 布
主观先验分布 : 就是指只利用了主观先验信息 ( 包括主观信念 、 经验 、 历史数据等) 而不用其他信息来 确 定 的先验 分 布 。 主观先验的确定方法 , 以借助于统计学 中求解分布 的一些经典方法 获得 , 可 如直观图法 、 相对似然 法 、 定 函数形 式 、 计 ( ) 数法 、 积分 布 函数 法 等 ( B r r18 ) ) 给 估 超 参 累 O. eg (9 5 。 e
作者简介重庆南川人讲师硕士从事贝叶斯理论及应用研究580重庆工商大学学报自然科学版息先验分布是指除参数的取值范围和它包括贝叶斯假设先验位置尺度参数不变指利用了总体和样本信息确定的先验包括jeffrey先验参照先验分布的先验这一概念是根据文献数据提供先验分布确定方法的分类分布或多或少都应该满足一些基本的性质如不变性等提炼出来的以便澄清非主观先验息先验这两个在文献中常常混淆的概念
文章 编号 :6 2— 5 X(O 8 O 0 7 0 1 7 0 8 2 0 )6— 5 9— 2
先 验 分 布 确 定 方 法 的分 类 研 究
李 勇
( 庆工商大学 数学与统计学 院 , 重 重庆 4 o 6 ) o0 7
摘 要: 先验分布的确定问题是贝叶斯统计 学首要的基本 问题 。根据统计推断所利 用的 3 种信 息 ( 先验 、 总体 、 本信 ቤተ መጻሕፍቲ ባይዱ ) 样 的不 同应 用 , 常 用 的先验 确 定方 法进 行 了一 定 的分 类整 理 , 对 并
提 炼 了数 据控 制 下的先验 这 一概 念 , 区别无信 息先验和 非 主观先 验概 念 。 以
关键 词 : 先验分 布 ; 分类 ; 数据 控制 下 的先验 中图分类 号 : 1 . 02 28 文献 标识 码 : A
统计决策与贝叶斯分析第三章先验分布的确定
使用直方图法时应注意
在实际绘制直方图时,需要考虑区间如何划分才比较恰当,而关于 分多少个区间以及每个区间的大小没有统一的标准。如果划分太细,会 增加估计概率的困难程度;如果划分太粗,则绘制的密度函数将会很粗 糙。因此,要根据问题的实际情况来确定如何划分。另外,借助直方图
得到的密度函数曲线 ( ) 是由各区间上的光滑曲线连接而成,因而并
不好处理。再者,它只适用于有限区间的情形,所以得到的只是截尾的 密度函数,尾部的小概率并未能得到估计。
2.累计概率曲线估计(定分度法和变分度法)
累计概率曲线估计法主要借助咨询专家意见以及决策者的主观 判断确定一些特殊点的概率,然后画出相应的概率曲线,最后利用这 条曲线近似估计其它点的概率。通常分为定分度法和变分度法。
(二)参数 为连续时
当参数 为连续时,我们可以借助已有的信息,根据以下几种方法获 得参数 的先验密度(或先验分布)。
1.直方图法 当参数 的取值空间 为实数轴的一个有限区间时,最简单的方法 是把 分成一些小区间,在每个区间上给出主观概率,然后绘制直方图(如
图 3.1.1),由直方图可以画出光滑的密度 ( ) 的草图。
观似然性,最后由此相对似然性描绘出先验密度。这种方法获得的先 验密度图形的精确度会随着点的增多而提高。
4.设定先验密度,估计未知参数
这种方法思路是:先选定一个先验密度(其中含有未知参数, 即超参数),然后根据已有信息计算先验密度中的未知参数,最后得 到参数的先验密度。
【例 3.1.4 】 假设对某种商品的需求量 选取先验分布为
合已有经验,通过对事件的比较,决定它们的相对似然性。
【例 3.1.1】 想要计算事件的概率,只要将 E 与例如 Ec 做比较, 如 果 决 策 者 根 据 经 验 认 为 E 的 发 生 机 会 是 Ec 的 三 倍 , 亦 即
贝叶斯分析汇总讲解
第一章先验分布与后验分布§1.1三种信息统计学中有二个主要学派:频率学派和贝叶斯学派。
一、总体信息即总体分布或总体所属分不足给我们的信息,譬如,“总体是正态分布”这一句话就带给我们很多信息:它的密度函数是一条钟形曲线;它的一切距都存在;有关正态变量(服从正态分布的变量)的一些事件的概率可以计算,有正态分布可以导出2χ分布、t分布和F分布等重要分布;还有许多成熟的点估计、区间估计和假设检验方法可供我们选用。
二、样本信息即从总体抽取的样本给我们提供的信息。
这是最“新鲜”的信息,并且越多越好。
我们希望通过对样本信息的加工和处理对总体的某些特征作出较为精确的统计推断。
没有样本就没有统计学而言。
基于上述信息进行的统计推断被称为经典统计学,它的基本观点是把数据(样本)看成是来自具体一定概率分布的总体,所研究的对象是这个总体而不是局限于数据本身。
三、先验信息即在抽样之前有关统计问题的一些信息,一般说来,先验信息主要来源于经验和历史资料。
例如,英国统计学家(1961)Savage曾考察如下实验,一位常饮牛奶加茶的妇女称,她能辨别先倒进杯子里的是茶还是牛奶。
对此作了十次试验,她都正确地说出了。
假如被实验者是在猜测,每次成功的概率为0.5,那么十次-=,这是一个很小的概率,是几乎不可能发生的,都猜中的概率为1020.0009766所以“每次成功的概率为0.5”的假设应被拒绝。
被实验者每次成功的概率要比0.5大很多,这正是她的经验帮了她的忙活,所以先验信息在推断中不可忽视。
基于上述三种信息进行的统计推断被称为贝叶斯统计学。
它与经典统计学的最主要的差别在于是否利用先验信息。
在使用样本信息上也是有差异的。
贝叶斯学派很重视已出现的样本观察值,而对尚未发生的样本观察值不予考虑,贝叶斯学派很重视先验信息的收集、挖掘和加工,使它数量化,形成先验分布,参加到统计推断中来,以提高统计推断的质量。
贝叶斯学派最基本的观点是:任何一个未知量θ都可看作一个随机变量,应用一个概率分布去描述对θ的未知状况。
贝叶斯统计知识整理
只能据先验分布对 作出推断。在有样本观察值 x=( x1 ,…, xn )之后,我们依据 h(x, ) 对 作出推断。为此我们需把 h(x, ) 作如下分解:
h(x, ) ( x)m(x)
其中 m(x)是 x 的边缘密度函数。
m(x) h(x, )d p(x ) ( )
它与 无关,或者说,m(x)中不含 的任何信息。因此能用来对 作出推断
中有关 的一切信息,而又是排除一切与 无关的信息之后所得到的的结果。
(三)贝叶斯公式的离散形式
是离散随机变量时,先验分布可用先验分布列 (i ) ,i=1,2,…,表示。这
时后验分布也是离散形式。
( i | x )
p ( x | i ) ( i ) ,i 1,2, p ( x | j ) ( j )
( ) 0
( )
Var ( X ) 2
4.伽马分布的特性
(1)当α=1,伽玛分布就是指数分布 (2)当α=1/2 1/ 2 时,伽马分布称为自由度为 n 的卡方分布。 (二)贝塔分布
1.贝塔函数
B(a,b) 1 xa1(1 x)b1dx 0
称为贝塔函数,其中参数 a>0,b>0 贝塔函数的性质 2.
2.二项分布中的成功概率 的共轭先验分布是贝塔分布。 设总体 X ~ b(n, ) ,其密度函数中与 有关的部分为 x (1 )nx 。又设 的 先验分布为贝塔分布 Be( , ) ,其核为 1(1 ) 1 ,其中 , 已知,从而可 写出 的后验分布
,
立即可以看出,这是贝塔分布
的核,故此后验密度为
(1)B(a,b) B(b, a) (2)B(a,b) (a)(b) (a b)
3.贝塔分布
若随机变量 X 具有概率密度函数:
主观概率和先验分布(精)
年国民经济增长率如何、能否考上研究生
– (2)试验费用过于昂贵、代价过大 如:洲导弹命中率、战争中对敌方下一步
行动的估计
2021/6/10
2)主观概率的引入 (subjective probability, likelihood)
paradox)
2021/6/10
2.1 概率的基本概念
• 1)概率的三种定义 • 2)主观概率的引入 • 3)主观概率的定义 • 4)主观/客观概率的比较 • 5)主观概率的偏差 • 6)主观概率的修正
2021/6/10
2.1 概率的基本概念
• 研究概率的必要性:第一章指出了决策问题的基 本特点之一是自然状态的不确定性。
–股票的涨跌 –报考研究生
2021/6/10
概率与随机事件
• 随机事件的三个特点:
➢ (1)在相同条件下可以重复进行; ➢ (2)试验前不能确定出现哪种结果; ➢ (3)试验前知道可能出现的所有结果。
• 概率:随机事件在每次试验中的结果虽然是不 确定的,但在大量重复试验下,各种不同结果 出现的可能性的大小是具有规律性的,这种规 律性称为概率。
– 主观臆测: 完全凭自己的想象作决定,通俗 的说就是你想啥就是啥,不以客观事实为依 据的判断。
2021/6/10
例子:日本大地震引发的武汉 抢盐风波
• 《中国日报》周五(2011.3.25)报导称,中国 近期传言碘盐能防辐射,武汉一名姓郭的男子 抢盐6.5吨,而如今这价值2万多元的食盐成了 “烫手山芋”。曾有传言称,中国国内将出现 半年以上的盐荒,导致盐价一度上涨,郭某抢 购食盐260包,用了三辆卡车运回家。几天后, 中国政府敦促消费者停止恐慌性抢盐,称国内 不会遭到日本核辐射威胁,盐价随後大跌。《 中国日报》称,郭某现在十分发愁,屋里一半 多的空间放着食盐,购买加运费共花了他2.7万 元。
贝叶斯统计先验分布的确定
第三章先验分布的确定1.1 主观概率1.1.1概率的公理化定义定义:设。
为一个样本空间,F为。
的某些子集组成的一个事件域,如果对任一事件A£F,定义在F上一个实值函数P(A)满足下列条件:(1)非负性公理:对于每一事件A,有P(A)三0;(2)正则性(规范性)公理:P(Q )=1;(3)可列可加性(完全可加性)公理:设A1, A2,…是互不相容的事件,即对于ijA i A j=0, i, j=1, 2,…,则有P(U A)工P(A)i =1 i=1则称P(A)为事件A的概率(Probability),称三元素(Q, F , P)为概率空间(Probability space)。
概率是定义在。
域F上的一个非负的、正则的、可列可加的集函数。
1.1.2主观概率在经典统计中,概率是用三条公理定义的:1)非负性;2)正则性;3)可加性。
概率确定方法有两种:1)古典方法;2)频率方法。
实际中大量使用的是频率方法,所以经典统计的研究对象是能大量重复的随机现象,不是这类随机现象就不能用频率的方法去确定其有关事件的概率。
这无疑把统计学的应用和研究领域缩小了[1]。
在经典统计中有一种习惯,对所得到的概率都要给出频率解释,这在有些场所是难于做出的。
譬如,天气预报:“明天下雨的概率是0.8”。
贝叶斯统计中要使用先验信息,而先验信息主要是指经验和历史资料。
因此如何用人们的经验和过去的历史资料确定概率和先验分布是贝叶斯学派要研究的问题。
贝叶斯学派是完全同意概率的公理化定义,但认为概率也是可以用经验确定。
这是与人们的实践活动一致。
这就可以使不能重复或不能大量重复的随机现象也可谈及概率。
同时也使人们积累的丰富经验得以概括和应用。
贝叶斯学派认为:一个事件的概率是人们根据经验对该事件发生可能性所给出个人信念。
这样给出的概率称为主观概率。
下面举几个例子:一个企业家认为“一项新产品在未来市场上畅销”的概率是0.8,这里的0.8 是根据他自己多年的经验和当时一些市场信息综合而成的个人信念。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.在每个小区间上决定主观概率或依据历史数据确定其 频率.
3.绘制直方图
4.在直方图上做一条光滑的曲线,此曲线就是( ).
注意:这样得到的先验密度常常仅限于有限区间上,有 时使用也不方便。第二种方法更为适用.
二、选定先验密度函数形式再估计其超参数
1.要点
(1).根据先验信息选定的先验密度函数的形式( ) 。
F(x)称为F(x|θ1)和F(x|θ2) 的混合分布。 这里的π和1-π可以看作一个新的随机变量θ的分布,即
P( 1) , P( 2 ) (1 )
F(x) F(x |1) (1 )F(x |2 )
P( 1) , P( 2 ) (1 )
从混合分布F(x)中抽取一个样品x1,相当于如下两个抽样: 第一次,从π(θ) 中抽取一个样品θ。 若θ= θ1,则从F(x|θ1)中再抽一个样品,这个样品就 是x1,若θ=θ2 ,则从F(x|θ2)中再抽一个样品,这个 样品就是x1. 若从混合分布抽取一个容量为n的样本x1, x2,…,xn,那么 其中约有nπ(θ1) 个来自F(x|θ1),约有nπ(θ2)个来自 F(x|θ2),这样的样本有时也称为混合样本.
2
}求其最大值则可 )
取
d
d
2
[ln
(
2
)]
2(
2
n
2
)
ns2
2(
2
2
)2
0
得
2
S2
2
注意到 : 若S 2
2时
2
S2
2为最大点
而若S 2
2时
2
S2
2
0则取
2
0为最大点
ML2
ˆ ~ N (ˆ ,ˆ2 )
, 其中ˆ
1 n
n i 1
xi
,ˆ2 max{0, S 2 2}.
四、先验选择的矩方法
矩方法用于先验密度函数形式π(θ|λ)已知,利用先验矩 与边缘分布矩之间的关系寻求超参数的估计.
定理 设总体分布若p(x|θ)的期望μ(θ)和方差σ2 (θ),假设
分别为Xm ,的m边2 缘分布m(x)的均值与方差,假设以上值都存 在,则
m E ( ) ,
2 m
E
2( )
E ( ) m 2
例3.11
三、先验选择的ML—Ⅱ方法
m(x)
p( x | ) ( )d,为连续时
p( x | ) ( ),为离散时
(3.1)
若p(x|θ)已知,则m(x)大小反映π(θ)的合理程度,这里
把m(x)记为m(x|π) 或mπ(x) 是由无限个不可数的密度
函数混合而成.
设Γ为所考虑的先验类, ˆ 满足(对观察值x)
例如,许多经济现象都是不能重复或不能大量重复 的随机现象。
在经典统计中有一种习惯,对所得到概率都要给出 频率解释。这些在有些场合是难于作出的。
例如:天气预报。
§3.1 主观概率
一、主观概率
1.定义:一个事件的概率是人们根据经验对该事件发 生的可能性大小所给出的个人信念,这样给出的概率 称为主观概率
素(Ω, F ,P)为概率空间(Probability space) .
概率是定义在σ-域F上的一个非负的、正则的、可列可加的集函数
在经典统计中,概率用非负性、正则性和可加性三 条公理定义的。
确定概率的方法主要有两种。一是古典方法(包括 几何方法),另一种是频率方法。实际中大量使用的 是频率方法,所以经典统计的研究对象是能大量重复 的随机现象,不是这类随机现象就不能用频率的方法 去确定其有关事件的概率。这无疑把统计学的应用和 研究领域缩小了。
推论1 若μ(θ)=θ,则 m E (先验均值).
2.若还有σ2 (θ)= σ2(与θ无关的常数 ),则
m2 2 2 其中 2 E 2
先验选择的矩方法的步骤如下(当先验分布中有两个超 参数时) (1, 2 )
1.定义
定分度法是把参数可能取值的区间逐次分为长度相等的 小区间,每次在每个小区间上请专家给出主观概率.
变分度法是把参数可能取值的区间逐次分为机会相等的 两个小区间,这里分点由专家确定.
2.注意的问题
(1)所咨询专家应是声誉良好的和富有经验的
(2)这两个方法相比,决策者更愿意使用变分度法.
例3.9 一开发商希望获知一个新建仓库的租金可能 达到的水平是什么?为此向一位推租经纪人咨询。
2.用专家意见来确定主观概率的方法(最常用的).
注意:(1).向专家提的问题要设计好,既要使专家 易懂又要使专家回答不是模棱两可。 (2).要对专家本人比较了解,以便做出修正,形成 决策者自己的主观概率.
(3).通过向多位专家咨询后,经修正和综合获得主 观概率,关键在于把问题设计好,便于往后综合,即 在提出问题时,就要想到如何综合。
当总体参数是离散时,即参数空间Θ只含有限个或可
数个点时,可对Θ中每个点确定一个主观概率。
2.当总体参数是连续时,即参数空间Θ是实数轴或其 上某个区间时,要构造一个先验密度( ),就有些困
难了.
当的先验信息足够多时,下面有三个方法可供使用.
直方图法
选定先验密度函数形式再估计其超参数
定分度法与变分度法
一、直方图法
则可以算得X的边缘分布为N(μπ,τπ2+σ2)
二、混合分布
设随机变量X以概率π在总体F1中取值,以概率1-π在 总体F2中取值.若F(x|θ1)和F(x|θ2)分别是这两个总体 的分布函数,则X的分布函数为
F(x) F(x |1) (1 )F(x |2 )
或用密度函数或概率函数表示
p(x) p( x |1) (1 ) p( x |2)
第三章 先验分布的确定
§3.1 主观概率 §3.2 利用先验信息确定先验分布 §3.3 利用边缘分布m(x)确定先验密度 §3.4 无信息先验分布 §3.5 多层先验
概率的公理化定义
定义:设Ω 为一个样本空间, F为Ω的某些子集组成 的一个事件域,如果对任一事件A∈F,定义在F上 一个实值函数P(A)满足下列条件:
m(x)
p( x | ) ( )d,为连续时
p( x | ) ( ),为离散时
(3.1)
当先验分布含有未知参数时,譬如π(θ)=π(θ|λ),那么
边缘分布m(x)依赖于λ,可记为m(x|λ). 例3.10 设总体X~N(, σ2) 其中σ2已知。
取另一正态分布N(μπ,τπ2)作为正态均值的先验分布
1 n
n i 1
xi
, s2
1 n
n
( xi
i 1
x )2
m(x
)
[2
(
2
2
n
)] 2
exp{
ns2
2(
2
2
}exp{ )
n(x
2(
2
)2
2
} )
由exp{ 故只需令
(2((x2 )2[2)2(2)}2知, 不2 )]论 n2 exp2如 { 何 2(xn2 s2
可使m(x )达最大
要进一步分析先验信息.先验信息很分散;柯西分布
先验信息较为集中:正态分布
3.两个先验分布都满足给定的先验信息。
(1)如果两个先验分布差别不大,对后验分布的影响 也不大,那可任选一个。
(2)假如面临两个差异较大的先验分布可供选择时, 应慎重选择。因不同的选择对后验分布的影响也会很大.
三、定分度法与变分度法 两种方法的共同点:通过咨询专家获得各种主观概 率,然后经过整理加工可得到累积概率分布曲线.
•用主观方法确定经验的例子
(1)明天下雨的概率为60%
(2)某新产品在未来市场上畅销的概率为80% (3)我班研究生考取大概为25%
说明:1.主观概率不是随意决定的,而是要求当事人 对所考察的事件有较透彻的了解和丰富的经验,甚至 是这方面的专家。并能对周围信息和历史信息进行仔 细分析,在这个基础上确定的主观概率就能符合实际。 所以应把主观概率与主观臆造,瞎说一通区别开来。
其中,
m(xi
)
N
(
,
2
2)
于是
m(x )
n i 1
1
1
[2
(
2
2)2
n
exp{ (xi )2 }
n
2(
2
2)
(xi )2
[2
(
2
2)2
exp{
i 1
2(
2
2)
}
[2
(
2
2
)]
n 2
exp{
n
n
(xi x )2
i 1
n
2(
2
2)
}exp{
n(x
2(
2
)2
2
} )
取x
例3.12 设总体X~N(, σ2) 其中σ2已知。
取另一正态分布N(μπ,τπ2)作为正态均值的先验分布
则可以算得X的边缘分布为N(μπ,τπ2+σ2)
设X 在给定时条件分布为N ( ,
2 ),
(
)
~
N (
,
2
),
则边缘分布m( x
)
~
N (
,
2
2)
n
由 m( X ) m(xi )
i 1
(1)非负性公理:对于每一事件A,有P(A)≥0;
(2)正则性(规范性)公理:P(Ω)=1;
(3)可列可加性(完全可加性)公理:设A1,A2,…是互
不相容的事件,即对于i≠j,AiAj=,i,j=1,2,…,则有
P(
Ai
)
P(