bayesianinference贝叶斯、推断、观点和贝叶斯方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Chp11:贝叶斯推断
内容:
贝叶斯观点和贝叶斯方法 贝叶斯推断 vs. 频率推断
1
贝叶斯观点和贝叶斯方法
从频率到信念
2
频率学派的观点
到目前为止我们讲述的都是频率(经典的)统计学
概率指的是相对频率,是真实世界的客观属性。 参数是固定的未知常数。由于参数不会波动,因
此不能对其进行概率描述。 统计过程应该具有定义良好的频率稳定性。如:
,根据贝叶斯公式,后验为
( ) f p | xn ? f ( p)Ln (q) ps (1- )p n-s = ( ps+1-1 1- )p n-s+1-1
å 其中 s = i xi 为成功的次数。
11
例:Bernoulli I
为了得到后验的均值,我们必须计算
qn
=
ò
q
f
(q
|
xn
)dq
=
ò qLn (q) f (q) ò Ln (q) f (q)dq
s
+1)
p(s+1)-1
(1-
)p (n-s+1)-1
12
例:Bernoulli I
p的极大似然估计为 µp = s n ,为无偏估计。
贝叶斯估计还可以写成
p
=
l n
µp
+
(1-
l n
)
°p
其中
p
1
2 为先验的均值,n
n 1 n2
13
例:Bernoulli II
现在假设先验不是均匀分布,而是 p : Beta(a,b)
机器学习和数据挖掘更偏爱贝叶斯推断
4
贝叶斯方法
贝叶斯推断的基本步骤如下:
选择一个概率密度函数 f ( ),用来表示在取得数据之
前我们对某个参数 的信念。我们称之为先验分布。
选择一个模型 f (x | )(在参数推断一章记为 f (x; ) )
来反映在给定参数 情况下我们对x的信念。
当得到数据 X1, X2,…Xn 后,我们更新我们的信念并且
现在似然函数真正解释为给定参数下数据的概率
7
后验概率
因此后验概率为
f
|
xn
f xn | f f xn | f d
Ln
f
cn
L n
f
其中cn
L n
f
d
被称为归一化常数
(normalizing constant)。该常数经常被忽略,因为
我们关心的主要是参数 的不同值之间的比较。
所以
f | xn Ln f
也就是说,后验和似然函数与先验的乘积成正比
8
贝叶斯点估计
后验的均值
n f | xn d
是一个常用的点估计
Ln f d Ln f d
L2损失下的贝叶斯规则
极大后验估计(maximum a posteriori,MAP)是使后验 f | xn
在这个例子中可以解析计算。后验恰好为Beta分布
f
(
p; a,
b)=
G(a + b) G(a)G(b)
பைடு நூலகம்
pa-1 (1-
)p b-1
其中参数 a = s +1 ,b = n- s +1,均值为 a (a +b)
( ) p
f
=
s n
+1 +2
p | xn =
G(s
G(n + 2) +1)G (n -
C称为 1-a 后验区间。
注意:在多次试验中,并不保证θ在 (1 − α)100% 的次数会落
在后验区间内。事实上,在复杂的高维模型中,当样本数很 少时,覆盖概率可能接近于0。
注意:xn , 是随机的
10
例:Bernoulli I
令 布
Xf 1(,p..).,=X1n
~ Bernoulli( p) ,假设先验为均匀分
f (x | ) f ( )d
6
似然函数
假设我们有n个IID观测 X1,..., X n ,记为 X n,产 生的数据为 x1,..., xn ,记为 xn ,我们用如下公
式替代 f x |
n
f xn | f x1,..., xn | f xi | Ln i 1
最大的 的值:
ˆn arg max f | xn
是另一个常用的点估计
0-1损失下的贝叶斯规则
9
贝叶斯置信区间估计
为了得到贝叶斯区间估计,我们需找到a和b,使得
蝌a f (q | xn )dq = +? f (q | xn )dq = a 2
-?
b
令 C =(a,b)
因此 P(q ? C | xn ) ò b f (q | xn )dq =1-a a
计算后验分布 f ( | X1,..., Xn ) 。
从后验分布中得到点估计和区间估计。
5
回忆贝叶斯规则
亦称贝叶斯定理
f (y | x) f (x | y) f (y)
f (x | y) f ( y)dy
条件概率
利用贝叶斯规则将数据和参数的分布联合起来
f ( | x) f (x | ) f ( )
exp
蝌 蝌 蝌 蝌 蝌-
1 2s
2
对θ而言为常数
f (q) =
å 1
2pb
exp
蝌 蝌 蝌 蝌 蝌-
1 2b2
(q - a)2
(nq2 - 2nqx)
å =
142414p4b4e4x44p2蝌 蝌 蝌 蝌 蝌-442414b424a4243
exp
蝌 蝌 蝌 蝌 蝌-
一个95%的置信区间应覆盖参数真实值至少95% 的频率。
统计学更多关注频率推断
3
贝叶斯学派的观点
贝叶斯推断采取了另外一个不同的立场: 概率描述的是主观信念的程度,而不是频率。这
样除了对从随机变化产生的数据进行概率描述外, 我们还可以对其他事物进行概率描述。 可以对各个参数进行概率描述,即使它们是固定 的常数。 为参数生成一个概率分布来对它们进行推导,点 估计和区间估计可以从这些分布得到
如例子中的Beta分布
14
例:正态分布
( ( ) ) s
令X1,..., X n
假设先验为
~ N q,s2 ,为简单起见,假设 q : N a,b2
已知,并
å
Ln
(q
|
x
n
)
=
蝌 ççç蝌
1 2ps
n
÷÷÷
exp
蝌 蝌 蝌 蝌 蝌-
1 2s
2
(xi -q)2
蝌 =
蝌 ççç蝌144241p44s4÷÷÷4n4e4x4p42蝌 蝌 蝌 蝌 蝌-4424s1442 4444x4i4243
则后验为Beta分布,参数为 a + s 和 b + n- s ,
即 p | xn : Beta(a + s,b + n-s)
后验的均值为
p
=
a
a +
+s b+
n
=
蝌蝌蝌蝌蝌a
+
n b
+
n 蝌蝌蝌µp
+蝌蝌a
a+ +b
b +
n
p0
其中 p0 = a (a +b)为先验的均值。
先验和后验为相同的分布族:共轭
相关文档
最新文档