高斯分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
假设有K 假设有K个成分 每个成分从均值为m 、协方差矩阵为S k 的高斯分布产生数据 k 假设每个数据点根据如下规则产生:
随机选择一个成分,选择第k 随机选择一个成分,选择第k个成分的概率为 P(y = k) 从第k 从第k个成分产生数据: ~ N(m ,S k ) X k
即
ak = P(y = k), å a k = 1
19
EM
EM用于混合模型参数推断的具体过程请参见参考 EM用于混合模型参数推断的具体过程请参见参考 文献和参考ppt 文献和参考ppt
再下次课上讲述
Matlab函数:ecmnmle Matlab函数:ecmnmle
[Mean, Covariance] = ecmnmle (Data, InitMethod, MaxIterations, Tolerance, Mean0, Covar0 )
22
下节课内容
MLE的性质 MLE的性质
23
, 2 , 令 X1,..., Xn ~ N(ms ) ,参数为 q = (ms ) , 一阶矩 a1 = Eq (X)= m 1 n ˆ 一阶样本矩 a1 = å Xi = Xn
n
i=1
2 a2 = Eq (X 2 )= m + s 2 二阶矩 1 n 2 ˆ2 = å (Xi ) 二阶样本矩 a
矩估计法 极大似然估计:更流行 极大似然估计:更流行 贝叶斯方法
4
矩方法
矩方法得到的估计虽然不是最优的,但是很容易计算
当其他方法不可用时,可用矩方法
可用作很多迭代算法的初始值 基本思想:矩匹配
对真正的矩和样本矩进行匹配
5
矩方法
X1,..., Xn ~ f (x;q), q = (q ,...,qk ) 1
K j =1
t = ωik
n
t +1
al
1 = å wtik n i=1
n
n
t m+1 = k
T
å
i=1 n
wtik Xi
t wik
M步
S tk+1 =
å
i=1
t t wtik (Xi - m+1)(Xi - m+1) k k n
å
i=1
å
i=1
t wik
21
EM总结 EM总结
总结
EM会收敛到局部极值,但不保证收敛到全局最优 EM会收敛到局部极值,但不保证收敛到全局最优 适合的情况
Ln (q)
Õ f (X ;q)= 0
i i=1
因此令 X(n) = max{X1,..., Xn}
ì (1 q)n q ³ X ï (n) 则 Ln (q)= ï í ï 0 otherwise ï ï î ˆ 所以 q = X(n) n
递减函数
17
混合高斯模型(GMM)
(Mixture of Gaussians Model)
Q= { ms ): m? R, s ( ,
。 0}
通常我们只对一些函数 T (q) 感兴趣,如均值或均值的函数。 m 因此 为感兴趣参数(parameter of interest), 为冗余参量 感兴趣参数(parameter interest), 冗余参量 s (nuisance parameter)。 parameter)。 有多种方法可用来估计模型的参数
如梯度下降法 如EM算法(如下例中的混合高斯模型) EM算法(如下例中的混合高斯模型)
需注意的问题:要找到似然函数的全局极大值
一阶导数为0 一阶导数为0只是必要条件,非充分条件 而且一阶导数为0 而且一阶导数为0只能找到函数定义域内部的局部极 值点。如在边界上取极值,一阶导数可能不为0 值点。如在边界上取极值,一阶导数可能不为0。因 此还必须检验边界。
16
例:均匀分布 例:均匀分布
令 X1,..., Xn ~ Uniform(0,q) 则概率函数 ì 1 q 0# x ï
q ï f (x;q)= í ï 0 otherwise ï î 考虑一个固定的θ值,假设对于某一个i,有 q< Xi ,则 值,假设对于某一个i
n
f (Xi ;q)= 0 ?
Chp9:参数推断 Chp9:参数推断
主要内容
参数推断的基本概念 参数推断的方法
矩方法 极大似然估计(Maximum 极大似然估计(Maximum Likelihood Estimator, MLE ) MLE的性质 MLE的性质
1
参数推断
假设已知模型的函数形式
F ={f (x;q): q蜵 } ,
k
fk (x)= f (x | y = k) ~ N(m ,S k )= f (x;m ,S k ) k k
f (x;m S)= 邋 k fk (x)= , a
k=1 K K
akf (x;m ,S k ) k
k=1
18
混合高斯模型
问题:给定IID数据 问题:给定IID数据 X1,..., Xn,求参数 ak , m ,s k k MLE不能解析求得,因此我们通过数值计算(如 MLE不能解析求得,因此我们通过数值计算(如 EM算法)求解。 EM算法)求解。 将完整数据 X1,..., Xn 转换为非完整数据/缺失数据 转换为非完整数据/ (X1,Y ),...,(Xn,Yn ) ,其中Yi 为 Xi所属的类别。 1
n
i=1
所以
ì 1 n ï ï ˆn ï m = å Xi = Xn ï n i=1 镲 眄 镲2 1 n 2 镲 + s2 = ˆ m ˆn 镲 å1 (Xi ) ï n n i= ï î ì ï ï ï ˆn m = Xn
Þ
2 1 n 2 ˆ s n = å (Xi - Xn ) n i=1 ï î
但通常我们并不将似然解释为参数θ 但通常我们并不将似然解释为参数θ的概率
11
极大似然估计
$ 极大似然估计(MLE) 极大似然估计(MLE)qn 是使得 n (q) L 最大的 q ,即
ˆ qn = argm Ln (q) ax
q
log似然函数定义为: (q)= logLn (q),它和似然函 log似然函数定义为: l 数在相同的位置取极大值。 同样,相差常数倍也不影响似然函数取极大值的 位置。因此似然函数中的常数项也可以抛弃。
P1 (X = x)> P2 (X = x) q q
则观测到的样本更可能发生在θ 则观测到的样本更可能发生在θ = θ1下,也就是说,相比 θ2 ,θ1是一个更可信的猜测。 对连续的X 对连续的X,
Pq1 (x- e < X < x + e) Pq2 (x- e < X < x + e)
»
Ln (q ; x) 1 Ln (q2; x)
8
极大似然估计(MLE) 极大似然估计(MLE)
极大似然估计
似然函数 对似然函数求最大值
极大似然估计的性质
9
似然函数
令 X1,..., Xn 为IID,其PDF为 f (x;q),似然函数定 IID,其PDF为 似然函数定 n 义为
Ln (q)= Õ f (Xi ;q)
i=1
有时也记为 Ln (q; x) Ln (q | x) 或 ,表示似然函数为在给 定x的情况下,参数θ的函数。 的情况下,参数θ
R 其中 Q k 为参数空间 目标: 估计参数 q = (q ,..., q ) 1 k
2
例子
一些流行的参数模型的例子:
线性判别分别(LDA) 分类) 线性判别分别(LDA) (分类) 混合高斯模型 (密度估计) 密度估计) 高斯噪声模型 (回归) 回归)
3
参数估计
假设有一类模型函数 F,如所有的高斯函数的集合,其参 数参数空间为 参数空间为
缺失数据不太多时 数据维数不太高时(数据维数太高的话,E 数据维数不太高时(数据维数太高的话,E步的计算很费时)
参考文献
Jeff A. Bilmes, A Gentle Tutorial of the Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models
似然函数在数值上是数据的联合密度,但它是参 数θ的函数,Ln : Q[0, ) 。因此似然函数通常不 满足密度函数的性质,如它对θ的积分不必为1 满足密度函数的性质,如它对θ的积分不必为1。
10
似然的解释
若X是离散的,则 Ln (q; x)= Pq (X = x) 。如果我们比较 两个参数θ 两个参数θ1和θ2的似然值,如果
ï =0 ï 2 ï ¶s = s ï í ï ¶ l (ms ) , n nS2 ï ï ï ¶m = - s + s 3 = 0 ï î
ï ˆn 得到 ì m = Xn ï í ï ï sn = S î ˆ
可以证明,这是似然函数的全局最大值。
15
对似然函数求最大值
对似然函数求极值(求导)
解析法(如上例中的高斯模型) 数值计算:优化算法
12
例:Bernoulli分布 例:Bernoulli分布
令 X1,..., Xn ~ Bernoulli(p), 1 x x 则概率函数 f (x; p)= p (1- p) 似然函数为 n n
Ln (p)= 照 (Xi ; p)= f
n i=1 Xi
p (1- p)
i=1
1 Xi -
= p (1- p)
2
Ln (ms )= Õ exp镲 2 (Xi - m , ) 睚 镲 2s 镲 i s 铪 禳 1 镲 2 -n = s exp镲 2 å (Xi - m ) 睚 镲 2s i 镲 铪 =s
-n
禳 nS 镲 exp镲 2 睚 镲 2s 镲 铪
2
禳 镲 n X - m2 镲 ( ) 镲 exp睚 镲 2s 2 镲 镲 铪
6
例:Bernoulli分布 例:Bernoulli分布
令 X1,..., Xn ~ Bernoulli(p), 一阶矩 a1 = Ep (X)= p 1 n 一阶样本矩 a1 = å Xi = Xn ˆ n i=1 所以我们得到估计
1 n ˆ pn = å Xi = Xn n i=1
7
例:高斯分布
其中Xn = n- 1å i Xi 为样本均值 2 2 - 1 S = n å i (Xi - Xn ) 为样本方差 因为邋 Xi - m = ( ) i
2 i
(Xi -
Xn + Xn - m = nS + n(Xn - m ) )
2
2
2
14
例:高斯分布
log似然函数为 log似然函数为 2 2 n(Xn - m ) nS l (ms )= - nlogs , 2 2s 2s 2 解方程 ì ¶l (ms ) n(Xn - m ï , )
20
EM for GMM
t t t t t t t 第t次的估计为 Q = m ,.., m ,S 1 ,..,S K , a 1 ,.., a K 1 K 则第t+1次的估计为 则第t+1次的估计为
(
)
E步
f ( k | Xi , Θt ) =
t t αk fk ( Xi | θk )
αtj f j ( Xi | θtj ) ∑
a j ? a j (q) Eq (X j )= j阶矩:
1 n j阶样本矩: a j = å Xij ˆ n i=1
矩方法:取前k 矩方法:取前k阶矩
真正的矩 样本矩
x j f (x;q)dx ò
ˆ a1 qn
2
( ) ˆ a (q )
n
= =
ˆ a1 ˆ a2
MMM ˆ ak qn
( )=Βιβλιοθήκη ˆ akSn- S
其中 S =
å
i=1
Xi
所以 ln (p)= S log p+ (n- S)log(1- p) 解方程
? ln (p) S (n S) = =0 ?p p 1 p ? ˆ pn 1 1 n S = å Xi = Xn n n i=1
13
例:高斯分布
, ,参数为 q = (ms ) ,似然函数(忽 令 X1,..., Xn ~ N(ms ) , 略常数项)为 禳 1 1 2 镲
随机选择一个成分,选择第k 随机选择一个成分,选择第k个成分的概率为 P(y = k) 从第k 从第k个成分产生数据: ~ N(m ,S k ) X k
即
ak = P(y = k), å a k = 1
19
EM
EM用于混合模型参数推断的具体过程请参见参考 EM用于混合模型参数推断的具体过程请参见参考 文献和参考ppt 文献和参考ppt
再下次课上讲述
Matlab函数:ecmnmle Matlab函数:ecmnmle
[Mean, Covariance] = ecmnmle (Data, InitMethod, MaxIterations, Tolerance, Mean0, Covar0 )
22
下节课内容
MLE的性质 MLE的性质
23
, 2 , 令 X1,..., Xn ~ N(ms ) ,参数为 q = (ms ) , 一阶矩 a1 = Eq (X)= m 1 n ˆ 一阶样本矩 a1 = å Xi = Xn
n
i=1
2 a2 = Eq (X 2 )= m + s 2 二阶矩 1 n 2 ˆ2 = å (Xi ) 二阶样本矩 a
矩估计法 极大似然估计:更流行 极大似然估计:更流行 贝叶斯方法
4
矩方法
矩方法得到的估计虽然不是最优的,但是很容易计算
当其他方法不可用时,可用矩方法
可用作很多迭代算法的初始值 基本思想:矩匹配
对真正的矩和样本矩进行匹配
5
矩方法
X1,..., Xn ~ f (x;q), q = (q ,...,qk ) 1
K j =1
t = ωik
n
t +1
al
1 = å wtik n i=1
n
n
t m+1 = k
T
å
i=1 n
wtik Xi
t wik
M步
S tk+1 =
å
i=1
t t wtik (Xi - m+1)(Xi - m+1) k k n
å
i=1
å
i=1
t wik
21
EM总结 EM总结
总结
EM会收敛到局部极值,但不保证收敛到全局最优 EM会收敛到局部极值,但不保证收敛到全局最优 适合的情况
Ln (q)
Õ f (X ;q)= 0
i i=1
因此令 X(n) = max{X1,..., Xn}
ì (1 q)n q ³ X ï (n) 则 Ln (q)= ï í ï 0 otherwise ï ï î ˆ 所以 q = X(n) n
递减函数
17
混合高斯模型(GMM)
(Mixture of Gaussians Model)
Q= { ms ): m? R, s ( ,
。 0}
通常我们只对一些函数 T (q) 感兴趣,如均值或均值的函数。 m 因此 为感兴趣参数(parameter of interest), 为冗余参量 感兴趣参数(parameter interest), 冗余参量 s (nuisance parameter)。 parameter)。 有多种方法可用来估计模型的参数
如梯度下降法 如EM算法(如下例中的混合高斯模型) EM算法(如下例中的混合高斯模型)
需注意的问题:要找到似然函数的全局极大值
一阶导数为0 一阶导数为0只是必要条件,非充分条件 而且一阶导数为0 而且一阶导数为0只能找到函数定义域内部的局部极 值点。如在边界上取极值,一阶导数可能不为0 值点。如在边界上取极值,一阶导数可能不为0。因 此还必须检验边界。
16
例:均匀分布 例:均匀分布
令 X1,..., Xn ~ Uniform(0,q) 则概率函数 ì 1 q 0# x ï
q ï f (x;q)= í ï 0 otherwise ï î 考虑一个固定的θ值,假设对于某一个i,有 q< Xi ,则 值,假设对于某一个i
n
f (Xi ;q)= 0 ?
Chp9:参数推断 Chp9:参数推断
主要内容
参数推断的基本概念 参数推断的方法
矩方法 极大似然估计(Maximum 极大似然估计(Maximum Likelihood Estimator, MLE ) MLE的性质 MLE的性质
1
参数推断
假设已知模型的函数形式
F ={f (x;q): q蜵 } ,
k
fk (x)= f (x | y = k) ~ N(m ,S k )= f (x;m ,S k ) k k
f (x;m S)= 邋 k fk (x)= , a
k=1 K K
akf (x;m ,S k ) k
k=1
18
混合高斯模型
问题:给定IID数据 问题:给定IID数据 X1,..., Xn,求参数 ak , m ,s k k MLE不能解析求得,因此我们通过数值计算(如 MLE不能解析求得,因此我们通过数值计算(如 EM算法)求解。 EM算法)求解。 将完整数据 X1,..., Xn 转换为非完整数据/缺失数据 转换为非完整数据/ (X1,Y ),...,(Xn,Yn ) ,其中Yi 为 Xi所属的类别。 1
n
i=1
所以
ì 1 n ï ï ˆn ï m = å Xi = Xn ï n i=1 镲 眄 镲2 1 n 2 镲 + s2 = ˆ m ˆn 镲 å1 (Xi ) ï n n i= ï î ì ï ï ï ˆn m = Xn
Þ
2 1 n 2 ˆ s n = å (Xi - Xn ) n i=1 ï î
但通常我们并不将似然解释为参数θ 但通常我们并不将似然解释为参数θ的概率
11
极大似然估计
$ 极大似然估计(MLE) 极大似然估计(MLE)qn 是使得 n (q) L 最大的 q ,即
ˆ qn = argm Ln (q) ax
q
log似然函数定义为: (q)= logLn (q),它和似然函 log似然函数定义为: l 数在相同的位置取极大值。 同样,相差常数倍也不影响似然函数取极大值的 位置。因此似然函数中的常数项也可以抛弃。
P1 (X = x)> P2 (X = x) q q
则观测到的样本更可能发生在θ 则观测到的样本更可能发生在θ = θ1下,也就是说,相比 θ2 ,θ1是一个更可信的猜测。 对连续的X 对连续的X,
Pq1 (x- e < X < x + e) Pq2 (x- e < X < x + e)
»
Ln (q ; x) 1 Ln (q2; x)
8
极大似然估计(MLE) 极大似然估计(MLE)
极大似然估计
似然函数 对似然函数求最大值
极大似然估计的性质
9
似然函数
令 X1,..., Xn 为IID,其PDF为 f (x;q),似然函数定 IID,其PDF为 似然函数定 n 义为
Ln (q)= Õ f (Xi ;q)
i=1
有时也记为 Ln (q; x) Ln (q | x) 或 ,表示似然函数为在给 定x的情况下,参数θ的函数。 的情况下,参数θ
R 其中 Q k 为参数空间 目标: 估计参数 q = (q ,..., q ) 1 k
2
例子
一些流行的参数模型的例子:
线性判别分别(LDA) 分类) 线性判别分别(LDA) (分类) 混合高斯模型 (密度估计) 密度估计) 高斯噪声模型 (回归) 回归)
3
参数估计
假设有一类模型函数 F,如所有的高斯函数的集合,其参 数参数空间为 参数空间为
缺失数据不太多时 数据维数不太高时(数据维数太高的话,E 数据维数不太高时(数据维数太高的话,E步的计算很费时)
参考文献
Jeff A. Bilmes, A Gentle Tutorial of the Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models
似然函数在数值上是数据的联合密度,但它是参 数θ的函数,Ln : Q[0, ) 。因此似然函数通常不 满足密度函数的性质,如它对θ的积分不必为1 满足密度函数的性质,如它对θ的积分不必为1。
10
似然的解释
若X是离散的,则 Ln (q; x)= Pq (X = x) 。如果我们比较 两个参数θ 两个参数θ1和θ2的似然值,如果
ï =0 ï 2 ï ¶s = s ï í ï ¶ l (ms ) , n nS2 ï ï ï ¶m = - s + s 3 = 0 ï î
ï ˆn 得到 ì m = Xn ï í ï ï sn = S î ˆ
可以证明,这是似然函数的全局最大值。
15
对似然函数求最大值
对似然函数求极值(求导)
解析法(如上例中的高斯模型) 数值计算:优化算法
12
例:Bernoulli分布 例:Bernoulli分布
令 X1,..., Xn ~ Bernoulli(p), 1 x x 则概率函数 f (x; p)= p (1- p) 似然函数为 n n
Ln (p)= 照 (Xi ; p)= f
n i=1 Xi
p (1- p)
i=1
1 Xi -
= p (1- p)
2
Ln (ms )= Õ exp镲 2 (Xi - m , ) 睚 镲 2s 镲 i s 铪 禳 1 镲 2 -n = s exp镲 2 å (Xi - m ) 睚 镲 2s i 镲 铪 =s
-n
禳 nS 镲 exp镲 2 睚 镲 2s 镲 铪
2
禳 镲 n X - m2 镲 ( ) 镲 exp睚 镲 2s 2 镲 镲 铪
6
例:Bernoulli分布 例:Bernoulli分布
令 X1,..., Xn ~ Bernoulli(p), 一阶矩 a1 = Ep (X)= p 1 n 一阶样本矩 a1 = å Xi = Xn ˆ n i=1 所以我们得到估计
1 n ˆ pn = å Xi = Xn n i=1
7
例:高斯分布
其中Xn = n- 1å i Xi 为样本均值 2 2 - 1 S = n å i (Xi - Xn ) 为样本方差 因为邋 Xi - m = ( ) i
2 i
(Xi -
Xn + Xn - m = nS + n(Xn - m ) )
2
2
2
14
例:高斯分布
log似然函数为 log似然函数为 2 2 n(Xn - m ) nS l (ms )= - nlogs , 2 2s 2s 2 解方程 ì ¶l (ms ) n(Xn - m ï , )
20
EM for GMM
t t t t t t t 第t次的估计为 Q = m ,.., m ,S 1 ,..,S K , a 1 ,.., a K 1 K 则第t+1次的估计为 则第t+1次的估计为
(
)
E步
f ( k | Xi , Θt ) =
t t αk fk ( Xi | θk )
αtj f j ( Xi | θtj ) ∑
a j ? a j (q) Eq (X j )= j阶矩:
1 n j阶样本矩: a j = å Xij ˆ n i=1
矩方法:取前k 矩方法:取前k阶矩
真正的矩 样本矩
x j f (x;q)dx ò
ˆ a1 qn
2
( ) ˆ a (q )
n
= =
ˆ a1 ˆ a2
MMM ˆ ak qn
( )=Βιβλιοθήκη ˆ akSn- S
其中 S =
å
i=1
Xi
所以 ln (p)= S log p+ (n- S)log(1- p) 解方程
? ln (p) S (n S) = =0 ?p p 1 p ? ˆ pn 1 1 n S = å Xi = Xn n n i=1
13
例:高斯分布
, ,参数为 q = (ms ) ,似然函数(忽 令 X1,..., Xn ~ N(ms ) , 略常数项)为 禳 1 1 2 镲