第4讲连续信源的熵与互信息量
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
R2
连续信源的互信息
定义:连续随机变量的平均互信息量为
p( x, y) I ( X ; Y ) p( x, y) log dxdy q( x) w( y) R2 I ( X ;Y ) Hc ( X ) Hc ( X / Y )
连续随机变量的联合熵、条件熵和互信息之间关系
H c ( XY ) H c ( X ) H c (Y / X ) H c ( XY ) H c (Y ) H c ( X / Y ) I ( X ;Y ) H c ( X ) H c ( X / Y ) I ( X ; Y ) H c (Y ) H c (Y / X ) I ( X ; Y ) H c ( X ) H c (Y ) H c ( XY )
2
解:正态随机变量x的概率密度
p( x)
1 1 exp 2 ( x m) 2 2 2 1 1 H C ( X ) p ( x) ln 2 ( x m) 2 dx 2 2 1 ln 2 2 1 ln 2 e 2 2
( x mx ) 2 2 ( x mx )( y my ) 1 ln 2 2 2 (1 ) (1 ) x y 1 2 2 x
p XY ( xy ) p XY ( xy ) log dxdy p X ( x ) pY ( y )
连续熵实例
指数分布的连续信源的熵:
概率密度 :
连续信源的相对熵
定义:连续随机变量的联合熵为
H c ( XY ) p ( xy ) log p ( xy ) dxdy
R2
定义:连续随机变量的条件熵为
H c ( X / Y )= p( xy) log p( x / y)dxdy
R2
H c (Y / X )= p( xy) log p( y / x)dxdy
它的值视 2 的大小可正、可负或零,且与数学期望无关。
连续熵实例
• 均匀分布的连续信源的熵: 仅与区域的边界有关
一维均匀分布 : Hc ( X ) ln(b a)
N 维均匀分布 : H c (X) ln (bi ai ) ln(bi ai )
i 1 i 1 N N
I ( X ; Y ) p( xi y j ) log
i 1 j 1
n
m
p( xi / y j ) p( xi )
I ( xi ; y j ) I ( xi ) I ( xi / y j ) log
I ( X ; Y ) E[ I ( xi ; y j )]
I ( xi ; y j / zk ) log p( xi / y j zk ) p( xi / zk ) I ( X ; Y / Z ) E[ I ( xi ; y j / zk )]
H(X Y) H(X Z)
I ( X ;Y ) I ( X ; Z )
当消息经过多级处理后,随着处理器数目的增多,输入消息 与输出消息之间的平均互信息量趋于变小。
第四讲
连续信源的熵与互信息量
连续信源的数学模型
输出消息取值上连续的信源,如语音,电视等,
对应的数学工具为连续型随机变量或随机过程。 连续信源输出的状态概率用概率密度来表示。
x取值为第i个小区间xi的概率为p(xi).△, xi为小区间xi中的一
点,于是得到分割后的离散信源Xn的概率源空间为:
x1 p(x1)△
其中
x2 p(x2)△
b a
… …
xn p(xn)△
p( x )
i 1 i
n
p( x)dx 1
按离散信源熵的定义 n
i 1 n
H ( X n ) [ p( xi )]log[ p( xi )]
表明,两个高斯变量之间的互信息只与相关系数有关,而与数学期望及方差 和无关。
类似可得, 1 2 2 Hc( XY ) log 2 ( 1 ) log 2e y x 2
例:设原连续随机变量X是数学期望为m,方差为 2 的正态随机变量,经一个放大倍数为k的放大器放大 输出为Y,求Y的相对熵。
( x mx ) 2 exp 2 2 2 x x
类似可得, p y ( y) 1 2 y
p
R
xy
( xy) d x
2 ( x my ) ex p 2 2 y
X 和Y 之间的平均互信息由定义有
I ( X;Y )
第四讲
连续信源的熵与互信息 量
Review
离散信源的非平均自信息与熵
– 离散随机变量的非平均自信息: I ( xi ) loga p( xi ) ,a 1
I ( xi y j ) log pa ( xi y j )
I ( xi / y j ) loga p( xi / y j )
p( xi ) log p( xi ) p( xi ) log
n i 1 n i 1
p( xi ) log p( xi ) log
当△→0,n→∞时,Xn接近于连续随机变量X,这时可 得连续信源的熵为: n
H ( X ) lim{H ( X n )} lim{ p ( xi ) log p ( xi ) log }
y R
H c ( X / Y ) W ( y ) p( x / y ) log p( x / y) dx
y R
例题 令X是在区间(a,b)上均匀分布的随机变量,求X的相 对熵。
解:x的概率密度为
1 p( x) b a 0
b a
x ( a, b) x ( a, b)
连续信源的熵与平均互信息量
连续随机变量X与离散随机变量Y的平均互信息量
I ( X ; Y )
y R
W ( y ) p( x / y ) W ( y) p( x / y) log dx p( x)W ( y )
连续随机变量X与离散随机变量Y联合联合熵、条件熵
H c ( XY ) W ( y ) p( x / y ) log W ( y ) p( x / y ) dx
j 1 i 1
n
扩展 H ( XY / Z ) E[ I ( xi y j / z k )]
p ( xi y j z k ) log p ( xi y j / z k )
i j k
Review
离散信源序列的熵
– 信源的序列熵:
H (XL ) H (X1X2 XL )
0 n b 0 n i 1
i 1
绝对熵
p( x) log p( x)dx lim{log } H c ( X )
a 0
相对熵
连续信源的相对熵
定义:连续随机变量的相对熵为
H c ( X ) p( x) log p( x)dx
a
b
1) 相对熵为绝对熵减去一个无穷大量; 2) 相对熵不具有非负性,可以为负值; 3) 相对熵不等于一个消息状态具有的平均信息量; 4) 连续信源的绝对熵为一个无穷大量,但当分析互信 息量时是求两个绝对熵的差,当采用相同的量化过 程时,两个无穷大量将被抵消,因而采用相对熵不 影响分析互信息。
解:y=kx为数学期望为km,方差为 k
2
2 的正态随机变量,
1 1 2 H C (Y ) p ( y ) ln 2 ( y km) dy 2 k 2 1 ln 2 k 2 1 ln 2 ek 2 2 2
注意:相对熵值通过线性放大器后发生变化.
1
( y my )2 p XY ( xy)dxdy 2 2 2 2 (1 ) y x y 2 1 1 1 2 1 ln(1 2 ) 1 1 2 2 1 2 1 2 1 2 1 ln(1 2 ) 奈特 2 ( y my )2 ( x mx ) 2
H L ( X) 1 H (X L ) L H lim H L ( X)
L
1
H ( X ) log 2 n
离散无记忆信源:H ∞(X)= HL(X)=H(X) 离散有记忆信源:H∞(X)≤ HL(X) ≤ H(X)
Review
离散信源的互信息
I ( X ;Y ) H ( X ) H ( X / Y )
2 ( x mx )( y my )
x y
( y my ) 2 2 y
求X与Y的平均互信息。
例 X 和Y 的一维概率密度函数容易求得为
p X ( x) p xy ( xy)dy
R
R
1 2 x y 1
( x mx ) 2 2 ( x mx )( y m y ) ( y m y ) 2 1 exp dy 2 2 2 2 x y y 1 x 2(1 )
X ( a, b) p( x) p( x) 并满足p ( x) 0, p ( x)dx 1
a b
连续信源的熵?
考虑一个定义在[a,b]区间的连续随机变量,如下图
p(x) p(xi) △
a
0 xi
b
x
首先把X的取值区间[a,b]等分割为n个小区间,小区间宽度为 △=(b-a)/n,根据概率分布与概率密度曲线区间面积的关系
• 高斯分布的连续信源的熵: 与数学期望无关,仅与方差有关 1
Hc ( X ) 2 1 N H c ( X ) log M log 2 e 2 2 log 2 e 2
连续熵实例
设pXY是(xy)二维高斯概率密度函数
p XY ( xy) 1 2 x y ( x mx ) 2 1 exp 2 2 2 2 ( 1 ) 1 x
I ( xi ; y j zk ) log p( xi y j zk ) p( xi )
p( xi | y j ) p( xi )
I ( X ; YZ ) E[ I ( xi ; y j zk )]
Review
数据处理定理
X
系统1 Y 系统2 Z
两级串联信道的情况
X-Y-Z构成Markov链
– 离散信源的平均自信息即熵:
H ( X ) E[ I ( xi )] p( xi ) loga p( xi )
n
H ( XY ) E I ( xi y j ) p( xi y j ) loga p( xi y j )
i 1 j 1
m
i 1
n
m
H ( X / Y ) E[ I ( xi / y j )] p( xi y j ) log p( xi / y j )
连续信源的互信息
连续随机变量的条件平均互信息量
p( xy / z ) I ( X ; Y / Z ) p( xyz ) log dxdydz q( x / z ) w( y / z ) R3
连续随机变量的联合平均互信息量
p( xyz ) I ( XY ; Z ) p( xyz ) log dxdydz p( xy)w( z ) R3
1 log(b a )dx log(b a ) ba
HC ( X )
注意:连续变量的微分熵不具有非负性 当 b-a> 1 时, HC ( X ) 0; b-a< 1 时, HC ( X ) 0 ; b-a=1 时, HC ( X ) 0 .
例
令X是数学期望为m,方差为 的正态随机变量,求 它的熵。
连续信源的互信息
定义:连续随机变量的平均互信息量为
p( x, y) I ( X ; Y ) p( x, y) log dxdy q( x) w( y) R2 I ( X ;Y ) Hc ( X ) Hc ( X / Y )
连续随机变量的联合熵、条件熵和互信息之间关系
H c ( XY ) H c ( X ) H c (Y / X ) H c ( XY ) H c (Y ) H c ( X / Y ) I ( X ;Y ) H c ( X ) H c ( X / Y ) I ( X ; Y ) H c (Y ) H c (Y / X ) I ( X ; Y ) H c ( X ) H c (Y ) H c ( XY )
2
解:正态随机变量x的概率密度
p( x)
1 1 exp 2 ( x m) 2 2 2 1 1 H C ( X ) p ( x) ln 2 ( x m) 2 dx 2 2 1 ln 2 2 1 ln 2 e 2 2
( x mx ) 2 2 ( x mx )( y my ) 1 ln 2 2 2 (1 ) (1 ) x y 1 2 2 x
p XY ( xy ) p XY ( xy ) log dxdy p X ( x ) pY ( y )
连续熵实例
指数分布的连续信源的熵:
概率密度 :
连续信源的相对熵
定义:连续随机变量的联合熵为
H c ( XY ) p ( xy ) log p ( xy ) dxdy
R2
定义:连续随机变量的条件熵为
H c ( X / Y )= p( xy) log p( x / y)dxdy
R2
H c (Y / X )= p( xy) log p( y / x)dxdy
它的值视 2 的大小可正、可负或零,且与数学期望无关。
连续熵实例
• 均匀分布的连续信源的熵: 仅与区域的边界有关
一维均匀分布 : Hc ( X ) ln(b a)
N 维均匀分布 : H c (X) ln (bi ai ) ln(bi ai )
i 1 i 1 N N
I ( X ; Y ) p( xi y j ) log
i 1 j 1
n
m
p( xi / y j ) p( xi )
I ( xi ; y j ) I ( xi ) I ( xi / y j ) log
I ( X ; Y ) E[ I ( xi ; y j )]
I ( xi ; y j / zk ) log p( xi / y j zk ) p( xi / zk ) I ( X ; Y / Z ) E[ I ( xi ; y j / zk )]
H(X Y) H(X Z)
I ( X ;Y ) I ( X ; Z )
当消息经过多级处理后,随着处理器数目的增多,输入消息 与输出消息之间的平均互信息量趋于变小。
第四讲
连续信源的熵与互信息量
连续信源的数学模型
输出消息取值上连续的信源,如语音,电视等,
对应的数学工具为连续型随机变量或随机过程。 连续信源输出的状态概率用概率密度来表示。
x取值为第i个小区间xi的概率为p(xi).△, xi为小区间xi中的一
点,于是得到分割后的离散信源Xn的概率源空间为:
x1 p(x1)△
其中
x2 p(x2)△
b a
… …
xn p(xn)△
p( x )
i 1 i
n
p( x)dx 1
按离散信源熵的定义 n
i 1 n
H ( X n ) [ p( xi )]log[ p( xi )]
表明,两个高斯变量之间的互信息只与相关系数有关,而与数学期望及方差 和无关。
类似可得, 1 2 2 Hc( XY ) log 2 ( 1 ) log 2e y x 2
例:设原连续随机变量X是数学期望为m,方差为 2 的正态随机变量,经一个放大倍数为k的放大器放大 输出为Y,求Y的相对熵。
( x mx ) 2 exp 2 2 2 x x
类似可得, p y ( y) 1 2 y
p
R
xy
( xy) d x
2 ( x my ) ex p 2 2 y
X 和Y 之间的平均互信息由定义有
I ( X;Y )
第四讲
连续信源的熵与互信息 量
Review
离散信源的非平均自信息与熵
– 离散随机变量的非平均自信息: I ( xi ) loga p( xi ) ,a 1
I ( xi y j ) log pa ( xi y j )
I ( xi / y j ) loga p( xi / y j )
p( xi ) log p( xi ) p( xi ) log
n i 1 n i 1
p( xi ) log p( xi ) log
当△→0,n→∞时,Xn接近于连续随机变量X,这时可 得连续信源的熵为: n
H ( X ) lim{H ( X n )} lim{ p ( xi ) log p ( xi ) log }
y R
H c ( X / Y ) W ( y ) p( x / y ) log p( x / y) dx
y R
例题 令X是在区间(a,b)上均匀分布的随机变量,求X的相 对熵。
解:x的概率密度为
1 p( x) b a 0
b a
x ( a, b) x ( a, b)
连续信源的熵与平均互信息量
连续随机变量X与离散随机变量Y的平均互信息量
I ( X ; Y )
y R
W ( y ) p( x / y ) W ( y) p( x / y) log dx p( x)W ( y )
连续随机变量X与离散随机变量Y联合联合熵、条件熵
H c ( XY ) W ( y ) p( x / y ) log W ( y ) p( x / y ) dx
j 1 i 1
n
扩展 H ( XY / Z ) E[ I ( xi y j / z k )]
p ( xi y j z k ) log p ( xi y j / z k )
i j k
Review
离散信源序列的熵
– 信源的序列熵:
H (XL ) H (X1X2 XL )
0 n b 0 n i 1
i 1
绝对熵
p( x) log p( x)dx lim{log } H c ( X )
a 0
相对熵
连续信源的相对熵
定义:连续随机变量的相对熵为
H c ( X ) p( x) log p( x)dx
a
b
1) 相对熵为绝对熵减去一个无穷大量; 2) 相对熵不具有非负性,可以为负值; 3) 相对熵不等于一个消息状态具有的平均信息量; 4) 连续信源的绝对熵为一个无穷大量,但当分析互信 息量时是求两个绝对熵的差,当采用相同的量化过 程时,两个无穷大量将被抵消,因而采用相对熵不 影响分析互信息。
解:y=kx为数学期望为km,方差为 k
2
2 的正态随机变量,
1 1 2 H C (Y ) p ( y ) ln 2 ( y km) dy 2 k 2 1 ln 2 k 2 1 ln 2 ek 2 2 2
注意:相对熵值通过线性放大器后发生变化.
1
( y my )2 p XY ( xy)dxdy 2 2 2 2 (1 ) y x y 2 1 1 1 2 1 ln(1 2 ) 1 1 2 2 1 2 1 2 1 2 1 ln(1 2 ) 奈特 2 ( y my )2 ( x mx ) 2
H L ( X) 1 H (X L ) L H lim H L ( X)
L
1
H ( X ) log 2 n
离散无记忆信源:H ∞(X)= HL(X)=H(X) 离散有记忆信源:H∞(X)≤ HL(X) ≤ H(X)
Review
离散信源的互信息
I ( X ;Y ) H ( X ) H ( X / Y )
2 ( x mx )( y my )
x y
( y my ) 2 2 y
求X与Y的平均互信息。
例 X 和Y 的一维概率密度函数容易求得为
p X ( x) p xy ( xy)dy
R
R
1 2 x y 1
( x mx ) 2 2 ( x mx )( y m y ) ( y m y ) 2 1 exp dy 2 2 2 2 x y y 1 x 2(1 )
X ( a, b) p( x) p( x) 并满足p ( x) 0, p ( x)dx 1
a b
连续信源的熵?
考虑一个定义在[a,b]区间的连续随机变量,如下图
p(x) p(xi) △
a
0 xi
b
x
首先把X的取值区间[a,b]等分割为n个小区间,小区间宽度为 △=(b-a)/n,根据概率分布与概率密度曲线区间面积的关系
• 高斯分布的连续信源的熵: 与数学期望无关,仅与方差有关 1
Hc ( X ) 2 1 N H c ( X ) log M log 2 e 2 2 log 2 e 2
连续熵实例
设pXY是(xy)二维高斯概率密度函数
p XY ( xy) 1 2 x y ( x mx ) 2 1 exp 2 2 2 2 ( 1 ) 1 x
I ( xi ; y j zk ) log p( xi y j zk ) p( xi )
p( xi | y j ) p( xi )
I ( X ; YZ ) E[ I ( xi ; y j zk )]
Review
数据处理定理
X
系统1 Y 系统2 Z
两级串联信道的情况
X-Y-Z构成Markov链
– 离散信源的平均自信息即熵:
H ( X ) E[ I ( xi )] p( xi ) loga p( xi )
n
H ( XY ) E I ( xi y j ) p( xi y j ) loga p( xi y j )
i 1 j 1
m
i 1
n
m
H ( X / Y ) E[ I ( xi / y j )] p( xi y j ) log p( xi / y j )
连续信源的互信息
连续随机变量的条件平均互信息量
p( xy / z ) I ( X ; Y / Z ) p( xyz ) log dxdydz q( x / z ) w( y / z ) R3
连续随机变量的联合平均互信息量
p( xyz ) I ( XY ; Z ) p( xyz ) log dxdydz p( xy)w( z ) R3
1 log(b a )dx log(b a ) ba
HC ( X )
注意:连续变量的微分熵不具有非负性 当 b-a> 1 时, HC ( X ) 0; b-a< 1 时, HC ( X ) 0 ; b-a=1 时, HC ( X ) 0 .
例
令X是数学期望为m,方差为 的正态随机变量,求 它的熵。