信息论-信息论第四次课ch2--平均信息量

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4.各类熵的关系
★ 条件熵不大于信息熵
定理 熵的不增原理
H (Y | X ) H (Y )
H (Y ) H (Y / X ) q( y) log q( y)
p(x) p( y / x) log p( y / x)
Y
xy
p(x) p( y / x) log p( y / x)
x
x
x
2.信息散度
例2.11
设一个二元信源的符号集为{0,1},有两个概 率分布为p和q,并且p(0)=1-r, p(1)=r, q(0)=1-s
q(1)=s,求散度 D( p // q) 和 D(q // p) 并分别求当
r=s和 r=2s=1/2 时散度的值
Page 15
2.信息散度
解:
D(
P
x
Q(x)
P( x) log P( x) P( x) log(1/ n)
x
x
H ( X ) log n 0
H ( X ) log n
只适用于有限离散 随机变量集合;
无限可数离散随机 变量集合的最大熵 是无限大。
3.熵的基本性质(3)
★ 确定性
★ 上凸性
H(1,0) = H(1,0,0)= … = H(1,0,…0) = 0。
Then
H ( X ) p log p (1 p) log(1 p)
def
H ( p)
H(p)
1 0.9 0.8 0.7 0.6 0.5
0.4 Concave function of p
0.3 0.2 0.1
0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
p
2
E
p(x)
表示对随机变
量x用p(x)来进行
取平均运算
4n
pi 1
0 pi 1
i1 特别是当n=2时,
H (X ) H ( p,1 p) H ( p)
3
熵的单位为比特
(奈特)/信源
符号
信息熵的含义
1)信源输出前 信源的平均 不确定性
2)信源输出后 一个信源符号所 提供的平均信息量
3)表示信源随机性 大小:H(X)大的,
(p1,
p2
,,
pn
)
即:小概率事件对熵的影响很小,可以忽略
H(XY)= H(X) + H(Y|X ) H(X1X2…XN)= H(X1)+ H(X2|X1)+ … + H(XN|X1…XN-1) 复合事件集合的不确定性为各个分事件集合的不确定性的和
Page 18
熵的链原则举例
找 找


哪 里
•一次称重的信息量为log3 •k次:klog3
★ 对于一般的凸函数有
E[ f (x)] f [E(x)]
注意
1.凸函数
有用的 不等式
对于任意x,有:
1 1 ln x x 1 x
这是怎么得来的?
① x=1为稳定点
设f (x) ln x x 1
x=1处有极大值
② x=1时,2阶导数小于0
y 1 代入等式 1 1 ln y y换成x
x
y
p(x)H (Y / x)
x
H (Y / x) p( y / x) log p( y / x)
y
为在x取某一特定值时Y的熵
2.联合熵

★联合集XY上,联合自信息
义 I(xy)的平均值:
H (XY ) E [I (x y)] p( xy)
p(x y) log p(x y)
xy
§2.2.3 熵的基本性质
x,y
p(x) p( y / x)
i, j
pi
pij
log
pij pi pij
x
i
3.平均互信息与熵的关系
H(XY)
添加标题
H(X|Y) I(X;Y) H(Y|X)
H(X)
H(Y)
添加标题
1
I(X;Y)= H(X)- H(X|Y)
2
I(X;Y)= H(Y)- H(Y|X)
3
I(X;Y)=H(X)+ H(Y)- H(XY)
• Grossi, E. ; Lops, M. “Space-Time Code Design for MIMO Detection Based on Kullback-Leibler Divergence”, Information Theory, IEEE Transactions on, Volume: 58 , Issue: 6, 2012 , Page(s): 3989 - 4004
仅当对所有x,p(y)= p(y/x ) 时,等式成立。 证毕。
2.平均互信息


★ 集合X、Y之间的平均互信息 :
I ( X ;Y ) p(x)I (Y ; x)
x
p(x) p( y / x) log p( y / x)
x,y
p( y)
p(x) p( y / x) log p( y / x)
x
y
2.信息散度

义 ★ P和Q为定义在同一概率空 间的两个概率测度,则P相 对于Q的散度:
D(
P
//
Q)
x
P(
x)
log
P( Q(
x) x)
上式中,概率分布的维数不限,可以是一维,也可以是多维。
相对熵,Kullback_Leibler距离
Relative entropy
• A non-symmetric measure of the distance (difference) between two distributions.
Jenson不等式
q
q
f [ k xk ] k f (xk )
k 1
k 1
当且仅当x1=x2=…=xq或λk=1(1 ≦k≦ q)且λj=0(j ≠k)时,等 式成立
1.凸函数
★ 特别地,当xk为离散信源符号的
取值,λk为相应的概率,f(x)为 对数函数时,有
E[log (x)] log[E(x)]
举例
例2.13
对某城市进行交通忙闲的调查,并把天气分成晴 雨两种状态,气温分成冷暖两种状态。调查结果 得到的各数据联合出现的相对频率如下表所示。
References
• Kullback, S.; Leibler, R.A. (1951). "On Information and Sufficiency". Annals of Mathematical Statistics 22 (1): 79–86.
• S. Kullback (1959) Information theory and statistics (John Wiley and Sons, NY).
y
q( y)
0
在信息处理过程中,条件越多,熵越小。
4.各类熵的关系
★ 联合熵不大于各信息熵的和
N
H ( X1X 2 X N ) H ( X i ) i 1

熵的可加性
H (Y | X ) H (Y )
★ 联合熵与信息熵、条件熵的关系
H(XY)= H(X) + H(Y/X )
5.熵函数的唯一性
• Kullback, S. (1987). "Letter to the Editor: The Kullback–Leibler distance". The American Statistician 41 (4): 340–341.
Could be a tool for your future research
注:一般地,D( p // q) 与 D(q // p)
并不相等,即不满足对称性
3.熵的基本性质(1)
对称性
非负性
p=(p1,p2,…,pn)中,各分量的 次序可以任意改变
扩展性
自信息非负,熵为自信息的
平均 熵非负
可加性
lim log 0
0
lim
0
H
q 1 (p1 ,
p2
,,
pn
-
,
)
H
q
随机性大
4)信源输出后,不确 定性就解除 解除信 源不确定性所需 信息量
§2.2.2 条件熵与联合熵

★联合集XY上,条件自信息
义 I(y|x)的平均值:
H (Y / X ) E [I ( y / x)] p( xy )
p(x y) log p( y / x)
xy
p(x)[ p( y / x) log p( y / x)]
x2
x1
下凸函数(cup)
★ 对于α(0≤α≤1) 及任意两矢量x1,x2,有 f[αx1+(1-α)x2]≤αf(x1)+(1-α)f(x2)
当且仅当x1 = x2或α= 0,1时等式成立 严格下凸函数
x2 x1
1.凸函数
f(x)是区间上的实值 连续严格上凸函数
任意一组 x1,x2,…,xq
λ1,λ2,…,λq, ∑λk=1
• A measure of the information lost when Q is used to approximate P • A measure of the inefficiency of assuming that the distribution is q
when the true distribution is p:
第2章 离散信息 的度量
授课教师:顾昕钰
北京邮电大学信息论
§2.2.1 信息熵的定义与计算
离散信源X的熵定义为自信息的平均值,记为H(X)
H (X ) E [I(x)] p(x)log p(x)
p(x)
x
简记为 H ( X ) H ( p1, p2 , pn )
1
I(x)为事件x 的自信息
D( p // q) (1 1/ 2) log 1 1/ 2 1/ 2 log 1/ 2
11/ 4
1/ 4
1 (log 3) / 2 0.2075 bit
2.信息散度
解:
D(q // p) (11/ 4) log 11/ 4 1/ 4 log 1/ 4
11/ 2
1/ 2
3 log 3 1 0.1887bit 4
义 ★ 集合Y与事件x∈X之间的 互信息:
I
(x;Y
)
y
P(
y
|
x)
log
P( y p(
| x) y)
由事件x提供的关于集合Y的信息量(用条件概率平均)
1.集合与事件之间的互信息


I(x;Y)≧0
仅当x与所有y 独立时,等式成立。
证:
根据散度的定义,有 I (x;Y ) D(Py / x // Py ) 0
3log3=log27>log24
3.熵的基本性质(2)
极值性
定理2. 4 (离散最大熵定理) 对于离散随机变量集合,当集合中的事件
等概率发生时,熵达到最大值
证明
设随机变量集合有n个符号,概率分布为P(x) ;Q(x)为等概率分布,即
Q(x)=1/n。 根据散度不等式有
P(x)
D(P // Q) P( x) log
- Average description length H(p) bits are required to describe random variable with true distribution p
- H(p) + D(p||q) bits on the average to describe the random variable if assuming q
Page 6
★ 凸函数 ★ 信息散度 ★ 熵的基本性质 ★ 各类熵的关系 ★ 熵函数的唯一性
1.凸函数
上凸函数(cap)
★ 对于α(0≤α≤1) 及任意两矢量x1,x2,有 f[αx1+(1-α)x2]≥αf(x1)+(1-α)f(x2)
当且仅当x1 = x2或α= 0,1时等式成立 严格上凸函数
//
Q)
x
Βιβλιοθήκη Baidu
P(
x)
log
P( Q(
x) x)
根据式(2.19)得
D( p // q) (1 r) log 1 r r log r
1 s
s
和 D(q // p) (1 s) log 1 s s log s
1 r
r
当r=s时,有 D( p // q) D(q // p) 0
当r=2s=1/2时,有:
当随机变量集合中任 一事件概率为1时,熵 为0
H(p)=H(p1,p2,…,pn) 是 (p1,p2,…,pn) 的严格的上 凸函数
Entropy
H(X ) p(x) log p(x) x
• Example: Let

X
1 0
withprobability p w ith probabilit y 1-p
如果要求熵函数满足以下条件:
★ 是概率的连 ★ 信源符号等概率时是n
续函数
(信源符号数)的增函数
★ 可加性
那么,熵函数的表示是唯一的。
§2.3 平均互信息
★ 平均互信息的定义 ★ 平均互信息的性质 ★ 平均条件互信息
Page 26
1.集合与事件之间的互信息

I (x; y) log p(x / y) p(x)
2.信息散度

★ 如果在一个共同的有限字

母表的概率空间上给定的 两个概率测度P(x)和Q(x)
D(P // Q) 0
当且仅当对所有x, P(x ) = Q(x) 时,等式成立
Q(x)
D(P // Q) P(x) log
P(x) (log e)x[ Q(x) 1] P(x)
x
P(x)
log e[ Q(x) P(x)] 0
相关文档
最新文档