第二章信息的统计度量
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
熵函数的自变量是X,表示信源整体
信息熵的单位与公式中的对数取底有关。通信与信息 中最常用的是以2为底,这时单位为比特(bit);理 论推导中用以e为底较方便பைடு நூலகம்这时单位为奈特(Nat );工程上用以10为底较方便,这时单位为笛特 (Det)。它们之间可以引用对数换底公式进行互换。 比如: 1 bit = 0.693 Nat = 0.301 Det
2.3离散集的平均自信息量
一个离散随机变量X,以不同的取值概率 有N个可能取值,
X
P(x )
=
a1 a2 p1 p2
… …
aN pN
信息论关心:X的不确定性
不确定性--大,获取的信息--多
熵的引入
箱内100个球摸到红球不确定性分 析:随机变量X、Y、Z
X P(x) = a1 0.99 a1 0.5 a1 a2 a3 a2 0.01 a2 0.5 a4 a5 小
(6)
p ( xi / y j )
p( x y
i 1 i
n
, p ( y j / xi ) )
j
p( x y
j 1 i
m
j
)
中学数学知识
Log(xy)=logx+logy Log(x/y)=logx-logy
2.1 自信息和条件自信息量
2.1.1自信息量
定义2.1.1任意随机事件的字信息量的定 义为该事件发生概率的对数的负值。
i 1 i
) p ( y j ), p ( xi y j ) p ( xi )
j 1
p ( xi y j ) p ( xi ) p ( y j / xi ) p ( y j ) p ( xi / y j ) 当X与Y相互独立时 , p ( y j / xi ) p ( y j ), p ( xi / y j ) p ( xi ), p ( xi y j ) p ( xi ) p ( y j ) p ( xi y j ) p ( xi y j )
4
熵是从整个集合的统计特性来考虑的,它是从 平均意义上来表征集合的总体特征的。 – 熵表示事件集合中事件发生后,每个事件 提供的平均信息量; – 熵表示事件发生前,集合的平均不确定性; 例:有2个集合,其概率分布分别为:
a2 X a1 P( X ) 0.99 0.01 Y a1 a2 P(Y ) 0.5 0.5
H (P 1 (1 ) P 2 ) H ( P 1 ) (1 ) H ( P 2)
2.3.3 条件熵
条件概率 p( x i | y j )
p( x i , y j ) p( y j )
互信息量等于自信息量减去条件自信息量。
I ( xi ; y j ) log2 p( xi ) log2 p( xi / y j ) I ( xi ) I ( xi / y j )
第三种表达方式:
I ( xi ; y j ) I ( xi ) I ( y j ) I ( xi y j )
分别计算其熵,则: H(X)=0.08 bit /符号, H(Y)=1bit / 符号
2.3.2熵函数的数学特性
1、对称性: 熵函数对每个Pk 对称的。该性质 说明熵只与随机变量的总体结构有关,与事件 集合的总体统计特性有关; 2、非负性: H(P)=H(p1,p2,…,pq)>=0; 3、扩展性: 当某事件Ek的概率Pk稍微变化时, H函数也只作连续的不突变的变化;
99个红球,1个黑球
50个红球,50个黑 球
Y P(y) Z P(z) = =
20个红球,其它4种 颜色各20个
0.2 0.2 0.2 0.2 0.2
大
问题:能否度量、如何度量??
2.3.1平均自信息量(熵)
通常研究单独一个事件或单独一个符号的信 息量是不够的,往往需要研究整个事件集合 或符号序列(如信源)的平均的信息量(总体特 征),这就需要引入新的概念--平均自信息量
母,则该事件的自信息量为
I = -log2 (1/26) = 4.7 比特
例:设m比特的二进制数中的每一个是等 概率出现的(这样的数共有2m个),则任何一
个数出现的自信息为:
I = -log2 (1/ 2m) = m 比特/符号
联合自信息量
定义2.1.2二维联合集XY上的元素 (xy)的联合自信息量定义为
熵的计算
• 例:设某信源输出四个符号,其符号集合的 概率分布为:
1 s2 s3 s4 s1 s2 s3 s4 s 1 1 1 1 S p 1 p 2 p 3 p 4 2 4 8 8
则其熵为:
1 1 2 H(S) pi logpi log 2 log 4 log8 1.75比特/ 符号 2 4 8 i 1
随机变量X , Y分别取值于集合 {x1 , x2 , xi , , xn } 和{ y1 , y 2 , yi , , y m } : (1) ( 2) 0 p ( xi ) , p ( y j ), p ( xi / y j ), p ( y j / xi ), p ( xi y j ) 1
解释:
小概率事件,一当出现必然使人感到意外,因此产 生的信息量就大;几乎不可能事件一旦出现,将是一 条爆炸性的新闻,一鸣惊人。 大概率事件,是预料之中的,即使发生,也没什么 信息量,特别是当必然事件发生了,它不会给人以任 何信息量。 注:I--自信息
自信息量的单位
自信息量的单位取决于对数的底; 底为2,单位为“比特(bit)”; 底为e,单位为“奈特(nat)”; 底为10,单位为“哈特(hat)”; 1
nat = 1.44bit , 1 hat = 3.32 bit;
自信息量I(ai)的性质 •I(ai)是非负值;
•当P(ai) =1时, I(ai)=0;
•当P(ai) =0时, I(ai)= ∞ ; •I(ai)是P(ai) 的单调递减函数
计算信息量主要要注意有关事件发生概率的计算
例:从26个英文字母中,随即选取一个字
当X和Y独立时,
I ( xi y j ) log2 p( xi ) log2 p( y j ) I ( xi ) I ( y j )
2.2互信息量和条件互信息量
2.2.1互信息量
信源
X
信道
Y
信宿
信源集合X的概率空间
X P
=
x1 x2 ….. p(x1) p(x2)…..
信宿收到的符号集合Y的概率空间
另外,联合集合XYZ中还存在xi与yjzk 之间的互信息量,其定义式
I ( xi ; y j zk ) log2 p( xi / y j zk ) p( xi )
或将上式进一步表示为
I ( xi ; y j zk ) I ( xi ; y j ) I ( xi ; zk / y j )
I ( xi yi ) log p( xi yi )
2.1.2条件自信息量
定义2.1.3联合集XY中,对事件xi和yj,事件xi 在事件yj给定的条件下的条件自信息量定义为
I ( xi / y j ) log p( xi / y j )
在特定条件下( 已定)随机事件发生所带来的 信息量 条件自信息量满足非负和单调递减性。
lim H q 1 ( p1 , p2 ,..., pq , ) H q ( p1 ,
0
p2 , ... , pq )
4、可加性:如果有两个随机变量X,Y,他们不 是相互独立的,则二维随机变量(X,Y)的熵等 于X的无条件熵加上当X已给定时Y的条件概率 定义的熵统计平均值,即
5、极值性:当所有事件等概率出现时,平均不 确定性最大,从而熵最大,即:
1 1 1 H ( P1 , P2 ,..., Pn ) H ( , , ... , ) log n n n n
6、确定性:
即H(1,0)=H(1,0,0)=H(1,0,0…,0)=0,即 当某一事件为确定事件时,整个事件集合的 熵为0; 7、上凸性:
定义2.3.1集X上,随机变量I(xi)数学 期望定义为平均自信息量
n 1 H ( X ) E[ I ( xi )] E[log2 ] p( xi ) log2 p( xi ) p( xi ) i 1
由于这个表达式和统计物理学中热熵 的表达式相似,且在概念上也有相似 之处,因此借用“熵”这个词,把 H(X)称为信息“熵”;
例:甲在一个8*8的 方格盘上随意放入 一个 棋子,在乙看来是不确定的。 (1)在乙看来,棋子落入某方格的不确 定性为多少?
(2)若甲告知乙棋子落入方格的行号, 这时,在乙看来棋子落入某方格的不 确定性为多少?
联合自信息量和条件自信息量关系
I ( xi y j ) log 2 p ( xi ) p ( y j / xi ) I ( xi ) I ( y j / xi ) log 2 p ( y j ) p ( xi / y j ) I ( y j ) I ( xi / y j )
1 I ( xi ) log2 log2 Pi pi
自信息量
当事件
I(xi) 的含义
xi发生以前,表示事件xi发生的不确定 xi发生以后,表示事件xi所提供的信息
性; 量;
当事件
对于单个消息随机变量U,出现某个消息,对应概率 为 ,这时可获得的信息量为 ,则有: I( p)
i
pi , I ( pi ) ; pi 0, I ( pi ) I是pi的递降函数 pi , I ( pi ) ; pi 1, I ( pi ) 0
Y P
=
y1 y2 ….. p(y1) p(y2)…..
定义2.2.1对两个离散随机事件集X和Y, 事件yj的出现给出关于事件xi的信息量, yj) 定义为互信息量。用 I ( xi ; 表示,即
I ( xi ; y j ) log2 p( xi / y j ) p( xi ) (i 1,2,, n; j 1,2,, m)
2.2.2互信息量的性质
1、互信息量的互易性,即 I(xi;yj)=I(yj;xi) 2、当X和Y相互独立时,互信息为0
3、互信息量可为正值或负值 4、任何两个事件之间的互信息量不可能 大于之中任一事件的自信息量
I ( xk ; y j ) I ( xk ) I ( xk ; y j ) I ( y j )
自信息、条件自信息和互信息
I ( xk ; y j ) I ( xk ) I ( y j ) I ( xk y j )
I(xk) I(yj)
I(xk ;yj)
2.2.3 条件互信息量
定义2.2.2联合集合XYZ中,给定条件zk的 条件下,xi与yj之间的互信息量,其定义式
I ( xi ; y j / zk ) log2 p( xi / y j zk ) p( xi / zk )
上式表明一对事件yjzk出现后提供有关xi的 信息量I(xi;yjzk),等于事件yj出现后所提供 的有关xi的信息量I(xi;yj)加上在给定时间 yj的条件下再出现事件zk所提供的有关xi的 信息量。 思考下式的证明
I ( xi ; y j zk ) I ( xi ; zk ) I ( xi ; y j / zk )
H mn ( p1 p11 , p1 p12 ,...p1 p1n ; p2 p21 , p2 p22 ,..., p2 p2 n ;....; pm pm1 , pm pm 2 ,..., pm pmn ) H m( p1 , p2 , ... , pm )
pH
i 1 i
m
in
( pi1 , pi 2 ,...., pin )
p ( x ) 1, p ( y
i 1 m i j 1
n
m
j
) 1, p ( xi / y j ) 1,
i 1 n
n
p( y
j 1 n
j
/ xi ) 1, p ( xi y j ) 1
j 1 i 1 m j
m
(3) ( 4) (5)
p( x y
信息熵的单位与公式中的对数取底有关。通信与信息 中最常用的是以2为底,这时单位为比特(bit);理 论推导中用以e为底较方便பைடு நூலகம்这时单位为奈特(Nat );工程上用以10为底较方便,这时单位为笛特 (Det)。它们之间可以引用对数换底公式进行互换。 比如: 1 bit = 0.693 Nat = 0.301 Det
2.3离散集的平均自信息量
一个离散随机变量X,以不同的取值概率 有N个可能取值,
X
P(x )
=
a1 a2 p1 p2
… …
aN pN
信息论关心:X的不确定性
不确定性--大,获取的信息--多
熵的引入
箱内100个球摸到红球不确定性分 析:随机变量X、Y、Z
X P(x) = a1 0.99 a1 0.5 a1 a2 a3 a2 0.01 a2 0.5 a4 a5 小
(6)
p ( xi / y j )
p( x y
i 1 i
n
, p ( y j / xi ) )
j
p( x y
j 1 i
m
j
)
中学数学知识
Log(xy)=logx+logy Log(x/y)=logx-logy
2.1 自信息和条件自信息量
2.1.1自信息量
定义2.1.1任意随机事件的字信息量的定 义为该事件发生概率的对数的负值。
i 1 i
) p ( y j ), p ( xi y j ) p ( xi )
j 1
p ( xi y j ) p ( xi ) p ( y j / xi ) p ( y j ) p ( xi / y j ) 当X与Y相互独立时 , p ( y j / xi ) p ( y j ), p ( xi / y j ) p ( xi ), p ( xi y j ) p ( xi ) p ( y j ) p ( xi y j ) p ( xi y j )
4
熵是从整个集合的统计特性来考虑的,它是从 平均意义上来表征集合的总体特征的。 – 熵表示事件集合中事件发生后,每个事件 提供的平均信息量; – 熵表示事件发生前,集合的平均不确定性; 例:有2个集合,其概率分布分别为:
a2 X a1 P( X ) 0.99 0.01 Y a1 a2 P(Y ) 0.5 0.5
H (P 1 (1 ) P 2 ) H ( P 1 ) (1 ) H ( P 2)
2.3.3 条件熵
条件概率 p( x i | y j )
p( x i , y j ) p( y j )
互信息量等于自信息量减去条件自信息量。
I ( xi ; y j ) log2 p( xi ) log2 p( xi / y j ) I ( xi ) I ( xi / y j )
第三种表达方式:
I ( xi ; y j ) I ( xi ) I ( y j ) I ( xi y j )
分别计算其熵,则: H(X)=0.08 bit /符号, H(Y)=1bit / 符号
2.3.2熵函数的数学特性
1、对称性: 熵函数对每个Pk 对称的。该性质 说明熵只与随机变量的总体结构有关,与事件 集合的总体统计特性有关; 2、非负性: H(P)=H(p1,p2,…,pq)>=0; 3、扩展性: 当某事件Ek的概率Pk稍微变化时, H函数也只作连续的不突变的变化;
99个红球,1个黑球
50个红球,50个黑 球
Y P(y) Z P(z) = =
20个红球,其它4种 颜色各20个
0.2 0.2 0.2 0.2 0.2
大
问题:能否度量、如何度量??
2.3.1平均自信息量(熵)
通常研究单独一个事件或单独一个符号的信 息量是不够的,往往需要研究整个事件集合 或符号序列(如信源)的平均的信息量(总体特 征),这就需要引入新的概念--平均自信息量
母,则该事件的自信息量为
I = -log2 (1/26) = 4.7 比特
例:设m比特的二进制数中的每一个是等 概率出现的(这样的数共有2m个),则任何一
个数出现的自信息为:
I = -log2 (1/ 2m) = m 比特/符号
联合自信息量
定义2.1.2二维联合集XY上的元素 (xy)的联合自信息量定义为
熵的计算
• 例:设某信源输出四个符号,其符号集合的 概率分布为:
1 s2 s3 s4 s1 s2 s3 s4 s 1 1 1 1 S p 1 p 2 p 3 p 4 2 4 8 8
则其熵为:
1 1 2 H(S) pi logpi log 2 log 4 log8 1.75比特/ 符号 2 4 8 i 1
随机变量X , Y分别取值于集合 {x1 , x2 , xi , , xn } 和{ y1 , y 2 , yi , , y m } : (1) ( 2) 0 p ( xi ) , p ( y j ), p ( xi / y j ), p ( y j / xi ), p ( xi y j ) 1
解释:
小概率事件,一当出现必然使人感到意外,因此产 生的信息量就大;几乎不可能事件一旦出现,将是一 条爆炸性的新闻,一鸣惊人。 大概率事件,是预料之中的,即使发生,也没什么 信息量,特别是当必然事件发生了,它不会给人以任 何信息量。 注:I--自信息
自信息量的单位
自信息量的单位取决于对数的底; 底为2,单位为“比特(bit)”; 底为e,单位为“奈特(nat)”; 底为10,单位为“哈特(hat)”; 1
nat = 1.44bit , 1 hat = 3.32 bit;
自信息量I(ai)的性质 •I(ai)是非负值;
•当P(ai) =1时, I(ai)=0;
•当P(ai) =0时, I(ai)= ∞ ; •I(ai)是P(ai) 的单调递减函数
计算信息量主要要注意有关事件发生概率的计算
例:从26个英文字母中,随即选取一个字
当X和Y独立时,
I ( xi y j ) log2 p( xi ) log2 p( y j ) I ( xi ) I ( y j )
2.2互信息量和条件互信息量
2.2.1互信息量
信源
X
信道
Y
信宿
信源集合X的概率空间
X P
=
x1 x2 ….. p(x1) p(x2)…..
信宿收到的符号集合Y的概率空间
另外,联合集合XYZ中还存在xi与yjzk 之间的互信息量,其定义式
I ( xi ; y j zk ) log2 p( xi / y j zk ) p( xi )
或将上式进一步表示为
I ( xi ; y j zk ) I ( xi ; y j ) I ( xi ; zk / y j )
I ( xi yi ) log p( xi yi )
2.1.2条件自信息量
定义2.1.3联合集XY中,对事件xi和yj,事件xi 在事件yj给定的条件下的条件自信息量定义为
I ( xi / y j ) log p( xi / y j )
在特定条件下( 已定)随机事件发生所带来的 信息量 条件自信息量满足非负和单调递减性。
lim H q 1 ( p1 , p2 ,..., pq , ) H q ( p1 ,
0
p2 , ... , pq )
4、可加性:如果有两个随机变量X,Y,他们不 是相互独立的,则二维随机变量(X,Y)的熵等 于X的无条件熵加上当X已给定时Y的条件概率 定义的熵统计平均值,即
5、极值性:当所有事件等概率出现时,平均不 确定性最大,从而熵最大,即:
1 1 1 H ( P1 , P2 ,..., Pn ) H ( , , ... , ) log n n n n
6、确定性:
即H(1,0)=H(1,0,0)=H(1,0,0…,0)=0,即 当某一事件为确定事件时,整个事件集合的 熵为0; 7、上凸性:
定义2.3.1集X上,随机变量I(xi)数学 期望定义为平均自信息量
n 1 H ( X ) E[ I ( xi )] E[log2 ] p( xi ) log2 p( xi ) p( xi ) i 1
由于这个表达式和统计物理学中热熵 的表达式相似,且在概念上也有相似 之处,因此借用“熵”这个词,把 H(X)称为信息“熵”;
例:甲在一个8*8的 方格盘上随意放入 一个 棋子,在乙看来是不确定的。 (1)在乙看来,棋子落入某方格的不确 定性为多少?
(2)若甲告知乙棋子落入方格的行号, 这时,在乙看来棋子落入某方格的不 确定性为多少?
联合自信息量和条件自信息量关系
I ( xi y j ) log 2 p ( xi ) p ( y j / xi ) I ( xi ) I ( y j / xi ) log 2 p ( y j ) p ( xi / y j ) I ( y j ) I ( xi / y j )
1 I ( xi ) log2 log2 Pi pi
自信息量
当事件
I(xi) 的含义
xi发生以前,表示事件xi发生的不确定 xi发生以后,表示事件xi所提供的信息
性; 量;
当事件
对于单个消息随机变量U,出现某个消息,对应概率 为 ,这时可获得的信息量为 ,则有: I( p)
i
pi , I ( pi ) ; pi 0, I ( pi ) I是pi的递降函数 pi , I ( pi ) ; pi 1, I ( pi ) 0
Y P
=
y1 y2 ….. p(y1) p(y2)…..
定义2.2.1对两个离散随机事件集X和Y, 事件yj的出现给出关于事件xi的信息量, yj) 定义为互信息量。用 I ( xi ; 表示,即
I ( xi ; y j ) log2 p( xi / y j ) p( xi ) (i 1,2,, n; j 1,2,, m)
2.2.2互信息量的性质
1、互信息量的互易性,即 I(xi;yj)=I(yj;xi) 2、当X和Y相互独立时,互信息为0
3、互信息量可为正值或负值 4、任何两个事件之间的互信息量不可能 大于之中任一事件的自信息量
I ( xk ; y j ) I ( xk ) I ( xk ; y j ) I ( y j )
自信息、条件自信息和互信息
I ( xk ; y j ) I ( xk ) I ( y j ) I ( xk y j )
I(xk) I(yj)
I(xk ;yj)
2.2.3 条件互信息量
定义2.2.2联合集合XYZ中,给定条件zk的 条件下,xi与yj之间的互信息量,其定义式
I ( xi ; y j / zk ) log2 p( xi / y j zk ) p( xi / zk )
上式表明一对事件yjzk出现后提供有关xi的 信息量I(xi;yjzk),等于事件yj出现后所提供 的有关xi的信息量I(xi;yj)加上在给定时间 yj的条件下再出现事件zk所提供的有关xi的 信息量。 思考下式的证明
I ( xi ; y j zk ) I ( xi ; zk ) I ( xi ; y j / zk )
H mn ( p1 p11 , p1 p12 ,...p1 p1n ; p2 p21 , p2 p22 ,..., p2 p2 n ;....; pm pm1 , pm pm 2 ,..., pm pmn ) H m( p1 , p2 , ... , pm )
pH
i 1 i
m
in
( pi1 , pi 2 ,...., pin )
p ( x ) 1, p ( y
i 1 m i j 1
n
m
j
) 1, p ( xi / y j ) 1,
i 1 n
n
p( y
j 1 n
j
/ xi ) 1, p ( xi y j ) 1
j 1 i 1 m j
m
(3) ( 4) (5)
p( x y