信息论 信息熵
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n
1 x 1, np( xi )
1 p( xi ) n
对于单符号离散信源,当信源呈等概率分布时具有最大熵。
4
确定性
H (1,0) H (1,0,,0) H (0,1,,0) 0
确知信源的不确定度为零。
5
可加性
H ( XY ) H ( X ) H (Y X )
总括起来,信源熵有三种物理含义: 1 信源熵H(X)表示信源输出后,离散消息所提供 的平均信息量。 信源熵H(X)表示信源输出前,信源的平均不确 定度。
2
3
信源熵H(X)反映了变量X的随机性。
例:有三个信源X,Y,Z,其概率空间为
X x1 P( X ) 0.5 x2 Y y1 y2 Z z1 z2 0.5 P(Y ) 0.99 0.01 P( Z ) 0 1
H ( X ) 0.5 log2 0.5 0.5 log2 0.5 1(bit / 符号) H (Y ) 0.99 log2 0.99 0.01log2 0.01 0.08(bit / 符号) H ( Z ) 0 log2 0 1log2 1 0(bit / 符号)
2.1.2 信息熵
1.信息熵
熵
条 件 熵
信 息 熵
联 合 熵
已知单符号离散无记忆信源的数学模型
X x1 , x2 , , xi , , xn P( X ) p( x ), p( x ), , p( x ), , p( x ) 1 2 i n
其中 0 p( xi ) 1, i 1,2,, n, 且 p( xi ) 1
,其发出的信息为 (20212013021300120321011032101002103201122321 0),求 (1) 此消息的自信息量是多少? (2) 此消息中平均每符号携带的信息量是多少?
并注意 log x ln x log e, 得
H ( X ) log n n n n 1 [ p( xi )] log e [ 1 p( xi )] 0 i 1 n i 1 n i 1
故有H ( X ) log n
p( x ) 1
i 1 i
n
n
含义:任一概率分布对其他概率分布的自信息量 取数学期望,必大于等于本身的熵。
由上式可证明条件熵小于等于等于无条件熵,即H(X/Y)≤H(X)
H ( X / Y ) p( y j ) p( x i / y j ) log2
i j
1 p( x i / y j )
1 p( y j ) p( x i / y j ) log2 p( x i / y j ) j i 1 p( y j ) p( x i / y j ) log2 p( x i ) j i 1 p( y j ) p( x i / y j ) log2 p( x i ) i j 1 p( x i ) log2 p( x i ) i H(X )
1 p (1) p ( y 2 1) 2
p( xi / y j )
p( xi y j ) p( y j )
p(00) p( x1 y1 00) 1 / 8 1 p(1 / 1) p(0) p( y1 0) 1/ 2 4
p(0 / 0) p( x1 0 / y1 0)
信源中包含n个不同离散消息时,信源熵H(X)有
H ( X ) log n
当且仅当X中各个消息出现的概率全相等时,上式 取等号。
证明:自然对数具有性质
当x 0时, x x 1, 并且当且仅当x 1时, ln 该式取等号。
H ( X ) log n
n 1 p( xi ) log p( xi ) log n p( xi ) i 1 i 1 n 1 p( xi ) log np( xi ) i 1 1 令x ,引用ln x x 1, x 0的关系, np(ai ) n
其中: p( yi ) p( xi / y j ) p( xi y j ) p( xi )
j j
二进制通信系统用符号“0”和“1”,由于存在失真,传输时会产生误码, 用符号表示下列事件: u0:一个“0”发出;u1:一个“1”发出; v0:一个“0”收到;v1:一个“1”收到; 给定下列概率:p(u0)=1/2,p(v0/u0)=3/4,p(v0/u1)=1/2,求 (1)已知发出一个“0”,收到符号后得到的信息量; (2)已知发出的符号,收到符号后得到的信息量; (3)知道发出的和收到的符号能得到的信息量; (4)已知收到的符号,被告知发出的符号能得到的信息量;
log2p(xi) ≤0,所以H(X)≥0 因每一项非负,所以必须是每一项为零等号才成立。 此时只有p(xi)=0或p(xi)=1 时上式才成立,而 p( x ) 1 所以只能有一个p(xi)=1,而其他p(xk)=0(k≠i)。这个信源 是一个确知信源,其熵等于零。
n i 1 i
2
对称性
当变量 p(x1),p(x2),…,p(xn) 的顺序任意互换时,熵函数的 值不变,即
H [ p( x1 ), p( x2 ), , p( xn )] H [ p( xi1 ), p( xi2 ), , p( xin )] 其中:i1 , i2 ,in 1,2,, n
3
最大离散熵定理
作业:2.3 2.4
2.3 居住某地区的女孩子有25%是大学生,在 女大学生中有75%是身高160厘米以上的,而女 孩子中身高160厘米以上的占总数的一半。假 如我们得知“身高160厘米以上的某女孩是大 学生”的消息,问获得多少信息量? 2.4 设离散无记忆信源
X x1 0 x2 1 x3 2 x4 3 P( X ) 3 / 8 1/ 4 1/ 4 1/ 8
x1 (晴), x2 (阴), x3 (雨), x4 (雪) X 1 1 1 P( X ) 1 , , , 2 4 8 8
由定义,该信源的熵为
1 1 1 1 1 1 H ( X ) log log ( log ) 2 2 4 8 22 22 28 1.75(比特 符号)
定义:各离散消息自信息量的数学期望,即信源的平均信息量。
n 1 H ( X ) E[ I ( xi )] E[log2 ] p( xi ) log2 p( xi ) p( xi ) i 1
n
i 1
信源的信息熵;香农熵;无条件熵;熵函数;熵 单位:比特/符号
例:某地二月份天气构成的信源为
N
H ( X ) p( xi ) log2 p( xi ) log2 104000 1.33104 (bit / 符号)
i 1
2.条件熵
H ( X / Y ) p( xi y j ) log 2 p( xi / y j )
ຫໍສະໝຸດ Baidui 1 j 1 n m
思考:求条件熵 时为什么要用联 合概率加权?
p( y
j
j
/ xi ) 1
6
香农辅助定理和极值性
对于任意两个消息数相同的信源X和Y,i=1,2,…,n,有
p( xi ) log2 p( xi ) p( xi ) log2 p( yi )
i 1 i 1 n n
其中
p ( x ) p ( y ) 1
i 1 i i 1 i
H (Y / X ) p( xi y j ) log 2 p( yi / x j )
i 1 j 1
n
m
例 : 已 知 X , Y∈{0 , 1} , XY 构 成 的 联 合 概 率 为 : p(00)=p(11)=1/8,p(01)=p(10)=3/8,计算条件熵H(X/Y)。
1 3 1 p(0) p( y1 0) p( x1 y1 00) p( x 2 y1 10) 8 8 2
H ( XY ) H (Y ) H ( X Y )
1 1 H ( XY ) p( x i y j ) log2 p( x i y j ) log2 p( x i y j ) i j p( x i ) p( y j / x i ) i j 1 1 p( xi ) p( y j / x i ) log2 p( x i y j ) log2 p( x i ) i j p( y j / x i ) i j 1 p( x i ) log2 p( y j / x i ) H (Y / X ) H ( X ) H (Y / X ) p( xi ) j i 其中 p( x i y j ) p( x i ) p( y j / x i )
可见 H(X)>H(Y)>H(Z),信源符号的概率分布越 均匀,则平均信息量越大,信源X比信源Y平均 信息量大,Z是确定事件,不含有信息量。
例:有一篇千字文章,假定每个字可从一万个汉 字中任选,则共有不同的千字文篇数为 N=100001000=104000篇,按等概计算,平均每篇千 字文可提供的信息量?
3 p (1 / 0) p (0 / 1) 4
H ( X / Y ) p(00) log2 p(0 / 0) p(01) log2 p(0 / 1) p(10) log2 p(1 / 0) p(11) log2 p(1 / 1) 1 1 3 3 ( log2 log2 ) 2 0.812(比特 / 符号) 8 4 8 4
3.联合熵
H ( XY ) p( xi y j ) log 2 p( xi y j )
i 1 j 1
n
m
2.1.3 信息熵的性质
1
非负性
H(X) ≥ 0
其中等号成立的充要条件是当且仅当对某i,p(xi)=1,其
余的p(xk)=0(k≠i)。
证明:随机变量X的概率分布满足0≤p(xi)≤1,