第二章-信息量和熵

合集下载

信息论与编码理论习题答案

信息论与编码理论习题答案

信息论与编码理论习题答案LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】第二章 信息量和熵八元编码系统,码长为3,第一个符号用于同步,每秒1000个码字,求它的信息速率。

解:同步信息均相同,不含信息,因此 每个码字的信息量为 2⨯8log =2⨯3=6 bit因此,信息速率为 6⨯1000=6000 bit/s掷一对无偏骰子,告诉你得到的总的点数为:(a) 7; (b) 12。

问各得到多少信息量。

解:(1) 可能的组合为 {1,6},{2,5},{3,4},{4,3},{5,2},{6,1})(a p =366=61得到的信息量 =)(1loga p =6log = bit (2) 可能的唯一,为 {6,6})(b p =361得到的信息量=)(1logb p =36log = bit 经过充分洗牌后的一副扑克(52张),问:(a) 任何一种特定的排列所给出的信息量是多少?(b) 若从中抽取13张牌,所给出的点数都不相同时得到多少信息量?解:(a) )(a p =!521信息量=)(1loga p =!52log = bit (b) ⎩⎨⎧⋯⋯⋯⋯花色任选种点数任意排列13413!13)(b p =1352134!13A ⨯=1352134C 信息量=1313524log log -C = bit 随机掷3颗骰子,X 表示第一颗骰子的结果,Y 表示第一和第二颗骰子的点数之和,Z 表示3颗骰子的点数之和,试求)|(Y Z H 、)|(Y X H 、),|(Y X Z H 、)|,(Y Z X H 、)|(X Z H 。

解:令第一第二第三颗骰子的结果分别为321,,x x x ,1x ,2x ,3x 相互独立,则1x X =,21x x Y +=,321x x x Z ++=)|(Y Z H =)(3x H =log 6= bit )|(X Z H =)(32x x H +=)(Y H=2⨯(361log 36+362log 18+363log 12+364log 9+365log 536)+366log 6= bit )|(Y X H =)(X H -);(Y X I =)(X H -[)(Y H -)|(X Y H ]而)|(X Y H =)(X H ,所以)|(Y X H = 2)(X H -)(Y H = bit或)|(Y X H =)(XY H -)(Y H =)(X H +)|(X Y H -)(Y H 而)|(X Y H =)(X H ,所以)|(Y X H =2)(X H -)(Y H = bit),|(Y X Z H =)|(Y Z H =)(X H = bit )|,(Y Z X H =)|(Y X H +)|(XY Z H =+= bit设一个系统传送10个数字,0,1,…,9。

第二章-信息量和熵

第二章-信息量和熵

H XY EX ,Y I (xi , y j )
EY EX I (xi , y j )
2.平均自信息量--熵 联合熵H(XY)与熵H(X)及条件熵H
(X/Y)之间存在下列关系 :
H(XY)=H(X)+H(Y/X) H(XY)=H(Y)+H(X/Y)
三维联合符号集合XYZ上的共熵H(XYZ):
I(xi; yj ) [lbp(xi )][lbp(xi | yj )] I(xi ) I(xi | yj )
1.互信息量
即互信息量为后验概率与先验概率比值的对数 :
I ( xi; y j )
lb
p ( xi / y j ) p ( xi )
p(xi) ——先验概率:信源发xi的概率 p(xi/yj)——后验概率:信宿收到yj后,推测信源发xi的概率
2.平均自信息量--熵
熵的性质
(4).条件熵不大于信源熵(无条件熵)
H(X/Y) ≤ H(X) H(Y/X) ≤ H(Y)
当且仅当Y和X相互独立时,式取等
物理含义:从平均意义上讲,条件熵在一般情形下总是小于无条件熵。从直 观上说,由于事物总是联系的,因此对随机变量X的了解平均讲总能使Y 的不确定性减少。同样,对Y的了解也会减少X的不确定性。
(1) yj对xi的互信息 I(xi;yj)
I(xi;yj)= I(xi)- I(xi/yj) [含义] 互信息I(xi;yj) =自信息I(xi) - 条件自信息I(xi/yj)
*I(xi) -----信宿收到yj之前,对信源发xi的不确定度 * I(xi/yj) -----信宿收到yj之后,对信源发xi的不确定度 * I(xi;yj) -----收到yj而得到(关于xi )的互信息
相应地,在给定随机变量X的条件下,Y集合的条件

信息论举例讲解信息量熵及互信息量

信息论举例讲解信息量熵及互信息量

计算机科学领域的应用
数据压缩
计算机科学中的数据压缩技术同样基于信息论的原理,通 过去除数据中的冗余信息,实现数据的压缩存储和传输。
加密与安全
信息论在密码学和安全领域也有广泛应用,如利用信息论中的 混淆和扩散原则设计加密算法,保护信息的机密性和完整性。
机器学习
在机器学习中,信息论用于特征选择、模型评估等方面。例如 ,利用互信息来衡量特征与目标变量之间的相关性,从而进行
熵的性质
非负性
熵的值总是非负的,表示系统的不确定性或混乱程度不可能为负值。
可加性
对于相互独立的事件或系统,其熵的和等于各事件或系统熵的和, 表示不确定性或混乱程度可以叠加计算。
最大值性
当系统中各个事件发生的概率相等时,该系统的熵达到最大值,表 示此时系统的不确定性或混乱程度最高。
熵的计算举例
二进制信源熵的计算
举例1
对于离散随机变量 X 和 Y,其联合概率分布为 p(x,y)=[0.1, 0.2, 0.3, 0.4],边缘概率分布为 p(x)=[0.3, 0.7] 和 p(y)=[0.5, 0.5]。根据互信息量的定义公式,可以计算出 I(X;Y)=0.1979。
举例2
对于连续随机变量 X 和 Y,其联合概率密度函数为 f(x,y),边缘概率密度函数为 fX(x) 和 fY(y)。可以通过 数值积分的方法计算出互信息量。例如,对于正态分布 N(0,1) 和 N(0,2) 的随机变量 X 和 Y,其互信息量 为 I(X;Y)=0.5×log⁡2≈0.3466。
要点一
目的
通过举例讲解信息量、熵和互信息量的概念,使读者更好 地理解和掌握这些概念。
要点二
意义
信息量、熵和互信息量是信息论中的基本概念,对于理解 和应用信息论具有重要意义。通过本次讲解,读者可以更 加深入地了解这些概念,并能够在实际问题中加以应用。 同时,这些概念在其他领域也有广泛的应用,如计算机科 学、控制论、统计学等,因此本次讲解也有助于读者在其 他领域中更好地应用信息论的知识。

信息论与编码理论习题答案全解

信息论与编码理论习题答案全解

信息论与编码理论习题答案全解第二章 信息量和熵2.2 八元编码系统,码长为3,第一个符号用于同步,每秒1000个码字,求它的信息速率。

解:同步信息均相同,不含信息,因此 每个码字的信息量为 2⨯8log =2⨯3=6 bit因此,信息速率为 6⨯1000=6000 bit/s2.3 掷一对无偏骰子,告诉你得到的总的点数为:(a) 7; (b) 12。

问各得到多少信息量。

解:(1) 可能的组合为 {1,6},{2,5},{3,4},{4,3},{5,2},{6,1})(a p =366=61得到的信息量 =)(1loga p =6log =2.585 bit (2) 可能的唯一,为 {6,6})(b p =361得到的信息量=)(1logb p =36log =5.17 bit2.4 经过充分洗牌后的一副扑克(52张),问:(a) 任何一种特定的排列所给出的信息量是多少?(b) 若从中抽取13张牌,所给出的点数都不相同时得到多少信息量?解:(a) )(a p =!521信息量=)(1loga p =!52log =225.58 bit (b) ⎩⎨⎧⋯⋯⋯⋯花色任选种点数任意排列13413!13)(b p =1352134!13A ⨯=1352134C 信息量=1313524log log -C =13.208 bit即)0;(1u I ,)00;(1u I ,)000;(1u I ,)0000;(1u I)0(p =4)1(81⨯-p +481⨯p =21)0;(1u I =)0()|0(log1p u p =211log p-=1+)1log(p - bit)00(p =]2)1(4)1(2[8122p p p p +-+-=41)00;(1u I =)00()|00(log 1p u p =4/1)1(log 2p -=)]1log(1[2p -+ bit)000(p =])1(3)1(3)1[(813223p p p p p p +-+-+-=81)000;(1u I =3[1+)1log(p -] bit)0000(p =])1(6)1[(814224p p p p +-+- )0000;(1u I =42244)1(6)1()1(8logp p p p p +-+-- bit2.12 计算习题2.9中);(Z Y I 、);(Z X I 、);,(Z Y X I 、)|;(X Z Y I 、)|;(Y Z X I 。

熵,信息量

熵,信息量

熵,信息量
熵是一个物理学概念,它是描述一个系统的无序程度的量。

在信息论中,熵被用来衡量信息的不确定性和信息量的大小。

熵的大小和系统的状态有关,一个有序的系统熵比较小,一个无序的系统熵比较大。

在信息论中,信息量和熵的大小是反比关系,即信息量越大,熵越小。

例如,一个硬币的正反面出现的概率是50%,那么它的熵是1比特。

如果硬币出现的概率变为75%,那么它的熵就变成了0.81比特,信息量也就减少了。

熵和信息量的概念在通信领域中得到了广泛的应用,例如在数据压缩、加密和纠错等方面。

在现代信息时代,熵和信息量的研究变得越来越重要。

- 1 -。

《信息论与编码理论》(王育民李晖梁传甲)课后习题问题详解高等教育出版社

《信息论与编码理论》(王育民李晖梁传甲)课后习题问题详解高等教育出版社

信息论与编码理论习题解第二章-信息量和熵2.1解: 平均每个符号长为:1544.0312.032=⨯+⨯秒 每个符号的熵为9183.03log 3123log 32=⨯+⨯比特/符号所以信息速率为444.34159183.0=⨯比特/秒2.2 解: 同步信号均相同不含信息,其余认为等概,每个码字的信息量为 3*2=6 比特; 所以信息速率为600010006=⨯比特/秒2.3 解:(a)一对骰子总点数为7的概率是366 所以得到的信息量为 585.2)366(log 2= 比特 (b) 一对骰子总点数为12的概率是361 所以得到的信息量为 17.5361log 2= 比特 2.4 解: (a)任一特定排列的概率为!521,所以给出的信息量为 58.225!521log 2=- 比特 (b) 从中任取13张牌,所给出的点数都不相同的概率为13521313521344!13C A =⨯所以得到的信息量为 21.134log 1313522=C 比特.2.5 解:易证每次出现i 点的概率为21i,所以比特比特比特比特比特比特比特398.221log 21)(807.1)6(070.2)5(392.2)4(807.2)3(392.3)2(392.4)1(6,5,4,3,2,1,21log )(2612=-==============-==∑=i i X H x I x I x I x I x I x I i ii x I i2.6 解: 可能有的排列总数为27720!5!4!3!12= 没有两棵梧桐树相邻的排列数可如下图求得, Y X Y X Y X Y X Y X Y X Y X Y图中X 表示白杨或白桦,它有⎪⎪⎭⎫⎝⎛37种排法,Y 表示梧桐树可以栽种的位置,它有⎪⎪⎭⎫⎝⎛58种排法,所以共有⎪⎪⎭⎫ ⎝⎛58*⎪⎪⎭⎫⎝⎛37=1960种排法保证没有两棵梧桐树相邻,因此若告诉你没有两棵梧桐树相邻时,得到关于树排列的信息为1960log 27720log 22-=3.822 比特 2.7 解: X=0表示未录取,X=1表示录取; Y=0表示本市,Y=1表示外地;Z=0表示学过英语,Z=1表示未学过英语,由此得比特比特比特)01(log )01()0()00(log )00()0()(8113.04log 4134log 43)()(02698.04110435log 104354310469log 10469)1()01(log )01()0()00(log )00()0;(104352513/41)522121()0(/)1())11()1,10()10()1,00(()01(104692513/43)104109101()0(/)0())01()0,10()00()0,00(()00()(4512.04185log 854383log 83)1()01(log )01()0()00(log )00()0;(8551/4121)0(/)1()10()01(8351/43101)0(/)0()00()00()(,251225131)1(,2513100405451)10()1()00()0()0(,54511)1(,51101432141)10()1()00()0()0(,41)1(,43)0(222222222222+=====+=======+==+======+========⨯⨯+========+=========⨯⨯+========+=========+======+========⨯=========⨯=========-===⨯+====+======-===⨯+⨯====+=========x y p x y p x p x y p x y p x p X Y H X H c x p z x p z x p x p z x p z x p z X I z p x p x y p x y z p x y p x y z p z x p z p x p x y p x y z p x y p x y z p z x p b x p y x p y x p x p y x p y x p y X I y p x p x y p y x p y p x p x y p y x p a z p y z p y p y z p y p z p y p x y p x p x y p x p y p x p x p2.8 解:令{}{}R F T Y B A X ,,,,==,则比特得令同理03645.0)()(5.0,02.03.0)2.05.0(log 2.0)()2.05.0(log )2.05.0()2.03.0(log )2.03.0(5.0log 5.03.0log 3.0)5log )1(2.02log )1(5.0log )1(3.05log 2.0log 3.02log 5.0(2.0log 2.0)2.05.0(log )2.05.0()2.03.0(log )2.03.0()()();()(2.0)(,2.05.0)(2.03.0)1(3.05.0)()()()()(5.0max 2'2222223102231022222==∴==+-=---++-+=-+-+-+++-----++-=-===-=+=-⨯+=+==p p I p I p pp p I p p p p p p p p p p p p p p X Y H Y H Y X I p I R P p F P pp p B P B T P A P A T P T P2.9 & 2.12解:令X=X 1,Y=X 1+X 2,Z=X 1+X 2+X 3, H(X 1)=H(X 2)=H(X 3)= 6log 2 比特 H(X)= H(X 1) = 6log 2 =2.585比特 H(Y)= H(X 2+X 3)=6log 61)536log 365436log 364336log 363236log 36236log 361(2222222+++++ = 3.2744比特 H(Z)= H(X 1+X 2+X 3)=)27216log 2162725216log 2162521216log 2162115216log 2161510216log 216106216log 21663216log 2163216log 2161(222222222++++++= 3.5993比特 所以H(Z/Y)= H(X 3)= 2.585 比特 H(Z/X) = H(X 2+X 3)= 3.2744比特 H(X/Y)=H(X)-H(Y)+H(Y/X) = 2.585-3.2744+2.585 =1.8955比特H(Z/XY)=H(Z/Y)= 2.585比特 H(XZ/Y)=H(X/Y)+H(Z/XY) =1.8955+2.585 =4.4805比特 I(Y;Z)=H(Z)-H(Z/Y) =H(Z)- H(X 3)= 3.5993-2.585 =1.0143比特 I(X;Z)=H(Z)-H(Z/X)=3.5993- 3.2744 =0.3249比特 I(XY ;Z)=H(Z)-H(Z/XY) =H(Z)-H(Z/Y)=1.0143比特 I(Y;Z/X)=H(Z/X)-H(Z/XY) = H(X 2+X 3)-H(X 3) =3.2744-2.585 =0.6894比特 I(X;Z/Y)=H(Z/Y)-H(Z/XY) =H(Z/Y)-H(Z/Y) =02.10 解:设系统输出10个数字X 等概,接收数字为Y,显然101)(101)()()(919===∑∑==i j p i j p i Q j w i iH(Y)=log10比特奇奇奇奇偶18log 81101452log 211015)(log)()()(log )()(0)(log ),()(log ),()(22,2222=⨯⨯⨯⨯+⨯⨯⨯=--=--=∑∑∑∑∑∑∑≠====x y p x y p x p x x p x x p x p x y p y x p x y p y x p X Y H x y x i y x y x所以I(X;Y)= 3219.2110log 2=-比特2.11 解:(a )接收前一个数字为0的概率 2180)0()()0(==∑=i i i u p u q wbits p pw u p u I )1(log 11log )0()0(log )0;(2212121-+=-==(b )同理 418)00()()00(==∑=ii iu p u q wbits p p w u p u I )1(log 22)1(log )00()00(log )00;(24122121-+=-== (c )同理 818)000()()000(==∑=ii iu p u q wbits p p w u p u I )1(log 33)1(log )000()000(log )000;(28132121-+=-== (d )同理 ))1(6)1(()0000()()0000(4226818p p p p u p u q w ii i+-+-==∑=bitsp p p p p p p p p p w u p u I 42264242268142121)1(6)1()1(8log ))1(6)1(()1(log )0000()0000(log )0000;(+-+--=+-+--==2.12 解:见2.9 2.13 解: (b))/()/()/(1log)()/(1log)()/()/(1log)()/(1log)()/(XY Z H X Y H xy z p xyz p x y p xyz p xy z p x y p xyz p x yz p xyz p X YZ H x y z xyzxyzxyz+=+===∑∑∑∑∑∑∑∑∑∑∑∑(c))/()/(1log)/()()/(1log)/()()/(X Z H x z p xy z p xy p xy z p xy z p xy p XY Z H xyzxyz=≤=∑∑∑∑∑∑(由第二基本不等式) 或)1)/()/((log )/()()/()/(log)/()()/(1log)/()()/(1log)/()()/()/(=-⨯≤=-=-∑∑∑∑∑∑∑∑∑∑∑∑xy z p x z p e xy z p xy p xy z p x z p xy z p xy p x z p xy z p xy p xy z p xy z p xy p X Z H XY Z H xyzxyzxyzxyz(由第一基本不等式)所以)/()/(X Z H XY Z H ≤(a))/()/()/()/()/(X YZ H XY Z H X Y H X Z H X Y H =+≥+等号成立的条件为)/()/(x z p xy z p =,对所有Z z Y y X x ∈∈∈,,,即在给定X 条件下Y 与Z 相互独立。

2-2 第2章 信源熵及其基本性质和定理

2-2 第2章 信源熵及其基本性质和定理
1、信源熵;2、条件熵;3、联合熵 信源熵; 条件熵;
2.1.3 2.1.4 2.1.5 2.1.6
信源熵的基本性质和定理 加权熵的概念及基本性质 平均互信息量 各种熵之间的关系
1
自信息量不能作为信源的信息测度
自信息量 I ( xi ), i = 1,2,... 是指某一信源X发出某一信 息符号 x i 所含有的信息量。发出的信息符号不同, 它们所含有的信息量就不同。
晴 地域A 1/2 地域B 1/2 多云 1/4 1/8 雨 1/8 1/8 冰雹 1/8 1/4
H(A) = H(B) =1.75bit 1 1 2 = log 2 + log 4 + log 8 2 4 8
17
熵函数的性质—— 2. 非负性 熵函数的性质
非负性
H(X ) = H[ p(x1), p(x2 ),L, p(xn )] H(X ) = −∑p(xi ) log p(xi ) ≥ 0
信源熵与平均自信息量数值相等,含义不同
信源熵表征信源的平均不确定度; 平均自信息量是消除信源不确定度所需要的信 息的度量;
信源熵H(X)的三种物理含义:
表示信源输出后,每个离散消息所提供的平均 信息量; 表示信源输出前,信源的平均不确定度; 反映了变量X的随机性。
9
条件熵
定义 2.1.7 联合集XY上,条件自信息量I(x|y)的 概率加权平均值定义为条件熵。其定义式为
f α X 1 + (1 − α ) X 2 < α f ( X 1) + (1 − α ) f ( X 2) ( X 1 ≠ X 2)
则称f(X)为定义域上的下凸函数(Cup型函数)或严格下凸函数。 f(x)是上凸函数 是上凸函数, f(x)便是下凸函数 反过来也成立。 便是下凸函数, 若f(x)是上凸函数,则-f(x)便是下凸函数,反过来也成立。故, 通常只需研究上凸函数

第2章 信源熵 第1讲 自信息量 与 互信息量

第2章 信源熵 第1讲 自信息量 与 互信息量

余 映 云南大学
17/38
计算举例
• 对于 2n 进制的数字序列, 假设每一符号的出现完 全随机且概率相等,求任一符号的自信息量。 解:设任一码元 xi 出现概率为 p(xi),根据题意, p(xi) = 1/ 2n I (xi) = –log(1/ 2n) = n (bit) • 事件的自信息量只与其概率有关,而与它的取值 无关。
余 映 云南大学
18/38
信息量与不确定性的关系
• 信源中某一消息发生的不确定性越大,一旦它发生,并为 收信者收到后,消除的不确定性就越大,获得的信息也就 越大。 • 由于各种原因(例如噪声太大),收信者接收到受干扰的 消息后,对某信息发生的不确定性依然存在或者一点也未 消除时,则收信者获得较少的信息或者说一点也没有获得 信息。
余 映 云南大学 21/38
信息量与不确定性的关系
• 自信息量和不确定度的含义又有区别
– 不确定度只与事件的概率有关,是一个统计量,在静 态状态下也存在; – 自信息量只有该随机事件出现时才给出,不出现时不 给出,因此它是一个动态的概念。
余 映 云南大学
22/38
自信息的含义
• 在事件 xi 发生前:表示事件 xi 发生的不确定性。 • 在事件 xi 发生后:表示事件 xi 所提供的信息量。
余 映 云南大学
19/38
信息量与不确定性的关系
• 信息量的直观定义:
收到某消息获得的信息量=不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) -(收到此消息后关于某事件发生的不确定性) • 在无噪声时,通过信道传输,可以完全不失真地收到消息, 收到此消息后关于某事件发生的不确定性完全消除,此项 为零。因此得 收到某消息获得的信息量 =收到此消息前关于某事件发生的不确定性 =信源输出的某消息中所含有的信息量

二章信息量和熵

二章信息量和熵

pK
)
熵的性质-可加性
HM ( p1q11, p1q21,..., p1qm11, p2q12 , p2q22 ,...,
p2qm2 2 ,..., pK q1K , pK q2K ,..., pK qmK K )
K
HK ( p1, p2 ,..., pK ) pk Hmk (q1k , q2k ,..., qmkk ) k 1
1/2 1/2
收到0
1-p p
1-p 0
p
p
1 1-p
收到01
1/2 1/2
收到011
1-p p
0
1
非平均互信息量
I (xk ; y j ) f (q(xk ), p(xk | y j ))
I (xk ; y j ) I (xk ; y j1) I (xk ; y j2 | y j1) I (xk ; y j3 | y j1 y j2 )
if p(xk | y j ) 1
I (xk ;
yj)
log
p(xk | y j ) q(xk )
log
1 q( xk
)
log
q( xk
)
定义:给定集合{X, q(xk)},事件xk∈X的 自信息量定义为:
I
( xk
)
log
1 q( xk
)
log
q( xk
)
非平均自信息的性质
非负性 体现先验不确定性大小
几点说明: (1)I(xk; yj)=loga(rkj/(qkwj))。因此有对称性:
I(xk; yj)=I(yj; xk)。 (2)当rkj=qkwj时I(xk; yj)=0。(当两个事件相互独
立时,互信息量为0)。 (3)当rkj>qkwj时I(xk; yj)>0,当rkj<qkwj时I(xk; yj)<0。

第二章_离散信源与信息熵的关系

第二章_离散信源与信息熵的关系

给出,为了书写方便以后写成: 和
y1 , y2 , Y q1 , q2 , ym qm
xn Y y1, y2 , Q q( y ), q( y ), p( xn ) ; 1 2
ym q ( ym )
一. Definition of the self-mutual information:
«信 息 论 基 础 »
第二章:信息的度量与信息熵
( The measure of Information &Entropy) §2. 1 自信息与条件自信息
( self—information & conditional self— information) §2. 2 自互信息与条件自互信息 (self—mutual
p ( x ) 则表达当收端已收到某种消息后, 再统计发端的发送 率: y 概率,所以此条件概率称为后验概率(Posterior Probability) 。
§2. 1 自信息与条件自信息 因此我们说事件 xi 以及它所对应的先验概率P( x )而定
i
义出的自信息 I [ p( xi )] ,所表达的不论事件是否有人接收这 个事件它所固有的不确定度,或者说它所能带来的信息 xi p ( ) 量。而消息事件 y j xi nk 它所对应的条件概率 yj 是在收端接收到已干扰的消息后的后验概率,如果当它为1 xi p ( ) 则属于透明传输;若 y j <1,则属于有扰传输。而当 xi p ( ) 后验概率大于先验概率是 y j > P( xi ),说明事件 y j 发生之后多少也解除了事件 xi 的部分不定度,即得到 了事件 X xi 的部分信息。由于概率越大,不定度越小。 从客观上讲,条件自信息一定不会大于无条件的自信息。 同时也反映出要得知一些条件,原事件的不定度一定会 减少,最坏的情况也不过保持不变,即条件与事件无关。

信息论与编码理论习题答案全解

信息论与编码理论习题答案全解

第二章 信息量和熵2.2 八元编码系统,码长为3,第一个符号用于同步,每秒1000个码字,求它的信息速率。

解:同步信息均相同,不含信息,因此 每个码字的信息量为 2⨯8log =2⨯3=6 bit因此,信息速率为 6⨯1000=6000 bit/s2.3 掷一对无偏骰子,告诉你得到的总的点数为:(a) 7; (b) 12。

问各得到多少信息量。

解:(1) 可能的组合为 {1,6},{2,5},{3,4},{4,3},{5,2},{6,1})(a p =366=61得到的信息量 =)(1loga p =6log =2.585 bit (2) 可能的唯一,为 {6,6})(b p =361得到的信息量=)(1logb p =36log =5.17 bit2.4 经过充分洗牌后的一副扑克(52张),问:(a) 任何一种特定的排列所给出的信息量是多少?(b) 若从中抽取13张牌,所给出的点数都不相同时得到多少信息量?解:(a) )(a p =!521信息量=)(1loga p =!52log =225.58 bit (b) ⎩⎨⎧⋯⋯⋯⋯花色任选种点数任意排列13413!13)(b p =1352134!13A ⨯=1352134C 信息量=1313524log log -C =13.208 bit2.9 随机掷3颗骰子,X 表示第一颗骰子的结果,Y 表示第一和第二颗骰子的点数之和,Z 表示3颗骰子的点数之和,试求)|(Y Z H 、)|(Y X H 、),|(Y X Z H 、)|,(Y Z X H 、)|(X Z H 。

解:令第一第二第三颗骰子的结果分别为321,,x x x ,1x ,2x ,3x 相互独立,则1x X =,21x x Y +=,321x x x Z ++=)|(Y Z H =)(3x H =log 6=2.585 bit )|(X Z H =)(32x x H +=)(Y H=2⨯(361log 36+362log 18+363log 12+364log 9+365log 536)+366log 6=3.2744 bit)|(Y X H =)(X H -);(Y X I =)(X H -[)(Y H -)|(X Y H ]而)|(X Y H =)(X H ,所以)|(Y X H = 2)(X H -)(Y H =1.8955 bit或)|(Y X H =)(XY H -)(Y H =)(X H +)|(X Y H -)(Y H而)|(X Y H =)(X H ,所以)|(Y X H =2)(X H -)(Y H =1.8955 bit),|(Y X Z H =)|(Y Z H =)(X H =2.585 bit)|,(Y Z X H =)|(Y X H +)|(XY Z H =1.8955+2.585=4.4805 bit2.10 设一个系统传送10个数字,0,1,…,9。

信息论第2章(信息量、熵及互信息量)PPT课件

信息论第2章(信息量、熵及互信息量)PPT课件
假设一条电线上串联了8个灯泡x这8个灯泡损坏的可能性是等概率的假设有也只有一个灯泡损坏用万用表去测量获得足够的信息量才能获知和确定哪个灯泡x损坏
信息论基础
The Basis of Information Theory
主题No2:信息量、熵和互信息量
在上一次课中我们提到香农对信息定性的 定义——事物运动状态或存在方式的不确定性 的描述。事实上,香农对信息不仅作了定性描 述,而且还进行了定量分析。
信源发出的消息常常是随机的,具有不确 定性。如果信源中某一消息的不确定性越大, 一旦发生,并为收信者收到,消除的不确定性 就越大,获得的信息也就越大。同时事件发生 的不确定性与事件发生的概率有关,概率越小, 不确定性就越大。
研究通信系统的目的就是要找到信息传输 过程的共同规律,以提高信息传输的可靠性、 有效性、保密性和认证性,以达到信息传输系 统最优化。
写在最后
经常不断地学习,你就什么都知道。你知道得越多,你就越有力量 Study Constantly, And You Will Know Everything. The More
You Know, The More Powerful You Will Be
谢谢大家
荣幸这一路,与你同行
It'S An Honor To Walk With You All The Way
I(X;Y)是一个用来衡量信道好坏的 非常好的工具。
计算条件熵的例子
例6 设一个二进制对称信道BSC:
其先验概率为p(0)=p(1)=1/2,试计算条 件熵. [解答]由已知条件得:
由条件熵的定义有:
结果表明,虽然每个字符的错误率只有 0.1,可导致整个信宿对信源的平均不确定 性达到了0.469,将近一半。可见通信系统 对信道的要求非常高。

第二章 信息量和熵

第二章 信息量和熵

第二章信息量和熵一、离散变量的非平均信息量1、离散变量的非平均自信息量集合{X;p(x)}中某个事件x的自信息量定义为:=—log p(x) ——表达式是唯一的;I(x)=log1()p x其中,p(x)为事件x发生的概率。

含义:完全确定事件x所必需的信息量;事件x中固有(包含)的信息量;事件x出现的先验不确定性大小。

2、联合概率事件的非平均自信息量联合空间{XY,p(xy)}中任一事件xy,x∈X和y∈Y的联合自信息量定义为:I(xy)=—log p(xy)同理:I(xyz)=—log p(xyz) 。

3、离散变量的非平均条件信息量联合空间{XY,p(xy)}中,事件x∈X和y∈Y,事件x在事件y 给定(已知)时的条件信息量定义为:I(x/y)=—log(/)p x y含义:已知y时事件x所具有的不确定性;给定y时事件x中还剩余的信息量;给定y条件下完全确定事件x所必需的信息量。

4、离散事件的非平均互信息量两个离散事件集{X ,p(x)}和{Y ,p(y)}中,事件y ∈Y 的出现给出关于事件x ∈X 的信息量定义为: I (x ;y )=log(/)()p x y p x 含义:事件x 和y 之间的互信息量;从事件y 中可获得关于事件x 的信息量。

5、离散事件的非平均条件互信息量对于三个离散事件集的联合概率空间{XYZ ,p(xyz )},给定事件z Z ∈条件下,事件x X ∈和事件y Y ∈之间的条件互信息量定义为:I (x ;y /z )=log(/)(/)p x yz p x z =log (/)(/)(/)p xy z p x z p y z 注:I (x ;y /z )应理解为:I{(x ;y )/z}含义:已知事件z 的条件下,从事件y 中可获得关于事件x 的信息量。

6、离散事件非平均信息量的性质 ● 非平均自信息量非负; I (x )=—log p(x)≥0; I (x/y )=—log (/)p x y ≥0 。

《信息量和熵》课件

《信息量和熵》课件

信息量和熵的发展趋势和挑战
发展趋势:随着科技的发展,信息量和熵的概念和应用将更加广泛和深入 挑战:如何有效处理和利用大量信息,提高信息处理效率和准确性 挑战:如何应对信息泄露和网络安全问题,保护个人隐私和企业机密 挑战:如何平衡信息量和熵的关系,实现信息资源的合理配置和利用
THANKS
汇报人:PPT
信息增益在机器学习中的应用
信息增益用于特征选择,提高模型泛化能力 信息增益用于决策树构建,提高模型预测准确性 信息增益用于分类和回归问题,提高模型处理复杂数据的能力 信息增益用于优化模型参数,提高模型训练效率
Part Six
信息量和熵的未来 发展
信息量和熵的理论研究前景
信息量和熵在数 据压缩和信息传 输中的应用
信息增益的概念
信息增益:在信息论中,信息增益是指通 过增加信息量来提高信息传输效率的过程。
熵增原理:在热力学中,熵增原理是指在 一个封闭系统中,熵总是增加的。
信息增益与熵增原理的关系:信息增益 可以看作是熵增原理在信息论中的应用, 通过增加信息量来降低系统的熵。
信息增益的应用:信息增益在信息检索、 机器学习等领域有着广泛的应用,如决 策树、随机森林等算法中都使用了信息 增益的概念。
信息量与概率分布有关,概率 越大,信息量越小
信息量与信息熵有关,信息熵 是信息量的期望值
信息量与信息传递有关,信息 量越大,信息传递越困难
信息量的数学定义
信息量公式:I(X) = log(P(X))
信息量:描述一个事件发生 的概率
信息量单位:比特(bit)
信息量与概率的关系:概率 越大,信息量越小;概率越
小,信息量越大
信息量的微观解释
信息量是描述信息不确定性的度量 信息量与概率分布有关,概率越大,信息量越小 信息量与信息熵有关,信息熵是信息量的期望值 信息量与信息增益有关,信息增益是信息量的增加量

信息论与编码理论习题答案

信息论与编码理论习题答案

第二章 信息量和熵2.2 八元编码系统,码长为3,第一个符号用于同步,每秒1000个码字,求它的信息速率。

解:同步信息均相同,不含信息,因此 每个码字的信息量为 2⨯8log =2⨯3=6 bit因此,信息速率为 6⨯1000=6000 bit/s2.3 掷一对无偏骰子,告诉你得到的总的点数为:(a) 7; (b) 12。

问各得到多少信息量。

解:(1) 可能的组合为 {1,6},{2,5},{3,4},{4,3},{5,2},{6,1})(a p =366=61得到的信息量 =)(1loga p =6log =2.585 bit (2) 可能的唯一,为 {6,6})(b p =361得到的信息量=)(1logb p =36log =5.17 bit 2.4 经过充分洗牌后的一副扑克(52张),问:(a) 任何一种特定的排列所给出的信息量是多少?(b) 若从中抽取13张牌,所给出的点数都不相同时得到多少信息量?解:(a) )(a p =!521信息量=)(1loga p =!52log =225.58 bit (b) ⎩⎨⎧⋯⋯⋯⋯花色任选种点数任意排列13413!13)(b p =1352134!13A ⨯=1352134C 信息量=1313524log log -C =13.208 bit 2.9 随机掷3颗骰子,X 表示第一颗骰子的结果,Y 表示第一和第二颗骰子的点数之和,Z 表示3颗骰子的点数之和,试求)|(Y Z H 、)|(Y X H 、),|(Y X Z H 、)|,(Y Z X H 、)|(X Z H 。

解:令第一第二第三颗骰子的结果分别为321,,x x x ,1x ,2x ,3x 相互独立,则1x X =,21x x Y +=,321x x x Z ++=)|(Y Z H =)(3x H =log 6=2.585 bit )|(X Z H =)(32x x H +=)(Y H=2⨯(361log 36+362log 18+363log 12+364log 9+365log 536)+366log 6=3.2744 bit )|(Y X H =)(X H -);(Y X I =)(X H -[)(Y H -)|(X Y H ]而)|(X Y H =)(X H ,所以)|(Y X H = 2)(X H -)(Y H =1.8955 bit或)|(Y X H =)(XY H -)(Y H =)(X H +)|(X Y H -)(Y H而)|(X Y H =)(X H ,所以)|(Y X H =2)(X H -)(Y H =1.8955 bit),|(Y X Z H =)|(Y Z H =)(X H =2.585 bit)|,(Y Z X H =)|(Y X H +)|(XY Z H =1.8955+2.585=4.4805 bit2.10 设一个系统传送10个数字,0,1,…,9。

第二章信源和信息熵

第二章信源和信息熵
即:收信者所获得的信息量应等于信息传输前 后不确定性的减少的量。
例:设一条电线上串联8个灯泡,且损坏的可 能性为等概,若仅有一个坏灯泡,须获知多少 信息量才可确认? 第二章信源和信息熵
第二章 信源和信息熵
例解:
测量前,P1(x)=1/8,存在不确定性: I(P1(x))=log8=3bit
第一次测量获得信息量: 第二次测量获得信息量: 第三次测量获得信息量: 每次测量获得1bit信息量,需三次测量可确定坏灯泡
第二章信源和信息熵
第二章 信源和信息熵
(2)信源发出的符号间彼此是否独立: 无记忆信源:随机矢量的各分量相互独立 有记忆信源:随机矢量的各分量不相互独立
表述有记忆信源比无记忆信源困难的多,实际中,信 源发出的符号往往只与前若干符号的依赖关系强,与 更前面的符号依赖关系弱,这类信源可用马尔可夫信 源表示。 不同统计特性的信源可用随机变量、随机矢量以及随 机过程描述其输出的消息。
自信息的两种含义:信源输出消息x1之前,自信息 I(x1)是关于x1发生地不确定性的度量;而在信源输出 消息x1后,自信息I(x第1二)章表信源示和信x息1熵所含有的信息量。
第二章 信源和信息熵
注意:信息单位比特(表示以2为底的对数) 与计算机术语中的比特(表示二进制数的位) 的意义是不同的。
▪收到某消息获得的信息量=收到此消息前关于 某事件发生的不确定性-收到此消息后关于某 事件发生的不确定性
例:扔一颗质地均匀的正方体骰子,研究其下落后, 朝上一面的点数。每次试验结果必然是1点、2点、3点、 4点、5点、6点中的某一个面朝上。每次试验只随机出 现其中一种消息,不可能出现这个集合以外的消息, 考察此事件信源的数学模型。
解:数学模型为:
且满足:

第2章 信源与信息熵(3)

第2章 信源与信息熵(3)
平均互信息的物理意义
互信息量实质是通信中实际传送的有用信息量。 互信息量实质是通信中实际传送的有用信息量。 显然,互信息越大越好, 显然,互信息越大越好,极限是 H ( X ) 能否将发送端X的信息量全部传送? 能否将发送端 的信息量全部传送? 的信息量全部传送 要求通信过程中没有信息量损失,而实际传输过程中, 要求通信过程中没有信息量损失,而实际传输过程中,信 道中的噪声会淹没一定的信息,即信息有损失。 道中的噪声会淹没一定的信息,即信息有损失。 通信过程中,信息量损失了多少? 通信过程中,信息量损失了多少? X的信息量减去实际传输的信息量,即 的信息量减去实际传输的信息量, 的信息量减去实际传输的信息量
I ( X ; Y ) = I (Y ; X )
理论证明略(与单符号互信息相同)。 理论证明略(与单符号互信息相同)。
②非负性
I ( X ;Y ) ≥ 0 I ( X ;Y ) ≤ H ( X )
理论证明参考周荫清编的信息理论基础, 理论证明参考周荫清编的信息理论基础,直观理解
③极值性
直观理解!! 直观理解!!
p ( xi | y j ) p ( xi )
= log 2
p ( xi ) p ( y j )
p ( xi , y j )
2 .2 离散信源熵和互信息
三、互信息
1、单符号之间的互信息量 性质: ③ 性质: 证明: 证明:
I ( xi ; y j ) = ( xi , y j )
p ( xi ) p ( y j )
p ( xi , y j )
= log 2
p ( xi ) p ( y j )
2 .2 离散信源熵和互信息
三、互信息
2、平均互信息 定义: 指单符号互信息量在X集合和 集合上的统计平均值。 定义: 指单符号互信息量在 集合和Y集合上的统计平均值。 集合和 集合上的统计平均值

第2章 信源熵 第2讲 信源熵(平均自信息量)与 平均互信息量

第2章 信源熵 第2讲 信源熵(平均自信息量)与 平均互信息量
• ① 观察者站在输出端 • I(X;Y) = H(X) – H(X/Y)
• H(X) — X 的先验不确定度。 • H(X/Y) — 疑义度(损失熵)。 表示已知Y 后,对X 仍然存在的不确 定度。代表了在信道中损失的信息。 • I(X;Y) — 已知Y 后关于X 的不确定度 减少的量。从Y 获得的关于X 的平均 信息量。
• 理解:已知 Y 时 X 的不确定度应小于一无所知时 X 的不 确定度。因为已知 Y 后,从 Y 或多或少可以得到一些关 于 X 的信息,从而使 X 的不确定度下降。
余 映 云南大学
19/38
熵的性质
• 证明:
• (利用了极值性)
余 映 云南大学
20/38
熵的性质
• (7) 可加性 H(XY) = H(X)+H(Y/X) H(XY) = H(Y)+H(X/Y)
余 映 云南大学 3/38
信源熵
• 举例
• 一布袋内放100个球,其中80个是黄色的,20个是白色的。 随便摸出一个球,猜测是什么颜色,其概率空间为
– x1:表示摸出的是黄球,x2:表示摸出的是白球
余 映 云南大学
4/38
信源熵与平均自信息量
• 信源熵和平均自信息量两者在数值上是相等的, 但含意并不相同。
余 映 云南大学
24/38
平均互信息量的定义
• 互信息量 I(xi; yj) 在联合概率空间 P(XY) 中的统 计平均值
称为 Y 对 X 的平均互信息量。 • X 对 Y 的平均互信息定义为
余 映 云南大学
25/38
平均互信息量的定义
• 平均互信息的第三种定义
• 平均互信息 I(X;Y) 克服了互信息量 I(xi;yj) 的随机 性,成为一个确定的量。

信息论举例讲解信息量熵及互信息量

信息论举例讲解信息量熵及互信息量
详细描述
对于离散型随机变量X,其取某个具体值 x时,所提供的信息量为-logP(x),其中 P(x)为该值出现的概率。例如,随机变 量X有两个等概率的取值0和1,则X取0 或1时所提供的信息量均为log2。
连续型随机变量的信息量
总结词
连续型随机变量的信息量是指该随机变量在某个区间内取值时所提供的信息量。
02
CHAPTER
熵的概念与性质
熵的定义

熵是系统不确定性的度量,表示系统随机变量的不确定性 和概率分布的不均匀性。在信息论中,熵用于量化信息的 不确定性或随机变量的混乱程度。
数学公式
熵H(X) = - Σ P(x) log2 P(x),其中P(x)是随机变量X取某 个值的概率。
解释
熵表示随机变量X的平均不确定性,即当随机变量取某个 值时,我们预期需要平均多少信息量来消除不确定性。
天气预报
假设明天下雨的概率是0.2,不下雨的概率是0.8,那么明天天气的熵就是- (0.2 * log2(0.2) + 0.8 * log2(0.8)) = 0.97比特。
03
CHAPTER
互信息量的概念与性质
互信息的定义
互信息量
描述两个随机变量之间相互关联 程度的一种度量,其值等于一个 随机变量的熵与两个随机变量的 联合熵之差。
详细描述
对于连续型随机变量X,其取某个区间[a, b]内的值时,所提供的信息量为 ∫−log⁡P(x)dxF−log⁡P(x)dxF−log⁡P(x)dxF,其中P(x)为X在区间[a, b]内的概率密度函数。例如,若X服从 均匀分布,则其在某个长度为Δx的区间[a, a+Δx]内取值时,所提供的信息量为logΔx。
信息论举例讲解信息量、熵及 互信息量

《信息论与编码理论》(王育民李晖梁传甲)课后习题答案高等教育出版社

《信息论与编码理论》(王育民李晖梁传甲)课后习题答案高等教育出版社

信息论与编码理论习题解第二章 -信息量和熵2.1 解: 平均每个符号长为 :20.2 10.4 4 秒3315每个符号的熵为 2log31 log 3 0.9183 比特 /符号 32 3所以信息速率为 0.9183 15 3.444 比特 /秒42.2 解: 同步信号均相同不含信息,其余认为等概 ,每个码字的信息量为 3*2=6 比特;所以信息速率为 6 10006000 比特 /秒2.3 解:(a) 一对骰子总点数为 7 的概率是 636所以得到的信息量为log 2( 6) 2.585 比特36(b)一对骰子总点数为 12 的概率是 136所以得到的信息量为log 21 比特5.17362.4 解: (a)任一特定排列的概率为1,所以给出的信息量为52!1log252 !225.58比特(b) 从中任取 13 张牌 ,所给出的点数都不相同的概率为13! 413413A 5213C 135213所以得到的信息量为 log 2C 5213.21 比特 .4132.5 解:易证每次出现 i 点的概率为i,所以21I (x i )log 2i, i 1,2,3,4,5,6 21I (x1) 4.392 比特I (x2) 3.392 比特I (x3) 2.807 比特I (x4) 2.392比特I (x5) 2.070 比特I (x6) 1.807 比特6i log2i比特H(X)212.398i 1212.6 解: 可能有的排列总数为12!277203! 4! 5!没有两棵梧桐树相邻的排列数可如下图求得,Y X Y X Y X Y X Y X Y X Y X Y图中 X 表示白杨或白桦,它有73种排法, Y 表示梧桐树可以栽种的位置,它有8种排法,所以共有8 *7=1960种排法保证没有553两棵梧桐树相邻,因此若告诉你没有两棵梧桐树相邻时,得到关于树排列的信息为 log2 27720log 2 1960 =3.822比特2.7 解: X=0 表示未录取, X=1 表示录取;Y=0 表示本市, Y=1 表示外地;Z=0 表示学过英语, Z=1 表示未学过英语,由此得p( x0) 3 ,p(x1)4 p( y0)p( x 0) p( y 1 1 3 142 410 p( y 1)1 1 4 ,5 5p( z 0)p( y 0) p(z 14405 5 100 p( z 1)1 13 12 ,25 25(a) p( x0 y 0) p( yp( x1 y 0) p( y1 , 40 x 0)p( x 1) p( y 0 x 1)1 , 50 y 0) p( y 1) p( z 0 y 1)13 , 250 x 0) p( x 0) / p( y0)13 1310/5 84 0 x 1) p( x 1) / p( y0) 1 1 / 152 4 58I ( X ; y 0)p(x0 y p(x 0 y 0) p( x 1 y 0)0) log 2p(x 1 y 0) log 2p( x 0)p( x 1)3 log 2 35log 2 58 8 8 3 8 14 40.4512比特(b) p( x0 z 0)( p( z 0 y 0, x 0) p( y 0 x 0) p( z 0 y 1, x 0) p( y 1x 0)) p(x0) / p( z 0)(19 4 ) 3/1369 10 10 10 4 25 104p( x 1z 0)( p( z 0 y 0, x 1) p( y 0 x 1) p(z 0 y1, x 1) p( y 1 x 1)) p( x1) / p(z 0)(11 2) 1/13 3522 5 4 25104I ( X ; z 0)p( x 0 zp( x 0 z 0)p( x p(x 1 z 0)0) log 21z 0) log 21)p( x 0)p( x6969log 2104104343510435log 21041 40.02698 比特(c) H ( X )3 log 24 1 log 2 40.8113 比特4 3 4H(Y X)p( x 0) p( y 0 x 0) log 2 p( y 0 x 0) p( x 0) p( y 1 x 0) log 2 p( y 1x 0)p( x 1) p( y 0 x1) log 2 p( y 0 x 1)p( x 1) p( y 1 x1) log 2 p( y 1 x1)3 1log 2 10 3 9log 2 10 1 1 log 2 2 11log 2 2 410410 9 4 2 4 20.6017比特2.8 解:令X A,B,Y T,F,R ,则P(T)P(T A)P(A)P(T B)P(B)0.5 p0.3(1p)0.3 0.2 p同理P(F )0.50.2 p,P(R)0.2I ( p) I ( X ; Y)H (Y)H(Y X)(0.30.2p) log2 (0.30.2 p)(0.50.2p) log2 (0.50.2 p)0.2log 2 0.2(0.5 p log2 20.3 plog 21030.2 p log2 50.3(1p) log2103 0.5(1 p) log2 20.2(1p) log2 5)0.3log 2 0.30.5log 2 0.5(0.30.2p) log2 (0.30.2 p)(0.50.2 p) log2 (0.5 0.2 p)令I '( p)0.2 log2(0.50.2 p)0,得p0.50.30.2 pI ( p)max I ( p) p0 .50.03645比特2.9 & 2.12解:令 X=X 1,Y=X 1+X 2,Z=X 1+X 2+X 3, H(X 1)=H(X 2)=H(X 3)= log26比特H(X)= H(X 1) = log26=2.585 比特H(Y)= H(X 2+X 3)=2( 1log 2 362log 2363log 2364log 2365log 236 )1log 2 6363623633643656 = 3.2744 比特H(Z)= H(X 1+X 2+X 3)=2( 1 log 2 216 3 log 2 216 6log 2 216 10 log 2 216 15 log 2 216216 216 3 216 6 216 10 216 15 21 216 25 216 27 216 )log 2 21 log 2 log 2 27216 216 25 216= 3.5993 比特所以H(Z/Y)= H(X 3)= 2.585 比特H(Z/X) = H(X 2+X 3)= 3.2744 比特H(X/Y)=H(X)-H(Y)+H(Y/X)= 2.585-3.2744+2.585 =1.8955 比特H(Z/XY)=H(Z/Y)= 2.585 比特 H(XZ/Y)=H(X/Y)+H(Z/XY)=1.8955+2.585=4.4805 比特I(Y;Z)=H(Z)-H(Z/Y)=H(Z)- H(X 3)= 3.5993-2.585 =1.0143 比特I(X;Z)=H(Z)-H(Z/X)=3.5993- 3.2744=0.3249 比特I(XY ;Z)=H(Z)-H(Z/XY)=H(Z)-H(Z/Y)=1.0143 比特I(Y;Z/X)=H(Z/X)-H(Z/XY)=H(X 2+X 3)-H(X3) =3.2744-2.585=0.6894 比特I(X;Z/Y)=H(Z/Y)-H(Z/XY)=H(Z/Y)-H(Z/Y)=02.10 解:设系统输出10 个数字 X 等概 ,接收数字为 Y,9191显然 w( j )Q(i ) p( j i )p( j i )i010 i 110H(Y)=log10H(YX)p( x, y) log 2 p( y x)p( x, y) log2 p( y x)y x 偶y x 奇0p( x) p( x x) log 2 p( x x)p(x) p( y x) log 2 p( y x) i奇y x,奇 x奇511log2 2 5 411log2 81021081比特所以I(X;Y)=log 2 10 1 2.3219比特2.11 解:(a)接收前一个数字为0 的概率81w( 0)q(u i ) p( 0 u i )2i 0I (u1 ;0)log2p(0 u1)1p(1 p) bitslog 21 1 log 2w(0)28(b ) 同理w(00)q(u ) p(00 u ) 41iI (u 1;00)p(00u 1)log 2 (1p)22 2 log 2 (1 p) bitslog 2 w(00)14(c ) 同理 w(000)8q(u i ) p(000 u i )81i 0I (u 1;000) log 2 p(000u 1 ) log 2 (1 p)33 3log 2 (1p)bitsw(000)18(d ) 同理 w(0000 )8q(u i ) p(0000 u i )81((1p)66 p 2 (1 p)2p 4 )i 0p(0000u 1 )(1 p)4I (u 1;0000)log 2w(0000)log 281((1 p)6 6 p 2 (1p) 2p 4 )log 2 8(1 p) 4bits(1 p) 6 6 p 2 (1 p) 2p 42.12 解:见 2.92.13 解:(b)H(YZ/ X)xyzxyzxyzH(Y/ X)1p( xyz)logp( yz / x)1p( xyz) logp( y / x) p(z / xy)11p( xyz) logp(xyz)logp( y / x)x yzp( z / xy)H(Z/ XY)(c)H (Z / XY )p(xy)p( z / xy) log1xyzp(xy)xyzH(Z / X)p(z / xy)1p( z/ xy) log (由第二基本不等式) p(z / x)或H(Z/XY)H(Z/X)p(xy)1p( z / xy) logxyzp(z / xy)p( xy)p( z/ xy) log1p( z / x)xyzp( xy)p( z/ xy) logp(z / x)(由第一基xyzp( z / xy )p( xy)p(z / xy) log e( p(z / x)1)xyzp(z / xy)本不等式)所以H(Z/XY) H(Z/X)(a)H(Y/ X) H(Z / X)H(Y/ X) H(Z/XY) H(YZ/X)等号成立的条件为 p(z / xy) p( z / x) ,对所有 xX , y Y, z Z ,即在给定 X条件下 Y 与 Z 相互独立。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章信息量和熵
1.互信息量
2.平均自信息量-熵
3.平均互信息量
4.相对熵、熵、和互信息量的凸性
5.连续随机变量的熵
6.有记忆马尔可夫信源
X,Y的联合空间
2.平均自信息量--熵
信源的平均自信息量:又称为信源X的熵,信源熵是在平均意义上来表征信源的总体特征。

定义式:信源中各个符号自信息量的数学期望,即:
H(X)=E(I(X))=∑p(x i)I(x i)=-∑p(x i) log p(x i)
由上式可以看出,不同的信源因概率空间不同熵值就不同
规定:当符号概率为0时,规定p(x
) log p(x i)也为0
i
信息熵表示了信源输出前,信源的平均不确定度
信息熵表示了信源输出后,每个符号所提供的平均信息量信息熵H(X)反映了随机变量X的随机性
信息熵的唯一性定理
香农给出了信息熵函数满足的三个条件(公理化定义)–连续性:
–等概时单调增:
–可加性:
要寻找我校二年级的一位学生,设a是该系二年级学生总数,k是该系二年级的班级数,而bi是该系全体二年级第i班的学生人数。

二年级全体学生的不确定定性=班级的不确定性+每个班学生的平均不确定性。

信息熵的唯一性定理
证明思路流程
•必要性:容易验证满足性质(1~3),•充分性
等概情况下熵函数的形式
由等概走向有理数非等概的情况
由有理数走向无理数
Khinchin条件
连续性
可加性
极值条件
零概率事件不影响不确定性
Khinchin条件与香农条件等价
(2)联合熵(共熵)
定义:联合熵是联合符号集合XY 上的每个元素对x i y j 的联合自信息量的联合概率加权统计平均值。

定义为:
H (XY )=
【说明】表示X 和Y 同时发生的平均不确定度。

,,(,)(,)(,)log (,)
=-∑∑i
j
i
j
i
j
i
j
i j
i j
p x y I x y p x y p x y ()()
()
()
,(,)(,)==X Y i j Y X i j H XY E I x y E E I x y
(4).条件熵不大于信源熵(无条件熵)
H(X/Y) ≤ H(X) H(Y/X) ≤ H(Y)
当且仅当Y和X相互独立时,式取等
物理含义:从平均意义上讲,条件熵在一般情形下总是小于无条件熵。

从直观上说,由于事物总是联系的,因此对随机变量X的了解平均讲总能使Y 的不确定性减少。

同样,对Y的了解也会减少X的不确定性。

推广1:两个条件下的条件熵与一个条件下的条件熵之间存在关系
H(Z|XY)≤H(Z|Y)
当且仅当P(z|xy)=P(z|y)时,式取等
强调指出:条件熵的条件越多,其条件熵的值就越小
H(Z|XY)≤H(Z|Y )≤H(Z)
推广2:共熵与两个集合的信源熵存在关系
H(XY)≤H(X) +H(Y)
当且仅当两个集合相互独立时,式取等号
(5). 扩展性:信源含有的新增消息为小概率时,熵不变
(6). 确定性:
2
3平均互信息物理意义
A. I(X;Y)= H(X) –H(X/Y)(可由定义直接推导!)
(1) H(X)——信源熵:X的不确定度
H(X/Y)——已知Y时,对X仍剩的不确定度(疑义度)[结论] I(X;Y) ——“Y已知”,X的不确定度的减少了,即获得了I(X;Y)的信息量
(2) H(X)——信源含有的平均信息量(总,有用)
I(X;Y)——信宿收到的平均信息量(有用部分)
[结论]H(X/Y)—因信道有扰而丢失的平均信息量,也称损失熵
3平均互信息物理意义
B.I(Y;X)= H(Y) –H(Y/X)= I(X;Y)
(1) H(Y)——信宿收到的平均信息量
I(X;Y)——信道传输的平均信息量
[结论] H(Y/X)——因信道有扰而产生的假平均信息量,称噪声熵、散布度、扩散度
(2)H(Y)——Y的先验不定度
H(Y/X)——发出X后,关于Y的后验不定度
[结论] I(Y;X)——发X前后,Y不定度的减少量
例已知一个二元信源连接一个二元信道,如图给出。

求I(X ;Y),H(XY),H(X/Y)和H(Y/X)。

12
12()1/2()1/2x x X p x p x P ⎡⎤⎡⎤=⎢⎥⎢⎥==⎣⎦⎣
⎦I (X ;Y ) = H (X ) + H (Y ) –H (XY )
I (X ;Y )= H (X ) –H (X /Y )
I (Y ;X )= H (Y ) –H (Y /X )
信源熵:H(X)=1 bit/符号
(1)
求联合概率p (x i ,y j )=p (x i )p (y j /x i )=p (y j )p (x i /y j )
共熵:H(XY)=1.43 bit/符号
11122122(,)0.50.980.49
(,)0.50.020.01
(,)0.50.800.40
(,)0.50.200.10
p x y p x y p x y p x y =⨯==⨯==⨯==⨯=
(3)求熵
H(X)=1 bit/符号
H(Y)=0.98 bit/符号
H(XY)=1.43 bit/符号
I(X;Y)=H(X)+H(Y)-H(X Y)=0.55bit/符号H(X/Y)=0.45 bit/符号
H(Y/X)=0.43 bit/符号
(1).非负性——I (X ;Y ) ≥0,尽管I (x i ;y j ) 的某些元素可为负(利用KL 距离大于0证明)
(2).对称性——I (X ;Y ) = I (Y ;X ) :“互信息”中的“互(Mutual )”字蕴涵着对称性
(3).极值性——I (X ;Y ) ≤ H (X )
I (X ;Y ) ≤ H (Y )
[特例] I (X ;Y )= H (X ) –H (X /Y )
两个随机变量的互信息不可能比自身还大
*当H (X /Y ) = 0 时,I (X ;Y )= H (X )
——信道无噪(X 、Y 一一对应)
*当I (X ;Y ) = 0 时,H (X /Y ) = H (X )
——信道中断(X 、Y 独立)
(4).可加性
互信息可以分步获得
3平均互信息的性质
多变量互信息量设有随机变量X,Y,Z,则定义
或直接定义
多变量条件互信息量
设有随机变量X,Y,Z,则定义
也可以直接定义条件互信息为
条件互信息非负
(1).基础不等式(2).Jensen 不等式
如果f(x)为一个凸函数,X 为一随机变量,则有
其中(3).信息散度不等式()
ln 10x x x ≤->()()
Ef x f EX ≥()x X
EX p x x
∈=∑()||0
D P Q ≥4.相对熵、熵、和互信息量的凸性
信息不等式
Fano 不等式的应用
1仅当条件熵H(X|Y)较小时,能以较低的误差概率估计X, Fano 不等式正好量化了思想。

2香农信道容量定理的逆定理证明过程中应用
3推论1:设X 和X’为两个独立同分布的随机变量,有相同的熵H(X),那么X=X'的概率为
4推论2:误差估计与熵的关系()()2
'i i i Pr X X p x ==∑()()
2 'H X Pr X X -==
相对熵是概率分布对(p,q)的下凸函数,即对于(p 1,q 1),(p 2,q 2)是两个概率分布对,有下式熵:设概率分布为p ,熵H(p)为上凸函数。

设为等概分布,则熵可写为
()||D p q ()()()()()()121211221||1||1||D p p q q D p q D p q λλλλλλ+-+-≤+-()12,,...,K u u u u =()()
log ||H p K D p u =-相对熵、熵的凸性
平均互信息量的凸性
(1) 当信道转移概率P(Y/X) 给定时I(X;Y) 是信源概率分布P(X) 的上凸函数。

最大值)——信道容量的基础(2) 当信源概率分布P(X)给定时I(X;Y) 是信道转移概率P(Y/X) 的下凸函数(最小值)——失真函数的基础
4.相对熵、熵、和互信息量的凸性
数据处理定理
给定Y条件下,X,Z独立。

相关文档
最新文档