最新二章信息量和熵
信息论与编码理论习题答案

信息论与编码理论习题答案LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】第二章 信息量和熵八元编码系统,码长为3,第一个符号用于同步,每秒1000个码字,求它的信息速率。
解:同步信息均相同,不含信息,因此 每个码字的信息量为 2⨯8log =2⨯3=6 bit因此,信息速率为 6⨯1000=6000 bit/s掷一对无偏骰子,告诉你得到的总的点数为:(a) 7; (b) 12。
问各得到多少信息量。
解:(1) 可能的组合为 {1,6},{2,5},{3,4},{4,3},{5,2},{6,1})(a p =366=61得到的信息量 =)(1loga p =6log = bit (2) 可能的唯一,为 {6,6})(b p =361得到的信息量=)(1logb p =36log = bit 经过充分洗牌后的一副扑克(52张),问:(a) 任何一种特定的排列所给出的信息量是多少?(b) 若从中抽取13张牌,所给出的点数都不相同时得到多少信息量?解:(a) )(a p =!521信息量=)(1loga p =!52log = bit (b) ⎩⎨⎧⋯⋯⋯⋯花色任选种点数任意排列13413!13)(b p =1352134!13A ⨯=1352134C 信息量=1313524log log -C = bit 随机掷3颗骰子,X 表示第一颗骰子的结果,Y 表示第一和第二颗骰子的点数之和,Z 表示3颗骰子的点数之和,试求)|(Y Z H 、)|(Y X H 、),|(Y X Z H 、)|,(Y Z X H 、)|(X Z H 。
解:令第一第二第三颗骰子的结果分别为321,,x x x ,1x ,2x ,3x 相互独立,则1x X =,21x x Y +=,321x x x Z ++=)|(Y Z H =)(3x H =log 6= bit )|(X Z H =)(32x x H +=)(Y H=2⨯(361log 36+362log 18+363log 12+364log 9+365log 536)+366log 6= bit )|(Y X H =)(X H -);(Y X I =)(X H -[)(Y H -)|(X Y H ]而)|(X Y H =)(X H ,所以)|(Y X H = 2)(X H -)(Y H = bit或)|(Y X H =)(XY H -)(Y H =)(X H +)|(X Y H -)(Y H 而)|(X Y H =)(X H ,所以)|(Y X H =2)(X H -)(Y H = bit),|(Y X Z H =)|(Y Z H =)(X H = bit )|,(Y Z X H =)|(Y X H +)|(XY Z H =+= bit设一个系统传送10个数字,0,1,…,9。
信息论与编码 第二章 信源与信息熵

现概率是它自身的先验概率。
无记忆信源
{发出符号序列的无记忆信源
发出单个符号的无记忆信源
{
离散 连续
2.1.1 无记忆信源
发出单个符号的离散无记忆信源
——指信源每次只发出一个符号代表一个消息, 且消息的取值个数是有限的(或可列无限多个)。 例如扔骰子,每次实验结果必然是1~6点中的某一 个面朝上。每次实验的结果不随实验次数变化,也 不与先前的实验结果相关,因而该信源是单符号离
p( X1 , X 2 , X l , X L ) p( X l ) [ p( X )]L
l 1
L
2.1.2 有记忆信源
有记忆信源——在不同时刻发出的符号是相互依赖的。 发出符号序列的有记忆信源 ——每次发出1组含2个以上符号的符号序列来代表一 个消息的信源,且各符号之间是相互依赖的。
I=-log2(1/2m)=m bit
2.2.1 自信息量
自信息量I (xi)的特性:
⑴ I (xi)是非负值
⑵ 当p(xi) = 1时, I (xi) = 0
⑶ 当p (xi) = 0时, I (xi) =∞
⑷ I (xi)是先验概率p (xi)的单调递减函数,即 当p (x1)>p (x2)时, I (x1) < I (x2) ⑸可加性 : 两个独立事件的联合信息量等于它们分别的信 息量之和。
发出符号序列的无记忆信源
——每次发出1组含2个以上符号的符号序列来代表一 个消息的信源,且各符号之间没有统计关联性。
需要用随机序列(或随机矢量) X =(X1, X2,…, Xl, …, XL)来描 述信源输出的消息,用联合概率分布p(X1, X2,…, Xl, …, XL)来表 示信源特性。 p (X 1 ) p (X 2 ) … p (X l ) … p (X L ) 若离散信源输出的每个符号是统计独立的,且具有相同的概 率空间,则该信源是离散平稳无记忆信源,亦称为独立同分布 (independently identical distribution,i. i. d.)信源。
第二章-信息量和熵

H XY EX ,Y I (xi , y j )
EY EX I (xi , y j )
2.平均自信息量--熵 联合熵H(XY)与熵H(X)及条件熵H
(X/Y)之间存在下列关系 :
H(XY)=H(X)+H(Y/X) H(XY)=H(Y)+H(X/Y)
三维联合符号集合XYZ上的共熵H(XYZ):
I(xi; yj ) [lbp(xi )][lbp(xi | yj )] I(xi ) I(xi | yj )
1.互信息量
即互信息量为后验概率与先验概率比值的对数 :
I ( xi; y j )
lb
p ( xi / y j ) p ( xi )
p(xi) ——先验概率:信源发xi的概率 p(xi/yj)——后验概率:信宿收到yj后,推测信源发xi的概率
2.平均自信息量--熵
熵的性质
(4).条件熵不大于信源熵(无条件熵)
H(X/Y) ≤ H(X) H(Y/X) ≤ H(Y)
当且仅当Y和X相互独立时,式取等
物理含义:从平均意义上讲,条件熵在一般情形下总是小于无条件熵。从直 观上说,由于事物总是联系的,因此对随机变量X的了解平均讲总能使Y 的不确定性减少。同样,对Y的了解也会减少X的不确定性。
(1) yj对xi的互信息 I(xi;yj)
I(xi;yj)= I(xi)- I(xi/yj) [含义] 互信息I(xi;yj) =自信息I(xi) - 条件自信息I(xi/yj)
*I(xi) -----信宿收到yj之前,对信源发xi的不确定度 * I(xi/yj) -----信宿收到yj之后,对信源发xi的不确定度 * I(xi;yj) -----收到yj而得到(关于xi )的互信息
相应地,在给定随机变量X的条件下,Y集合的条件
信息论举例讲解信息量熵及互信息量

计算机科学领域的应用
数据压缩
计算机科学中的数据压缩技术同样基于信息论的原理,通 过去除数据中的冗余信息,实现数据的压缩存储和传输。
加密与安全
信息论在密码学和安全领域也有广泛应用,如利用信息论中的 混淆和扩散原则设计加密算法,保护信息的机密性和完整性。
机器学习
在机器学习中,信息论用于特征选择、模型评估等方面。例如 ,利用互信息来衡量特征与目标变量之间的相关性,从而进行
熵的性质
非负性
熵的值总是非负的,表示系统的不确定性或混乱程度不可能为负值。
可加性
对于相互独立的事件或系统,其熵的和等于各事件或系统熵的和, 表示不确定性或混乱程度可以叠加计算。
最大值性
当系统中各个事件发生的概率相等时,该系统的熵达到最大值,表 示此时系统的不确定性或混乱程度最高。
熵的计算举例
二进制信源熵的计算
举例1
对于离散随机变量 X 和 Y,其联合概率分布为 p(x,y)=[0.1, 0.2, 0.3, 0.4],边缘概率分布为 p(x)=[0.3, 0.7] 和 p(y)=[0.5, 0.5]。根据互信息量的定义公式,可以计算出 I(X;Y)=0.1979。
举例2
对于连续随机变量 X 和 Y,其联合概率密度函数为 f(x,y),边缘概率密度函数为 fX(x) 和 fY(y)。可以通过 数值积分的方法计算出互信息量。例如,对于正态分布 N(0,1) 和 N(0,2) 的随机变量 X 和 Y,其互信息量 为 I(X;Y)=0.5×log2≈0.3466。
要点一
目的
通过举例讲解信息量、熵和互信息量的概念,使读者更好 地理解和掌握这些概念。
要点二
意义
信息量、熵和互信息量是信息论中的基本概念,对于理解 和应用信息论具有重要意义。通过本次讲解,读者可以更 加深入地了解这些概念,并能够在实际问题中加以应用。 同时,这些概念在其他领域也有广泛的应用,如计算机科 学、控制论、统计学等,因此本次讲解也有助于读者在其 他领域中更好地应用信息论的知识。
第二章 基本信息论

信息的度量
3.自信息(量) 3.自信息( 自信息 1)定义自信息量:I(xi)=log1/p(xi)=-logp(xi) 1)定义自信息量:I(xi)=log1/p(xi)=2)含义:描述信源的微观特性,是指消息集中某一消息 2)含义:描述信源的微观特性,是指消息集中某一消息 所含有的信息量。 在xi发生前---描述xi发生的不确定性大小。 发生前---描述xi发生的不确定性大小。 在xi发生后---描述xi所含有的(提供的)信 发生后---描述xi所含有的(提供的)信 息量。 3)采用对数定义的合理性 3)采用对数定义的合理性 对数函数能够同时满足条件,因此定义是合理的。 4)单位: 4)单位: 对数底(>1) 对数底(>1) 单位 2 bit e nat 10 Hart 1 nat=1.44 bit 1 Hart=3.32 bit 5)等概率分布离散信源的平均信息量H(X)=1/q∑logq 5)等概率分布离散信源的平均信息量H(X)=1/q∑logq =logq
信源熵
1. 定义: 定义: 2. 单位:与I(xi)相同。 单位: I(xi)相同。 3.物理意义: 物理意义: 等概率分布情况:一个符号含有的信息量。 非等概率分布情况:一个符号所含有的统计平均信息量, 是对信源宏观特性的描述。 结论: 结论: H(X)表征信源的总体特性----提供的统计平均信息量/ H(X)表征信源的总体特性----提供的统计平均信息量/符号 信源输出前的平均不确定性。 H(X)表征了信源的随机性。 H(X)表征了信源的随机性。
二元联合信源的共熵与条件熵
四.消息的剩余度 1.剩余: 剩余: 由于不等概或相关性使信源熵值减小,欲 输出相同信息量,必须增加位数,此为剩 余。
二元联合信源的共熵与条件熵
《信息论与编码理论》(王育民李晖梁传甲)课后习题问题详解高等教育出版社

信息论与编码理论习题解第二章-信息量和熵2.1解: 平均每个符号长为:1544.0312.032=⨯+⨯秒 每个符号的熵为9183.03log 3123log 32=⨯+⨯比特/符号所以信息速率为444.34159183.0=⨯比特/秒2.2 解: 同步信号均相同不含信息,其余认为等概,每个码字的信息量为 3*2=6 比特; 所以信息速率为600010006=⨯比特/秒2.3 解:(a)一对骰子总点数为7的概率是366 所以得到的信息量为 585.2)366(log 2= 比特 (b) 一对骰子总点数为12的概率是361 所以得到的信息量为 17.5361log 2= 比特 2.4 解: (a)任一特定排列的概率为!521,所以给出的信息量为 58.225!521log 2=- 比特 (b) 从中任取13张牌,所给出的点数都不相同的概率为13521313521344!13C A =⨯所以得到的信息量为 21.134log 1313522=C 比特.2.5 解:易证每次出现i 点的概率为21i,所以比特比特比特比特比特比特比特398.221log 21)(807.1)6(070.2)5(392.2)4(807.2)3(392.3)2(392.4)1(6,5,4,3,2,1,21log )(2612=-==============-==∑=i i X H x I x I x I x I x I x I i ii x I i2.6 解: 可能有的排列总数为27720!5!4!3!12= 没有两棵梧桐树相邻的排列数可如下图求得, Y X Y X Y X Y X Y X Y X Y X Y图中X 表示白杨或白桦,它有⎪⎪⎭⎫⎝⎛37种排法,Y 表示梧桐树可以栽种的位置,它有⎪⎪⎭⎫⎝⎛58种排法,所以共有⎪⎪⎭⎫ ⎝⎛58*⎪⎪⎭⎫⎝⎛37=1960种排法保证没有两棵梧桐树相邻,因此若告诉你没有两棵梧桐树相邻时,得到关于树排列的信息为1960log 27720log 22-=3.822 比特 2.7 解: X=0表示未录取,X=1表示录取; Y=0表示本市,Y=1表示外地;Z=0表示学过英语,Z=1表示未学过英语,由此得比特比特比特)01(log )01()0()00(log )00()0()(8113.04log 4134log 43)()(02698.04110435log 104354310469log 10469)1()01(log )01()0()00(log )00()0;(104352513/41)522121()0(/)1())11()1,10()10()1,00(()01(104692513/43)104109101()0(/)0())01()0,10()00()0,00(()00()(4512.04185log 854383log 83)1()01(log )01()0()00(log )00()0;(8551/4121)0(/)1()10()01(8351/43101)0(/)0()00()00()(,251225131)1(,2513100405451)10()1()00()0()0(,54511)1(,51101432141)10()1()00()0()0(,41)1(,43)0(222222222222+=====+=======+==+======+========⨯⨯+========+=========⨯⨯+========+=========+======+========⨯=========⨯=========-===⨯+====+======-===⨯+⨯====+=========x y p x y p x p x y p x y p x p X Y H X H c x p z x p z x p x p z x p z x p z X I z p x p x y p x y z p x y p x y z p z x p z p x p x y p x y z p x y p x y z p z x p b x p y x p y x p x p y x p y x p y X I y p x p x y p y x p y p x p x y p y x p a z p y z p y p y z p y p z p y p x y p x p x y p x p y p x p x p2.8 解:令{}{}R F T Y B A X ,,,,==,则比特得令同理03645.0)()(5.0,02.03.0)2.05.0(log 2.0)()2.05.0(log )2.05.0()2.03.0(log )2.03.0(5.0log 5.03.0log 3.0)5log )1(2.02log )1(5.0log )1(3.05log 2.0log 3.02log 5.0(2.0log 2.0)2.05.0(log )2.05.0()2.03.0(log )2.03.0()()();()(2.0)(,2.05.0)(2.03.0)1(3.05.0)()()()()(5.0max 2'2222223102231022222==∴==+-=---++-+=-+-+-+++-----++-=-===-=+=-⨯+=+==p p I p I p pp p I p p p p p p p p p p p p p p X Y H Y H Y X I p I R P p F P pp p B P B T P A P A T P T P2.9 & 2.12解:令X=X 1,Y=X 1+X 2,Z=X 1+X 2+X 3, H(X 1)=H(X 2)=H(X 3)= 6log 2 比特 H(X)= H(X 1) = 6log 2 =2.585比特 H(Y)= H(X 2+X 3)=6log 61)536log 365436log 364336log 363236log 36236log 361(2222222+++++ = 3.2744比特 H(Z)= H(X 1+X 2+X 3)=)27216log 2162725216log 2162521216log 2162115216log 2161510216log 216106216log 21663216log 2163216log 2161(222222222++++++= 3.5993比特 所以H(Z/Y)= H(X 3)= 2.585 比特 H(Z/X) = H(X 2+X 3)= 3.2744比特 H(X/Y)=H(X)-H(Y)+H(Y/X) = 2.585-3.2744+2.585 =1.8955比特H(Z/XY)=H(Z/Y)= 2.585比特 H(XZ/Y)=H(X/Y)+H(Z/XY) =1.8955+2.585 =4.4805比特 I(Y;Z)=H(Z)-H(Z/Y) =H(Z)- H(X 3)= 3.5993-2.585 =1.0143比特 I(X;Z)=H(Z)-H(Z/X)=3.5993- 3.2744 =0.3249比特 I(XY ;Z)=H(Z)-H(Z/XY) =H(Z)-H(Z/Y)=1.0143比特 I(Y;Z/X)=H(Z/X)-H(Z/XY) = H(X 2+X 3)-H(X 3) =3.2744-2.585 =0.6894比特 I(X;Z/Y)=H(Z/Y)-H(Z/XY) =H(Z/Y)-H(Z/Y) =02.10 解:设系统输出10个数字X 等概,接收数字为Y,显然101)(101)()()(919===∑∑==i j p i j p i Q j w i iH(Y)=log10比特奇奇奇奇偶18log 81101452log 211015)(log)()()(log )()(0)(log ),()(log ),()(22,2222=⨯⨯⨯⨯+⨯⨯⨯=--=--=∑∑∑∑∑∑∑≠====x y p x y p x p x x p x x p x p x y p y x p x y p y x p X Y H x y x i y x y x所以I(X;Y)= 3219.2110log 2=-比特2.11 解:(a )接收前一个数字为0的概率 2180)0()()0(==∑=i i i u p u q wbits p pw u p u I )1(log 11log )0()0(log )0;(2212121-+=-==(b )同理 418)00()()00(==∑=ii iu p u q wbits p p w u p u I )1(log 22)1(log )00()00(log )00;(24122121-+=-== (c )同理 818)000()()000(==∑=ii iu p u q wbits p p w u p u I )1(log 33)1(log )000()000(log )000;(28132121-+=-== (d )同理 ))1(6)1(()0000()()0000(4226818p p p p u p u q w ii i+-+-==∑=bitsp p p p p p p p p p w u p u I 42264242268142121)1(6)1()1(8log ))1(6)1(()1(log )0000()0000(log )0000;(+-+--=+-+--==2.12 解:见2.9 2.13 解: (b))/()/()/(1log)()/(1log)()/()/(1log)()/(1log)()/(XY Z H X Y H xy z p xyz p x y p xyz p xy z p x y p xyz p x yz p xyz p X YZ H x y z xyzxyzxyz+=+===∑∑∑∑∑∑∑∑∑∑∑∑(c))/()/(1log)/()()/(1log)/()()/(X Z H x z p xy z p xy p xy z p xy z p xy p XY Z H xyzxyz=≤=∑∑∑∑∑∑(由第二基本不等式) 或)1)/()/((log )/()()/()/(log)/()()/(1log)/()()/(1log)/()()/()/(=-⨯≤=-=-∑∑∑∑∑∑∑∑∑∑∑∑xy z p x z p e xy z p xy p xy z p x z p xy z p xy p x z p xy z p xy p xy z p xy z p xy p X Z H XY Z H xyzxyzxyzxyz(由第一基本不等式)所以)/()/(X Z H XY Z H ≤(a))/()/()/()/()/(X YZ H XY Z H X Y H X Z H X Y H =+≥+等号成立的条件为)/()/(x z p xy z p =,对所有Z z Y y X x ∈∈∈,,,即在给定X 条件下Y 与Z 相互独立。
2-2 第2章 信源熵及其基本性质和定理

2.1.3 2.1.4 2.1.5 2.1.6
信源熵的基本性质和定理 加权熵的概念及基本性质 平均互信息量 各种熵之间的关系
1
自信息量不能作为信源的信息测度
自信息量 I ( xi ), i = 1,2,... 是指某一信源X发出某一信 息符号 x i 所含有的信息量。发出的信息符号不同, 它们所含有的信息量就不同。
晴 地域A 1/2 地域B 1/2 多云 1/4 1/8 雨 1/8 1/8 冰雹 1/8 1/4
H(A) = H(B) =1.75bit 1 1 2 = log 2 + log 4 + log 8 2 4 8
17
熵函数的性质—— 2. 非负性 熵函数的性质
非负性
H(X ) = H[ p(x1), p(x2 ),L, p(xn )] H(X ) = −∑p(xi ) log p(xi ) ≥ 0
信源熵与平均自信息量数值相等,含义不同
信源熵表征信源的平均不确定度; 平均自信息量是消除信源不确定度所需要的信 息的度量;
信源熵H(X)的三种物理含义:
表示信源输出后,每个离散消息所提供的平均 信息量; 表示信源输出前,信源的平均不确定度; 反映了变量X的随机性。
9
条件熵
定义 2.1.7 联合集XY上,条件自信息量I(x|y)的 概率加权平均值定义为条件熵。其定义式为
f α X 1 + (1 − α ) X 2 < α f ( X 1) + (1 − α ) f ( X 2) ( X 1 ≠ X 2)
则称f(X)为定义域上的下凸函数(Cup型函数)或严格下凸函数。 f(x)是上凸函数 是上凸函数, f(x)便是下凸函数 反过来也成立。 便是下凸函数, 若f(x)是上凸函数,则-f(x)便是下凸函数,反过来也成立。故, 通常只需研究上凸函数
第2章 信源熵 第1讲 自信息量 与 互信息量

余 映 云南大学
17/38
计算举例
• 对于 2n 进制的数字序列, 假设每一符号的出现完 全随机且概率相等,求任一符号的自信息量。 解:设任一码元 xi 出现概率为 p(xi),根据题意, p(xi) = 1/ 2n I (xi) = –log(1/ 2n) = n (bit) • 事件的自信息量只与其概率有关,而与它的取值 无关。
余 映 云南大学
18/38
信息量与不确定性的关系
• 信源中某一消息发生的不确定性越大,一旦它发生,并为 收信者收到后,消除的不确定性就越大,获得的信息也就 越大。 • 由于各种原因(例如噪声太大),收信者接收到受干扰的 消息后,对某信息发生的不确定性依然存在或者一点也未 消除时,则收信者获得较少的信息或者说一点也没有获得 信息。
余 映 云南大学 21/38
信息量与不确定性的关系
• 自信息量和不确定度的含义又有区别
– 不确定度只与事件的概率有关,是一个统计量,在静 态状态下也存在; – 自信息量只有该随机事件出现时才给出,不出现时不 给出,因此它是一个动态的概念。
余 映 云南大学
22/38
自信息的含义
• 在事件 xi 发生前:表示事件 xi 发生的不确定性。 • 在事件 xi 发生后:表示事件 xi 所提供的信息量。
余 映 云南大学
19/38
信息量与不确定性的关系
• 信息量的直观定义:
收到某消息获得的信息量=不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) -(收到此消息后关于某事件发生的不确定性) • 在无噪声时,通过信道传输,可以完全不失真地收到消息, 收到此消息后关于某事件发生的不确定性完全消除,此项 为零。因此得 收到某消息获得的信息量 =收到此消息前关于某事件发生的不确定性 =信源输出的某消息中所含有的信息量
二章信息量和熵

pK
)
熵的性质-可加性
HM ( p1q11, p1q21,..., p1qm11, p2q12 , p2q22 ,...,
p2qm2 2 ,..., pK q1K , pK q2K ,..., pK qmK K )
K
HK ( p1, p2 ,..., pK ) pk Hmk (q1k , q2k ,..., qmkk ) k 1
1/2 1/2
收到0
1-p p
1-p 0
p
p
1 1-p
收到01
1/2 1/2
收到011
1-p p
0
1
非平均互信息量
I (xk ; y j ) f (q(xk ), p(xk | y j ))
I (xk ; y j ) I (xk ; y j1) I (xk ; y j2 | y j1) I (xk ; y j3 | y j1 y j2 )
if p(xk | y j ) 1
I (xk ;
yj)
log
p(xk | y j ) q(xk )
log
1 q( xk
)
log
q( xk
)
定义:给定集合{X, q(xk)},事件xk∈X的 自信息量定义为:
I
( xk
)
log
1 q( xk
)
log
q( xk
)
非平均自信息的性质
非负性 体现先验不确定性大小
几点说明: (1)I(xk; yj)=loga(rkj/(qkwj))。因此有对称性:
I(xk; yj)=I(yj; xk)。 (2)当rkj=qkwj时I(xk; yj)=0。(当两个事件相互独
立时,互信息量为0)。 (3)当rkj>qkwj时I(xk; yj)>0,当rkj<qkwj时I(xk; yj)<0。
第二章 信息量和熵

第二章信息量和熵一、离散变量的非平均信息量1、离散变量的非平均自信息量集合{X;p(x)}中某个事件x的自信息量定义为:=—log p(x) ——表达式是唯一的;I(x)=log1()p x其中,p(x)为事件x发生的概率。
含义:完全确定事件x所必需的信息量;事件x中固有(包含)的信息量;事件x出现的先验不确定性大小。
2、联合概率事件的非平均自信息量联合空间{XY,p(xy)}中任一事件xy,x∈X和y∈Y的联合自信息量定义为:I(xy)=—log p(xy)同理:I(xyz)=—log p(xyz) 。
3、离散变量的非平均条件信息量联合空间{XY,p(xy)}中,事件x∈X和y∈Y,事件x在事件y 给定(已知)时的条件信息量定义为:I(x/y)=—log(/)p x y含义:已知y时事件x所具有的不确定性;给定y时事件x中还剩余的信息量;给定y条件下完全确定事件x所必需的信息量。
4、离散事件的非平均互信息量两个离散事件集{X ,p(x)}和{Y ,p(y)}中,事件y ∈Y 的出现给出关于事件x ∈X 的信息量定义为: I (x ;y )=log(/)()p x y p x 含义:事件x 和y 之间的互信息量;从事件y 中可获得关于事件x 的信息量。
5、离散事件的非平均条件互信息量对于三个离散事件集的联合概率空间{XYZ ,p(xyz )},给定事件z Z ∈条件下,事件x X ∈和事件y Y ∈之间的条件互信息量定义为:I (x ;y /z )=log(/)(/)p x yz p x z =log (/)(/)(/)p xy z p x z p y z 注:I (x ;y /z )应理解为:I{(x ;y )/z}含义:已知事件z 的条件下,从事件y 中可获得关于事件x 的信息量。
6、离散事件非平均信息量的性质 ● 非平均自信息量非负; I (x )=—log p(x)≥0; I (x/y )=—log (/)p x y ≥0 。
第二章 信源熵

英文字母中“e”出现的概率为0.105,“c” 出现的概率为0.023,“o”出现的概率为 0.001,分别计算他们的自信息量。 答:I(e)=-logP(e)=-log0.105=3.25bit I(c)=-logP(c)=-log0.023=5.44bit I(o)=-logP(o)=-log0.001=9.97bit
②
公式:参考数学期望的性质,用各符号的自 信息量加权平均表示总体的不确定性。
H ( X ) E[ I ( X )] p( xi )I ( xi ) p( xi ) log p( xi )
i i
③
单位:比特/符号或比特/符号序列
④
I. II.
性质: 非负 与热力学熵相同形式,H(X)又被定义为信源 熵 两个特殊情况 符号 x i 的概率 pi 为零时,定义为pi log pi 0 当信源X只有一个符号,符号只有一个状态, p(x)=1,此时 H ( X ) 0 。
分析 {Xn,n=0,1,2,……}是一随机过程,其状态 空间为:I={0,1},且当Xn=i,i=0、1时, Xn+1所处的状态分布只与Xn=i有关,而与 时刻n以前所处的状态无关,综上所述。该 过程为一步转移的马尔可夫过程。 p, j i P i, j 0,1 一步转移的概率: P{ X j X i} q, j i 一步转移矩阵: p q
II.
III.
随机过程是随机函数的集合,若一随机系统的样本点数是 随机函数,则称此函数为样本函数。这一随机系统全部样 本函数的集合是一个随机过程。实际应用中,样本函数的 一般定义在时间域或者空间域。用{X(t),t Y }。 具有马尔可夫性的随机过程称为马尔可夫过程。
《信息量和熵》课件

信息量和熵的发展趋势和挑战
发展趋势:随着科技的发展,信息量和熵的概念和应用将更加广泛和深入 挑战:如何有效处理和利用大量信息,提高信息处理效率和准确性 挑战:如何应对信息泄露和网络安全问题,保护个人隐私和企业机密 挑战:如何平衡信息量和熵的关系,实现信息资源的合理配置和利用
THANKS
汇报人:PPT
信息增益在机器学习中的应用
信息增益用于特征选择,提高模型泛化能力 信息增益用于决策树构建,提高模型预测准确性 信息增益用于分类和回归问题,提高模型处理复杂数据的能力 信息增益用于优化模型参数,提高模型训练效率
Part Six
信息量和熵的未来 发展
信息量和熵的理论研究前景
信息量和熵在数 据压缩和信息传 输中的应用
信息增益的概念
信息增益:在信息论中,信息增益是指通 过增加信息量来提高信息传输效率的过程。
熵增原理:在热力学中,熵增原理是指在 一个封闭系统中,熵总是增加的。
信息增益与熵增原理的关系:信息增益 可以看作是熵增原理在信息论中的应用, 通过增加信息量来降低系统的熵。
信息增益的应用:信息增益在信息检索、 机器学习等领域有着广泛的应用,如决 策树、随机森林等算法中都使用了信息 增益的概念。
信息量与概率分布有关,概率 越大,信息量越小
信息量与信息熵有关,信息熵 是信息量的期望值
信息量与信息传递有关,信息 量越大,信息传递越困难
信息量的数学定义
信息量公式:I(X) = log(P(X))
信息量:描述一个事件发生 的概率
信息量单位:比特(bit)
信息量与概率的关系:概率 越大,信息量越小;概率越
小,信息量越大
信息量的微观解释
信息量是描述信息不确定性的度量 信息量与概率分布有关,概率越大,信息量越小 信息量与信息熵有关,信息熵是信息量的期望值 信息量与信息增益有关,信息增益是信息量的增加量
信息论举例信息量熵和互信息量

第二次测量取得旳信息量:
I ( p2 (x))
I ( p3(x))
log
1 p2 (x)
log
1 p3 ( x)
2
1 1(bit)
第三次测量取得旳信息量:
1
1
I ( p3(x)) I ( p4 (x)) log p3(x) log p4 (x) 1 0 1(bit)
故共需要3bit信息量.
信源熵
显然,H(X)>>H(Y),这表达信源X旳平均不稳 定性远远不小于信源Y旳平均不稳定性。
条件自信息量
前面我们引入自信息量以及熵旳概念,用
以描述信源或信宿,实际上,信宿收到旳消息
是与信源发出旳消息亲密有关。而且接受信息
与发送信息之间旳关系往往是鉴定一种信道旳
好坏旳最佳原则。所以,我们需要引入互信息
量。在学习互信息量之前我们先来了解条件信
码字
000 001 010 011 100 101 110 111
先验概率
1/4 1/4 1/8 1/8 1/16 1/16 1/16 1/16
收到0后 1/3 1/3 1/6 1/6 0 0 0 0
消息后验概率 收到01后 0 0 1/2 1/2 0 0 0 0
收到011后 0 0 0 1 0 0 0 0
[解]由定义有:
H
(X)源自214log
1 4
2
1 8
log
1 8
4
116log
1 16
2.75(比特/符号)
我们再回过头来看一下例3中两个信源熵分
别是多少, 成果反应了一种怎样旳事实? [例3解答]由定义有:
HX 0.5log0.5 0.5log0.5 1 HY 0.99log0.99 0.01log0.01 0.08
第二章信源与信息熵

I ( X ; Y ) p( yj ) I ( X ; yj ) p( xiyj ) log
p( xi / yj ) p( xi )
I(X;Y)=H(X)-H(X/Y);I(Y;X)=H(Y)-H(Y/X)=I(X;Y).
• 3.疑义度或损失熵
条件熵H(X/Y)信道上的干扰和噪声所造成的对信源符号x的平均不确定度.
X 0 P p
二元信源熵为
1 q
H (X ) p log p q log q p log p (1 p ) log(1 p ) H ( p)
信源信息熵H(X)是概率p的函数,通常用 H(p)表示。函数曲线如图
i i
I ( xi) 0; P( xi) 0;0 p( xi) 1
H(X ) 0
• 2.信源熵:表征信源的平均不确定度. 3.平均自信息:平均每个信源符号所能提供的信息 量.大小与信源熵相同.
• 例2.2.3二元信源是离散信源的一个特例。该信源X输出符号只 有两个,设为0和1。输出符号发生的概率分别为p和q,p+q=1。 即信源的概率空间为可得二元信源熵为
2.概率空间
一个离散信源发出的各个符号消息的集合 例如:
X={x1,x2,…,xn}
它们的概率分别为 P={p(x1),p(x2),…,p(xn)} p(xi)称为符号xi的先验概率。 把他们写到一起就是概率空间:
X x1 P p( x1)
x2
n
...xn
xiyi 所包含的不确定度在数值上也等于它们的自信息量。
4.条件自信息量:当二者不独立 在给定y条件下,随机事件x所包含的不确定度在数值 上与条件自信息量相同,但两者含义不同。
第二章信源和信息熵

例:设一条电线上串联8个灯泡,且损坏的可 能性为等概,若仅有一个坏灯泡,须获知多少 信息量才可确认? 第二章信源和信息熵
第二章 信源和信息熵
例解:
测量前,P1(x)=1/8,存在不确定性: I(P1(x))=log8=3bit
第一次测量获得信息量: 第二次测量获得信息量: 第三次测量获得信息量: 每次测量获得1bit信息量,需三次测量可确定坏灯泡
第二章信源和信息熵
第二章 信源和信息熵
(2)信源发出的符号间彼此是否独立: 无记忆信源:随机矢量的各分量相互独立 有记忆信源:随机矢量的各分量不相互独立
表述有记忆信源比无记忆信源困难的多,实际中,信 源发出的符号往往只与前若干符号的依赖关系强,与 更前面的符号依赖关系弱,这类信源可用马尔可夫信 源表示。 不同统计特性的信源可用随机变量、随机矢量以及随 机过程描述其输出的消息。
自信息的两种含义:信源输出消息x1之前,自信息 I(x1)是关于x1发生地不确定性的度量;而在信源输出 消息x1后,自信息I(x第1二)章表信源示和信x息1熵所含有的信息量。
第二章 信源和信息熵
注意:信息单位比特(表示以2为底的对数) 与计算机术语中的比特(表示二进制数的位) 的意义是不同的。
▪收到某消息获得的信息量=收到此消息前关于 某事件发生的不确定性-收到此消息后关于某 事件发生的不确定性
例:扔一颗质地均匀的正方体骰子,研究其下落后, 朝上一面的点数。每次试验结果必然是1点、2点、3点、 4点、5点、6点中的某一个面朝上。每次试验只随机出 现其中一种消息,不可能出现这个集合以外的消息, 考察此事件信源的数学模型。
解:数学模型为:
且满足:
第2章 信源熵 第2讲 信源熵(平均自信息量)与 平均互信息量

• H(X) — X 的先验不确定度。 • H(X/Y) — 疑义度(损失熵)。 表示已知Y 后,对X 仍然存在的不确 定度。代表了在信道中损失的信息。 • I(X;Y) — 已知Y 后关于X 的不确定度 减少的量。从Y 获得的关于X 的平均 信息量。
• 理解:已知 Y 时 X 的不确定度应小于一无所知时 X 的不 确定度。因为已知 Y 后,从 Y 或多或少可以得到一些关 于 X 的信息,从而使 X 的不确定度下降。
余 映 云南大学
19/38
熵的性质
• 证明:
• (利用了极值性)
余 映 云南大学
20/38
熵的性质
• (7) 可加性 H(XY) = H(X)+H(Y/X) H(XY) = H(Y)+H(X/Y)
余 映 云南大学 3/38
信源熵
• 举例
• 一布袋内放100个球,其中80个是黄色的,20个是白色的。 随便摸出一个球,猜测是什么颜色,其概率空间为
– x1:表示摸出的是黄球,x2:表示摸出的是白球
余 映 云南大学
4/38
信源熵与平均自信息量
• 信源熵和平均自信息量两者在数值上是相等的, 但含意并不相同。
余 映 云南大学
24/38
平均互信息量的定义
• 互信息量 I(xi; yj) 在联合概率空间 P(XY) 中的统 计平均值
称为 Y 对 X 的平均互信息量。 • X 对 Y 的平均互信息定义为
余 映 云南大学
25/38
平均互信息量的定义
• 平均互信息的第三种定义
• 平均互信息 I(X;Y) 克服了互信息量 I(xi;yj) 的随机 性,成为一个确定的量。
《信息论与编码理论》(王育民李晖梁传甲)课后习题答案高等教育出版社

信息论与编码理论习题解第二章 -信息量和熵2.1 解: 平均每个符号长为 :20.2 10.4 4 秒3315每个符号的熵为 2log31 log 3 0.9183 比特 /符号 32 3所以信息速率为 0.9183 15 3.444 比特 /秒42.2 解: 同步信号均相同不含信息,其余认为等概 ,每个码字的信息量为 3*2=6 比特;所以信息速率为 6 10006000 比特 /秒2.3 解:(a) 一对骰子总点数为 7 的概率是 636所以得到的信息量为log 2( 6) 2.585 比特36(b)一对骰子总点数为 12 的概率是 136所以得到的信息量为log 21 比特5.17362.4 解: (a)任一特定排列的概率为1,所以给出的信息量为52!1log252 !225.58比特(b) 从中任取 13 张牌 ,所给出的点数都不相同的概率为13! 413413A 5213C 135213所以得到的信息量为 log 2C 5213.21 比特 .4132.5 解:易证每次出现 i 点的概率为i,所以21I (x i )log 2i, i 1,2,3,4,5,6 21I (x1) 4.392 比特I (x2) 3.392 比特I (x3) 2.807 比特I (x4) 2.392比特I (x5) 2.070 比特I (x6) 1.807 比特6i log2i比特H(X)212.398i 1212.6 解: 可能有的排列总数为12!277203! 4! 5!没有两棵梧桐树相邻的排列数可如下图求得,Y X Y X Y X Y X Y X Y X Y X Y图中 X 表示白杨或白桦,它有73种排法, Y 表示梧桐树可以栽种的位置,它有8种排法,所以共有8 *7=1960种排法保证没有553两棵梧桐树相邻,因此若告诉你没有两棵梧桐树相邻时,得到关于树排列的信息为 log2 27720log 2 1960 =3.822比特2.7 解: X=0 表示未录取, X=1 表示录取;Y=0 表示本市, Y=1 表示外地;Z=0 表示学过英语, Z=1 表示未学过英语,由此得p( x0) 3 ,p(x1)4 p( y0)p( x 0) p( y 1 1 3 142 410 p( y 1)1 1 4 ,5 5p( z 0)p( y 0) p(z 14405 5 100 p( z 1)1 13 12 ,25 25(a) p( x0 y 0) p( yp( x1 y 0) p( y1 , 40 x 0)p( x 1) p( y 0 x 1)1 , 50 y 0) p( y 1) p( z 0 y 1)13 , 250 x 0) p( x 0) / p( y0)13 1310/5 84 0 x 1) p( x 1) / p( y0) 1 1 / 152 4 58I ( X ; y 0)p(x0 y p(x 0 y 0) p( x 1 y 0)0) log 2p(x 1 y 0) log 2p( x 0)p( x 1)3 log 2 35log 2 58 8 8 3 8 14 40.4512比特(b) p( x0 z 0)( p( z 0 y 0, x 0) p( y 0 x 0) p( z 0 y 1, x 0) p( y 1x 0)) p(x0) / p( z 0)(19 4 ) 3/1369 10 10 10 4 25 104p( x 1z 0)( p( z 0 y 0, x 1) p( y 0 x 1) p(z 0 y1, x 1) p( y 1 x 1)) p( x1) / p(z 0)(11 2) 1/13 3522 5 4 25104I ( X ; z 0)p( x 0 zp( x 0 z 0)p( x p(x 1 z 0)0) log 21z 0) log 21)p( x 0)p( x6969log 2104104343510435log 21041 40.02698 比特(c) H ( X )3 log 24 1 log 2 40.8113 比特4 3 4H(Y X)p( x 0) p( y 0 x 0) log 2 p( y 0 x 0) p( x 0) p( y 1 x 0) log 2 p( y 1x 0)p( x 1) p( y 0 x1) log 2 p( y 0 x 1)p( x 1) p( y 1 x1) log 2 p( y 1 x1)3 1log 2 10 3 9log 2 10 1 1 log 2 2 11log 2 2 410410 9 4 2 4 20.6017比特2.8 解:令X A,B,Y T,F,R ,则P(T)P(T A)P(A)P(T B)P(B)0.5 p0.3(1p)0.3 0.2 p同理P(F )0.50.2 p,P(R)0.2I ( p) I ( X ; Y)H (Y)H(Y X)(0.30.2p) log2 (0.30.2 p)(0.50.2p) log2 (0.50.2 p)0.2log 2 0.2(0.5 p log2 20.3 plog 21030.2 p log2 50.3(1p) log2103 0.5(1 p) log2 20.2(1p) log2 5)0.3log 2 0.30.5log 2 0.5(0.30.2p) log2 (0.30.2 p)(0.50.2 p) log2 (0.5 0.2 p)令I '( p)0.2 log2(0.50.2 p)0,得p0.50.30.2 pI ( p)max I ( p) p0 .50.03645比特2.9 & 2.12解:令 X=X 1,Y=X 1+X 2,Z=X 1+X 2+X 3, H(X 1)=H(X 2)=H(X 3)= log26比特H(X)= H(X 1) = log26=2.585 比特H(Y)= H(X 2+X 3)=2( 1log 2 362log 2363log 2364log 2365log 236 )1log 2 6363623633643656 = 3.2744 比特H(Z)= H(X 1+X 2+X 3)=2( 1 log 2 216 3 log 2 216 6log 2 216 10 log 2 216 15 log 2 216216 216 3 216 6 216 10 216 15 21 216 25 216 27 216 )log 2 21 log 2 log 2 27216 216 25 216= 3.5993 比特所以H(Z/Y)= H(X 3)= 2.585 比特H(Z/X) = H(X 2+X 3)= 3.2744 比特H(X/Y)=H(X)-H(Y)+H(Y/X)= 2.585-3.2744+2.585 =1.8955 比特H(Z/XY)=H(Z/Y)= 2.585 比特 H(XZ/Y)=H(X/Y)+H(Z/XY)=1.8955+2.585=4.4805 比特I(Y;Z)=H(Z)-H(Z/Y)=H(Z)- H(X 3)= 3.5993-2.585 =1.0143 比特I(X;Z)=H(Z)-H(Z/X)=3.5993- 3.2744=0.3249 比特I(XY ;Z)=H(Z)-H(Z/XY)=H(Z)-H(Z/Y)=1.0143 比特I(Y;Z/X)=H(Z/X)-H(Z/XY)=H(X 2+X 3)-H(X3) =3.2744-2.585=0.6894 比特I(X;Z/Y)=H(Z/Y)-H(Z/XY)=H(Z/Y)-H(Z/Y)=02.10 解:设系统输出10 个数字 X 等概 ,接收数字为 Y,9191显然 w( j )Q(i ) p( j i )p( j i )i010 i 110H(Y)=log10H(YX)p( x, y) log 2 p( y x)p( x, y) log2 p( y x)y x 偶y x 奇0p( x) p( x x) log 2 p( x x)p(x) p( y x) log 2 p( y x) i奇y x,奇 x奇511log2 2 5 411log2 81021081比特所以I(X;Y)=log 2 10 1 2.3219比特2.11 解:(a)接收前一个数字为0 的概率81w( 0)q(u i ) p( 0 u i )2i 0I (u1 ;0)log2p(0 u1)1p(1 p) bitslog 21 1 log 2w(0)28(b ) 同理w(00)q(u ) p(00 u ) 41iI (u 1;00)p(00u 1)log 2 (1p)22 2 log 2 (1 p) bitslog 2 w(00)14(c ) 同理 w(000)8q(u i ) p(000 u i )81i 0I (u 1;000) log 2 p(000u 1 ) log 2 (1 p)33 3log 2 (1p)bitsw(000)18(d ) 同理 w(0000 )8q(u i ) p(0000 u i )81((1p)66 p 2 (1 p)2p 4 )i 0p(0000u 1 )(1 p)4I (u 1;0000)log 2w(0000)log 281((1 p)6 6 p 2 (1p) 2p 4 )log 2 8(1 p) 4bits(1 p) 6 6 p 2 (1 p) 2p 42.12 解:见 2.92.13 解:(b)H(YZ/ X)xyzxyzxyzH(Y/ X)1p( xyz)logp( yz / x)1p( xyz) logp( y / x) p(z / xy)11p( xyz) logp(xyz)logp( y / x)x yzp( z / xy)H(Z/ XY)(c)H (Z / XY )p(xy)p( z / xy) log1xyzp(xy)xyzH(Z / X)p(z / xy)1p( z/ xy) log (由第二基本不等式) p(z / x)或H(Z/XY)H(Z/X)p(xy)1p( z / xy) logxyzp(z / xy)p( xy)p( z/ xy) log1p( z / x)xyzp( xy)p( z/ xy) logp(z / x)(由第一基xyzp( z / xy )p( xy)p(z / xy) log e( p(z / x)1)xyzp(z / xy)本不等式)所以H(Z/XY) H(Z/X)(a)H(Y/ X) H(Z / X)H(Y/ X) H(Z/XY) H(YZ/X)等号成立的条件为 p(z / xy) p( z / x) ,对所有 xX , y Y, z Z ,即在给定 X条件下 Y 与 Z 相互独立。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的, 因为
lim
q0
qloga
1 q
0
熵
例2.2.1 离散型随机变量X有两个事件x1和x2, P(X=x1)=p,P(X=x2)=1-p。
K
HK(p1,p2,...,pK) pklogpk k1
P当=K(pp1k,
p2,
1,
…,
pk
1p,k常)可称以作看是作概是率K矢维量矢;量,
k 1
故的H函K数(P)=HK(p1, p2, …, pk)是概率矢量P
熵的性质-对称性
矢量的各分量p1,p2,…pk的次序任意改变 时,熵值不变
则X的平均自信息量(熵)为 H(X)=ploga(1/p)+(1-p)loga(1/(1-p)) 。
观察H(X)(它是p的函数,图2.2.1给出了函数图象,该图象具 有某种对称性),有
当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0 )
当0<p<1时,H(X)>0。p越靠近1/2, H(X)越大。 (X是真正的 随机变量时,总有正的熵。随机性越大,熵越大)
1
P(Xxk |Yyj)
J
wjH(X|Yyj) j1
XY独立时有H(X|Y)=H(X)
联合熵
H(XY) p(xy)logp(xy)
xy
H(XY)H(X)H(Y| X) H(Y)H(X|Y)
熵的性质
对称性 非负性 确定性 扩展性 可加性 极值性 是H(P)上凸函数
熵是概率矢量的函数
非平均互信息量
其中底数a是大于1的常数。常用a=2或a=e,当a=2 时互信息量的单位为“比特”。
几点说明: (1)I(xk; yj)=loga(rkj/(qkwj))。因此有对称性:
I(xk; yj)=I(yj; xk)。 (2)当rkj=qkwj时I(xk; yj)=0。(当两个事件相互独
立时,互信息量为0)。 (3)当rkj>qkwj时I(xk; yj)>0,当rkj<qkwj时I(xk; yj)<0。
(当两个事件正相关时,互信息量为正值,当两 个事件负相关时,互信息量为负值)。
条件互信息和联合事件互信息
三个事件集的条件互信息定义为
I(u 1 ;u 2 |u 3 ) lo p p (u (u 1 g 1 |u |u 2 u 3 ) 3 ) lo p (u 1 g p |( u u 3 1 u )2 p |(u u 2 3 ) |u 3 )
条件自信息和联合自信息
I(u 1 |u 2 ) lo p (u g 1 |u 2 )
I(xkyj)lopg (xkyj)
I (xk ; y j ) I (xk ) I (xk | y j ) I ( y j ) I ( y j | xk )
自信息、条件自信息和互信息
I(x k ;y j) I(x k ) I(y j) I(x k y j)
当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时, 熵最大。特别如果底数a=2,则H(X)=1比特)
条件熵(定义2.2.2)
H (X |Y ) p (x)lyo p (x g |y )
xy
关于定 2.2义 .2的注解:
J
K
H(X|Y) wj P(Xxk
j1 k1
|Yyj)l
og
I(xk)
I(yj)
I(xk ;yj)
2.2 离散集的平均自信 息量-熵
熵
(平均自信息量——熵) 离散型随机变量{X,
xk, qk, k=1~K}的平均自信息量(又称为熵) 定义为如下的H(X),其中底数a是大于1的
常数。
K
H(X) qk
k1
loga q1k
集X中事件出现的平均不确定性
熵
注意: (1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机
熵的性质-扩展性
l i m 0 H K 1 ( p 1 ,p 2 ,...,p K ,) H K ( p 1 ,p 2 ,...,p K )
熵的性质-可加性
HM(p1q11, p1q21,..., p1qm11, p2q12, p2q22,...,
熵函数的值只与概率分布或将1分割成的 K个实数的取值有关,而与这K个实数和 K个事件采取何种一一对应方式无关
熵的性质-非负性
HK(P) = HK(p1, p2, …, pK) ≥0 可由单个事件自信息量的非负性得到
熵的性质-确定性
若事件集X中有一个事件为必然事件,其余事 件为不可能事件,则此集合的熵值为0
{X, xk, qk, k=1~K}和{Y, yj, wj, j=1~J})。事件 xk∈X与事件yj∈Y的互信息量定义为
I(xk;yj)loga
P(XP(Xxk|Yxk)yj)loga
P(Yyj |Xxk) P(Yyj)
logaP P((X (X,Yx)k)P((xYk,yyj)j))logaqkrkw j j
二章信息量和熵
信息量和熵
2.1 离散变量的非平均信息量 2.2 离散集的平均自信息量-熵 2.3 离散集的平均互信息量 2.4 连续随机变量的互信息和熵 2.5 凸函数和互信息的凸性
非平均互信息量
定义2.1.1(非平均互信息量) 给定一个二维离 散型随机变量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}(因此就给定了两个离散型随机变量
ifp(xk | yj)1
I(xk
;
yj
)
log
p(xk | yj q(xk )
)
log 1 q(xk
)
ቤተ መጻሕፍቲ ባይዱ
logq(xk
)
定义:给定集合{X, q(xk)},事件xk∈X的 自信息量定义为:
I(xk)logq(1xk)logq(xk)
非平均自信息的性质
非负性 体现先验不确定性大小
I(xk; yj ) I(xk ) I(xk; yj ) I(yj )
可以推广到任意有限多个空间情况
互信息的可加性
u1
u2 u3
系统
u1
u2
系统
u3
I(u1;u2u3)I(u1;u2)I(u1;u3|u2) I(u1;u3)I(u1;u2|u3)
互信息量特性:
对称性
可加性
互信息量的值域: -infinite ~ +infinite, 即全体实数
离散变量的非平均自信息量