第二章-信息论基本概念(1)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章信息论的基本概念第一节信源的描述和分类
第二节离散信源的信息论概念第三节离散信源的熵
第一节信源的描述和分类
一、香农信息论的基本出发点
用随机变量或随机矢量来表示信源,运用概率论和随机过程的理论来研究信息。
二、信源的分类
按照信源发出的消息在时间上和幅度上的分布情况可将信源分成离散信源和连续信源两大类
{信源离散信源连续信源
1.连续信源
连续信源是指发出在时间和幅度上都是连续分布的连续消息(模拟消息)的信源,如语言、图像、图形等都是连续消息。
2.离散信源
离散信源是指发出在时间上是离散分布的离散消息的信源,如文字、数字、数据等符号都是离散消息。
离散信源{离散无记忆信源离散有记忆信源:{发出单个符号的无记忆信源发出符号序列的无记忆信源
发出符号序列的有记忆信源
特例:马尔可夫信源
•离散无记忆信源
离散无记忆信源所发出的各个符号是相互独立的,发出的符号序列中的各个符号之间没有统计关联性,各个符号的出现概率是它自身的先验概率。
•离散有记忆信源
离散有记忆信源所发出的各个符号的概率是有关联的。
•发出单个符号的信源
发出单个符号的信源是指信源每次只发出一个符号代表一个消息;
•发出符号序列的信源
发出符号序列的信源是指信源每次发出一组含二个以上符号的符号序列代表一个消息。
•发出符号序列的有记忆信源
发出符号序列的有记忆信源是指用信源发出的一个符号序列的整体概率(即联合概率)反映有记忆信源的特征。
•发出符号序列的马尔可夫信源
发出符号序列的马尔可夫信源是指某一个符号出现的概率只与前面一个或有限个符号有关,而不依赖更前面的那些符号,这样的信源可以用信源发出符号序列内各个符号之间的条件概率来反映记忆特征。
三、先验概率及概率空间的形式
一个离散信源发出的各个符号消息的集合为:},,,{21n x x x X =它们的概率分别为:
)}
(,),(),({21n x p x p x p P =)(i x p 为符号i x 的先验概率。
1
)(,0)(1=≥∑=n i i i x p x p 先验概率
一般信源可用一个概率空间来描述,信源的不确定程度可用该概率空间的可能状态数目及其概率来描述。
概率越小,不确定度越大
——状态空间
⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡)()()(2121n n x p x p x p x x x P X
●概率空间
状态空间X中各状态相互独立。
i x ●举例(二进制信源):
100.50.5X P ⎡⎤⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦
●信息论所关心的就是这种随机变量的不确定性,驱使我们对随机变量进行观察和测量,从中获取信息。
第二节离散信源的信息论概念
问题:
◆什么叫自信息量?
◆什么叫不确定度?
◆什么叫互信息量?
◆什么叫平均自信息量?
◆什么叫条件熵?
◆什么叫联合熵?
◆联合熵、条件熵和熵的关系是什么?
◆熵的性质有哪些?
◆什么叫平均互信息量?
◆什么叫信源熵?如何计算离散信源熵?
(一)自信息量本节的重点内容:
1.信息量?
2.自信息量?
3.不确定度?
4.联合自信息量?
5.条件自信息量?
(一)自信息量
•随机事件的自信息量直觉的定义
信息量等于传输该信息所用的代价
两个相同的信源所产生的信息量两倍于单个信源的信息量•但是,直觉的定义立即会引起置疑:
一卡车空白打印纸,承载的信息量很大吗?
“很高兴见到你”,“妈妈,母亲节快乐!”等电文传达的信息与其长度等效吗?
信息是对不确定性的消除
•天气预报消息量
夏天预报下雪和冬天预报下雪,哪个消息含有更大信息量?
•金牌股票分析员与骗子股票分析员
•信息咨询公司(私人侦探)如何为他提供的信息定价?
用户来找公司是为了消除对某种不确定性所消除的不确定性越多,收费越高
随机事件的自信息四个基本问题:
–随机性与概率的关系;
–概率为1的事件的信息量;
–概率为0的事件的信息量;
–两个独立事件的联合信息量。
定义:一个随机事件的自信息量定义为其出现概率
对数的负值:
()log ()
i i I x p x 1.
自信息量
c .因为概率越小,
的出现就越稀罕,一旦出现,所获得的信息量也就较大。
由于是随机出现的,它是X的一个样值,所以是一个随机量。
而是的函数,它必须也是一个随机量。
)(i x p i x i x )(i x I i x 说明:()i I x a.自信息量是非负的。
b.对于离散无记忆信源,符号串中各符号统计独
立,符号串自信息量具有可加性:
log ()
i i
I p x =-∑()0()1
1log 0p a p a ≤<⎡⎤∴≥⎢⎥⎣⎦
d.自信息量单位的确定
•
在信息论中常用的对数底是2,信息量的单位为比特(bit ),用log 2或lb 表示;(bit /符号)•
若取自然对数,则信息量的单位为奈特(nat ),用log e 或ln 表示;(nat/符号)•
若以10为对数底,则信息量的单位为哈脱莱(Hartley),用log 10或lg 表示;(hartley/符号)
•若对数底为r ,则信息量的单位为r 进制用单位/符号。
这三个信息量单位之间的转换关系如下:
≈
≈1 nat =log 2e l.433 bit ,
l Hartley =log 210 3.322 bit ()()()()
11log log log log i i a i i I a I a p a p a ααβαβββ==
2.信息量
I(信息量)=不确定程度的减少量
即:收信者收到一个消息后,所获得的信息量等于收到信息前后不确定程度减少的量。
(举例)
3.不确定度
定义:随机事件的不确定度在数量上等于它的自信息量.
自信息量与不确定度的关系说明:
⏹两者的单位相同,但含义却不相同。
⏹具有某种概率分布的随机事件不管发生与否,都
存在不确定度,不确定度表征了该事件的特性,而自信息量是在该事件发生后给予观察者的信息量。
⏹一个出现概率接近于1的随机事件,发生的可能性
很大,所以它包含的不确定度就很小;反之,一个出现概率很小的随机事件,很难猜测在某个时刻它能否发生,所以它包含的不确定度就很大;
若是确定性事件,出现概率为1,则它包含的不确定度为0。
“比特”的意义
八个灯泡串联,其中一个灯丝断了。
如何用最少的步骤定位出哪一个坏了?
最少需要用三次二元判定来定位故障。
因此,这个事件所含有的信息量是3比特。
自信息量的例子:
(1)一个以等概率出现的二进制码元(0,1)所包含的自信息量为:
I(0)=I(1)=-log
2(1/2)=log
2
2=1bit/符号
(2)若是一个m位的二进制数,因为该数的每一位可从0,1两个数字中任取一个,因此有2m个等概率的可
能组合。
所以I=-log
2(1/2m)=m bit/符号,就是需要m
比特的信息来指明这样的二进制数。
(3)具有四个取值符号的随机变量各符号概率相等,均为1/4,各符号的自信息量:
1234[,,,]
X x x x x =12341()()()()2(/)4
I x I x I x I x lb bit =====符号注:
◆bit 的含义是二进制数字(0、1),自信息量为2(bit/
符号),意味着其不确定性可用2位二进制数字来度
量(00、01、10、11)。
◆若取4为对数底,自信息量为1(四进制单位/符号),
意味着其不确定性可用1位四进制数字来度量(0、1、
2、3)。
如QPSK 通信系统
(4)英文字母中“e”出现的概率为0.105,“c”出现的概率为0.023,“o”出现的概率为0.001。
分别计算它们的自信息量。
解:“e”的自信息量I(e)=-lb0.105=3.25(bit/符号)“c”的自信息量I(c)=-lb0.023=5.44(bit/符号)
“o”的自信息量I(o)=-lb0.001=9.97(bit/符号)说明:出现“e ”的信息量等于3.25比特。
也说明“o”带来的信息远大于出现“e”。
(5)某离散无记忆信源(DMS Discrete Memoryless Source )的概率空间为
信源发出消息202 120 130 213 001 203 210 110 321 010 021 032 011 223 210。
求该消息的自信息量以及消息中平均每符号的自信息量?
12340123p 3/81/41/41/8x X x x x x ====⎡⎤⎡⎤=⎢⎥⎢⎥⎣
⎦⎣⎦
解:信源符号的自信息量:
2321()()log 21/4
I x I x ===bit/符号信源无记忆,发出的符号串中各符号统计独立,由自信息量的可加性,符号串自信息量等于各符号自信息量之和:123414()13()12()6()87.81(/)
I I x I x I x I x bit =+++=符号平均一个符号的自信息量:
/4587.81/45 1.95(/)
I b it =≈符号41()log 31/8
I x ==bit/符号121()log 1.4153/8I x =≈bit/符号
(6)同时抛掷一对质地均匀的骰子,每个骰子各面朝上的概率均为1/6,试求:
(a). 事件“3和5同时发生”的自信息量?
(b). 事件“两个1同时发生”的自信息量?
(c). 事件“两个点数中至少有一个是1”的自信息量?
解: (a)存在两种情况:甲3乙5,甲5乙3。
P(A)=1/36×2=1/18,I(A)=-lbP(A)=4.17(bit)。
(b)存在一种情况:甲1乙1。
P(B)=1/36,I(B)=-lbP(B)=5.17(bit)。
(c)P(C)=1-5/6×5/6=11/36,I(C)=-lbP(C)=1.17(bit)。
甲与乙:同时都不取1
甲取1,乙取任意;乙取1,甲任意;排除同时取1,(重复)
(7)在布袋中放入81枚硬币,它们的外形完全相同。
已知有一枚硬币与其它80枚硬币重量不同,但不知这个硬币比其它硬币的重量是重还是轻。
问确定随意取出的一枚硬币恰好是重量不同硬币的所需要的信息量是多少?并进一不确定它比其它硬币是重还是轻所需要的信息量是多少?
解: (a)P(A)=1/81,I(A)=-lbP(A)=6.34(bit)。
(b) P(B)=1/2,P=P(A)×P(B)=1/162;
I=-lbP=7.34(bit)。
思考:已知假硬币重量较标准轻,试求在不用砝码的天平
上至少称多少次,才能发现其中的假硬币。
(,)lb (,)
i j i j I x y p x y =-4.联合自信息量
bit/二元符号
随机变量Z 是两个随机变量X 、Y 的联合,即Z=XY ,其概率空间:
[,][(,),(,)|1,2,...,;1,2,...,]
XY i j i j XY P x y p x y i N j M ===11((,)1,N M
i j i j p x y ===∑∑概率空间完备)
二元联合符号的自信息量称为联合自信息量:
同理,三元联合符号的联合自信息量:(,,)lb (,,)i j k i j k I x y z p x y z =-bit/三元符号
注意:
a.当(x i,y j)相互独立时,有P(x i,y j)=P(x i)P(y j),那
y j)=I(x i)+I(y j)。
么就有I(x
i,
b.(x i,y j) 所包含的不确定度在数值上也等于它们的
自信息量。
定义:
注意:在给定y j 条件下,随机事件x i 所包含的不确定度在数值上与条件自信息量相同,但两者含义不同。
5.条件自信息量
(|)lb (|)
i j i j I x y p x y =-bit/符号(|)
i j p x y (|)
j i p y x 联合随机变量},...2,1;...2,1|),{(M j N i y x XY j i ===有两种条件概率
定义两种条件自信息量:(|)lb (|)
j i j i I y x p y x =-bit/符号
条件自信息量的物理意义,要根据具体情况来做出相应的解释如果X 是观察输入,Y 是观察输出:
后验概率
在观察到符号y j 的条件下x i 还剩下的不确定性
转移概率
代表输入x i 且观察到y j 时干扰引入的不确定性(|)i j p x y (|)lb (|)
i j i j I x y p x y =-bit/符号(|)j i p y x (|)lb (|)j i j i I y x p y x =-bit/符号条件自信息量物理意义:
1. 甲在一个8×8的方格棋盘上随意放入一个棋子,在乙看来棋子落入的位置是不确定的。
试问:
(1)在乙看来,棋子落入某方格的不确定性为多少?(2)若甲告知乙棋子落入方格的行号,这时,在乙看来棋子落入某方格的不确定性为多少?
{|1,2,,64}
l z l = 解:将棋子方格从第一行开始按顺序编号,得到一个序号集合
{|1,2,,64}
l Z z l == 棋子落入的方格位置可以用取值于序号集合的随机变量Z 来描述
几个关于条件自信息量的例子:
1p()1,2,,6464
l z l == (1)由于棋子落入任一方格都是等可能的,则棋子落入某方格的不确定性就是自信息量
1()l b p()l b 664l l I z z =-=-=bit/符号
1p(|)1,2,,64;1,2,,88
l i z x l i === (1,2,,8)i x i = (|)l i I z x p(|)l i z x (2)棋盘方格可分为8行×8列,已知行号后,棋子落入某方格的不确定性就是条件自信息量它与条件概率有关,由于
1(|)l b p(|)l b 38l i l i I z x z x =-=-=故bit/符号
2. 居住在某地区的女孩中有25%是大学生,在女大学生
中有75%是身高1.6m以上的,而女孩中身高1.6m以上的占
总数一半。
假如我们得知“身高1.6m以上的某女孩是大学生”的消息,问获得多少信息量?
解:设A表示“大学生”这一事件,B表示“身高1.6m以上”这一事件,则:
P(A)=0.25;
P(B)=0.5;
P(B|A)=0.75;
因此:
P(A|B)=P(AB)/P(B)=P(A)P(B|A)/P(B)=0.75×0.25/0.5=0.375;
I(A|B)=-lbP(A|B)=1.42(bit)。
(二)互信息量
1212,,,,,,()1(),(),,(),,()()i n i i i n x x x x p x p x p x p x p x P ⎧⎫⎡⎤==⎨⎬⎢⎥⎣⎦⎩⎭∑X X 设信源1212,,,,,,()1(),(),,(),,()()j m j j
j m y y y y p y p y p y p y p y P ⎧⎫⎡⎤==⎨⎬⎢⎥⎣⎦⎩⎭∑Y Y 信宿信道信源
X 信宿
Y
1.互信息量
设观察输入为:i x (i =1,2,,...,N )设观察结果为:j y (j =1,2,,...,M )从y j 中得到有关输入符号x i 的信息——称为x i 与y j 之间的互信息量(事件信息)(注意与联合自信息量符号标志不同)。
(;)i j I x y (,)i j I x y 信息=先验不确定性-后验不确定性=x i 在观察到y j 前不确定性-x i 在观察到y j 后不确定性(;)i j I x y (|)
(,)
(;)()(|)[()][(|)]()()()
i j i j i j i i j i i j i i j p x y p x y I x y I x I x y lbp x lbp x y lb lb p x p x p y =-=---==
(1) y j 对x i 的互信息I(x i ;y j )
I(x i ;y j )= I(x i )-I(x i /y j )
[含义]互信息I (x i ;y j ) =自信息I (x i ) -条件自信息I (x i /y j )*I (x i ) -----信宿收到y j 之前,对信源发x i 的不确定度*I (x i /y j ) -----信宿收到y j 之后,对信源发x i 的不确定度*I (x i ;y j ) -----收到y j 而得到(关于x i )的互信息
=不确定度的减少量
p (x i ) ——先验概率:信源发x i 的概率
p (x i /y j )——后验概率:信宿收到y j 后,推测信源发x i 的概率
(/)(;)()
i j i j i p x y I x y lb p x 即互信息量为后验概率与先验概率比值的对数:
(2) x i 对y j 的互信息I (y j ;x i )
[含义] 信源发x i 前、后,信宿收到y j 的不确定度的减少
(3) I (x i ;y j ) =I (x i ) +I (y j ) -I (x i ,y j )
[注意]I (x i ;y j ) 与I (x i ,y j ) 不同!
2(/)(;)log ()(/)
()j i j i j j i j p y x I y x I y I y x p y ==-(,)(;)()()
[()][()][(,)]
()()(,)
i j i j i j i j i j i j i j p x y I x y lb p x p y lbp x lbp y lbp x y I x I y I x y ==-+---=+-
(4) 实在信息:
后验概率p (x i |y j )=1,即收到y j 时就能完全肯定此时的输入一定是x i ,x i 的后验不确定性完全消除:
(|)(|)0(/)i j i j I x y lbp x y bit =-=符号即从输出结果中得到了输入实有的全部信息——实在信息:
(;)()0()
i j i i I x y I x I x =-=[注意] a. 输入的先验不确定性在数值上等于自身含有的实在信息。
b.信息与不确定性是两个不同的物理概念,不是信息,只是
不确定性,互信息量才是信息,把当作信息只是说明一种数量上的相等关系。
()i I x ()i I x (;)i j I x y ()i I x
(4) 互信息量定义扩展:
符号x i 与符号对y j z k 之间的互信息量定义为:
(|)
(;)()
i j k i j k i p x y z I x y z lb p x
2. 互信息的性质(具体推导可见课本p24)
(1) 对称性——I(x i ;y j ) = I(y j ;x i )
(2) X 与Y 独立时——I(x i ;y j ) = 0
(3) I (x i ;y j ) 可为正、负、0
当事件x i 和y j 统计独立时,互信息量为零;互信息量为正,说明y j 的出现有助于减小x i 的不确定性;反之,互信息量为负说明y j 的出现增大了x i 的不确定性(比如信道存在干扰)。
(4)任何两个事件之间的互信息量不可能大于其中任意事件的自信息量
I(x i ; y j ) = I(y j ; x i ) ≤ I(x i )
I(y j )
设e 表示事件“降雨”,f 表示事件”空中有乌云” ,且p(e) =0.125;p(e|f)=0.8。
求(1)事件“降雨”的自信息;(2)在“空中有乌云”条件下“降雨”的自信息; (3)事件“无雨”的自信息;(4)在“空中有乌云”条件下“无雨”的自信息;(5)“降雨”与“空中有乌云”的互信息;(6)“无雨”与“空中有乌云”的互信息。
I (x i ;y j ) 可为正、负、0
的举例
3. 条件互信息量
给定z k 条件下,x i 与y j 间的互信息量
2(/)(;/)log (/)
i j k i j k i k p x y z I x y z p x z 另外,还存在x i 与y j z k 之间的互信息量:
2(/)(;)log ()
i j k i j k i p x y z I x y z p x
(;)(;)(;|)
(;)(;|)i j k i j i k j i k i j k I x y z I x y I x z y I x z I x y z =+=+(该式推导见p25-26)
由上述两式得:
说明:一个联合事件y j z k 出现后提供的有关x i 的信息量=z k 事件出现后提供的有关x i 的信息量+在给定z k 条件下再出现y j 事件后所提供的有关x i 的信息量。
思路:联合事件y j z k 的观测,可以等价为两步观测:(1)z k 事件出现;(2)在给定z k 条件下再出现y j 事件。
4. 关于互信息的例子
已知信源发出两种消息,且此消息在二进制对称信道上传输,信道传输特性为:求互信息量12,a a 12()()0.5,
P a P a ==11222112(|)(|)1,(|)(|)P b a P b a P b a P b a εε==-==1112(;),(;)?
I a b I a b 解:根据得到:()()(|)i j i j j
P b P a P b a =∑12()()0.5
P b P b ==11111112112212(|)(;)(;)[2(1)]()
(|)(;)(;)(2)()
P b a I a b I b a lb lb P b P b a I a b I b a lb lb P b εε===-===1111122111111221=0(;)(;)=21(;)(;)=0=0.5(;)(;)=10(;)(;)=10I a b I b a lb bit I a b I b a lb I a b I b a lb bit I a b I b a lb εε====-∞====当:当:=-1
ε当
一个布袋内放100个球,其中80个球是红色的,20个球是白色的,若随机摸取一个球,猜测其颜色,求平均摸取一次所能获得的自信息量。
解: 依据题意
这一随机事件的概率空间为
⎥⎦
⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡2.08.021x x P X (三) 平均自信息量--熵
其中:x
1表示摸出的球为红球事件,x
2
表示摸出的
球是白球事件.
1)如果摸出的是红球,则获得的信息量是
I(x1)= -log
2
p(x1)= -lb0.8 =0.3219bit
2)如果摸出的是白球,则获得的信息量是
I(x2)=-log
2
p(x2)=-lb0.2=2.3219bit
3)如果每次摸出一个球后又放回袋中,再进行下一次摸取。
则如此摸取n次,红球出现的次数为np(x
1)次,白球出现
的次数为np(x
2)次。
随机摸取n次后总共所获得的信息量
为
np(x1)I(x1)+np(x2)I(x2)
则平均随机摸取一次所获得的信息量为
H (X )=1/n[np (x 1)I (x 1)+np (x 2)I (x 2)]
=-[p (x 1)log 2p (x 1)+p (x 2)log 2p (x 2)]
∑=-=2
12)
(log )(i i i x p x p = 0.7219比特/次
定义:离散信源熵H(X)(平均不确定度/平均信息量/平均自信息量/信息熵/熵)
定义信源的平均不确定度H(X)为信源中各个符号不确定度的数学期望,即:
()[()]()()()lb ()
i i i i i i i
H X E I x p x I x p x p x ===-∑∑•单位为比特/符号或比特/符号序列
2)因为X 中各符号x i 的自信息量I (x i )为非负值,p (x i )也
是非负值,且0p(x i ) 1
,故信源的平均自信息量H (X )也是非负量。
3)平均自信息量H (X )的定义公式与热力学中熵的表示形
式相同,所以又把H (X )称为信源X 的熵。
熵是在平均意义上来表征信源的总体特性的,可以表征信源的平均不确定度。
≤≤1)自信息量I (x 1)和I (x 2)只是表征信源中各个符号的不确
定度,一个信源总是包含着多个符号消息,各个符号消息又按概率空间的先验概率分布,因而各个符号的自信息量是一个随机变量,所以自信息量不能作为整个信源的信息测度。
H (X )表示每个信源符号所提供的平均信息量。
信息熵定义的相关解释(1)
4)某一信源,不管它是否输出符号,只要这些符号具有某
些概率特性,必有信源的熵值;这熵值是在总体平均上才有意义,因而是一个确定值,一般写成H (X ),X 是
指随机变量的整体(包括概率分布)。
H(X)越大,信源的随机性就越大,也是平均给出的信息量。
自信息量则是随机量。
i
x i p i i p p log i i p p log x 1)( x p 5)当某一符号的概率为零时,在熵公式中无意义,为此规定这时的也为零。
当信源X 中只含一个符号时,必定有,此时信源熵H (X )为零。
信息熵定义的相关解释(2)
信息熵的唯一性定理
香农给出了信息熵函数满足的三个条件(公理化定义)–连续性:
–等概时单调增:
–可加性:
要寻找我校二年级的一位学生,设a是该系二年级学生总数,k是该系二年级的班级数,而bi是该系全体二年级第i班的学生人数。
二年级全体学生的不确定定性=班级的不确定性+每个班学生的平均不确定性。