2014.信息论.第2章信息的统计度量

合集下载

第二章信息的统计度量

第二章信息的统计度量

1.2.1互信息量 • 1.定义:对两个离散随机事件集X和Y,事件Yi的出现给出关于
I 事件Xi的信息量定义为互信息量( xi ; yi )
。其定义式为
I ( xi ; yi )def log
p( xi | yi ) p( xi )
(1 4)
互信息量的单位与自信息量的单位一样取决于对数的底。 由式(1-4)又可得到
可见,当事件xi,yi统计独立时,其互信息量为零。这意味着不能 从观测yi获得关于另一个事件xi的任何信息。
3).互信息量可正可负
由于 1 1 I ( xi ; yi )def log log p( xi ) p( xi | yi )
在给定观测数据yi的条件下,事件xi出现的概率P(xi| yi)大于先验 概率P(xi)时,互信息量I(xi; yi)大于零,为正值;当后验概率小 于先验概率时,互信息量为负值。 互信息量为正,意味着事件yi的出现有助于肯定事件xi的出现;反之, 则是不利的。造成不利的原因是由于信道干扰引起的。
式中,xi Yi积事件,p (xi Yi)为元素xi Yi的二维联合概率。
当xi Yi独立时I(xi
Yi)= I(xi)+ I(Yi)
1.1.2 条件自信息量
联合集XY中,对事件Xi和Yi,事件Xi在事件Yi给定的条件下的条件自信息量 定义为
I ( xi | yi )def log p ( xi | yi )
1奈特=log2 e比特≈1.443比特
1哈脱来=log2 10比特≈3.322比特
3)信息量的性质:
a)非负性
b)P=1 I=0
c)P=0 I=

d)I是p的单调递减函数
3)联合自信息量

信息论第二章信息的度量

信息论第二章信息的度量
+ I (u1; ui︱u2 … u i-1)+ … + I (u1; uN︱u2 … uN -1)
(2-10)
2.条件互信息量
三维X Y Z联合集中,在给定条件zk的情况下, xi , yj的互信息量I(xi ;yj︱zk )定义为:
I(xi ; y j
zk ) log
p(xi y j zk ) p(xi zk )
(1)甲找到乙这一事件是二维联合集X Y上的等概分

p( xi
y
j
)
1 60
,这一事件提供给甲的信息量为
I(xi yj ) = - log p(xi yj ) = log 60 = 5.907(比特)
(2)在二维联合集X Y上的条件分布概率为 事件提供给甲的信息量为条件自信息量
p( y j
xi
)
1 12
一个事件的自信息量就是对其不确定性的度量。 互信息量则表明了两个随机事件的相互约束程度。
对于随机事件集X = {x1,x2,…,xi,…,xI}中的随机事 件xi,其出现概率记为q(xi),将两个事件xi ,yj同时出现的概率 记为p(xi yj),则q(xi) ,p(xi yj)应满足:
qiI(1xqi )(xi
(2-11)
3.互信息量的性质
(1)互易性 ————对称性
I(xi ;yj )= I(yj ; xi)
(2-12)
(2)可加性:
I(u1;u2u3uN ) I(u1;u2) I(u1;u3 u2) I(u1;ui u2 ui1) I(u1;uN u2 uN1)
(3)当xi ,yj统计独立时,互信息量I(xi ;yj) = 0及条件互
率加权平均值(统计平均值),即平均自信息量 H(X)定义为:

第2章 信息的统计度量

第2章  信息的统计度量

熵函数的数学特性5 可加性
H(X, Y) = H(X) + H(Y|X) 当X、Y相互独立时, H(X, Y) = H(X)+H(Y)

1 0.9
H(p,1-p)
熵函数的数学特性6 极值性

0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0


p( x | y ) I ( x; y ) log 0 正: p( x) y的出现有助于肯定x的出现 p( x | y ) x:张三病了。 1 p ( x | y ) p( x) y:张三没来上课。 p( x) 负: p( x | y ) 0 y的出现有助于否定x的出现 I ( x; y ) log p( x)

规定:0log0 = 0
自信息量的含义



自信息量表示了一个事件是否发生的不确 定性的大小。一旦该事件发生,就消除了 这种不确定性,带来了信息量,即: 自信息量表示了一个事件的发生带给我们 的信息量的大小。 自信息量表示了确定一个事件是否发生, 所需的信息量的大小。 自信息量表示了将事件的信息量表示出来, 所需的二进制位的个数。
p(x):x出现的概率 I(x):x的不确定性 p(x|y):y出现之后 I(x|y):知道y之后仍然保留的关于 x出现的概率 x的不确定性
后验概率
衡量的都是不确定性
条件自信息量的例子

事件:
x=“美国总统的专机发生空难” y=“今天是9.11”

概率:
p(x)= 0.01% p(x|y)=1%
信息论与编码理论 第2章 信息的统计度量
主要内容 从概率的角度研究问题
自信息量 互信息量 平均自信息量 平均互信息量

信息论信息的统计度量

信息论信息的统计度量

前面已求出自信息量和条件自信息量为:
I ( x) = 13.2877
而x和y的互信息量为:
I ( x | y ) = 6.6439
p( x | y) 1% I ( x; y ) = log = log = log100 = 6.6439 p( x) 0.01% = I ( x) − I ( x | y )
−3×105
log10
−3×105
≈ 106
平均每篇千字文可提供的信息量: 平均
Y = { y1 , y2 ,..., y100001000 }
10 4000 i =1
1 p ( yi ) = = 10 − 4000 100001000
10 4000 i =1
H (Y ) = − ∑ p ( yi ) log p ( yi ) = − ∑10 − 4000 log 10 − 4000 ≈ 1.3 ×10 4
连续信号
时间
插值 离散化
幅度
离散时间信号
时间
离散信号
时间
2.1 自信息量和条件自信息量
定义2.1.1 任意随机事件的自信息量定义为该事件发生概 定义 率的对数的负值。 假设事件xi发生的概率为p(xi),则其自信息定义式为
7 6
I ( xi ) = − log p ( xi )
5
自 信 息 量
4
3
条件自信息量的例子
例2.1.2 设xi表示棋子落入第i行; yj表示棋子落入第 j列, i, j =1,2,…,8,则 (1)
1 p ( xi y j ) = 64
I ( xi y j ) = − log p ( xi y j ) = log 64 = 6 I ( y j | xi ) = − log p ( y j | xi ) = log 8 = 3

第2章信息的度量

第2章信息的度量

P( zl )
1 64
l 1, 2, , 64
P( zl
|
xk
)
1 8
l 1, 2, , 64; k 1, 2, ,8
(1)
I (zl
)
log
P( zl
)
log
1 64
6
bit/符号
(2)
I (zl
|
xk
)
log
P( zl
|
xk
|)
log
1 8
3
bit/符号
4 自信息量的性质和相互关系
KJ
P(xk , y j ) 1
k 1 j1
联合符号 (xk , 的y j )先验不确定性称为联合自信息量 : I (xk , y j ) log P(xk , y j ) bit/二元符号
多元联合符号的联合自信息量
三元符号的自信息量为: I (xk , y j , zl ) log P(xk , y j , zl ) bit/三元符号
统计平均意义下的不确定性有: 熵、条件熵和联合熵。
先介绍各种不确定性的度量方法,然后再引入信息的 度量方法。
1 自信息量
DMS
X
{x1, x2 , , xK }
[ X , PX ] [xk , P(xk ) | k 1 , 2 , , K ]
K
P(xk ) 1
k 1
I (xk ) :xk 的(先验)不确定性 ,也称为 的xk自信息量 。
I (xk
)
log
1 P( xk
)
log
P( xk
)
k 1, 2,, K
注:自信息量与信息有联系,但不是信息,而 是符号的先验不确定性。

信息论与编码第二章信息的度量

信息论与编码第二章信息的度量

14
2.1.1 自信息量

(1)直观定义自信息量为:
收到某消息获得的信息量 = 不确定性减少的量
= 收到此消息前关于某事件发生的不确定性 收到此消息后关于某事件发生的不确定性
15
2.1.1 自信息量

举例:一个布袋中装有对人手感觉完全 一样的球,但颜色和数量不同,问下面 三种情况下随意拿出一个球的不确定程 度的大小。

18
2.1.1 自信息量
应用概率空间的概念分析上例,设取红球的状 态为x1,白球为x2,黑球为x3,黄球为x4,则 概率空间为: x2 (1) X x1

P( x) 0.99 0.01

( 2)
( 3)
X x1 P( x) 0.5
一、自信息和互信息
二、平均自信息
2.1.2 互信息
三、平均互信息
2.1.1 自信息量

信源发出的消息常常是随机的,其状态存在某种 程度的不确定性,经过通信将信息传给了收信者, 收信者得到消息后,才消除了不确定性并获得了 信息。
获得信息量的多少与信源的不确定性
的消除有关。
不确定度——惊讶度——信息量
第二章:信息的度量
自信息和互信息 平均自信息 平均互信息
2.1.1 自信息(量) (续9)
例4:设在一正方形棋盘上共有64个方格,如果甲将一 粒棋子随意的放在棋盘中的某方格且让乙猜测棋子所 在位置。 (1) 将方格按顺序编号,令乙猜测棋子所在的顺序 号。问猜测的难易程度。
(2)将方格按行和列编号,甲将棋子所在方格的列编 号告诉乙之后,再令乙猜测棋子所在行的位置。问猜 测的难易程度。

自信息是事件发生前,事件发生的不确定性。

信息论编码 第二章信息度量1

信息论编码   第二章信息度量1

50个红球,50个黑球
Y
20个红球,其它4种 颜色各20个
Z
问题:能否度量、如何度量??
2.3.2信源熵数学描述
信源熵
• 定义:信源各个离散消息的自信息量的数学期望 (即概率加权的统计平均值)为信源的平均信息 量,一般称为信源的信息熵,也叫信源熵或香农 熵,有时也称为无条件熵或熵函数,简称熵。 • 公式: n 1 H ( X ) = E[ I ( xi )] = E[log2 ] = −∑ p( xi ) log2 p( xi ) p( xi ) i =1 • 熵函数的自变量是X,表示信源整体,实质上是无 记忆信源平均不确定度的度量。也是试验后平均 不确定性=携载的信息 信息量为熵 • 单位:以2为底,比特/符号 • 为什么要用熵这个词,与热熵的区别?
3
( 2)
∑ p ( x ) = 1, ∑ p ( y
i =1 m i j =1
n
m
j
) = 1,∑ p ( xi / y j ) = 1,
i =1 n
n
概 率 复 习
∑ p( y
j =1 n
j
/ xi ) = 1, ∑ ∑ p ( xi y j ) = 1
j =1 i =1 m
m
( 3) ( 4) (5)
1
对天气x1 ,Q p( x1 / y1 ) = 0,∴不必再考虑x1与y1之间 信息量
对天气 x 2 : I ( x 2 : y 1 ) = log
2
p ( x 2 / y1 ) = log p ( x2 )
2
1/ 2 = 1( bit ) 1/ 4
同理 I ( x 3 : y 1 ) = I ( x 4 : y 1 ) = 1( bit ), 这表明从 y 1 分别得到了

信息论第2章 信息的度量

信息论第2章 信息的度量
X 晴 阴 大雨 小雨 P( x) 1/4 1/4 1/4 1/4 1 1 1 1 1 1 1 1 H ( X ) log log log log 2(bit / 符号 ) 4 4 4 4 4 4 4 4
结论:等概率分布时信源的不确定性最大,所 以信息熵(平均信息量)最大。
图2.1 自信息量
2.1.1 自信息
自信息量的单位 常取对数的底为 2,信息量的单位为比特( bit, binary unit )。当 p(xi)=1/2 时, I(xi)=1 比特,即 概率等于1/2的事件具有1比特的自信息量。 若取自然对数(对数以 e为底),自信息量的单 位为奈特(nat,natural unit)。 1奈特=log2e比 特=1.443比特 工程上用以10为底较方便。若以10为对数底,则 自信息量的单位为哈特莱( Hartley)。 1哈特莱 =log210比特=3.322比特 如果取以 r 为底的对数 (r>1) ,则 I(xi)=-logrp(xi) 进 制单位 1r进制单位= log2r比特
I [ P( x3 )] log2 1 1(bit) P ( x3 )
第二次测量获得的信息量 = I [P (x2)] - I [P (x3)]=1(bit) 第三次测量获得的信息量 = I [P (x3)] =1(bit)
至少要获得3个比特的信息量就可确切知道哪个灯泡已坏了。
2.1.2 互信息
I (a2) = -log p(a2) = -log0.2 = 2.32 (比特)
平均摸取一次所能获得的信息量为 : H(X)= p(a1) I (a1) + p(a2) I (a2) =0.72(比特/符号)
熵的含义

信息论基础及应用第2章 信源及其信息的统计度量(2)_2.4~2.7

信息论基础及应用第2章  信源及其信息的统计度量(2)_2.4~2.7
◆需要解决的问题: 它们之间的关系、性质等; 如何计算。
2.5.1 离散无记忆序列信源的熵
◆随机序列 X = XN = (X1, X2,…, XN) 中的各分量之间相互独立,
即 X 是 N 维离散无记忆序列信源,则其概率满足
N
P( x) P(x1x2 xN ) Pi (xi )
i 1
定义式为
I ( X ;YZ ) EX ,Y ,Z [I (x; yz)]
P(x y z)
P(xyz)log
X ,Y ,Z
P(x)
2.4.1 平均互信息
定义2.14 离散联合随机变量集 XYZ 上,在给定 Z 条件下,
由 Y 提供的关于 X 的平均互信息为 I(x;y | z) 在 XYZ 上的
概率P(αi)
1/4 1/8 1/8 1/8 1/16 1/16 1/8 1/16 1/16
信源 X 的熵为: H ( X ) 1 log 2 2 1 log 4 1.5 bit/符号
24ຫໍສະໝຸດ 二次扩展信源 X 2 的熵为:
H ( X ) H ( X 2 ) 1 log 4 4 1 log8 4 1 log16 3 bit/符号
2.4 离散信源的平均互信息
本节主要内容
2.4.1 平均互信息 2.4.2 平均互信息的性质 2.4.3 各类熵之间的关系
2.4.1 平均互信息
1.平均互信息的定义与含义
定义2.11 离散联合随机变量集 XY 上,由 Y 中的事件 y = bj 提供的关于 X 的平均互信息为互信息 I(x,y) 在集合 X 中以后验概率加权的平均值,为
数学期望,称为在给定 Z 条件下由 Y 提供的关于 X 的

第二章 信息的度量

第二章 信息的度量
McMillan 1956
率失真理论 Shannon Gallager Berger
Huffman码(1952)、Fano码 算术码(1976,1982) LZ码(1977,1978)
压缩编码 JPEG MPEG
纠错码 编码调制理论
网络最佳码
第二章 信息的度量
? 2.1 度量信息的基本思路 ? 2.2 信源熵和条件熵 ? 2.3 互信息量和平均互信息量 ? 2.4 多维随机变量的熵
? 它与日常生活中关于信息的理解不矛盾; ? 它排除了对信息一词某些主观性的含义,是纯粹形
式化的概念;
仙农关于信息定义和度量的局限
? 局限
? 这个定义的出发点是假设事物的状态可以用一个以 经典集合论为基础的概率模型来描述,然而实际存 在的某些事物运动状态很难用一个合适的经典概率 模型来描述,甚至在某些情况下不存在这样的模型;
自信息量
? 自信息量的单位
? 自信息量的单位取决于对数的底; ? 底为2,单位为“比特(bit)”; ? 底为e,单位为“奈特(nat)”; ? 底为10,单位为“哈特(hat)”; ? 1 nat = 1.44bit , 1 hat = 3.32 bit;
仙农关于信息定义和度量的优点
? 优点
? 它是一个科学的定义,有明确的数学模型和定量计 算;
? ? En
?
m
Fk
k?1
, pn
?
m
qk , p{Fk } ?
k?1
qk; 则有 q1 ?
q2 ? .. ? qm pn
?1
这时构成的三个概率空间分别具有熵函数:
H1( p1, p2 ,..., pn ); H 2 ( p1,..., pn?1; q1,..., qm ); 它们之间具有关系: H 2 ? H1 ? pn * H 3

信息论复习提纲

信息论复习提纲

信道传递概率可以用信道矩阵来表示:
x1 x2 P xr
y1 p( y1 | x1 ) p( y | x ) 1 2 p( y1 | xr )
y2 p( y2 | x1 )
p( y2 | x2 ) p( y2 | xr )
ys p( ys | x1 ) 1 p( ys | x2 ) p( ys | xr )
i
第四章:信道及信道容量
二、离散单符号信道及其信道容量
1.离散单符号信道的数学模型(续14)
例3:求二元删除信道的 H ( X )、H (Y )、H ( X | Y )和I ( X ;Y ) 。
已知
1 3 PX 4 4
1 1 2 2 0 P 1 2 0 3 3
3. 后验概率(后向概率): 贝叶斯公式
p ( xi | y j ) p ( xi y j ) p( y j ) p ( xi ) p ( y j | xi )
p( x ) p( y
i 1 i
r
j
| xi )
(i =1,2,…,r;j =1,2,…,s)

p ( xi | y j ) 1
Y y2
ys
i 1, 2,..., r ; j 1, 2,..., s
满足: (1)0≤ p(yj|xi) ≤ 1 (i=1,2,…,r;j=1,2,…,s) (2)
p( y j | xi ) 1
j 1
s
(i=1,2,…,r)
第四章:信道及信道容量
二、离散单符号信道及其信道容量
1.离散单符号信道的数学模型(续2)
r s
第四章:信道及信道容量

信息的统计度量

信息的统计度量

2.3.2熵函数旳数学特征
1、对称性: 熵函数对每个Pk 对称旳。该性质 阐明熵只与随机变量旳总体构造有关,与事件 集合旳总体统计特征有关;
2、非负性: H(P)=H(p1,p2,…,pq)>=0;
3、扩展性: 当某事件Ek旳概率Pk稍微变化时, H函数也只作连续旳不突变旳变化;
lim
0
H q1(
熵函数旳自变量是X,表达信源整体
信息熵旳单位与公式中旳对数取底有关。通信与信息 中最常用旳是以2为底,这时单位为比特(bit);理 论推导中用以e为底较以便,这时单位为奈特 (Nat);工程上用以10为底较以便,这时单位为笛 特(Det)。它们之间能够引用对数换底公式进行互 换。例如:
1 bit = 0.693 Nat = 0.301 Det
I ( xi / y j ) log p( xi / y j )
在特定条件下( 已定)随机事件发生所带来旳 信息量 条件自信息量满足非负和单调递减性。
例:甲在一种8*8旳 方格盘上随意放入 一种 棋子,在乙看来是不拟定旳。
(1)在乙看来,棋子落入某方格旳不拟 定性为多少?
(2)若甲告知乙棋子落入方格旳行号, 这时,在乙看来棋子落入某方格旳不 拟定性为多少?
j 1
(4)
p( xi y j ) p( xi ) p( y j / xi ) p( y j ) p( xi / y j )
(5) 当X与Y相互独立时, p( y j / xi ) p( y j ),
p( xi / y j ) p( xi ), p( xi y j ) p( xi ) p( y j )
熵旳计算
• 例:设某信源输出四个符号,其符号集合旳 概率分布为:
s1 S p1

第二章_信息的统计度量

第二章_信息的统计度量

⎡X ⎢⎣P( X
⎤ )⎥⎦
=
⎡ ⎢ ⎣
x1, p( x1 ),
x2 ,…,xq p(x2 ),…, p(xq
⎤ )⎥⎦
q
∑ 0 ≤ p(xi ) ≤ 1, p(xi ) = 1 i =1
记 pi=p(xi),q则
∑ H ( X ) = − pi log pi = H ( p1, p2,..., pn ) = H (p)
1. 自信息- 定义
z 满足上述条件的函数形式为对数形式:
I (xi
)
=
− log
p(xi
)
=
log
1
p(xi
)
z自信息量的单位与所用对数的底的关系:
¾以2为底,单位为比特(bit) – binary unit ¾以e为底,单位为奈特(nat) – natural unit ¾以10为底,单位为哈特 (Hat) – Hartley unit
2.2 熵函数的性质-例3
例3: 三个信源分别为:
⎡X ⎤
⎢ ⎣
P
(
X
)⎥⎦
=
⎡ ⎢ ⎣
x1
(红) 1/ 3
x2 (黄) 1/ 6
x3 1/
(蓝)⎤
2
⎥ ⎦
① X 与 Z 信源的差别:
具体消息其含义不 同;
② X 与 Y 信源的差别:
⎡Y ⎤
⎢⎣P (Y )⎥⎦ =
⎡ y1 (红)
⎢ ⎣
1/ 6
y2 (黄) 1/ 2
1. 自信息-例1
例1 英文字母中“a”出现的概率为0.064,“c”出 现的概率为0.022。
(1) 分别计算它们的自信息量。 (2) 假定前后字母出现时互相独立的,计算“ac”的

信息论第2章(2014蒋华)1(看)

信息论第2章(2014蒋华)1(看)

特殊事件:
H (1,0) log1 0 log 0 0
必然事件
一、信息度量--- 3、不肯定程度的定量计算
例:天气预报,有两个信源
H(x)
X 1 a1, p( x) 1/ 4,
则:
a2 X 2 a1, 3/ 4 p( x) 1/ 2,
概率空间的变化表示了信息量的获得。
随机变量X , Y分别取值于集合 {x1 , x2 , xi , , xn } 和{ y1 , y2 , yi , , ym } : (1) ( 2) 0 p ( xi ) , p ( y j ), p ( xi / y j ), p ( y j / xi ), p ( xi y j ) 1
a2 1/ 2
1 3 4 H ( X 1 ) log 4 log 0.809 4 4 3 1 1 H ( X 2 ) log 2 log 2 1 2 2
说明第二个信源的平均不确定性更大一些
一、信息度量--- 3、不肯定程度的定量计算
小结:
H(x)
概念: • 对信源猜测的难易程度 ------ 不肯定度 ----- 信 源的熵
一、信息度量--- 3、不肯定程度的定量计算
计算举例:
H(x)
情况1: H (0.99,0.01) 0.99 log 0.99 0.01log 0.01 0.08bit 情况2: H (0.5,0.5) 0.5 log 0.5 0.5 log 0.5 1bit 情况3: H (0.25,0.25,0.25,0.25) log 0.25 2bit
•(1)这就是说,我们在收到消息之前,并不知道消息的内 容。否则消息是没有必要发送的。 •(2)消息随机变量有一个概率分布。 •(3)消息随机变量的一个可能取值就称为一个事件。

信息论与编码理论-习题答案-姜楠-王健-编著-清华大学

信息论与编码理论-习题答案-姜楠-王健-编著-清华大学
一阶马尔可夫过程共有3种状态,每个状态转移到其他状态的概率均为 ,设状态的平稳分布为 ,根据
可得 ,3种状态等概率分布。
一阶马尔可夫信源熵为
信源剩余度为
(2)二阶马尔可夫信源有9种状态(状态转移图略),同样列方程组求得状态的平稳分布为
二阶马尔可夫信源熵为
信源剩余度为
由于在上述两种情况下,3个符号均为等概率分布,所以信源剩余度都等于0。
总的概率
所需要的信息量
2.6设 表示“大学生”这一事件, 表示“身高1.60m以上”这一事件,则

2.7四进制波形所含的信息量为 ,八进制波形所含信息量为 ,故四进制波形所含信息量为二进制的2倍,八进制波形所含信息量为二进制的3倍。
2.8
故以3为底的信息单位是比特的1.585倍。
2.9(1)J、Z(2)E(3)X
(2)三元对称强噪声信道模型如图所示。
4.7由图可知信道1、2的信道矩阵分别为
它们串联后构成一个马尔科夫链,根据马氏链的性质,串联后总的信道矩阵为
4.8传递矩阵为
输入信源符号的概率分布可以写成行向量形式,即
由信道传递矩阵和输入信源符号概率向量,求得输出符号概率分布为
输入符号和输出符号的联合概率分布为
由冗余度计算公式得
3.18(1)由一步转移概率矩阵与二步转移概率矩阵的公式 得
(2)设平稳状态 ,马尔可夫信源性质知 ,即
求解得稳态后的概率分布
3.19设状态空间S= ,符号空间

一步转移概率矩阵
状态转移图
设平稳状态 ,由马尔可夫信源性质有

可得
马尔可夫链只与前一个符号有关,则有
3.20消息元的联合概率是
平均信息传输速率

2014.信息论.第2章信息的统计度量

2014.信息论.第2章信息的统计度量

4
– 例:棋盘共8列,甲随手一放,将一枚 棋子放在了第3列。
5
– 例:袋内红、白球各50个,随意从袋中 摸出一球。
6
– 例:袋内红球1个、白球7个,随意从袋 中摸出一球。
7
– 联合自信息量
• 定义2.1.2 二维联合集XY上的元素(xiyj) 的联合自信息量定义为
其中p(xiyj)为元素xiyj的二维联合概率。
当取xk为一离散信源x的符号,而λk为其相应概率 时,不等式可写成
47
X
Y
– 可加性
如果有两个随机变量X和Y,它们不是相互独立的,则二 维随机变量X和Y的联合熵,等于X的无条件熵加上当X已 给定时Y的条件概率定义的熵。
48
2.3.3条件熵
• 在已知随机变量Y的条件下,随机变量X的熵称为 集X对集Y的条件熵。是联合集XY上条件自信息 量的数学期望。
A地人口
<20 其他 >60
信源的熵仅与信源总体的统计特性有关。不能描述事 件本身的具体含义和主观价值。
38
– 非负性 确知信源具有最小熵零。
39
– 确定性(不确定性完全消失)
集合X中只要有一个事件为必然事件,则其余事件 为不可能事件。此时,集合中每个事件对熵的贡献 都为0,因而熵为0。
40
– 扩展性
• 证明:因为 故上式成立。 • 集中一个事件的概率相对于其他事件的概率很 小时,对集合的熵值的贡献可忽略不计。
41
– 极值性
对于离散随机变量,当其可能的取值等概分布时, 其熵达到最大值。即:
42
证明:
先证明不等式:lnx≤x-1 可令f(x)=lnx–(x-1)
结论:等概率分布时熵最大,不确定性最大。故这一 定理又被称为离散信源最大熵定理。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

500*600的一个画面比1000个字的文章提供的信息量大。
36
2.3.2 熵函数的数学特性
– 熵函数H(X)只是其概率分布的函数,当X有q个可能 取值时,是q-1元函数。
37
– 对称性:当概率矢量P=(p1,p2,…,pq)中的各分量的次 序任意变更时,熵值不变。 A地天气情况 晴 阴 雨 B地天气情况 晴 阴 雨
43
例:二元熵函数
X P(x)

x1 p
x2 1-p p=0.5等概时, 熵最大为1bit。 p=0,1时, 随机变量的不确 定性消失,熵为0。
H(X) = -plogp-(1-p)log(1-p)=H(p) H(p)/bit 1.0
0
0.5 二元熵函数曲线
1.0
p
44
– 上凸性
是概率分布 的严格上凸函数
• 在接到两次电话后,A获得关于B的互信息量为
• 事件E,F的出现有助于肯定事件B的出现。
28
2.2.3 条件互信息量
– 给定条件 下, 与 之间的互信息量
yj zk
xi
– 联合集XYZ上还存在

之间的互信息量
29
yj
一对事件yj zk出现后所提供 的有关xi的信息量I(xi;yjzk),
xi
zk
当取xk为一离散信源x的符号,而λk为其相应概率 时,不等式可写成
47
X
Y
– 可加性
如果有两个随机变量X和Y,它们不是相互独立的,则二 维随机变量X和Y的联合熵,等于X的无条件熵加上当X已 给定时Y的条件概率定义的熵。
48
2.3.3条件熵
• 在已知随机变量Y的条件下,随机变量X的熵称为 集X对集Y的条件熵。是联合集XY上条件自信息 量的数学期望。
条件熵小于等于无条件熵,等式成立的条件是集X集Y相 互独立。 X Y
联合熵小于等于各自熵的和,等式成立的条件是集X集Y 相互独立。
55
2.4平均互信息量
– 互信息量 的重要基础。 是定量地研究信息流通问题
• 但只能描述信源发出某个具体消息 ,信宿收 到某具体消息 时流经信道的信息量,是随 和 变化的随机变量。 • 不能从整体上作为信道中信息流通的测度。
A地人口
<20 其他 >60
信源的熵仅与信源总体的统计特性有关。不能描述事 件本身的具体含义和主观价值。
38
– 非负性 确知信源具有最小熵零。
39
– 确定性(不确定性完全消失)
集合X中只要有一个事件为必然事件,则其余事件 为不可能事件。此时,集合中每个事件对熵的贡献 都为0,因而熵为0。
40
– 扩展性
等于事件zk出现后所提供的有关xi的信息量I(xi;zk),加上给 定事件zk的条件下再出现事件yj所提供的有关xi的信息量。 等于事件yj出现后所提供的有关xi的信息量I(xi; yj ),加上给 定事件yj 的条件下再出现事件zk所提供的有关xi的信息量。 30
2.3 离散集的平均自信息量 2.3.1平均自信息量(熵)
51
2.3.4 联合熵(共熵)
• 联合离散符号集合XY上的每个元素对 的联 合自信息量的数学期望。是二元随机变量不确定 性的度量。
52
2.3.5 各种熵的性质
联合熵等于无条件熵加上条件熵。 证明: X Y
53
等式成立的条件是X和Y统计独立 证明:
X
Y
54
联合熵等于无条件熵加上条件熵。 X Y
8
设在一正方形棋盘上共有64个方格,将方格分别按行和列 编号。如果甲将一粒棋子随意地放在棋盘中的某方格且让 乙猜测旗子所在位置; yj
xiyj
xi
9
由于甲是将一粒旗子随意地放在棋盘中某一方格内,因 此,棋子在棋盘中所处位置为二维等概率分布。二维概率 分布函数为p(xiyj)=1/64,故 在二维联合集XY上的元素xiyj的联合自信息量为
• 小概率事件所包含的不确定性大,自信息量大。 • 大概率事件所包含的不确定性小,自信息量小。 • 概率为1的确定性事件,自信息量为零。
2
• 对数基础知识
log(xy)=logx+logy log(x/y)=logx-logy
3
– 自信息量I(xi)的性质
• • • • I(xi)是非负值; 当P(xi) =1时, I(xi)=0; 当P(xi) =0时, I(xi)= ∞ ; I(xi)是P(xi) 的单调递减函数
32
熵的单位
• 信息熵 信息熵的单位与公式中的对数取底有关。 • 通信与信息中最常用的是以2为底,这时单位 为比特 特(bit),H(X); • 理论推导中用以e为底较方便,这时单位为奈 特(nat), He(X) ; • 工程上用以10为底较方便,这时单位为哈特 (hat), H10(X) 。 • 它们之间可应用对数换底公式进行互换。 1 bit = 0.693 nat = 0.301 hat
• 证明:因为 故上式成立。 • 集中一个事件的概率相对于其他事件的概率很 小时,对集合的熵值的贡献可忽略不计。
41
– 极值性
对于离散随机变量,当其可能的取值等概分布时, 其熵达到最大值。即:
42
证明:
先证明不等式:lnx≤x-1 可令f(x)=lnx–(x-1)
结论:等概率分布时熵最大,不确定性最大。故这一 定理又被称为离散信源最大熵定理。
第二章 信息的统计度量
信息的可度量性是信息论建立的基础; 香农的信息论用事件发生概率的对数来 描述事件的不确定性,得到消息的信息 量,建立熵的概念;熵 熵是香农信息论最 基本最重要的概念。
1
2.1 自信息量和条件自信息量
2.1.1自信息量
– 定义2.1.1 任意随机事件的自信息量定义为该 事件发生概率的对数的负值。
19
2.2互信息量和条件互信息量 2.2.1 互信息量
– 定义2.2.1 对两个离散随机事件集X和Y,事件yj的出 现给出关于事件xi的信息量,定义为互信息量,其 定义式为 xi yj
互信息量等于自信息量减去条件自信息量。是获得的 信息量,或消除的不确定性的度量,等于先验的不确 定性减去尚存在的不确定性。
– 平均互信息量
• 从整体的角度出发,在平均意义上度量每通过一 个符号流经信道的平均信息量。
56
• 互信息量I(xi;yj) 在集XY上的概率加权平 均值称为集合Y与集合X间的平均互信息 量。
10
2.1.2条件自信息量
– 定义2.1.3 联合集XY中,对事件xi和yj,事件xi在事 件yj给定的条件下的条件自信息量定义为
– 条件概率对数的负值,在特定条件下(yj已定)随机事 件xi发生所带来的信息量 – 联合自信息量和条件自信息量也满足非负和单调递 减性。
11
甲将棋子所在方格的行告诉乙之后,再令乙猜测棋子 所在列的位置。 在二维联合集XY上,元素xi相对yj的条件自信息量为
xi
yj
27
例:A某已知其三位朋友B,C,D中必定会有一人晚上到他家, 并且这三人来的可能性均相同,其先验概率 p(B)=p(C)=p(D)=1/3。但这天上午A接到D的电话,说因故不 能来了。下午,A又接到C的电话,说他因晚上要出席一个重 要会议不能来A家。 若把上午D电话作为事件E,则p(D/E)=0,p(B/E)=p(C/E) =1/2 若把下午C电话作为事件F,则p(C/EF)= p(D/EF)=0, p(B/EF)=1 • 在接到D的电话后,A获得关于B的互信息量为
一个离散随机变量X,以不同的取值概率有N个可能取值,
是一个随机变量,不能用来作为整个信源的信息测度。
31
– 定义2.3.1 集X上,随机变量I(xi)的数学期望 定义为平均自信息量,又称作集X的信源 熵,简称熵。
• 熵函数的自变量是X,表示信源整体。集X的平均 自信息量表示集X中事件出现的平均不确定性。 即集X中每出现一个事件平均给出的信息量 • 熵这个名词是香农从物理学中的统计热力学借用 过来的,在物理学中热熵是表示分子混乱程度的 一个物理量。
是已知一随机变量,对另一个随机变量的不确定性的量度 当X表示信源的输出,Y表示信宿的输入时,条件熵 H(X/Y)可表示信宿在收到Y后,信源X仍然存在的 不确定度,即信道的损失。 求条件熵为什么要用联合概率?
49
50
例:已知X,Y
,XY的联合概率为:
p(00)=p(11)=1/8,p(01)=p(10)=3/8,计算条件熵H(X/Y)。 解: 根据条件熵公式
其中, Y代表随机变量; 代表随机事件的某一结果。
15
– 同时考虑行和列,涉及两个随机事件,可用两个离散随 机变量来表示。随机变量X,Y分别取值于集合
其中,
16
yj
xi
yj
xi
作业题
• 有12块银元,其中有一块是假的。真假 银元从外观看完全相同,但假银元的重 量与真银元略有不同。
– 求证,用一架天平称3次即可找出假银元, 并知道假银元是轻是重。 – 给出一种称量方法。
24
若信道无干扰
Y=危险X=危险;Y=安全X=安全
25
X
信道故障(设备故障,人员问题)Y=安全X=安全;
X
信道错误,X,Y取值相反
26
– 任何两个事件之间的互信息量不可能大于其 中任一事件的自信息量。
• 自信息量I(xi)是为了确定事件xi的出现所必须提供 的信息量,也是任何其他事件所能提供的最大信 息量。
35
电视屏上约有500×=3×105个点,按每点有10个不同的灰 5 × 3 10 度等级考虑,则共能组成10 个不同的画面。按等概计 算,平均每个画面可提供的信息量为
另有一篇千字的文章,每字从万字表中选择,共有不同的 千字文N=10 0001 000篇=104 000篇,仍按等概计算,平均每 篇千字文可提供的信息量为
相关文档
最新文档