第二章_信息的统计度量
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
⎡X ⎢⎣P( X
⎤ )⎥⎦
=
⎡ ⎢ ⎣
x1, p( x1 ),
x2 ,…,xq p(x2 ),…, p(xq
⎤ )⎥⎦
q
∑ 0 ≤ p(xi ) ≤ 1, p(xi ) = 1 i =1
记 pi=p(xi),q则
∑ H ( X ) = − pi log pi = H ( p1, p2,..., pn ) = H (p)
1. 自信息-例1
解:
(1) I (a) = − log 0.064 = 3.96 bit I (c) = − log 0.022 = 5.51 bit
(2) I (ac) = − log(0.064*0.022) = I (a) + I (c) = 9.47 bit
(3) I (c | a) = − log 0.04 = 4.64 bit
2 2 2 ⎡ X
⎢⎣P( X
⎤ )⎥⎦
=
⎧⎪ ⎨ ⎩⎪
1, −1,
2, −2,
3, −3,
…⎫⎪ …⎭⎬⎪
∞
H(X) = −∑ p(X = n) ⋅ log p(X = n)
n =1
∞
∞
∑ ∑ = − 2−n ⋅ log 2−n = n ⋅ 2−n = 2bit/sym
n =1
n=1
4
2.1 平均自信息-练习3 p15
2.2 熵函数的性质-对称性
z 当 p = ( p1, p2 ,..., pq ) 中各分量的次序任意变更 时,熵函数的值不变,即
H ( p1, p2 …, pq ) = H ( pi1 , pi2 ,…, piq ),其中i1,i2,Liq = 1, 2,L, q
该性质说明:熵只与随机变量的总体结构 有关,与信源的总体统计特性有关。如果某 些信源的统计特性相同(含有的符号数和概 率分布相同),那么这些信源的熵就相同。
1)计算H(X)。 2)求符号序列ababba和fddfdf的信息量,并将之与6 位符号的信息量期望值相比较。
2.1 平均自信息-例2
解:
1)由信息熵定义,该信源输出的信息熵为
∑ H ( X )
=
6 i =1
p(xi )log
1 p(xi )
= 0.5log2 + 0.25log4 + 0.125log8 + 2×0.05log20 + 0.025log40
y3 (蓝)⎤
1/ 3
⎥ ⎦
同一消息的概率不 同;
③ 但它们的信息熵是相同
的。
⎡Z ⎤
⎢ ⎣
P
(Z
)⎥⎦
=
⎡z1 (晴)
⎢ ⎣
1/ 3
z2 (雾) 1/ 6
Leabharlann Baidu
z3 (雨)⎤
1/ 2
⎥ ⎦
2.2 熵函数的性质- 例4
例4: AB两个城市的天气情况分别如下:
晴 多云 雨 城市A 1/2 1/4 1/8 城市B 1/2 1/8 1/8
2.2 熵函数的性质-例3
例3: 三个信源分别为:
⎡X ⎤
⎢ ⎣
P
(
X
)⎥⎦
=
⎡ ⎢ ⎣
x1
(红) 1/ 3
x2 (黄) 1/ 6
x3 1/
(蓝)⎤
2
⎥ ⎦
① X 与 Z 信源的差别:
具体消息其含义不 同;
② X 与 Y 信源的差别:
⎡Y ⎤
⎢⎣P (Y )⎥⎦ =
⎡ y1 (红)
⎢ ⎣
1/ 6
y2 (黄) 1/ 2
2.2 熵函数的性质-强可加性
z 设有两个相互关联的信源X和Y
⎡X
⎢ ⎣
P(
X
⎤ )⎥⎦
=
⎡ ⎢ ⎣
x1 p( x1 )
x2 … p(x2 ) …
xn ⎤
p(
xn
)
⎥ ⎦
n
∑ 0 ≤ p(xi ) ≤ 1, p(xi ) = 1 i =1
2.2 熵函数的性质-扩展性
lim
ε→0
H
q
+1
(
p1,
p2 ,…,
pq
−
ε, ε)
=
Hq ( p1,
p2 ,…,
pq )
( ) Qlimεlogε = 0 ε→0
z 扩展性说明,增加一个概率接近于零的事件,信源 熵保持不变。
z 虽然小概率事件出现后,给予收信者较多的信息, 但从总体来考虑时,因为这种概率很小的事件几乎 不会出现,所以它对于离散集的熵的贡献可以忽略 不计。这也是熵的总体平均性的一种体现。
i =1
z 只有当随机变量是一确知量时,熵H(X)=0。
z 离散信源的熵满足非负性,而连续信源的熵 可能为负。
2.2 熵函数的性质-确定性
H(1,0)=H(1,0,0)=H(1,0,0,0)=…=H(1,0, …,0)=0
在概率空间中,只要有一个事件是必然事 件,那么其它事件必然是不可能事件,因此信 源没有不确定性,熵必为0。
1比特: 1bit信息量就是两个互不相容的等概率事
件之一发生时所提供的信息量。
1. 自信息 - 联合自信息和条件自信息
z 二维联合空间XY中的事件 (xi y j ) 的联合自信
( ) ( ) 息定义为 I xi y j = − log p xi y j z 在联合空间XY中,在事件 y j 给定的条件下
6位符号序列的信息量平均值为 I = 6H ( X ) = 11.64 bit
三者比较为
I1 < I < I2
2.1 平均自信息-练习2
2. 掷一个均匀的硬币,直到出现“正面”为 止,令X表示所需掷的次数,求熵H(X)。
2.1 平均自信息-练习2解答
解:X表示所需掷的次数,则信源X可能发出的符号 是表示次数的数字,X:{1,2,3,...}。第n次出 现正面的概率为 p = 2−n 。所以,信源X的概率空 间可表示为:
3. 电视屏上约有500*600个格点,按每点有 10个不同的灰度等级考虑,设每个格点独 立变化,且各灰度等级等概率出现。 (1)每个画面含有多少信息量? (2)若广播员在约10,000个汉字的字中 选择1,000个字来口述这个画面,则该千字 文中含有多少信息量?
2.2 熵函数-定义
z 离散随机变量X的概率空间为
第二章 信息的统计度量
主要内容
z 自信息 z 平均自信息 z 互信息 z 平均互信息
本章要求
z 理解基本概念、掌握信息量的计算
z 重点 及 难点
¾ “熵”的含义和性质 ¾ “平均互信息”的含义和性质
主要内容
z 自信息 z 平均自信息 z 互信息 z 平均互信息
1 自信息-定义
z 一个事件本身所包含的信息量,由该事件的不确 定性决定的
H ( X ) E[I ( xi )]
q
∑ = E[− log p(xi )] = − p(xi ) log p(xi ) i =1
2.1 平均自信息
z 信息熵的单位,取决于对数选取的底:
¾ 以2为底,单位为比特/符号 ¾ 以e为底,单位为奈特/符号 ¾ 以10为底,单位为哈特/符号。
z 信息熵的意义:
i=1
q
z 由于概率的完备性,即 ∑ pi = 1 ,所以 H(p) 实
际上是 (n −1)元函数。 i=1
z 当 n=2 时, H (p) = H ( p,1− p) = H ( p)
2.2 熵函数-性质
(1)对称性 (2)非负性 (3)确定性 (4)扩展性 (5)可加性 (6)极值性 (7)上凸性
z 事件 xi 的自信息量 I (xi )是该事件发生的概率 p(xi ) 的函数:I ( xi ) = f ( p ( xi ))
z 函数 f (•) 应满足以下4个公理性条件:
1)若p(x1)> p(x2),则应该有I(x1 )< I(x2 ) ; 2)若p(xi)=0,则I(xi ) = ∞ ; 3) 若p(xi)=1,则I(xi ) = 0 ; 4)两个独立事件的联合信息量,应等于它们 各自信息量之和:I(xi yj) = I(xi )+ I(yj)
1. 自信息-例1
例1 英文字母中“a”出现的概率为0.064,“c”出 现的概率为0.022。
(1) 分别计算它们的自信息量。 (2) 假定前后字母出现时互相独立的,计算“ac”的
自信息量。 (3) 若前后字母有关联性,当“a”出现后,“c”出现
的概率为0.04,计算“a”出现后,“c”出现的自信 息量;计算此时“ac”的自信息量。
I (ac) = I (a) + I (c | a) = 8.6 bit
2
1. 自信息-练习1
y 1 2 3 4 5 6 7 8
1
j
2
z
1)随机放棋子,棋子
3
出现在第i行j列所
4
提供的信息量。
5
6
2)已知棋子的行号i,
7
棋子出现在第j列所
8
xi
提供的信息量。
主要内容
z 自信息 z 平均自信息 z 互信息 z 平均互信息
冰雹 1/8 1/4
计算所得的信息熵相同,但实际天气却相差甚大 信息熵不能描述事件本身的具体含义和主观价值
5
2.2 熵函数的性质-非负性
H (p) = H ( p1, p2 ,..., pq ) ≥ 0
Q 0 ≤ pi ≤ 1
∴ − log pi ≥ 0
∑n
h
∴ H (p) = − pi log pi ≥ 0
通常把一个随机变量的 样本空间和样本空间中 的元素对应的概率称为
z 随机变量X的概率空间为 概率空间。
⎡X ⎢⎣P( X
⎤ )⎥⎦
=
⎡ ⎢ ⎣
x1, p( x1 ),
x2 ,…,xq p(x2 ),…, p(xq
⎤ )⎥⎦
q
0 ≤ p(xi ) ≤ 1, ∑ p(xi ) = 1 i =1
z 随机变量X的平均自信息:
1
1. 自信息 - 定义
z 一般都采用以2为底的对数,为了书写简洁, 有时把底数2略去不写: log2 = lb 。
z 各单位之间的换算
¾ 1奈特 = log2 e 比特 = 1.443 比特
¾ 1哈特 = log2 10 比特 = 3.322 比特 ¾ 若以r为底,则1r 进制单位 = log2 r 比特
2.1 平均自信息-定义
z 自信息是一个随机变量: ¾ 自信息是指信源发出的某一消息所含有的信息
量。不同的消息,所含有的信息量不同。
z 平均自信息(信息熵/信源熵/香农熵/无条件 熵/熵函数/熵) ¾ 定义整个信源的不确定度
¾ 随机变量X的平均自信息 – 每个消息包含的信息 量的统计平均值
2.1 平均自信息
z 信源熵H(X) 表征变量X的随机性。
3
2.1 平均自信息-信源熵的物理含义
z 信源熵H(X)是信源的平均不确定性的描述:
¾ 一般情况下它并不等于平均获得的信息量。
¾ 只有在理想情况下,接收者才能正确无误地接收 到信源所发出的消息,消除了H(X)大小的平均不 确定性。
2.1 平均自信息-例2
例 2 : 一 信 源 有 6 种 输 出 符 号 , 概 率 分 别 为 p(a)=0.5 , p(b)=0.25,p(c)=0.125,p(d)=p(e)=0.05, p(f)=0.025。
=1.94 bit/symbol
2.1 平均自信息-例2
2)符号序列ababba所含的信息量为
I1 = 3Ia +3Ib = 3[−log p(a) − log p(b)] = 9 bit
符号序列fddfdf所含的信息量为 I2 = 3Id + 3I f = 3[− log p(d ) − log p( f )] = 28.932 bit
1. 自信息 - 含义
z 事件发生前
¾ 描述该事件发生的不确定性的大小
z 事件发生后
¾ 表示该事件所含有/提供的信息量
z 在理想信道中
¾ 等于收信者接收到该消息后所获取的信息量
1. 自信息
信息论中“比特”与计算机术语中“比特”的区别和联系
z 信息论中“比特”是指抽象的信息量单位; z 计算机术语中“比特”是代表一个二元数字; z 每个二元数字所能提供的最大平均信息量为
信源的信息熵是从整个信源的统计特性来考虑 的。它是从平均意义上来表征信源的总体特性的。 对于某特定的信源,其信息熵只有一个。不同的信 源因统计特性不同,其信息熵也不同。
2.1 平均自信息-信源熵的物理含义
z 信源熵H(X)是表示信源输出前,信源的平 均不确定性;
z 信源熵H(X)是表示信源输出后,每个消息 (符号)所提供的平均信息量;
( ) ( ) x 事件 i 的条件自信息定义为 I xi | y j = − log p xi | y j
z 联合自信息与自信息、条件自信息之间的关系
I (xi y j ) = − log p(xi ) p( y j | xi ) = I (xi ) + I ( y j | xi ) = − log p( y j ) p(xi | y j ) = I ( y j ) + I (xi | y j )
1. 自信息- 定义
z 满足上述条件的函数形式为对数形式:
I (xi
)
=
− log
p(xi
)
=
log
1
p(xi
)
z自信息量的单位与所用对数的底的关系:
¾以2为底,单位为比特(bit) – binary unit ¾以e为底,单位为奈特(nat) – natural unit ¾以10为底,单位为哈特 (Hat) – Hartley unit