离散信源的信息熵

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息熵
(1) 信息熵 ③信息熵与平均获得的信息量 • 信息熵是信源的平均不确定性的描述。在一般
情况下它并不等于平均获得的信息量。 • 只有在无噪情况下,接收者才能正确无误地接
收到信源所发出的消息,消除 H(X) 大小的平均 不确定性,所以获得的平均信息量就等于 H(X)。 • 在一般情况下获得的信息量是两熵之差,并不 是信源熵本身。
1
1
1
I ( xi y j ) log2 p( xi ) p( y j ) log2 p( xi ) log2 p( y j )
I( xi ) I( y j )
• 两个随机事件相互独立时,同时发生得到的信息量,等于 各自自信息量之和。
17/20
自信息
3)条件自信息
• 设 yj 条件下,发生 xi 的条件概率为 p(xi /yj),那么它的条件自信 息量 I(xi/yj) 定义为:
I ( xi
/
y j ) log2
1 p( xi /
yj)
• 表示在特定条件下(yj已定)随机事件 xi 所带来的信息量 • 同理,xi 已知时发生 yj 的条件自信息量为:
1 I ( y j / xi ) log2 p( y j / xi )
18/20
自信息
3) 条件自信息
• 自信息量、条件自信息量和联合自信息量之间的 关系
❖ 信源 Y 比信源 X 的平均不确定性大;
信息熵
❖ 本例结论(续)
❖ 信息熵反映的就是信源输出前平均不确定程度的大小。 ❖ 变量 Y 取 y1 和 y2 是等概率的,所以其随机性大。而变
量 X 取 x1 的概率比取 x2 的概率大很多,这时变量 X 的 随机性就小。 ❖ 因此 H(X) 反映了变量的随机性。
• 已知 X 时,Y 的条件熵为:
H(Y / X )
E[I( y j / xi )]
n i 1
m j 1
p( xi y j ) log2
1 p( y j / xi )
• 条件熵是一个确定的值。
15/20
自信息
• 2)联合自信息
• 信源模型为:
XY P( XY
)
x1 y1, p( x1 y1
),
, ,
x1 ym , p( x1 ym ),
x2 y1, , p( x2 y1), ,
x2 ym , , p( x2 ym ), ,
xn y1, , p( xn y1), ,
xn ym p( xn ym
信息熵
• (2)联合熵
• 两个随机变量X,Y: X
P(
X
)
Y
P(Y
)
,i
1, 2,,n
H ( XY )
xiX
1 y jY p( xi y j ) log p( xi y j )
• H(XY)—联合熵:表示输入随机变量 X,经信道传 输到达信宿,输出随机变量 Y。即收、发双方通 信后,整个系统仍然存在的不确定度。
(6)
p( xi / y j )
p( xi y j )
n
, p( y j / xi )
p( xi y j )
m
p( xi y j )
p( xi y j )
i 1
j 1
14/20
自信息
• 1)自信息含义
• 当事件 xi 发生以前:表示事件 xi 发生的不确定性。
• 当事件 xi 发生以后:表示事件 xi 所含有(或所提供)的信 息量。在无噪信道中,事件 xi 发生后,能正确无误地传输 到收信者,所以 I(xi) 可代表接收到消息 xi 后所获得的信息 量。这是因为消除了 I(xi) 大小的不确定性,才获得这么大 小的信息量。
可见: H(Y) > H(X)
信息熵
(1) 信息熵 ②信息熵的三种物理含义: 本例结论:
❖ 信源 Y 的二个输出消息是等可能性的,所以在信源没有输出 消息以前,事先猜测哪一个消息出现的不确定性要大;
❖ 信源 X 的二个输出消息不是等概率的,事先猜测 x1 和 x2 哪一 个出现,虽然具有不确定性,但大致可以猜出 x1 会出现,因 为 x1 出现的概率大。所以信源 X 的不确定性要小;
)
• 其中:0≤p(xiyj)≤1 (i=1,2,…,n; j=1,2, …,m),
nm
p( xi y j ) 1
i1 j1
• 则联合自信息为:
1 I ( xi y j ) log2 p( xi y j )
16/20
自信息
• 2)联合自信息
• 当 X 和 Y 相互独立时,p(xiyj)=p(xi) p(yj)
i 1
j 1
i 1
m
p( y j / xi ) 1,
j 1
mn
p( xi y j ) 1
j1 i1
n
m
(3) p( xi y j ) p( y j ), p( xi y j ) p( xi )
i 1
j 1
13/20
概率知识回顾
随机变量X ,Y分别取值于集合{x1, x2,xi,, xn} 和{y1, y2, yi ,, ym}:
I (xi )
ln
1 (奈特) p(xi )
1奈特=log2e=1.443比特 1哈特=log210=3.322比特
11/20
自信息
✓ 获得的信息量的大小与不确定性消除的多ቤተ መጻሕፍቲ ባይዱ有关
先验概率:p1(x) 1/ 8 第一次测量:p2 (x) 1/ 4 所获信息量:I ( p1(x)) I ( p2(x)) 第二次测量:p3(x) 1/ 2 所获信息量:I ( p2(x)) I ( p3(x)) 第三次测量:p4 (x) 1 所获信息量:I ( p3(x)) I ( p4(x))
离散信源的信息熵
• 2.2.1 自信息 • 2.2.2 信息熵
2/20
课程回顾
➢ 绪论:抽象的通信系统
➢ 信源的数学模型及分类
✓ 概率空间描述信源 ✓ 一维信源:离散、连续 ✓ 多维信源:离散、连续;平稳信源、非平稳信源;
有记忆信源、无记忆信源 ✓ 随机波形信源
3/20
自信息
• 一维离散信源
X
10/20
自信息
• 自信息的物理意义
I (xi )
log
1 p(xi )
• 当事件 xi发生以前,表示事件xi发生的不确定性; • 当事件 xi发生以后,表示事件xi 所含有(提供)的信息量;
• 自信息单位:
I (xi ) log2
1 (比特) p(xi )
I (xi )
lg
1 (哈特) p(xi )
信息熵
(1) 信息熵 ②信息熵的三种物理含义:信息熵是从平均意义
上来表征信源的总体特性的一个量。因此信息 熵有以下三种物理含义。 • 信息熵 H(X) 是表示信源输出后每个消息(符号) 所提供的平均信息量; • 信息熵 H(X) 是表示信源输出前,信源的平均不 确定性; • 用信息熵 H(X) 来表征变量 X 的随机性。
)
i 1
p( xi ) log
p( xi )
信息熵
(1) 信息熵 ① 信息熵—平均信息量 • 信息熵的单位:取决于对数选取的底。一般选
用以2 为底,其单位为比特/符号。 • 信息熵的意义:信源的信息熵 H 是从整个信源
的统计特性来考虑的。它是从平均意义上来表 征信源的总体特性的。对于某特定的信源,其 信息熵只有一个。不同的信源因统计特性不同, 其熵也不同。
• 在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,收到 此消息后关于某事件发生的不确定性完全消除,此项为零。因此: 收到某消息获得的信息量 =收到此消息前关于某事件发生的不确定性 =信源输出的某消息中所含有的信息量
6/20
自信息
• 信息量、不确定性与发生概率
• 事件发生的概率越小,我们猜测它有没有发生的困难程度就越大, 不确定性就越大。
(4) p( xi y j ) p( xi ) p( y j / xi ) p( y j ) p( xi / y j )
(5) 当X与Y相互独立时,p( y j / xi ) p( y j ), p( xi / y j ) p( xi ) p( xi y j ) p( xi ) p( y j )
12/20
概率知识回顾
随机变量X ,Y分别取值于集合{x1, x2,xi,, xn} 和{y1, y2, yi ,, ym}:
(1) 0 p( xi ), p( y j ), p( xi / y j ), p( y j / xi ), p( xi y j ) 1
n
m
n
(2) p( xi ) 1, p( y j ) 1, p( xi / y j ) 1,
信息熵
(1)信息熵—平均自信息量
• 自信息是一个随机变量:自信息是指某一信源 发出某一消息所含有的信息量。所发出的消息 不同,它们所含有的信息量也就不同。
• 平均自信息量—信息熵:自信息的数学期望。 也称为信源的信息熵/信源熵/香农熵/无条 件熵/熵函数/熵。
1 n
1
H(X)
E log
p(
xi
1 I ( xi y j ) log2 p( xi ) p( y j / xi ) I ( xi ) I ( y j / xi )
log2
1 p( y j ) p( xi
/
yj)
I( y j ) I(xi
/
yj)
19/20
信息熵
• 信息熵—平均信息量 • 信息熵的三种物理含义 • 信息熵与平均获得的信息量
• 由于种种原因(例如噪声太大),收信者接收到受干扰的消 息后,对某消息发生的不确定性依然存在或者一点也未消除 时,则收信者获得较少的信息或者说一点也没有获得信息。
5/20
自信息
• 信息量与不确定性
• 信息量的直观定义:
• 收到某消息获得的信息量=不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) -(收到此消息后关于某事件发生的不确定性)
P(i
)
1 , P(1 )
,
2 , P(2
..., q ),...,P(q
)
其中 0 P(i ) 1,i 1,2,...q

q i 1
P(i
)
1
1.该信源能输出多少信息?
2.每个消息的出现携带多少信息量?
4/20
自信息
• 信息量与不确定性
• 信源中某一消息发生的不确定性越大,一旦它发生,并为收 信者收到后,消除的不确定性就越大,获得的信息量也就越 大。
信息熵
• 信息熵的三种物理含义:
[举例]:有两个信源,其概率空间分别为:
X P(X
)
0x.919, ,
0x.021
Y
P(Y
)
0y.15,,
0y.25
信息熵分别为:
H(X)=-0.99log0.99-0.01log0.01=0.08
比特/符号
H(Y)=-0.5log0.5-0.5log0.5=1 比特/符号
• 事件发生的概率越大,我们猜测这件事发生的可能性就越大,不 确定性就越小。
• 概率等于 1 的必然事件,就不存在不确定性。
• 某事件发生所含有的信息量应该是该事件发生的先验概率的函数 f [p(xi)] 。
7/20
自信息
➢信息量与发生概率
• 函数 f [p(xi)] 应满足以下 4 个条件: • f [p(xi)] 应是 p(xi) 的单调递减函数 当 p(x1)> p(x2) 时, f [p(x1)]< f [p(x2)] • 当 p(xi) =1时, f [p(xi)] =0 • 当 p(xi) =0时, f [p(xi)] =∞ • 两个独立事件的联合信息量应等于它们分别的信息量之和。即统 计独立信源的信息量等于它们分别的信息量之和。
9/20
自信息
• 自信息
• 用概率测度定义信息量:设离散信源 X,其概率空间为:
X P( X
)
x1 p( x1 ),
x2 p(x2 )
, ,
xn p( xn
)
如果知道事件 xi 已发生,则该事件所含有的信息量称为自信息,定
义为:
1 I ( xi ) log p( xi )
X,Y,Z 代表随机变量,指的是信源整体; xi , yj , zk 代表随机事件的某一结果或信源的某个元素。不可混淆!
f [ p(xi y j )] f [ p(xi ) p( y j )] f [ p(xi )] f [ p( y j )]
8/20
自信息
• 信息量与发生概率
• 根据上述条件可以从数学上证明这种函数形式是对数形式。
f [ p(xi )]
log
1 p(xi )
p(xi ) 事件xi发生的先验概率
信息熵
• (3)条件熵
条件熵定义:条件熵是在联合符号集合 XY 上的条件自信息
的数学期望。 • 在已知 Y 时,X 的条件熵为:
思考:求条件熵 时为什么要用联 合概率加权?
m n
mn
1
H ( X / Y ) j1 i1 p( xi y j )I( xi / y j ) j1 i1 p( xi y j ) log2 p( xi / y j )
相关文档
最新文档