第二章离散信源与信息熵(下)
离散信源的信息熵
信息熵
(1) 信息熵 ③信息熵与平均获得的信息量 • 信息熵是信源的平均不确定性的描述。在一般
情况下它并不等于平均获得的信息量。 • 只有在无噪情况下,接收者才能正确无误地接
收到信源所发出的消息,消除 H(X) 大小的平均 不确定性,所以获得的平均信息量就等于 H(X)。 • 在一般情况下获得的信息量是两熵之差,并不 是信源熵本身。
1
1
1
I ( xi y j ) log2 p( xi ) p( y j ) log2 p( xi ) log2 p( y j )
I( xi ) I( y j )
• 两个随机事件相互独立时,同时发生得到的信息量,等于 各自自信息量之和。
17/20
自信息
3)条件自信息
• 设 yj 条件下,发生 xi 的条件概率为 p(xi /yj),那么它的条件自信 息量 I(xi/yj) 定义为:
I ( xi
/
y j ) log2
1 p( xi /
yj)
• 表示在特定条件下(yj已定)随机事件 xi 所带来的信息量 • 同理,xi 已知时发生 yj 的条件自信息量为:
1 I ( y j / xi ) log2 p( y j / xi )
18/20
自信息
3) 条件自信息
• 自信息量、条件自信息量和联合自信息量之间的 关系
❖ 信源 Y 比信源 X 的平均不确定性大;
信息熵
❖ 本例结论(续)
❖ 信息熵反映的就是信源输出前平均不确定程度的大小。 ❖ 变量 Y 取 y1 和 y2 是等概率的,所以其随机性大。而变
量 X 取 x1 的概率比取 x2 的概率大很多,这时变量 X 的 随机性就小。 ❖ 因此 H(X) 反映了变量的随机性。
信息论第二讲离散信源的熵
其中状态(xi, yj)为联合信源输出的一个状态。
nm
p(xi, yj ) 1
i1 j1
2020/6/14
20
⑵联合信源共熵的表达式:
联合信源的共熵:联合信源输出一个组合消息 状态(xi,yj)所发出的平均信息量。 联合信源的独立熵:
nm
H (X ,Y) p(xi,yj)logp(xi,yj)
⑴离散信源特性: 根据Shannon信息论的观点,信源要含
有一定的信息,必然具有随机性,即有 不确定性,可以用其概率来表示。
2020/6/14
1
⑵离散信源空间:
信源的符号(状态)随机地取值于一个离散
集 合 [X]= ( x1,x2,…xn ) 中 , 一 个 离 散 信 源
可以用一个离散随机变量的概率空间表示。
j1
(i1,2,...n)
2020/6/14
27
⑵转移矩阵描述
矩阵[P]称为转移矩阵或信道矩阵;表示为:
y1
y2
x1 p(y1/x1) p(y2/x1)…
… [P]= x2 p(y1/x2) p(y2/x2)
……
…
…
xn p(y1/xn) p(y2/xn) …
…
ym p(ym/x1) p(ym/x2) … p(ym/xn)
[P]=(p1,p2,…pn) 这种表示称为离散无记忆信源的信源空间。
信源空间必为一个完备空间, n
即其概率和为1。
pi 1
i1
2020/6/14
2
⑶信源数学模型描述的条件:
用信源空间(离散随机变量)来表示信源
的条件是信源符号(状态)的先验概率是 可知的,这是Shannon信息论的一个基本 假说。
信息论与编码 第二章 信源与信息熵
信源
{ 连续信源: 话音、图像
2~3 1~2 0~1 2 1 0
电 压 5~6 4~5 范围 量化 5 4
3~4
3
电 压 -1~0 -2~-1 -3~-2 -4~-3 -5~-4 -6~-5 范围
散无记忆信源。可用一个离散型随机变量X来描述这
个信源输出的消息。
2.1.1 无记忆信源
发出单个符号的离散无记忆信源
可用一个离散型随机变量X来描述这个信源输出的消息。 随机变量X的样本空间就是符号集:
A {a1 , a2 ,, an }
X的概率分布为:
P { p(a1 ), p(a2 ),, p(an )}
2.2.2 离散信源熵
信源熵
——信源的平均不确定度。
H ( X ) E[ I ( X )] p( xi )log p( xi )
i
单位为bit/符号
信源熵是在平均意义上来表征信源的统计特性,它是信源X的函数。
当信源给定,各符号的概率空间就给定,信源熵就是一个确定的值。
不同的信源因概率空间不同而具有不同的信源熵。
无记忆信源
{ 发出符号序列的无记忆信源
发出单个符号的无记忆信源
{
离散 连续
2.1.1 无记忆信源
发出符号序列的信源
——每次发出1组含L个(L≥2)符号的符号序列来代表一 个消息的信源。
需要用随机序列(或随机矢量) X =(X1, X2,…, Xl, …, XL)来描 述信源输出的消息,用联合概率分布p(X1, X2,…, Xl, …, XL)来表 示信源特性。 当L=2时,此时信源为X =(X1, X2) ,其概率空间为:
2015秋.信息论.第2章离散信源与信息熵
第2章离散信源与信息熵信号 信号+干扰 消息干扰消息 信源 编码器 信道 译码器 信宿 噪声源通信系统模型信息2.1 信源的分类和描述信源是信息的发源地,可以是人、生物、机器或其他事物。
信源的输出是包含信息的消息。
消息的形式可以是离散的或连续的。
信源输出为连续信号形式(如语音),可用连续随机变量描述。
连续信源←→模拟通信系统信源输出是离散的消息符号(如书信),可用离散随机变量描述。
离散信源←→数字通信系统离散信源…X i…X j…离散无记忆信源:输出符号Xi Xj之间相互无影响;离散有记忆信源:输出符号Xi Xj之间彼此依存。
3离散信源无记忆有记忆发出单个符号发出符号序列马尔可夫信源非马尔可夫信源y j将一粒棋子随意地放在棋盘中的某列;棋子放置的位置是一个随机事件;可看做一个发出单个符号的离散信源。
x i1212,,...,(),(),...,()m m x x x X P p x p x p x ⎡⎤⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦就数学意义来讲,信源就是一个概率场,可用概率空间来描述信源。
由离散随机变量X 表示棋子位置:10()1,()1m i ii p x p x =≤≤=∑i x 其中,代表随机事件的某一结果。
2.2离散信源的信息熵信息的可度量性是信息论建立的基础;香农的信息论用事件发生概率的对数来描述事件的不确定性,得到消息的信息量,建立熵的概念。
2.2.1自信息量–定义2.1 任意随机事件x i 的自信息量定义为:i i i 1(x )log log (x )(x )I P P ==-小概率事件所包含的不确定性大,自信息量大。
大概率事件所包含的不确定性小,自信息量小。
概率为1的确定性事件,自信息量为零。
i i i 1(x )log log (x )(x )I P P ==-信息量的单位与公式中的对数取底有关。
以2为底,单位比特(bit );以e 为底,单位奈特(nat );()22log log ,log log ln log c a c b b x e x a==⋅–例:棋盘共8列,甲随手一放,将一枚棋子放在了第3列。
第二章_离散信源与信息熵的关系
给出,为了书写方便以后写成: 和
y1 , y2 , Y q1 , q2 , ym qm
xn Y y1, y2 , Q q( y ), q( y ), p( xn ) ; 1 2
ym q ( ym )
一. Definition of the self-mutual information:
«信 息 论 基 础 »
第二章:信息的度量与信息熵
( The measure of Information &Entropy) §2. 1 自信息与条件自信息
( self—information & conditional self— information) §2. 2 自互信息与条件自互信息 (self—mutual
p ( x ) 则表达当收端已收到某种消息后, 再统计发端的发送 率: y 概率,所以此条件概率称为后验概率(Posterior Probability) 。
§2. 1 自信息与条件自信息 因此我们说事件 xi 以及它所对应的先验概率P( x )而定
i
义出的自信息 I [ p( xi )] ,所表达的不论事件是否有人接收这 个事件它所固有的不确定度,或者说它所能带来的信息 xi p ( ) 量。而消息事件 y j xi nk 它所对应的条件概率 yj 是在收端接收到已干扰的消息后的后验概率,如果当它为1 xi p ( ) 则属于透明传输;若 y j <1,则属于有扰传输。而当 xi p ( ) 后验概率大于先验概率是 y j > P( xi ),说明事件 y j 发生之后多少也解除了事件 xi 的部分不定度,即得到 了事件 X xi 的部分信息。由于概率越大,不定度越小。 从客观上讲,条件自信息一定不会大于无条件的自信息。 同时也反映出要得知一些条件,原事件的不定度一定会 减少,最坏的情况也不过保持不变,即条件与事件无关。
第2章信源及信源熵 145页PPT文档
【例2.1】
设信源只有两个符号“0”和“1”,且它们以消 息的形式向外发送时均以等概率出现,求它们 各自的自信息量。
(二)不确定度d(ai)与自信息量I(ai) 两者的联系
数值上相等,单位也相等,但含义不同。
两者的区别
具有某种概率分布的随机事件,不管其发生与否, 都存在不确定度,不确定度是任何随机事件本身所 具有的属性。
信源空间:
X P(x)
a1 a2 … aN =
P(a1) P(a2) … P(aN)
显然有:
例:对于二进制数据、数字信源:X={0,1}, 若这两个符号是等概率出现的,则有:
X P(x)
a1 = 0a2 = 1 Nhomakorabea=
P(a1) =0.5 P(a2) = 0.5
(二)多符号离散信源
是发出符号序列的信源
一般来说,信源输出的随机序列的统计特性比较复杂,分析起来也比 较困难。为了便于分析,我们假设信源输出的是平稳的随机序列,也 就是序列的统计性质与时间的推移无关。很多实际信源也满足这个假 设。
若在信源输出的随机序列X= (X1,X2,…,XN)中,每个随机变 量Xi (i=1,2,…,N)都是取值离散的离散型随机变量,即每个随机变量 Xi的可能取值是有限的或可数的;而且随机矢量X的各维概率分布都 与时间起点无关,也就是在任意两个不同时刻随机矢量X的各维概率 分布都相同。这样的信源称为离散平稳信源。如中文自然语言文字, 离散化平面灰度图像都是这种离散型平稳信源。
离散无记忆信源
在某些简单的离散平稳信源情况下,信源先后发出的 一个个符号彼此是统计独立的。也就是说发出的信源 发出的符号是相互独立的,发出符号序列中各个符号 之间也是相互独立的。
第2章 离散信源熵
H (Y X ) E[ I (b j ai )] p(aib j )log p(b j ai )
i 1 j 1
n
m
(2.2.8) (2.2.9)
21
3 联合熵
H ( XY ) p(aib j ) I (aib j ) p(aib j )log p(aib j )
6
对于离散随机变量,取值于集合
a1
, a 2 , , ai , , a n
对任一 a i 记 p ( ai ) P ( X ai ) 单符号离散信源的数学模型为
, ai , , an X a1 , a2 , P( X ) p(a ), p(a ), , p(a ), , p(a ) 1 2 i n
23
证明:自然对数具有性质 当 x 0时, ln x x 1 ,并且当且仅当 x 1 时,该式取等号。
图2.2.3 自然对数的性质
24
n n 1 1 H ( X ) log n p(ai )log p(ai )log n p(ai )log p(ai ) i 1 np(ai ) i 1 i 1 n
j 1 i 1
m
n
p(a b ) p(b ), p(a b ) p(a )
i 1 i j j j 1 i j i
n
m
p(ai bj ) p(bj ) p(ai bj ) p(ai ) p(bj ai )
当 X 与 Y 相互独立时
p(aib j ) p(ai ) p(b j ), p(b j ai ) p(b j ), p(ai b j ) p(ai )
条 件 熵
信 源 熵
离散信源的信息熵
H ( X ) 0.99 log 0.99 0.01log 0.01 0.08(比特 / 符号) H (Y ) 0.5 log 0.5 0.5 log 0.5 1(比特 / 符号)
H (Y ) H ( X ) 可见 信源Y比信源X的平均不确定性要大。信息熵正好反映了信源输 出消息前,接收者对信源存在的平均不确定程度的大小,也反 映了信源随机性的大小。
信息论
2.2 离散信源的信息熵
2.2.1 自信息信息量的度量方法
自信息量I(x) 是 P(x) 的单调递减函数 P(x) ,I(x) ; P(x) ,I(x) ; P(x) = 1时,I(x) = 0; P(x) = 0时,I(x) = ; 两个独立事件的联合信息量应等于它们分别信息量之和,即统 计独立信源的信息量等于分别信息量之和。 满足上述3条件的关系式如下:
用什么作为整个信源的信息测度?
信息熵
电子信息工程学院
信息论
2.2 离散信源的信息熵
2.2.2 信息熵
各离散消息自信息量的数学期望,即信源的平均自信息量—— 信息熵。
n 1 H ( X ) E[ I (ai )] E[log2 ] p(ai ) log2 p(ai ) p(ai ) i 1
第三次 第二次 第二次 第一次 第一次
第一次获得的信息量
I[P 1 ( x)] I [ P 2 ( x)] log2 1 1 1 1 log2 log2 log2 1 P ( x ) P ( x ) 1 8 1 4 1 2
第二次获得的信息量
I[P 2 ( x)] I [ P 3 ( x)] log2 1 1 1 1 log2 log2 log2 1 P ( x ) P ( x ) 1 4 1 2 2 3
第二章 信源熵
英文字母中“e”出现的概率为0.105,“c” 出现的概率为0.023,“o”出现的概率为 0.001,分别计算他们的自信息量。 答:I(e)=-logP(e)=-log0.105=3.25bit I(c)=-logP(c)=-log0.023=5.44bit I(o)=-logP(o)=-log0.001=9.97bit
②
公式:参考数学期望的性质,用各符号的自 信息量加权平均表示总体的不确定性。
H ( X ) E[ I ( X )] p( xi )I ( xi ) p( xi ) log p( xi )
i i
③
单位:比特/符号或比特/符号序列
④
I. II.
性质: 非负 与热力学熵相同形式,H(X)又被定义为信源 熵 两个特殊情况 符号 x i 的概率 pi 为零时,定义为pi log pi 0 当信源X只有一个符号,符号只有一个状态, p(x)=1,此时 H ( X ) 0 。
分析 {Xn,n=0,1,2,……}是一随机过程,其状态 空间为:I={0,1},且当Xn=i,i=0、1时, Xn+1所处的状态分布只与Xn=i有关,而与 时刻n以前所处的状态无关,综上所述。该 过程为一步转移的马尔可夫过程。 p, j i P i, j 0,1 一步转移的概率: P{ X j X i} q, j i 一步转移矩阵: p q
II.
III.
随机过程是随机函数的集合,若一随机系统的样本点数是 随机函数,则称此函数为样本函数。这一随机系统全部样 本函数的集合是一个随机过程。实际应用中,样本函数的 一般定义在时间域或者空间域。用{X(t),t Y }。 具有马尔可夫性的随机过程称为马尔可夫过程。
第2章离散信源及其信息测度
X
P
(a, b) p(x)
p(x) 0,
b
p(x)dx 1
a
2.1 信源的数学模型及分类
2.1.2 信源输出的消息用随机矢量描述
实际信源每次输出的消息是按一定概率选取的 符号序列,可以看做是时间上或者空间的随机矢 量。用N维随机矢量X=(X1,X2,…,XN)表示,又称 为随机序列。
主要内容
2.1 信源的数学模型及分类 2.2 离散信源的信息熵 2.3 信息熵的基本性质 2.4 离散无记忆信源的扩展信源 2.5 离散平稳信源 2.6 信源剩余度
2.1 信源的数学模型及分类
通信过程是从信源开始的,信源发送的是消息 或消息序列,通信系统中传递的是消息,消息中 包含信息。因此,通过研究消息来研究信源。
若随机矢量的各维概率分布都与时间起点无关, 这样的信源称为平稳信源。
每个随机变量Xi都是离散取值且其可能取值是 有限的,这样的信源称为离散平稳信源。
每个随机变量Xi都是连续取值的连续型随机变 量,则为连续平稳信源。
2.1 信源的数学模型及分类
若信源先后发出的各个符号彼此统计独立,则:
P(X ) P(X1X 2 X N ) P(X1)P(X 2)P(X N )
小与信源的符号数及其概率分布有关。
用概率矢量P来表示概率分布,H(P)为熵函数。
P (P(a1), P(a2), , P(aq )) ( p1, p2, , pq )
2.1 信源的数学模型及分类
则信源X所输出的随机矢量X所描述的信源称 为离散无记忆信源X的N次扩展信源
若信源在不同时刻发出的符号之间是相互依赖 的,这种信源为有记忆信源。
通常符号之间的依赖关系(记忆长度)是有限 的,若记忆长度为m+1,则称这种有记忆信源为 m阶马尔可夫信源。
第2章.信源与信息熵
P中第i行元素对应于从某一个状态si 转移到所有状态s j ( s j S )的 第j列元素对应于从所有状态si ( si S )转移到同一个状态s j的转移 概率,列元素之和不一定为1。
29
转移概率。矩阵中的每一行元素都是非负的,且每行之和均为1。
2.1.3 马尔可夫信源
切普曼· 柯尔莫郭洛夫方程 ( k步转移概率pijk )与l (l k )步和k - l步转移概率之间有所谓
表述的复杂度将随着序列长度的增加而增加。 然而实际上信源发出的符号往往只与前若干个符号有较 强的依赖关系,随着长度的增加依赖关系越来越弱,因 此可以根据信源的特征和处理时的需要限制记忆的长度, 使分析简化。
18
2.1.3 马尔可夫信源
马尔可夫信源 当信源的记忆长度为m+1时,该时该发出的符号与前m 个符号有关联性,而与更前面的符号无关。这种有记忆 信源叫做m阶马尔可夫信源,可以用马尔可夫链来描述。
30
2.1.3 马尔可夫信源
切普曼· 柯尔莫郭洛夫方程 由前递推关系式可知,对于齐次马尔可夫链,一步转移 概率完全决定了k步转移概率。 为了确定无条件概率,引入初始概率,令:
PPT信息论与编码-第2章 离散信源资料
3 有记忆信源
p( X) p( X i aki ), ki 1,2,
i 1
N
,q
信源先后发出的符号是互相依赖的,如中文序列; 需要引入条件概率分布说明它们之间的关联性; 实际上信源发出符号只与前若干个符号(记忆长 度)有较强的依赖关系.
2018年11月23日星期五 3(-10:55),4(-11:50) 12
2018年11月23日星期五
3(-10:55),4(-11:50)
3
2.1 信源的数学模型及分类
研究对象: 通过消息(信息载荷者)研究信源; 研究范围:
不研究信源的内部结构、产生消息原因和方法; 研究信源输出可能消息的数目和不确定性;
描述方法: 用一个样本空间X及其概率测度
P——概率空间[X,P]描述信源;
f [ pi ] log pi
2018年11月23日星期五 3(-10:55),4(-11:50) 19
2.2.1 自信息
4 自信息的两个含义
当事件ai发生以前, 表示事件ai发生的不确定性;
当事件ai发生以后, 表示事件ai所含有(或所提供) 的信息量.
在无噪信道中, 事件ai发生后, 能正确无误地传输到 收信者, 所以可代表接收到消息ai后所获得的信息 量.这是因为消除了I(ai)大小的不确定性, 才获得这 么大的信息量。
2018年11月23日星期五 3(-10:55),4(-11:50) 4
2.1 信源的数学模型及分类
分类方法:
根据消息的不同随机性质进行分类;
随机变量
随机矢量
信源可能输出的消息数:
离散信源
连续信源.
2018年11月23日星期五
《信源和信息熵》PPT课件
熵之差,并不是信息熵本身。
二、信息熵的基本性质
1、对称性:
此性质说明:熵的总体性。它只与随机变量的总 体结
构有关,而不在于个别值的概率,甚至也不因随 机变
量取值的不同而异。 2、非负性:
3、扩展性:
说明:概率很小的值的出现,给予接收者以较大的 信息,但在熵的计算中占的比重很小,这是熵的总 体平均性的一种体现。 4、确定性:
注意:信息单位比特(表示以2为底的对数) 与计算机术语中的比特(表示二进制数的 位)的意义是不同的。
▪收到某消息获得的信息量=收到此消息前 关于某事件发生的不确定性-收到此消息 后关于某事件发生的不确定性
即:收信者所获得的信息量应等于信息传 输前后不确定性的减少的量。
例:设一条电线上串联8个灯泡,且损坏的 可能性为等概,若仅有一个坏灯泡,须获 知多少信息量才可确认?
可见:所有概率分布pi所构成的熵,以等概时为最 大,
称为最大离散熵定理。
7、上凸性: 熵函数具有严格的上凸性,它的极值必为最大值。 8、递增性:
其中: 此性质说明:熵增加了一项由于划分而产生的不确 定性
量。
例:运用熵函数的递增性,计算熵函数 H(1/3,1/3,1/6,1/6)的数值。
可见:熵函数的递增性也可称为递推性,表示n 个元素的信源熵可以递推成(n-1)个二元信 源的熵函数的加权和。可使多元信源的熵函数 计算简化成计算若干个二元信源的熵函数。
独立 有记忆信源:随机矢量的各分量不相
互独立 表述有记忆信源比无记忆信源困难的多,实际中,
信 源发出的符号往往只与前若干符号的依赖关系强,
与 更前面的符号依赖关系弱,这类信源可用马尔可
第2章 信源与信息熵(3)
互信息量实质是通信中实际传送的有用信息量。 互信息量实质是通信中实际传送的有用信息量。 显然,互信息越大越好, 显然,互信息越大越好,极限是 H ( X ) 能否将发送端X的信息量全部传送? 能否将发送端 的信息量全部传送? 的信息量全部传送 要求通信过程中没有信息量损失,而实际传输过程中, 要求通信过程中没有信息量损失,而实际传输过程中,信 道中的噪声会淹没一定的信息,即信息有损失。 道中的噪声会淹没一定的信息,即信息有损失。 通信过程中,信息量损失了多少? 通信过程中,信息量损失了多少? X的信息量减去实际传输的信息量,即 的信息量减去实际传输的信息量, 的信息量减去实际传输的信息量
I ( X ; Y ) = I (Y ; X )
理论证明略(与单符号互信息相同)。 理论证明略(与单符号互信息相同)。
②非负性
I ( X ;Y ) ≥ 0 I ( X ;Y ) ≤ H ( X )
理论证明参考周荫清编的信息理论基础, 理论证明参考周荫清编的信息理论基础,直观理解
③极值性
直观理解!! 直观理解!!
p ( xi | y j ) p ( xi )
= log 2
p ( xi ) p ( y j )
p ( xi , y j )
2 .2 离散信源熵和互信息
三、互信息
1、单符号之间的互信息量 性质: ③ 性质: 证明: 证明:
I ( xi ; y j ) = ( xi , y j )
p ( xi ) p ( y j )
p ( xi , y j )
= log 2
p ( xi ) p ( y j )
2 .2 离散信源熵和互信息
三、互信息
2、平均互信息 定义: 指单符号互信息量在X集合和 集合上的统计平均值。 定义: 指单符号互信息量在 集合和Y集合上的统计平均值。 集合和 集合上的统计平均值
离散信源熵和互信息(下)
I ( xi ; y j ) I ( xi ) I ( xi | y j ) I ( y j ) I ( y j | xi )
• 互信息I(xi;yj)表示接收到某消息yj后获得的 关于事件xi的信息量。
12
• 例某地二月份天气
构成的信源为: • 求得自信息量分别为
X 晴 阴 雨 雪 p( x) 1 / 2 1 / 4 1 / 8 1 / 8
p( xi y j ) log
i j
p( xi y j ) log
i j
• 例假设一条电线上串联了8个灯泡x1, x2,…x8
如图,这8个灯泡损坏的概率相等p(xi) = 1/8, 现假设只有一个灯泡已损坏,致使串联灯泡都 不能点亮。
• 未测量前,8个灯 泡都有可能损坏, 它们损坏的先验 概率: p(xi)=1/8 • 这时存在的不确定性:
• H(X|Y):
– 表示接收到输出符号Y 后关于输入变量X的 平均不确定度。 这个对X尚存在的平均不
确定度是由于干扰(噪声) 引起的
19
平均互信息
• 平均互信息定义
I ( X ;Y ) H ( X ) H ( X | Y )
• Y未知,X 的不确定度为H(X) • Y已知,X 的不确定度变为H(X |Y)
ij
18
2 1 2 2 1 1 H ( X ) H ( , ) log log 0.92bit / 符号 3 3 3 3 3 3
H ( X | Y ) p( xi , y j ) log p( xi | y j ) 0.33bit / 符号
ij
• H(X):
– 表示接收到输出符号Y前关于输入变量X的 平均不确定度。
第2章信源与信息熵
1. 非负性 2. 对称性
n
pi 1,
i 1
pi 0
(i 1, 2,..., n)
3. 确定性
4. 连续性
5. 扩展性
6. 最大熵定理
7. 条件熵小于无条件熵
熵函数的非负性
H ( X ) H ( p1, p2 , , pn ) 0
0 pi 1, log pi 0
pi log pi 0
i
熵的物理意义
H(X)表示信源发出任何一个消息状态所携带的平均信 息量
也等于在无噪声条件下,接收者收到一个消息状态所获 得的平均信息量
熵的本意为热力学中表示分子状态的紊乱程度 信息论中熵表示信源中消息状态的不确定度 信源熵与信息量有不同的意义
H(X)表示信源X每一个状态所能提供的平均信息量 H(X)表示信源X在没有发出符号以前,接收者对信源的
第2章 信源与信息熵
主要内容 1. 信源的分类与描述 2. 离散信源的信息熵和互信息 3. 离散序列信源的熵 4. 连续信源的熵与互信息 5. 冗余度
2.1 信源的分类与描述
信源的定义
产生消息(符号)、消息序列和连续消息的来源。
信源的基本特性是具有随机不确定性
分类
1. 时间
离散
2. 幅度
离散
3. 记忆
有
பைடு நூலகம்
连续 连续 无
介绍三类信源
➢ 单符号离散信源 ➢ 符号序列信源(有记忆和无记忆) ➢ 连续信源
单符号离散信源
单符号离散信源:用随机变量X来描述
X的概率空间
X p(xi
)
X
x1, p1,
X x2, p2 ,
, X xn
,
pn
第二章 信源与信息熵
PX(pax,(bx))或Rpx(x)
b
px(x)0, px(x)dx1或px(x)0, Rpx(x)dx1 a
南通大学
2019/9/4
8
第2章 信源与信息熵
3. 发出符号序列离散无记忆信源--每次发出 一组含两个以上的符号序列来代表一个消息
南通大学
2019/9/4
18
第2章 信源与信息熵
p ij m ,n 一 k 步 步 p p ijik jm m 齐 次 p p iijjk
注:平稳信源的概率分布特性具有时间推移不变性, 而齐次马氏链只要转移概率具有时间推移不变性, 因此一般情况下,平稳包含齐次。
p
k
ii
0
的
n中没有比1大的公因
子。
南通大学
2019/9/4
23
第2章 信源与信息熵
• 作业:2-1,2-2
南通大学
2019/9/4
24
第2章 信源与信息熵
第二章 信源与信息熵
• 第二讲
南通大学
2019/9/4
25
第2章 信源与信息熵
上一讲复习
• 1. 信源的分类
连续信源 信源
离散信源
随机波形信源 其它 单符号无记忆离散信源 符号序列无记忆离散信源 单符号有记忆离散信源 符号序列有记忆离散信源
实际上信源发出的符号往往只与前面几个符号 的依赖关系较强,而与更前面的符号依赖关系就弱。 为此可以限制随机序列的记忆长度。
南通大学
2019/9/4
11
第2章 信源与信息熵
• 连续信源的离散化
南通大学
2019/9/4
第二章 离散信源与信息熵(下)
Q
H(XY) = H(X) + H(Y X)
H(XY) = H(Y) + H(X Y) ∴ H(X) + H(Y X) = H(Y) + H(X Y)
则: H ( X ) − H ( X Y ) = H (Y ) − H (Y X ) ? ( X ; Y ) =I
i =1 j =1
1
证明的难点二: Q ln x ≤ x − 1
then :
log x = ln x log e
log x ≤ ( x − 1) log e
∴
log
p( xi ) p( y j )
p( xi ) p( y j ) ≤ − 1 log e p( xi y j ) p( xi y j )
∵ H(X)表示集合X原有的平均不定度;H(X Y)则表示当收到 符 号 集 合 Y之 后 ( 即 集 合 Y中 的 平 均 不 确 定 度 已 解 除 后 ) 关 于 集 合 X中 还 剩 下 多 少 平 均 不 定 度 , 两 者 之 差 就 是 每 收 到 一 个 y 之 后 , 平 均 得 到 有 关 x的 信 息 量 。 I(X; Y)的物理概念是:当Y被确知后,所能解除多少关于X 的 平 均 不 确 定 度 ; 或 者 说 所 能 得 到 有 关 X的 信 息 量 。 所 谓 平 均 是 指 从 集 合 Y中 平 均 每 一 符 号 可 获 得 有 关 X的 信 息 。
I ( X ; Y ) = E[ I ( xi ; y j )]
def
Q
I ( x = ai ; y = b j ) = log
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
平均不定度 信 息 量 I ( xi ; y j ) E [ I ( xi )]
§2. 5 离散信源的互信息、条件互信息 离散信源的互信息、
通过上述比较, 通过上述比较,可知互信息象熵一样应是整个集合 间的总体特征, 间的总体特征,即它是描述了两个分属于不同集合的随 机变量间的平均相关程度。 机变量间的平均相关程度。 互信息的数学定义: 一、互信息的数学定义
又 ∵ H ( XY ) = H ( X ) + H (Y X ) = H ( X ) + H (Y ) − I ( X : Y ) ∴ I ( X ; Y ) = H ( X ) + H (Y ) − H ( XY ) 同理: ∵ I ( X ;Y ) = H ( X ) − H ( X Y ) I ( X ;Y ) ≤ H ( X ) and ∴ and H ( X Y ) ≥ 0 I ( X ; Y ) ≤ H (Y )
§2. 5 离散信源的互信息、条件互信息 离散信源的互信息、
∴ I ( X ; Y ) = E I ( xi ; y j ) = ∑ ∑ p ( xi y j ) I ( xi ; y j )
i =1 j =1 n n m
= ∑ ∑ rij log
i =1 j =1 n m
n
m
Qij pi
j =1 k =1
m
l
= I ( X ;Y / Z )
§2. 5 离散信源的互信息、条件互信息 离散信源的互信息、
从另一种方式也可得到条件互信息的表达式: 从另一种方式也可得到条件互信息的表达式: ∵ I ( xi ; y j z k ) = I ( xi ; y j z k ) − I ( xi ; z k ) 可加性
I ( X ; Y ) = E[ I ( xi ; y j )]
def
∵
I ( x = ai ; y = b j ) = log
p ( x = ai y = b j ) p ( x = ai )
= log
p ( xi y j ) p ( xi )
where : and
a1, a2 ,…, an b1, b2 ,…, bm x∈ y∈ p1 , p2 ,…, pn q1, q2 ,…, qm p( xy ) = rij = pi Pji = q jQij
第二章. 第二章 信息的度量与信息熵
离散信源的互信息、 §2. 5 离散信源的互信息、条件互信息
( Mutual Information and Conditional Mutual Information for Discrete Source)
有的书把互信息亦称为平均互信息(average mutual information) 有的书把互信息亦称为平均互信息
∵ H(X)表示集合X原有的平均不定度;H(X Y)则表示当收到 符 号 集 合 Y之 后 ( 即 集 合 Y中 的 平 均 不 确 定 度 已 解 除 后 ) 关 于 集 合 X中 还 剩 下 多 少 平 均 不 定 度 , 两 者 之 差 就 是 每 收 到 一 个 y 之 后 , 平 均 得 到 有 关 x的 信 息 量 。 I(X; Y)的物理概念是:当Y被确知后,所能解除多少关于X 的 平 均 不 确 定 度 ; 或 者 说 所 能 得 到 有 关 X的 信 息 量 。 所 谓 平 均 是 指 从 集 合 Y中 平 均 每 一 符 号 可 获 得 有 关 X的 信 息 。
= H ( X ) − ∑ q j H ( X y = bj )
j =1
m
= H (X ) − H (X Y)
§2. 5 离散信源的互信息、条件互信息 离散信源的互信息、
同理:I (Y ; X ) = H(Y ) − H(Y X ) = I ( X;Y ) = H( X ) − H( X Y )
n m l 和互信息一样也可 1 = ∑∑∑ p ( zk )P( xi zk ) P( y j xi zk ) log + 由条件自互信息导出条 P( xi zk ) i =1 j =1 k =1 件互信息: n m l
§2. 5 离散信源的互信息、条件互信息 离散信源的互信息、 三、条件互信息(Conditional mutual information) )
§2.4.2 各种熵函数的互换关系 同理可推出: 同理可推出:
H ( X1 X2 ⋯X N ) ≤ H ( X1) + H ( X2 ) +⋯+ H ( X N )
等号成立的充分必要条件是:
X 1 , X 2 , … , X N ; 之间相互统计独立。
即: H ( X1 X 2 ⋯ X N ) = H ( X1 ) + H ( X 2 ) +⋯+ H ( X N )
我们将类似于自信息引出信息熵的方法导出互信息: 先比较自信息与信息熵的关系,再讨论互信息与自互 信息的关系。
自信息 events Variables 不确定度 I ( xi ) 信息熵 set Constant
自互信息 Events Variables
互信息 Sets Constant 平均信息量 E I ( xi ; y j )
i =1 j =1
1
证明的难点二: ∵ ln x ≤ x − 1
then :
log x = ln x log e
log x ≤ ( x − 1) log e
∴
log
p( xi ) p( y j )
p( xi ) p( y j ) ≤ − 1 log e p( xi y j ) p( xi y j )
∵ I ( X ; Y ) = ∑∑ p( xi y j ) log
i =1 j =1 n m
Qij pi
pi pi 1 n m − I ( X ; Y ) = ∑∑ q j Qij log ≤ − 1 ∑∑ q j Qij Q Qij ln 2 i =1 j =1 i =1 j =1 ij
= ∑ ∑ rij log
i =1 j =1 n m
m
Pji qj
= − ∑ ∑ pi Pji log pi + ∑ ∑ q j Qij log Qij
i =1 j =1 i =1 j =1
∑p
j =1
m
ji
=1
m m n n = − ∑ Pji ∑ pi log pi − ∑ q j − ∑ Qij log Qij j i =1 j i
如 果 等 号 成 立 : 即, I ( X ; X ) = H ( X ) 则 x与 y一 一 对 应 。 [∵ H ( X Y ) = 0]
为了方便记忆,用两种图来表示它们的关系。
§(Y/X) I(X;Y) H(X/Y) H(Y)
2°. 互易性 (mutuality)
I(X;Y)=I(Y;X) 显而易见! 显而易见!
3°. 互信息与各类熵函数之间的关系
I(X;Y) =H(X)−H(X Y) =HY)−HY X) =H(X)+HY)−H(XY) ( ( (
§2. 5 离散信源的互信息、条件互信息 离散信源的互信息、
∵ ∴ I ( X ; Y ) = H (Y ) − H (Y X ) H (Y X ) = H (Y ) − I ( X ; Y )
n m l
P ( xi y j zk )
Definition: :
m j
+ ∑∑∑ p( zk )P( y j zk ) P( xi y j zk ) log P( xi y j zk )
i =1 j =1 k =1 n l
= −∑ P( y j xi zk )∑∑ p( zk )P( xi zk ) log P ( xi zk ) −
∵ ∴ I ( xi ; y j ) ≥ 0 ⇒ E I ( xi ; y j ) ≥ 0 I ( X ;Y ) ≥ 0
n
or :
m
∵H ( X Y ) ≤ H( X )
Qij pi = ∑∑ q j Qij log
i =1 j =1 n m
∴ H ( X ) − H ( X Y ) = I ( X ;Y ) ≥ 0 当然也可从定义中证明:
∴
Thus the mutual information I(x;y) is the reduction in the uncertainty of X due to the knowledge of Y.
§2. 5 离散信源的互信息、条件互信息 离散信源的互信息、 二、互信息的性质
1°. 非负性 (non-negativity)
二、由熵函数可加性的推广可得:
H ( X1, X 2 , X 3 ,…, X N ) = H ( X1 ) + H ( X 2 X1 ) + H ( X 3 X1 X 2 ) + + ⋯ + H ( X N X1 X 2 ⋯ X N −1 ) = = ∑ H ( X i X1 X 2 ⋯ X i −1 )
i =1 N
§2.4.2 各种熵函数的互换关系 三、联合熵与分部信息熵的关系 H ( XY ) ≤ H ( X ) + H (Y )
1
证明的难点一: n m n m −∑ p( xi )log p( xi ) + −∑ p( y j )log p( y j ) = −∑ p(xi ) ∑ p( y j xi ) log p( xi ) i =1 i=1 j =1 j =1 m n − ∑ p( y j ) ∑ p( xi y j ) log p( y j ) j =1 i=1 n m = − ∑ ∑ p ( x i y j ) log[ p ( x i ) p ( y j )]