第2章 信源熵 第1讲 自信息量 与 互信息量
合集下载
《熵和互信息量》课件
最优性
对于给定的概率分布,熵最大时对应的概率分布 最均匀。
熵的物理意义
01
02
03
信息量
熵可以看作系统所包含的 信息量,因为当系统不确 定时,我们获得的信息量 就越大。
混乱度
熵也可以看作系统的混乱 度,因为当系统越混乱时 ,其状态的不确定性就越 大。
平均信息量
如果我们对系统进行观察 并记录结果,则平均每个 观察结果所包含的信息量 等于系统的熵。
在机器学习和模式识别中,互信息量用于度量特征之间的相关性,帮助选 择重要的特征和去除冗余。
04
互信息量在信息论中的应用
互信息在数据挖掘中的应用
数据关联分析
01
互信息可以用于衡量数据之间的关联程度,帮助我们发现隐藏
在数据中的模式和关系。
特征选择
02
通过计算特征之间的互信息,可以找出对目标变量影响最大的
02
熵在信息论中的应用
熵在信息度量中的应用
熵作为信息度量
熵是衡量信息不确定性和随机性的重要指标,用于量化数据集中信息的平均量 。
熵的计算
熵的计算公式是H(X)=−∑p(x)log2p(x)H(X) = -sum p(x) log_2 p(x)H(X)=−∑p(x)log2p(x),其中p(x)p(x)p(x)是随机变量取某个值的概率。
《熵和互信息量》ppt课 件
目录
• 熵的定义与性质 • 熵在信息论中的应用 • 互信息量的定义与性质 • 互信息量在信息论中的应用 • 熵和互信息量的关系与区别
01
熵的定义与性质
熵的数学定义
熵的数学定义
熵是系统不确定性的度量,可以用概率分布来计算。具体来说,如果一个随机试验有n种可能结果,其概率分别 为p1, p2, ..., pn,则该随机试验的熵H定义为H=−∑p∗i=1npilog2piH = -sum p_i=1^n p_i log_2 p_iH=−∑p∗i=1npilog2pi其中,pi∗=1−pitext{pi}^* = 1 - text{pi}pi∗=1−pi表示事件不发生的概率。
对于给定的概率分布,熵最大时对应的概率分布 最均匀。
熵的物理意义
01
02
03
信息量
熵可以看作系统所包含的 信息量,因为当系统不确 定时,我们获得的信息量 就越大。
混乱度
熵也可以看作系统的混乱 度,因为当系统越混乱时 ,其状态的不确定性就越 大。
平均信息量
如果我们对系统进行观察 并记录结果,则平均每个 观察结果所包含的信息量 等于系统的熵。
在机器学习和模式识别中,互信息量用于度量特征之间的相关性,帮助选 择重要的特征和去除冗余。
04
互信息量在信息论中的应用
互信息在数据挖掘中的应用
数据关联分析
01
互信息可以用于衡量数据之间的关联程度,帮助我们发现隐藏
在数据中的模式和关系。
特征选择
02
通过计算特征之间的互信息,可以找出对目标变量影响最大的
02
熵在信息论中的应用
熵在信息度量中的应用
熵作为信息度量
熵是衡量信息不确定性和随机性的重要指标,用于量化数据集中信息的平均量 。
熵的计算
熵的计算公式是H(X)=−∑p(x)log2p(x)H(X) = -sum p(x) log_2 p(x)H(X)=−∑p(x)log2p(x),其中p(x)p(x)p(x)是随机变量取某个值的概率。
《熵和互信息量》ppt课 件
目录
• 熵的定义与性质 • 熵在信息论中的应用 • 互信息量的定义与性质 • 互信息量在信息论中的应用 • 熵和互信息量的关系与区别
01
熵的定义与性质
熵的数学定义
熵的数学定义
熵是系统不确定性的度量,可以用概率分布来计算。具体来说,如果一个随机试验有n种可能结果,其概率分别 为p1, p2, ..., pn,则该随机试验的熵H定义为H=−∑p∗i=1npilog2piH = -sum p_i=1^n p_i log_2 p_iH=−∑p∗i=1npilog2pi其中,pi∗=1−pitext{pi}^* = 1 - text{pi}pi∗=1−pi表示事件不发生的概率。
信源熵及平均互信息
则称f(X)为定义域上的下凸函数(Cup型函数)或严格下凸函数。 若f(x)是上凸函数,则-f(x)便是下凸函数,反过来也成立。故,
通常只需研究上凸函数
14
詹森(Jenson)不等式
引理
若f(x)是定义在区间[a,b]上的实值连续上凸函数,则对 于任意一组 x1, x2,..., xn [a,b] 和任意一组非负实数
4
平均自信息量—信息熵
定义 2.1.6 集X上,随机变量I(xi)的数学期 望定义为平均自信息量
n
H (X ) E I (xi) E log p(xi) p(xi) log p(xi) i 1
集X的平均自信息量又称做是集X的信息熵, 简称做熵。含义上信息熵与热熵有相似之处。
5
平均不确定性
i, pi 1,其余的pk 0 (k i)
即,信源虽然有不同的输出符号,但它只有一个符号几 乎必然出现,而其它符号几乎都不可能出现,那么,这 个信源是一个确知信源,其信源熵等于零。
这种非负性对于离散信源的熵是正确的,但是对于 连续信源来说,该性质不存在。
17
熵函数的性质—— 3.扩展性
lim
如:
二元熵函数 H(X)
1.0
0
1.0 p
二图元3熵.1熵函函数数
23
各种熵之间的关系
1.联合熵与信息熵、条件熵的关系
H(X,Y)=H(X)+H(Y/X)=H(Y)+H(X/Y) H(X)-H(X/Y)=H(Y)-H(Y/X) H(X1,X2,...,XN)
=H(X1)+H(X2/X1)+...+H(XN/X1X2...XN)
X P( X
)
0.x910, ,
通常只需研究上凸函数
14
詹森(Jenson)不等式
引理
若f(x)是定义在区间[a,b]上的实值连续上凸函数,则对 于任意一组 x1, x2,..., xn [a,b] 和任意一组非负实数
4
平均自信息量—信息熵
定义 2.1.6 集X上,随机变量I(xi)的数学期 望定义为平均自信息量
n
H (X ) E I (xi) E log p(xi) p(xi) log p(xi) i 1
集X的平均自信息量又称做是集X的信息熵, 简称做熵。含义上信息熵与热熵有相似之处。
5
平均不确定性
i, pi 1,其余的pk 0 (k i)
即,信源虽然有不同的输出符号,但它只有一个符号几 乎必然出现,而其它符号几乎都不可能出现,那么,这 个信源是一个确知信源,其信源熵等于零。
这种非负性对于离散信源的熵是正确的,但是对于 连续信源来说,该性质不存在。
17
熵函数的性质—— 3.扩展性
lim
如:
二元熵函数 H(X)
1.0
0
1.0 p
二图元3熵.1熵函函数数
23
各种熵之间的关系
1.联合熵与信息熵、条件熵的关系
H(X,Y)=H(X)+H(Y/X)=H(Y)+H(X/Y) H(X)-H(X/Y)=H(Y)-H(Y/X) H(X1,X2,...,XN)
=H(X1)+H(X2/X1)+...+H(XN/X1X2...XN)
X P( X
)
0.x910, ,
第2章 信源熵 第1讲 自信息量 与 互信息量
余 映 云南大学
17/38
计算举例
• 对于 2n 进制的数字序列, 假设每一符号的出现完 全随机且概率相等,求任一符号的自信息量。 解:设任一码元 xi 出现概率为 p(xi),根据题意, p(xi) = 1/ 2n I (xi) = –log(1/ 2n) = n (bit) • 事件的自信息量只与其概率有关,而与它的取值 无关。
余 映 云南大学
18/38
信息量与不确定性的关系
• 信源中某一消息发生的不确定性越大,一旦它发生,并为 收信者收到后,消除的不确定性就越大,获得的信息也就 越大。 • 由于各种原因(例如噪声太大),收信者接收到受干扰的 消息后,对某信息发生的不确定性依然存在或者一点也未 消除时,则收信者获得较少的信息或者说一点也没有获得 信息。
余 映 云南大学 21/38
信息量与不确定性的关系
• 自信息量和不确定度的含义又有区别
– 不确定度只与事件的概率有关,是一个统计量,在静 态状态下也存在; – 自信息量只有该随机事件出现时才给出,不出现时不 给出,因此它是一个动态的概念。
余 映 云南大学
22/38
自信息的含义
• 在事件 xi 发生前:表示事件 xi 发生的不确定性。 • 在事件 xi 发生后:表示事件 xi 所提供的信息量。
余 映 云南大学
19/38
信息量与不确定性的关系
• 信息量的直观定义:
收到某消息获得的信息量=不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) -(收到此消息后关于某事件发生的不确定性) • 在无噪声时,通过信道传输,可以完全不失真地收到消息, 收到此消息后关于某事件发生的不确定性完全消除,此项 为零。因此得 收到某消息获得的信息量 =收到此消息前关于某事件发生的不确定性 =信源输出的某消息中所含有的信息量
第2章信源及信源熵 145页PPT文档
【例2.1】
设信源只有两个符号“0”和“1”,且它们以消 息的形式向外发送时均以等概率出现,求它们 各自的自信息量。
(二)不确定度d(ai)与自信息量I(ai) 两者的联系
数值上相等,单位也相等,但含义不同。
两者的区别
具有某种概率分布的随机事件,不管其发生与否, 都存在不确定度,不确定度是任何随机事件本身所 具有的属性。
信源空间:
X P(x)
a1 a2 … aN =
P(a1) P(a2) … P(aN)
显然有:
例:对于二进制数据、数字信源:X={0,1}, 若这两个符号是等概率出现的,则有:
X P(x)
a1 = 0a2 = 1 Nhomakorabea=
P(a1) =0.5 P(a2) = 0.5
(二)多符号离散信源
是发出符号序列的信源
一般来说,信源输出的随机序列的统计特性比较复杂,分析起来也比 较困难。为了便于分析,我们假设信源输出的是平稳的随机序列,也 就是序列的统计性质与时间的推移无关。很多实际信源也满足这个假 设。
若在信源输出的随机序列X= (X1,X2,…,XN)中,每个随机变 量Xi (i=1,2,…,N)都是取值离散的离散型随机变量,即每个随机变量 Xi的可能取值是有限的或可数的;而且随机矢量X的各维概率分布都 与时间起点无关,也就是在任意两个不同时刻随机矢量X的各维概率 分布都相同。这样的信源称为离散平稳信源。如中文自然语言文字, 离散化平面灰度图像都是这种离散型平稳信源。
离散无记忆信源
在某些简单的离散平稳信源情况下,信源先后发出的 一个个符号彼此是统计独立的。也就是说发出的信源 发出的符号是相互独立的,发出符号序列中各个符号 之间也是相互独立的。
信息论第2章(信息量、熵及互信息量)PPT课件
假设一条电线上串联了8个灯泡x这8个灯泡损坏的可能性是等概率的假设有也只有一个灯泡损坏用万用表去测量获得足够的信息量才能获知和确定哪个灯泡x损坏
信息论基础
The Basis of Information Theory
主题No2:信息量、熵和互信息量
在上一次课中我们提到香农对信息定性的 定义——事物运动状态或存在方式的不确定性 的描述。事实上,香农对信息不仅作了定性描 述,而且还进行了定量分析。
信源发出的消息常常是随机的,具有不确 定性。如果信源中某一消息的不确定性越大, 一旦发生,并为收信者收到,消除的不确定性 就越大,获得的信息也就越大。同时事件发生 的不确定性与事件发生的概率有关,概率越小, 不确定性就越大。
研究通信系统的目的就是要找到信息传输 过程的共同规律,以提高信息传输的可靠性、 有效性、保密性和认证性,以达到信息传输系 统最优化。
写在最后
经常不断地学习,你就什么都知道。你知道得越多,你就越有力量 Study Constantly, And You Will Know Everything. The More
You Know, The More Powerful You Will Be
谢谢大家
荣幸这一路,与你同行
It'S An Honor To Walk With You All The Way
I(X;Y)是一个用来衡量信道好坏的 非常好的工具。
计算条件熵的例子
例6 设一个二进制对称信道BSC:
其先验概率为p(0)=p(1)=1/2,试计算条 件熵. [解答]由已知条件得:
由条件熵的定义有:
结果表明,虽然每个字符的错误率只有 0.1,可导致整个信宿对信源的平均不确定 性达到了0.469,将近一半。可见通信系统 对信道的要求非常高。
信息论基础
The Basis of Information Theory
主题No2:信息量、熵和互信息量
在上一次课中我们提到香农对信息定性的 定义——事物运动状态或存在方式的不确定性 的描述。事实上,香农对信息不仅作了定性描 述,而且还进行了定量分析。
信源发出的消息常常是随机的,具有不确 定性。如果信源中某一消息的不确定性越大, 一旦发生,并为收信者收到,消除的不确定性 就越大,获得的信息也就越大。同时事件发生 的不确定性与事件发生的概率有关,概率越小, 不确定性就越大。
研究通信系统的目的就是要找到信息传输 过程的共同规律,以提高信息传输的可靠性、 有效性、保密性和认证性,以达到信息传输系 统最优化。
写在最后
经常不断地学习,你就什么都知道。你知道得越多,你就越有力量 Study Constantly, And You Will Know Everything. The More
You Know, The More Powerful You Will Be
谢谢大家
荣幸这一路,与你同行
It'S An Honor To Walk With You All The Way
I(X;Y)是一个用来衡量信道好坏的 非常好的工具。
计算条件熵的例子
例6 设一个二进制对称信道BSC:
其先验概率为p(0)=p(1)=1/2,试计算条 件熵. [解答]由已知条件得:
由条件熵的定义有:
结果表明,虽然每个字符的错误率只有 0.1,可导致整个信宿对信源的平均不确定 性达到了0.469,将近一半。可见通信系统 对信道的要求非常高。
第2章 信源与信息熵-1
27
联合自信息、条件自信息与自信息间 的关系
I(xiyj )=- log2p(xi)p(yj|xi)= I(xi)+I (yj|xi)
16
【例2.1 】某二元信源(含有两个不同消息的信源)发 送1的概率0.99,0的概率0.01,信宿仅凭猜测就可以简 单的认为信源发出的消息始终都是1,即使如此,猜错 的概率仅为百分之一。这说明在这种情况下,信源基 本上在发送1,信源的不确定性很小。 【例2.2 】某二元信源发送1和0的概率相等,均为0.5, 这时信宿不依赖通信仅凭猜测的话,猜错的概率高达 50%。这说明在这种情况下,猜测信源发送什么消息 就困难了,因为信源发送什么消息相当不确定。
X 0 1 0 1 p p P 0 1 / 2 1 / 2 1
8
单个连续信源
X (a, b) p ( x) P X
pX(x)为随机变量X的概率密度函数
b
a
p X ( x) 1
19
二、自信息量
1) 定义:一个符号消息 xi 的自信息量为其发生概率的 对数的负数,并记为 I(xi); I (xi) = -log p(xi) 当p(xi)=0,则 I(xi)→∞;当p(xi)=1,则 I(xi)=0. 2) 自信息量的单位 自信息量的单位与所用对数的底有关:
1º对数的底是2 时,单位为比特 — bit(binary unit) 2º对数的底是 e (自然对数)时,单位为奈特
第二章
信源与信息熵
本章内容
• 信源的分类及基本的信源数学模型描述、自信息 和信息熵的定义及性质、互信息的概念及性质、 信源冗余度的描述等。
本章重点
• 理解信源不确定性的含义,熵函数H(X)的性质、 平均互信息量的定义、性质,联合信源的联合熵、 条件熵,离散平稳信源的信源熵、极限熵等概念 和计算方法。 • 了解马尔可夫信源的定义和计算方法。
联合自信息、条件自信息与自信息间 的关系
I(xiyj )=- log2p(xi)p(yj|xi)= I(xi)+I (yj|xi)
16
【例2.1 】某二元信源(含有两个不同消息的信源)发 送1的概率0.99,0的概率0.01,信宿仅凭猜测就可以简 单的认为信源发出的消息始终都是1,即使如此,猜错 的概率仅为百分之一。这说明在这种情况下,信源基 本上在发送1,信源的不确定性很小。 【例2.2 】某二元信源发送1和0的概率相等,均为0.5, 这时信宿不依赖通信仅凭猜测的话,猜错的概率高达 50%。这说明在这种情况下,猜测信源发送什么消息 就困难了,因为信源发送什么消息相当不确定。
X 0 1 0 1 p p P 0 1 / 2 1 / 2 1
8
单个连续信源
X (a, b) p ( x) P X
pX(x)为随机变量X的概率密度函数
b
a
p X ( x) 1
19
二、自信息量
1) 定义:一个符号消息 xi 的自信息量为其发生概率的 对数的负数,并记为 I(xi); I (xi) = -log p(xi) 当p(xi)=0,则 I(xi)→∞;当p(xi)=1,则 I(xi)=0. 2) 自信息量的单位 自信息量的单位与所用对数的底有关:
1º对数的底是2 时,单位为比特 — bit(binary unit) 2º对数的底是 e (自然对数)时,单位为奈特
第二章
信源与信息熵
本章内容
• 信源的分类及基本的信源数学模型描述、自信息 和信息熵的定义及性质、互信息的概念及性质、 信源冗余度的描述等。
本章重点
• 理解信源不确定性的含义,熵函数H(X)的性质、 平均互信息量的定义、性质,联合信源的联合熵、 条件熵,离散平稳信源的信源熵、极限熵等概念 和计算方法。 • 了解马尔可夫信源的定义和计算方法。
《熵和互信息量 》课件
通过熵和互信息量的结合,可以更好地理解随机变量之间的复杂关系,并进一步探 索信息几何学的深层结构。
THANKS
决策优化
互信息量可以用于决策优化,通过分析不同 决策之间的互信息量,可以找到最优的决策
方案。
机器学习与深度学习
数据表示
熵和互信息量可以用于数据表示,将数据转换为更有意 义的特征表示,从而提高机器学习模型的性能。
模型优化
熵和互信息量可以用于模型优化,通过分析模型参数的 熵和互信息量,可以找到最优的模型参数配置,提高模 型的泛化能力。
06 熵和互信息量的关系与区别
熵和互信息量的关系
01
熵是系统不确定性的度量,表示系统内部信息的平 均量。
02
互信息量用于衡量两个随机变量之间的相互依赖程 度。
03
当两个随机变量独立时,互信息量为零;当两个随 机变量完全相关时,互信息量达到最大值。
熵和互信息量的区别
01
熵是对整个系统不确定性的度 量,而互信息量是衡量两个随 机变量之间的相互依赖程度。
05 熵和互信息量的应用场景
信息压缩与编码
信息压缩
熵是衡量数据不确定性的度量,可用于信息压缩。通过去除 冗余信息,将数据压缩到更小的空间,从而提高存储和传输 效率。
数据编码
互信息量可以用于数据编码,通过对数据进行分类和编码, 降低数据的熵,从而实现更有效的数据传输和存储。
决策理论
风险评估
熵可以用于风险评估,衡量决策的不确定性 和风险。通过计算不同决策方案的熵值,可 以评估方案的优劣和风险大小。
VS
熵的单位
熵的单位是比特(bit),这是因为log2 p(x)是以2为底的对数函数,其单位是比 特。
熵的物理意义
THANKS
决策优化
互信息量可以用于决策优化,通过分析不同 决策之间的互信息量,可以找到最优的决策
方案。
机器学习与深度学习
数据表示
熵和互信息量可以用于数据表示,将数据转换为更有意 义的特征表示,从而提高机器学习模型的性能。
模型优化
熵和互信息量可以用于模型优化,通过分析模型参数的 熵和互信息量,可以找到最优的模型参数配置,提高模 型的泛化能力。
06 熵和互信息量的关系与区别
熵和互信息量的关系
01
熵是系统不确定性的度量,表示系统内部信息的平 均量。
02
互信息量用于衡量两个随机变量之间的相互依赖程 度。
03
当两个随机变量独立时,互信息量为零;当两个随 机变量完全相关时,互信息量达到最大值。
熵和互信息量的区别
01
熵是对整个系统不确定性的度 量,而互信息量是衡量两个随 机变量之间的相互依赖程度。
05 熵和互信息量的应用场景
信息压缩与编码
信息压缩
熵是衡量数据不确定性的度量,可用于信息压缩。通过去除 冗余信息,将数据压缩到更小的空间,从而提高存储和传输 效率。
数据编码
互信息量可以用于数据编码,通过对数据进行分类和编码, 降低数据的熵,从而实现更有效的数据传输和存储。
决策理论
风险评估
熵可以用于风险评估,衡量决策的不确定性 和风险。通过计算不同决策方案的熵值,可 以评估方案的优劣和风险大小。
VS
熵的单位
熵的单位是比特(bit),这是因为log2 p(x)是以2为底的对数函数,其单位是比 特。
熵的物理意义
第二章 信源熵
英文字母中“e”出现的概率为0.105,“c” 出现的概率为0.023,“o”出现的概率为 0.001,分别计算他们的自信息量。 答:I(e)=-logP(e)=-log0.105=3.25bit I(c)=-logP(c)=-log0.023=5.44bit I(o)=-logP(o)=-log0.001=9.97bit
②
公式:参考数学期望的性质,用各符号的自 信息量加权平均表示总体的不确定性。
H ( X ) E[ I ( X )] p( xi )I ( xi ) p( xi ) log p( xi )
i i
③
单位:比特/符号或比特/符号序列
④
I. II.
性质: 非负 与热力学熵相同形式,H(X)又被定义为信源 熵 两个特殊情况 符号 x i 的概率 pi 为零时,定义为pi log pi 0 当信源X只有一个符号,符号只有一个状态, p(x)=1,此时 H ( X ) 0 。
分析 {Xn,n=0,1,2,……}是一随机过程,其状态 空间为:I={0,1},且当Xn=i,i=0、1时, Xn+1所处的状态分布只与Xn=i有关,而与 时刻n以前所处的状态无关,综上所述。该 过程为一步转移的马尔可夫过程。 p, j i P i, j 0,1 一步转移的概率: P{ X j X i} q, j i 一步转移矩阵: p q
II.
III.
随机过程是随机函数的集合,若一随机系统的样本点数是 随机函数,则称此函数为样本函数。这一随机系统全部样 本函数的集合是一个随机过程。实际应用中,样本函数的 一般定义在时间域或者空间域。用{X(t),t Y }。 具有马尔可夫性的随机过程称为马尔可夫过程。
第2章 -1信源与信息熵1【单符号离散信源】
y信道传输的平均信息量有扰离散信道结论因信道有扰而产生的平均信息量称噪声熵反映了信道中噪声源的不确定度唯一地确定信道噪声所需要的平均信息量hyy的先验不确定度hyx发出x后关于y的后验不确定度在已知x的条件下对于随机变量y存在的平均不确定度发出x前后y不确定度的平均减少量可看作在有扰离散信道上传递消息时唯一地确定接收符号y所需要的平均信息量hy减去当信源发出符号x为已知时需要确定接收符号y所需要的平均信息量hyx
1. 离散信源熵 (平均自信息量/无条件熵)
[定义] 自信息量的数学期望为信源的平均信息量,记为:H(X)。
H(X)=E[I(xi)]= –∑p(xi)log2 p(xi)
——平均不确定度的度量、体现: 总体平均
[单位]
二进制:bit/(信源)符号,或bit/(信源)序列 [含义]信息熵具有以下三方面物理含义: ⑴ 表示信源输出前,信源的平均不确定性 ⑵ 表示信源输出后,每个符号所携带的平均信息量 ⑶ 表示信源的的随机性(不同的信源有不同的统计特性) 信息熵的意义: 信源的信息熵是从整个信源的统计特性来考虑的。它是从 平均意义上来表征信源的总体特性的。对于某特定的信源, 其信息熵只有一个。不同的信源因统计特性不同,其信息熵 也不同。
√
(后续章节)
一、概述
⒈ 信息的一般概念 一个人获得消息→消除不确定性→获得信息。 ⒉ 信息度量的定性分析 事件发生的概率越大,不确定性越小,该事件 包含的信息量越小; 事件发生的概率越小,不确定性越大,该事件 包含的信息量越大; 如果一个事件发生的概率为1,那么它包含的 信息量为0; 两个相互独立事件所提供的信息量应等于它们 各自提供的信息量之和。
2.2.1
自信息量
1.自信息量 [定义] 若信源发出符号xi,由于信道无干扰,收到的就
1. 离散信源熵 (平均自信息量/无条件熵)
[定义] 自信息量的数学期望为信源的平均信息量,记为:H(X)。
H(X)=E[I(xi)]= –∑p(xi)log2 p(xi)
——平均不确定度的度量、体现: 总体平均
[单位]
二进制:bit/(信源)符号,或bit/(信源)序列 [含义]信息熵具有以下三方面物理含义: ⑴ 表示信源输出前,信源的平均不确定性 ⑵ 表示信源输出后,每个符号所携带的平均信息量 ⑶ 表示信源的的随机性(不同的信源有不同的统计特性) 信息熵的意义: 信源的信息熵是从整个信源的统计特性来考虑的。它是从 平均意义上来表征信源的总体特性的。对于某特定的信源, 其信息熵只有一个。不同的信源因统计特性不同,其信息熵 也不同。
√
(后续章节)
一、概述
⒈ 信息的一般概念 一个人获得消息→消除不确定性→获得信息。 ⒉ 信息度量的定性分析 事件发生的概率越大,不确定性越小,该事件 包含的信息量越小; 事件发生的概率越小,不确定性越大,该事件 包含的信息量越大; 如果一个事件发生的概率为1,那么它包含的 信息量为0; 两个相互独立事件所提供的信息量应等于它们 各自提供的信息量之和。
2.2.1
自信息量
1.自信息量 [定义] 若信源发出符号xi,由于信道无干扰,收到的就
第2章 信源与信息熵(3)
平均互信息的物理意义
互信息量实质是通信中实际传送的有用信息量。 互信息量实质是通信中实际传送的有用信息量。 显然,互信息越大越好, 显然,互信息越大越好,极限是 H ( X ) 能否将发送端X的信息量全部传送? 能否将发送端 的信息量全部传送? 的信息量全部传送 要求通信过程中没有信息量损失,而实际传输过程中, 要求通信过程中没有信息量损失,而实际传输过程中,信 道中的噪声会淹没一定的信息,即信息有损失。 道中的噪声会淹没一定的信息,即信息有损失。 通信过程中,信息量损失了多少? 通信过程中,信息量损失了多少? X的信息量减去实际传输的信息量,即 的信息量减去实际传输的信息量, 的信息量减去实际传输的信息量
I ( X ; Y ) = I (Y ; X )
理论证明略(与单符号互信息相同)。 理论证明略(与单符号互信息相同)。
②非负性
I ( X ;Y ) ≥ 0 I ( X ;Y ) ≤ H ( X )
理论证明参考周荫清编的信息理论基础, 理论证明参考周荫清编的信息理论基础,直观理解
③极值性
直观理解!! 直观理解!!
p ( xi | y j ) p ( xi )
= log 2
p ( xi ) p ( y j )
p ( xi , y j )
2 .2 离散信源熵和互信息
三、互信息
1、单符号之间的互信息量 性质: ③ 性质: 证明: 证明:
I ( xi ; y j ) = ( xi , y j )
p ( xi ) p ( y j )
p ( xi , y j )
= log 2
p ( xi ) p ( y j )
2 .2 离散信源熵和互信息
三、互信息
2、平均互信息 定义: 指单符号互信息量在X集合和 集合上的统计平均值。 定义: 指单符号互信息量在 集合和Y集合上的统计平均值。 集合和 集合上的统计平均值
互信息量实质是通信中实际传送的有用信息量。 互信息量实质是通信中实际传送的有用信息量。 显然,互信息越大越好, 显然,互信息越大越好,极限是 H ( X ) 能否将发送端X的信息量全部传送? 能否将发送端 的信息量全部传送? 的信息量全部传送 要求通信过程中没有信息量损失,而实际传输过程中, 要求通信过程中没有信息量损失,而实际传输过程中,信 道中的噪声会淹没一定的信息,即信息有损失。 道中的噪声会淹没一定的信息,即信息有损失。 通信过程中,信息量损失了多少? 通信过程中,信息量损失了多少? X的信息量减去实际传输的信息量,即 的信息量减去实际传输的信息量, 的信息量减去实际传输的信息量
I ( X ; Y ) = I (Y ; X )
理论证明略(与单符号互信息相同)。 理论证明略(与单符号互信息相同)。
②非负性
I ( X ;Y ) ≥ 0 I ( X ;Y ) ≤ H ( X )
理论证明参考周荫清编的信息理论基础, 理论证明参考周荫清编的信息理论基础,直观理解
③极值性
直观理解!! 直观理解!!
p ( xi | y j ) p ( xi )
= log 2
p ( xi ) p ( y j )
p ( xi , y j )
2 .2 离散信源熵和互信息
三、互信息
1、单符号之间的互信息量 性质: ③ 性质: 证明: 证明:
I ( xi ; y j ) = ( xi , y j )
p ( xi ) p ( y j )
p ( xi , y j )
= log 2
p ( xi ) p ( y j )
2 .2 离散信源熵和互信息
三、互信息
2、平均互信息 定义: 指单符号互信息量在X集合和 集合上的统计平均值。 定义: 指单符号互信息量在 集合和Y集合上的统计平均值。 集合和 集合上的统计平均值
信息论导论-第2章_20131
信息论导论-第2章
14
互信息量(简述)
1、互信息量的定义 2、互信息量的性质
信息论导论-第2章
15
互信息量
两个随机事件X和Y,分别取值于信源、信宿 发出的离散消息集合 a
信源X的数学模型
a2 , p (a2 ),
n i =1
X a1 , = P( X ) p (a1 ),
∴ I ( x1 ) = −lbP ( x1 ) = −lb(1/ 2) = lb 2 = 1(bit ) −lbP ( x2 ) = −lb(1/ 4) = I ( x2 ) = lb 4 = 2(bit ) I ( x3 ) = −lbP ( x3 ) = −lb(1/ 8) = lb8 = 3(bit ) I ( x4 ) = −lbP ( x4 ) = −lb(1/ 8) = lb8 = 3(bit )
0
logxP(x) P(x) 1
③I(xi)是P(xi)的单调递减函数。
信息论导论-第2章
11
一、自信息量
证明:
P( xi ) ∈ [0,1] dI ( xi ) d ∴ = [−lbP( xi )] dP( xi ) dP( xi ) −lbe d = −lbe <0 [ln P ( xi )] = dP( xi ) P( xi )
n
i =1
k = 1, 2, , n
信息论导论-第2章
21
二、单符号离散信源的信息熵
n n ∂ 即 {−∑ P( xi )lbP( xi ) + λ[∑ P( xi ) − 1]} ∂P( xk ) i 1 = i 1 =
= −[lbe + lbP( xk )] + λ = 0,
14
互信息量(简述)
1、互信息量的定义 2、互信息量的性质
信息论导论-第2章
15
互信息量
两个随机事件X和Y,分别取值于信源、信宿 发出的离散消息集合 a
信源X的数学模型
a2 , p (a2 ),
n i =1
X a1 , = P( X ) p (a1 ),
∴ I ( x1 ) = −lbP ( x1 ) = −lb(1/ 2) = lb 2 = 1(bit ) −lbP ( x2 ) = −lb(1/ 4) = I ( x2 ) = lb 4 = 2(bit ) I ( x3 ) = −lbP ( x3 ) = −lb(1/ 8) = lb8 = 3(bit ) I ( x4 ) = −lbP ( x4 ) = −lb(1/ 8) = lb8 = 3(bit )
0
logxP(x) P(x) 1
③I(xi)是P(xi)的单调递减函数。
信息论导论-第2章
11
一、自信息量
证明:
P( xi ) ∈ [0,1] dI ( xi ) d ∴ = [−lbP( xi )] dP( xi ) dP( xi ) −lbe d = −lbe <0 [ln P ( xi )] = dP( xi ) P( xi )
n
i =1
k = 1, 2, , n
信息论导论-第2章
21
二、单符号离散信源的信息熵
n n ∂ 即 {−∑ P( xi )lbP( xi ) + λ[∑ P( xi ) − 1]} ∂P( xk ) i 1 = i 1 =
= −[lbe + lbP( xk )] + λ = 0,
信息论与编码 第二版 第2章 .ppt
2 p xi 1 ,I xi 0;
3 非负性;
4 单调递减性;
5 可加性:
5. 联合自信息量与条件自信息量
若有两个符号 xi 、y j 同时出现,用联合概率
p(xi , y j ) 来表示,联合自信息量为
I (xi , y j ) log p(xi , y j )
当 xi 和y j 相互独立时,有p(xi , y j ) p(xi ) p( y j )
ij
ij
H ( X ,Y ) H ( X ) H (Y | X ) H (Y ) H ( X | Y )
当X和Y相互独立时,存在 H (X ,Y ) H (X ) H (Y )
既有 H (Y ) H (Y | X ) 或 H (X ) H (X | Y ) H(X|Y)当Y取特定值yj时, X集合的条件熵H(X| yj)为
H(X ,Y ) p(xi , y j )log p(xi , y j )
ij
=- p(xi , y j ) log[ p( y j ) p(xi | y j )]
ij
= p(xi , y j )log p( y j ) p(xi , y j )log p(xi | y j )
H
(V
|
u0
)
H
(1 4
,
3) 4
0.82bit
/
符号
(2)已知发出的符号,求收到符号后得到的信息量;
11
H (V | U ) p(ui , v j ) log p(v j | ui ) i0 j0
p(u0 , v0 ) p(v0 | u0 ) p(u0 ) 3 / 8 p(u0 , v1) 1/ 8 p(u1, v0 ) 1/ 4 p(u1, v1) 1/ 4
3 非负性;
4 单调递减性;
5 可加性:
5. 联合自信息量与条件自信息量
若有两个符号 xi 、y j 同时出现,用联合概率
p(xi , y j ) 来表示,联合自信息量为
I (xi , y j ) log p(xi , y j )
当 xi 和y j 相互独立时,有p(xi , y j ) p(xi ) p( y j )
ij
ij
H ( X ,Y ) H ( X ) H (Y | X ) H (Y ) H ( X | Y )
当X和Y相互独立时,存在 H (X ,Y ) H (X ) H (Y )
既有 H (Y ) H (Y | X ) 或 H (X ) H (X | Y ) H(X|Y)当Y取特定值yj时, X集合的条件熵H(X| yj)为
H(X ,Y ) p(xi , y j )log p(xi , y j )
ij
=- p(xi , y j ) log[ p( y j ) p(xi | y j )]
ij
= p(xi , y j )log p( y j ) p(xi , y j )log p(xi | y j )
H
(V
|
u0
)
H
(1 4
,
3) 4
0.82bit
/
符号
(2)已知发出的符号,求收到符号后得到的信息量;
11
H (V | U ) p(ui , v j ) log p(v j | ui ) i0 j0
p(u0 , v0 ) p(v0 | u0 ) p(u0 ) 3 / 8 p(u0 , v1) 1/ 8 p(u1, v0 ) 1/ 4 p(u1, v1) 1/ 4
第2章信源与信息熵
1. 非负性 2. 对称性
n
pi 1,
i 1
pi 0
(i 1, 2,..., n)
3. 确定性
4. 连续性
5. 扩展性
6. 最大熵定理
7. 条件熵小于无条件熵
熵函数的非负性
H ( X ) H ( p1, p2 , , pn ) 0
0 pi 1, log pi 0
pi log pi 0
i
熵的物理意义
H(X)表示信源发出任何一个消息状态所携带的平均信 息量
也等于在无噪声条件下,接收者收到一个消息状态所获 得的平均信息量
熵的本意为热力学中表示分子状态的紊乱程度 信息论中熵表示信源中消息状态的不确定度 信源熵与信息量有不同的意义
H(X)表示信源X每一个状态所能提供的平均信息量 H(X)表示信源X在没有发出符号以前,接收者对信源的
第2章 信源与信息熵
主要内容 1. 信源的分类与描述 2. 离散信源的信息熵和互信息 3. 离散序列信源的熵 4. 连续信源的熵与互信息 5. 冗余度
2.1 信源的分类与描述
信源的定义
产生消息(符号)、消息序列和连续消息的来源。
信源的基本特性是具有随机不确定性
分类
1. 时间
离散
2. 幅度
离散
3. 记忆
有
பைடு நூலகம்
连续 连续 无
介绍三类信源
➢ 单符号离散信源 ➢ 符号序列信源(有记忆和无记忆) ➢ 连续信源
单符号离散信源
单符号离散信源:用随机变量X来描述
X的概率空间
X p(xi
)
X
x1, p1,
X x2, p2 ,
, X xn
,
pn
第二章 信源与信息熵
连续信源的概率空间:
PX(pax,(bx))或Rpx(x)
b
px(x)0, px(x)dx1或px(x)0, Rpx(x)dx1 a
南通大学
2019/9/4
8
第2章 信源与信息熵
3. 发出符号序列离散无记忆信源--每次发出 一组含两个以上的符号序列来代表一个消息
南通大学
2019/9/4
18
第2章 信源与信息熵
p ij m ,n 一 k 步 步 p p ijik jm m 齐 次 p p iijjk
注:平稳信源的概率分布特性具有时间推移不变性, 而齐次马氏链只要转移概率具有时间推移不变性, 因此一般情况下,平稳包含齐次。
p
k
ii
0
的
n中没有比1大的公因
子。
南通大学
2019/9/4
23
第2章 信源与信息熵
• 作业:2-1,2-2
南通大学
2019/9/4
24
第2章 信源与信息熵
第二章 信源与信息熵
• 第二讲
南通大学
2019/9/4
25
第2章 信源与信息熵
上一讲复习
• 1. 信源的分类
连续信源 信源
离散信源
随机波形信源 其它 单符号无记忆离散信源 符号序列无记忆离散信源 单符号有记忆离散信源 符号序列有记忆离散信源
实际上信源发出的符号往往只与前面几个符号 的依赖关系较强,而与更前面的符号依赖关系就弱。 为此可以限制随机序列的记忆长度。
南通大学
2019/9/4
11
第2章 信源与信息熵
• 连续信源的离散化
南通大学
2019/9/4
PX(pax,(bx))或Rpx(x)
b
px(x)0, px(x)dx1或px(x)0, Rpx(x)dx1 a
南通大学
2019/9/4
8
第2章 信源与信息熵
3. 发出符号序列离散无记忆信源--每次发出 一组含两个以上的符号序列来代表一个消息
南通大学
2019/9/4
18
第2章 信源与信息熵
p ij m ,n 一 k 步 步 p p ijik jm m 齐 次 p p iijjk
注:平稳信源的概率分布特性具有时间推移不变性, 而齐次马氏链只要转移概率具有时间推移不变性, 因此一般情况下,平稳包含齐次。
p
k
ii
0
的
n中没有比1大的公因
子。
南通大学
2019/9/4
23
第2章 信源与信息熵
• 作业:2-1,2-2
南通大学
2019/9/4
24
第2章 信源与信息熵
第二章 信源与信息熵
• 第二讲
南通大学
2019/9/4
25
第2章 信源与信息熵
上一讲复习
• 1. 信源的分类
连续信源 信源
离散信源
随机波形信源 其它 单符号无记忆离散信源 符号序列无记忆离散信源 单符号有记忆离散信源 符号序列有记忆离散信源
实际上信源发出的符号往往只与前面几个符号 的依赖关系较强,而与更前面的符号依赖关系就弱。 为此可以限制随机序列的记忆长度。
南通大学
2019/9/4
11
第2章 信源与信息熵
• 连续信源的离散化
南通大学
2019/9/4
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
31/38
互信息量的定义
• 先验概率:信源发出消息 xi 的概率 p(xi)。 • 后验概率:信宿收到yj后推测信源发出xi的概率 p(xi / yj)。
• yj 对 xi 的互信息量定义为后验概率与先验概率比 值的对数,即(公式写黑板上对比)
余 映 云南大学
32/38
互信息量的三种表达
• ① 观察者站在输出端(公式写黑板上对比)
余 映 云南大学 20/38
信息量与不确定性的关系
• 信宿端收到某一消息后所得到的信息量,可以等效为接收 者在通信前后“不确定”因素的减少或消除。 • 事件的不确定性可用不确定度描述,它同样是事件概率的 函数,在数值和量纲上和自信息量相等,因此都可以用下 式来计算:
• 某一随机事件的出现所给出的信息量,在数值上与该随机 事件的不确定度不但相关而且相等,即事件的出现等效成 事件不确定集合的元素的减少,或简称为事件不确定度的 减少。
余 映 云南大学
36/38
互信息量的性质
余 映 云南大学
37/38
互信息量的性质
• ① 对称性:I(xi ; yj) = I(yj ; xi) • 表明:从事件 yj 得到的关于事件 xi 的信息量等于 从 xi 得到的关于 yj 的信息量,只是观察角度不同。
余 映 云南大学
15/38
度量信息的基本思路
• ① 信源输出 xi 所包含的信息量仅依赖于其概率,而与其 取值无关。 • ② I(xi)是 p(xi) 的连续函数。 • ③ I(xi)是 p(xi) 的减函数,即: – 如果 p(xi) > p(xj),则 I(xi) < I(xj)。 – 极限情况,若 p(xi) = 0, 则 I(xi) → ∞; – 若 p(xi) = 1, 则 I(xi) = 0。 • ④ 若两个单符号离散信源X, Y 统计独立, 则 X 中出现 xi、 Y 中出现 yj 的联合信息量 I(xi, yj) = I(xi) + I(yj)
– 即在事件 yj 已出现的条件下,随机事件 xi 出现所带来 的信息量。
• 同理,
余 映 云南大学
28/38
自信息量、条件自信息量和联合自信息 量之间的关系
– 即 A、B 两个事件同时出现的信息量等于 A 出现的信 息量加上 A 出现条件下再出现 B 的信息量。
余 映 云南大学
29/38
2.1.3 互信息量
余 映 云南大学
18/38
信息量与不确定性的关系
• 信源中某一消息发生的不确定性越大,一旦它发生,并为 收信者收到后,消除的不确定性就越大,获得的信息也就 越大。 • 由于各种原因(例如噪声太大),收信者接收到受干扰的 消息后,对某信息发生的不确定性依然存在或者一点也未 消除时,则收信者获得较少的信息或者说一点也没有获得 信息。
– 观察者得知输入端发出 xi 前、后对输出端出现 yj 的不 确定度的差(有变化),即从 xi 中也可提取关于 yj 的 信息量。
余 映 云南大学
34/38
互信息量的三种表达
• ③ 观察者站在通信系统总体立场上
• 通信前,输入 X 和输出 Y 之间没有任何关联,即 X,Y 统计独立,其 联合概率密度:p(xi yj) = p(xi)p(yj)
– 在无噪信道中,事件 xi 发生后,能正确无误地传输到 收信者,所以 I(xi) 可代表接收到消息 xi 后所获得的信 息量。这是因为消除了 I(xi) 大小的不确定性,才获得 这么大小的信息量。
余 映 云南大学
23/38
信息量的单位
• 信息量的单位与对数底数有关
– 若以 2 为底,则信息量单位称为比特(bit ) – 若以 e 为底,则信息量单位称为奈特(nat )
余 映 云南大学
25/38
信息量的单位
• 信息论中“比特”与计算机术语“比特”区别
– 若 p(xi)=1/2,则 I(xi)=1 比特。所以 1 比特信息量就是 两个互不相容的等可能事件之一发生时所提供的信息 量。 – 信息论中“比特”是指抽象的信息量单位; – 计算机术语中“比特”代表二元数字; – 这两种定义之间的关系是:每个二元数字所能提供的 最大平均信息量为1比特。
余 映 云南大学 21/38
信息量与不确定性的关系
• 自信息量和不确定度的含义又有区别
– 不确定度只与事件的概率有关,是一个统计量,在静 态状态下也存在; – 自信息量只有该随机事件出现时才给出,不出现时不 给出,因此它是一个动态的概念。
余 映 云南大学
22/38
自信息的含义
• 在事件 xi 发生前:表示事件 xi 发生的不确定性。 • 在事件 xi 发生后:表示事件 xi 所提供的信息量。
余 映 云南大学
19/38
信息量与不确定性的关系
• 信息量的直观定义:
收到某消息获得的信息量=不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) -(收到此消息后关于某事件发生的不确定性) • 在无噪声时,通过信道传输,可以完全不失真地收到消息, 收到此消息后关于某事件发生的不确定性完全消除,此项 为零。因此得 收到某消息获得的信息量 =收到此消息前关于某事件发生的不确定性 =信源输出的某消息中所含有的信息量
余 映 云南大学
2/38
2.1 自信息量和互信息量
余 映 云南大学
3/38
2.1.1 单符号离散信源数学模型
余 映 云南大学
4/38
信源的描述方法
• 在通信系统中收信者在未收到消息以前,对信源 发出什么消息是不确定的。 • ①离散信源:输出消息是以一个个符号形式出现, 这些符号的取值是有限的或可数的。
– 小行星撞击地球、月食、日食、流星雨、星系的产生 与消亡等等,都是天文学内一个个离散的事件。 – 若将一个事件用一个符号来表示,则一个符号代表一 个完整的消息。 – 如果把所有天文学的事件看作是天文学这个“信源” 输出的符号,则这个信源可以看作单符号离散信源。
余 映 云南大学
6/38
单符号离散信源
余 映 云南大学
9/38
单符号离散信源的数学模型
• 单符号离散信源数学模型就是离散型的概率空间:
信源空间必定是 一个完备集 – – – – X 是随机变量,代表信源整体 Xi 代表随机事件的某一结果或信源的某个元素 p(xi)=P(X =xi),表示随机事件X发生某一结果xi的概率。 n 是有限正整数或可数无限大
• 通信后,X 和 Y 之间由信道的统计特性相联系,其联合概率密度: p(xi yj) = p(xi)p(yj/xi ) = p(yj)p(xi /yj)
• 通信后的互信息量,等于前后不确定度的差(公式写黑板上对比)
余 映 云南大学
35/38
互信息量的三种表达
• 这三种表达式是等价的,在实际应用中可根据具 体情况选用一种较为方便的表达式。
• 由此推算信源输出的信息量应该是输出事件概率 的减函数。
余 映 云南大学 12/38
度量信息的基本思路
• 信息量的另一直观认识是,某一事件概率的微小 变化不会很大改变所传递的信息量,即信息量应 该是信源输出事件概率的连续减函数。
余 映 云南大学
13/38
度量信息的基本思路
• 假设与输出 xi 相关的信息能被分成独立的两部分, 比如 xi1 与 xi2,即 xi= {xi1 , xi2}。
– 自信息量:对 yj 一无所知的情况下 xi 存在的不确定度; – 条件自信息量:已知 yj 条件下 xi 仍然存在的不确定度; – 互信息量:两个不确定度之差,是不确定度被消除的 部分。实际是从 yj 得到的关于 xi 的信息量。
余 映 云南大学
33/38
互信息量的三种表达
• ② 观察者站在输入端(公式写黑板上对比)
• 这里的符号或数字都可以看作某一集合中的事件, 每个事件都是信源中的元素,它们的出现具有一 定的概率。 • 因此,信源可以看作是具有一定概率分布的某一 符号集合。
余 映 云南大学 8/38
单符号离散信源的数学模型
• 若信源的输出是随机事件X,其出现概率为P(X), 则它们所构成的集合,称为信源的概率空间(信 源空间)。
– 例如,假设天气预报中的天气及温度变化与污染程度 相关性很小甚至几乎完全独立,则信源每一个输出就 能分成独立的两部分。
• 直观地,传递 xi 所包含的信息量应等于分别传递 xi1 和 xi2 所得到的信息量之和。
余 映 云南大学
14/38
度量信息的基本思路
• 若事件 xi 的出现所带来的信息量用 I(xi) 来表示, 并称之为事件 xi 的自信息量,则概率为 p(xi) 的信 源输出 xi 所包含的信息量 I(xi) 必须满足以下几个 条件:
余 映 云南大学
30/38
互信息量的定义
• X—信源发出的离散消息集合;Y—信宿收到的离散消息 集合;信源通过有干扰的信道发出消息传递给信宿; • 信宿事先不知道某一时刻发出的是哪一个消息,所以每个 消息是随机事件的一个结果; • 最简单的通信系统模型: • 信源X、信宿Y 的概率空间为
余 映 云南大学
I(xi)=log2(1/p(xi)) 比特 I(xi)=ln(1/p(xi)) 奈特
– 若以10为底,则信息量单位称为哈特(hart)
I(xi)=lg(1/p(xi)) 哈特 • 1奈特=1.44比特,1哈特=3.32比特
余 映 云南大学 24/38
信息量的单位
• 在通信及信息传输系统中,绝大多数以二进制为 基础,因此信息量单位以比特最为常用。 • 因此一般都采用以 2 为底的对数,为书写简洁, 可以把底数 2 略去不写。
余 映 云南大学 10/38
2.1.2 自信息量
余 映 云南大学
11/38