互信息和信息熵
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
两个信源
X 晴 阴 大雨 小雨 P( x) 1/2 1 / 4 1 / 8 1 / 8 Y 晴 小雨 P ( y ) 7 / 8 1 / 8
解:甲地天气预报构成的信源空间为: X 晴 阴 大雨 小雨 P( x) 1/2 1 / 4 1 / 8 1 / 8 则其提供的平均信息量即信源的信息熵:
1 I ( xi ) f [ P( xi )] log r log r P( xi ) P( xi )
条件自信息量 I ( xi / y j ) log2 p( xi / y j ) 联合自信量 I ( xi y j ) log p( xi y j )
I ( xi y j ) log 2 p ( xi ) p ( y j / xi ) I ( xi ) I ( y j / xi ) log 2 p ( y j ) p ( xi / y j ) I ( y j ) I ( xi / y j )
对一个信源发出不同的消息所含有的信息量也不同。所以自 信息I(xi)是一个随机变量,不能用它来作为整个信源的信息 测度
定义自信息的数学期望为平均自信息量Hr(X),称为 信源的信息熵,也叫信源熵或香农熵,简称熵:
K 1 H r ( X ) E I x E log r p( xi ) log r p( xi ) p( xi ) i 1 K 1 当r=2时: H ( X ) E log p( xi ) log p( xi ) p( xi ) i 1 H r ( X ) H ( X ) / log r
互信息量:
结合图示讲解通信模型,信源发出消息 xi 的概率p(xi) 称为先验概率,信宿收 到yi。利用收到yi推测信源发出xi的概率称为后验概率,有时也称条件概率。
思考:事件xi是否发生具有不确定性,可用自信息I(xi)度量。
在收到符号后,事件是否仍具有一定的不确定性,用条件信息量I (yi|xi)度量。 相当于进行了通信。
通信工程本科专业课程
信息论与编码原理
Information Theory and Encoding
主 讲: 肖 竹
老 师
第二讲 Part II
互信息 信息熵
复习
xi的自信息量 非负 单调减 可加 不确定性 (提供的信息量)
收到某消息获得的信息量(即收到某消息后获得关于某事件发生的信息量) =不确定性减少的量=(收到此消息前关于某事件发生的不确定性) - (收到此消息后关于某事件发生的不确定性)
“ 一个电视画面”平均提供的信息量远远超 过“一篇千字文”提供的信息量。
假设一条电线上串联了8个灯泡x1,x2…,x8如图1所示. 这8个灯泡损坏的可能性是等概率的,现假设这8个灯泡 中有一个也只有一个灯泡已损坏,致使串联灯泡都不能 点亮.在未检查之间,我们不知道哪个灯泡xi已损坏,是 不知的、不确定的.我们只有通过检查,用万用表去测 量电路有否断电路,获得足够的信息量,才能获知和确 定哪个灯泡xi已损坏.
极端情况2:各种天气等概率分布
0
X 晴 阴 大雨 小雨 P( x) 1/4 1/4 1/4 1/4 1 1 1 1 1 1 1 1 H ( X ) log log log log 2(bit / 符号 ) 4 4 4 4 4 4 4 4
I ( xi ; y j ) I ( xi ) I ( xi | y j ) log
( xi | y j ) q ( xi )
0
I ( xi ) I ( xi | y j ), ( xi | y j ) q ( xi )
两个事件的互信息量不大于单个事件的自信息量
I ( xi ) I ( xi ; y j ) I ( y j )
H ( X ) P(ai ) logP(ai )
1 1 1 1 1 1 1 1 log log log log 1.75 (bit / 符号) 2 2 4 4 8 8 8 8 乙地天气预报的信源空间为: Y 晴 小雨 P ( y ) 7 / 8 1 / 8 7 7 1 1 1 7 H (Y ) log log log log 7 0.544 (bit / 符号) 8 8 8 8 8 8 结论:甲地天气预报提供的平均信息量大于乙地,因为乙地 比甲地的平均不确定性小。
i 1
4
甲地极端情况
极端情况1:晴天概率=1
X 晴 阴 大雨 小雨 P( x) 1 0 0 0 H ( X ) 1 log1 0 log0 0 log0 0 log0
lim log 0 H ( X ) 0(bit / 符号 )
[例] 设甲地的天气预报为:晴(占4/8)、阴(占2/8)、大雨(占 1/8)、小雨(占1/8)。又设乙地的天气预报为:晴 (占7/8) ,小雨(占1/8)。试求两地天气预报各自提供的平均信息量。 若甲地天气预报为两极端情况,一种是晴出现概率为1而其余 为0。另一种是晴、阴、小雨、大雨出现的概率都相等为1/4 。试求这两极端情况所提供的平均信息量。又试求乙地出现这 两极端情况所提供的平均信息量。
熵的计算: 有一布袋内放l00个球,其中80个球是红色的, 20个球是白色的。随便摸出一个球,猜测是什么颜 色,那么其概率空间为: X a1 a2 P( X ) 0.8 0.2
如果被告知摸出的是红球,那么获得的信息量是:
I (a1) =-log p(a1) =-log0.8= 0.32 (比特)
I(x) 是概率空间(X,P)上的一个随机变量
I x I x1 I x2 I x3 ... ... I xK P( x) P( x1 ) P( x2 ) P( x3 ) ... ... P( xK )
互信息量和条件互信息量
信宿收到yj的概率
p( y j | xi ) ( y j )
I ( y j ) I ( y j | xi )
从信源的角度来观察,上述两个事件之 差就是观察者获得的信息量—互信息
I ( xi ; y j ) log
p( xi y j ) q( xi )( y j )
I ( xi ) I ( y j ) I ( xi y j )
问题:观察事件(通信)前后,通信过程中所获得的信息量是什么?
定义:后验概率与先验概率比值的对数为yi对xi的互信息量:
条件概率 互信息量
I ( xi ; y j ) I ( xi ) I ( xi | y j ) log
先验概率
( xi | y j ) q( xi )
互信息量等于 自信息量减去 条 件 自信 息 量 。
互信息量
概率互换公式
p( xi y j ) p( y j | xi )q( xi ) ( xi | y j )( y j )
信源发送之前, 信宿收到 yj 的 概率,自信息 发送符号 xi ,信宿 是否收到 yj 仍具有 不确定性, 条件信息
互信息其他表达方式:
信道转移概率
I ( xi ; y j ) log
如被告知摸出来的是白球,所获得的信息量应为:
I (a2) = -log p(a2) = -log0.2 = 2.32 (比特)
平均摸取一次所能获得的信息量为 :
H(X)= p(a1) I (a1) + p(a2) I (a2) =0.72(比特/符号)
熵的含义
熵是从整个集合的统计特性来考虑的,它从平均意义上 来表征信源的总体特征。 在信源输出后,信息熵H(X)表示每个消息提供的平均信 息量; 在信源输出前,信息熵H(X) 表示信源的平均不确定性; 信息熵H(X) 表征了变量X的随机性。 例:有两信源X、Y,其概率空间分别
图
8个灯泡串联示意图
利用熵的概念分析:图中8个灯泡构成一信源X,每个 灯泡损坏的概率都相等.这个信源为
其中ai(i=1,2…,8)表示第i个灯泡已损坏的事件,信源X 共有8种等可能发生事件.可计算得此信源的信息熵
这Hபைடு நூலகம்X)正好表示在获知哪个灯泡已损坏的情况前,关 于哪个灯泡已损坏的平均不确定性.因此,只有获得3比 特的信息量,才能完全消除平均不确定性,才能确定是 哪个灯泡坏了.
[例] B,C,D三人必有一人晚上去A家
B C A D
事件E:上午D打电话说晚上不来
事件F:下午C打电话说晚上不来 求互信息量I(B;E), I(C;E), I(D;E)和I(B;EF) I(B;E), I(C;E)=0.585(bit) I(B;EF)=1.585(bit)
离散信息源的信息熵
熵函数的自变量是X表示信源整体,实质上是离散无记忆信源平 均不确定度的度量:各消息自信息量的概率加权平均(统计平均)值
–
由于这个表达式和统计物理学中热熵的表达式相 似,且在概念上也有相似之处,因此借用“熵” 这个词,把H(X)称为信息“熵”; 信息熵的单位由自信息量的单位决定,即取决于 对数的底。
条件互信息量
三维XYZ联合集: xi 与 y j 之间的互信息量, 给定条件 z k 下, 其定义式
I ( xi ; y j / zk ) log2
p( xi / y j zk ) p( xi / zk )
互信息的性质
对称性—互易性 当X和Y相互独立时,互信息为0 互信息量可为正值或负值,反映两个事件之间的肯定作用 若为正值,通过接收yj判断是否发送xi的不确定性变小, 能够正常通信 若互信息为负值,意味着传输中的问题,如信道噪声、干 扰等,收到yj判断是否发送xi的不确定性更大
i 1 n 3105
=3 × 105 × 3.32 bit
信源熵例题
有一篇千字文章,假定每字可从万字表中任选 ,则共有不同的千字文 N=100001000=104000 篇 仍按等概率1/100001000计算,平均每篇千字文 可提供的信息量为 H(X) =log2N=4 × 103 × 3.32 ≈ 1.3 × 104 bit
Y a1 a2 P( y ) 0.5 0.5 计算其熵,得:H(X)=0.08( bit /符号)
a2 X a1 P( x) 0.99 0.01
H(Y)=1(bit / 符号) H(Y)>H(X),因此信源Y比信源X的平均不确定性要大。
–
H(X)的单位:r 进制单位/符号 (r>1)
信源熵例题
电视屏上约有 500 × 600= 3×105个格点,按每 格点有 10个不同的灰度等级考虑,则共能组成 3105 3105 个不同的画面。按等概率 1 / 10 计算 10 ,平均每个画面可提供的信息量为
H ( X ) p( xi ) log 2 p( xi ) log 2 10
( y j ) ,不确定性 log q( xi) ( y j) I( xi) I( y j) 通信之前X和Y统计独立,有 p(xi y j ) q(xi )
但通信过程中存在信道转移概率 p( y j | xi ) ,符号 xi 与 yj 有了某种关联,此时联合
概率 p(xi y j ) p(y j | xi )q(x i ) ,发xi收yi的不确定性 I (xi y j ) log p( xi y j ) 。
结论:等概率分布时信源的不确定性最大, 所以信息熵(平均信息量)最大。