信息论讲义第二讲
第二章基本信息论2_平均互信息量
m
n
p ( y j / xi ) p( y j )
p ( xi y j )
p ( xi ) p ( y j )
p ( y j / xi ) =
p( xi y j ) p ( xi )
= ∑∑ p ( xi y j )lb
j =1 i =1
I ( X ;Y ) = ∑∑ p( xi y j )lb
= H ( X ) − H ( X /Y ) 1 其中:H ( X / Y ) = ∑∑ p( xi y j )lb p( xi / y j ) j =1 i =1
m n
称为信道疑义度/可疑度(损失熵)
•信宿收到信源发出的消息Y后,对信源X仍存在 的平均不确定度 •通信过程中信息在信道中的损失量
Y对X的平均互信息量
2、I (Y ; X ) = ∑∑ p( xi y j )lb
j =1 i =1
m
n
p( y j / xi ) p( y j )
m n 1 1 = ∑∑ p ( xi y j )lb − ∑∑ p ( xi y j )lb p( y j ) j =1 i =1 p ( y j / xi ) j =1 i =1
I 5)计算平均互信息量: ( X ;Y ) = ∑∑ p( xi y j ) I ( xi ; y j )
j i
I ( X ;Y ) = p ( x1 y1 ) I ( x1 ; y1 ) + p ( x1 y2 ) I ( x1 ; y2 ) + p( x2 y1 ) I ( x2 ; y1 ) + p( x2 y2 ) I ( x2 ; y2 )
I ( X ;Y ) = H ( X ) − H ( X / Y )
信息论讲义(2讲)
信息论第2讲北京航空航天大学201教研室陈杰buaa201gcss@ PWD:buaaf6152第一章小结1.信息论:经典信息论工程信息论广义信息论2.信息的概念:通俗信息概念广义信息概念概率信息概念3.信息:抽象概念,研究对象,含于消息消息:比较具体,非物理量,信息的载荷者信号:最具体,表示消息的物理量,可测量、可显示、可描述,消息的载荷者4.通信系统的模型:第一章小结(续)通信系统干扰源窃听者模型32.5 连续随机变量的互信息和相对熵2.5.1 连续随机变量的互信息⎯定义⎯熵的性质2.5.2 连续随机变量的相对熵⎯连续随机变量的自信息量⎯相对熵、联合熵、条件熵⎯性质45•连续随机变量的互信息连续随机变量集XY ,事件x , p (x ) ≥0和事件y , p (y ) ≥0之间的互信息定义为00()() lim log ()()x y p x y p y x y p x xp y y Δ→Δ→ΔΔ=ΔΔ00()(;)lim log ()def x y p x y x I x y p x xΔ→Δ→Δ=Δ() log ()()p xy p x p y =6•连续随机变量的平均互信息连续随机变量集合X 和Y 之间的平均互信息量(Mutual Information)定义为()(;)()log ()()def p xy I X Y p xy dxdy p x p y ∞−∞=∫∫7•连续随机变量的平均互信息的性质(1)非负性当且仅当连续随机变量X 和Y 统计独立时等号成立。
(2)对称性(;)0I X Y ≥(;)(;)I X Y I Y X =8•连续随机变量令随机变量X 的取值区间是(a ,b ),a <b ,把它分成n 段,等间隔,那么X 处于第i 个小区间的概率为事件x i <x i +Δ的自信息量为b a n −Δ=()i i p p x Δ=⋅Δlog log[()]i i p p x −Δ=−⋅Δ9•连续r.vX 的平均自信息量为•当n →∞,Δi →0时,定义绝对熵()()log[()]i i iH X p x p x Δ=−⋅Δ⋅⋅Δ∑()H X Δ→∞0()log H X Δ=-()[log ()]()[log ]i i i i ip x p x p x =−⋅⋅Δ−⋅Δ⋅Δ∑∑10•连续随机变量的相对熵(Differential Entropy)称为连续随机变量的相对熵,或微分熵,简称为熵。
信息论第2章PPT(2012z最新版)
平均自信息量又称为信源熵、 或无条件熵。 平均自信息量又称为信源熵、信息熵 或无条件熵。
表示信源输出消息中的每个符号所含信息量的统计 平均自信息量H (X ) 表示信源输出消息中的每个符号所含信息量的统计 平均值, 平均值,其表达式为 q
[
]
(a1a1 L a2 ) L (aq aq L aq ) X N (a1a1 L a1 ) = P (a a L a ) P (a a L a ) L P (a a L a ) 1 1 1 1 1 2 q q q P (X )
这个概率空间共有 q N 个元素。 个元素。 多符号的离散信源可以分为 多符号的离散信源 可以分为 1) 离散无记忆信源 ) 2) 离散有记忆信源 )
一般情况下, 如果取以 r 为底的对数 r>1) 一般情况下, ( ) , 则
I (ai ) = − log r P (ai )
(r 进制单位)
通常采用“比特”作为信息量的实用单位。 通常采用“比特”作为信息量的实用单位。
已知二元信源输出“ 、 两种符号, 例: 已知二元信源输出“0”、“1”两种符号, 两种符号 出现概率相等, (1)如果“0”、“1”出现概率相等,计算出现 如果“ 、 出现概率相等 的信息量; “0”的信息量; 的信息量 出现概率为1/3 (2)如果“0”出现概率为1/3,计算出现“1”的 如果“ 出现概率为1/3,计算出现“ 的 信息量。 信息量。 根据信息量的定义式, 解:根据信息量的定义式,可以得到
2、平均自信息量H(X) 、平均自信息量
如果一个离散信源输出的消息符号集合为 X = {x i } = {x1 , x 2 , L , x q } , 信源输出的消息符号不同,所含有的信息量就不相同,因此, 信源输出的消息符号不同,所含有的信息量就不相同,因此,自信息量
《信息论》研究生课程讲义
《信息论》研究生课程讲义2-5 平均互信息量的特性平均交互信息量IX,Y在统计平均的意义上,描述了信源、信道、信宿组成的通信系统的信息传输特性。
这一节将进一步讨论IX,Y的数学特性,重点介绍其特性的结论和其物理意义。
2-5-1 IX,Y的非负性当x为大于0的实数时,底大于1的对数logx是x的严格上凸函数,可以证明若fx为上凸函数,则有:f∑pixi≥∑pifxi,如fxlogx,则有:log∑pixi≥∑pilogxi根据这个关系,考虑平均互信息量,IX,Y ∑∑pxi,yjlog[pxi,yj/pxipyj]则:-IX,Y ∑∑pxi,yjlog[pxipyj/pxi,yj]≤log∑∑pxi,yj[pxipyj/pxi,yj]log∑pxi ∑pyj0所以有:IX,Y ≥0只有当PX,YPXPY,即对于所有的i1,2,…n, j1,2,…m。
都有:pxi,yjpxipyj,才有:IX,Y0互信息量可能出现负值,但平均互信息量不可能出现负值。
接收者收到一个Y的符号,总能从中获取道关于信源X的信息量,只有当XY相互独立时,平均互信息量才为0。
由IX,YHX-HX/Y,可知,在信息传输过程中,后验熵不可能大于先验熵,这种特性称为后熵不增加原理。
当XY相互独立时,pxi,yjpxipyj可得:HX,YHX+HY当XY相互独立时,pyj/xipyj可得:HY/XHY当XY相互独立时,pxi/yjpxi可得:HX/YHX由互信息量的定义可知:IX,YHX+HY-HX,YHX-HX/YHY-HY/X02-5-2 平均互信息量的交互性由于pxi,yjpyj,xi则:IX,YIY,X交互性表明在Y中含有关于X的信息,IX,Y;在X中含有关于Y的信息,IY,X;而且两者相等。
实际上IX,Y和IY,X只是观察者的立足点不同,对信道的输入X 和输出Y的总体测度的两种表达形式。
两个园相交的部分为平均互信息量,可见,平均互信息量的大小体现了X和Y 的相关程度。
《信息论》第二章课件
I(x|y) -logp(x|y)
p(x|y)要满足非负和归一化条件
★条件自信息的含义包含两方面:
y b j 给定,x 事件发生前 ai 事件发生的不确定性 y b j 给定,x 事件发生后 ai 事件包含的信息量
★自信息、条件自信息和联合自信息之间的关系
I(xy)= I(x)+ I(y|x)= I(y)+ I(x|y)
2.7
随机变量X和Y,符号集均为{0,1}
p( y 0 | x 0) p( y 1 | x 0) 1 2
p x (0)
2 3
p x (1)
1 3
p( y 1 | x 1) 1
求H(Y|X)
解:H (Y | X ) p( x) H (Y | x) p( x 0) H (Y | x 0) p( x 1) H (Y | x 1)
其中,q(ui)为节点ui的概率,H(ui)为节点ui的分支熵。
例
2.7
1/2 p 2/3
a1: p/3
b1: 2p/3
b2: 2/3
1/2
a2: p/3
r: 1
1-p
a3: 2(1-p)/3
1/3
a4: 1/3
条件熵
★
条件熵:联合集XY上,条件自信息I(y|x)的平均值
H (Y / X ) E [ I ( y / x)]
I ( x; y) I ( x) I ( x | y)
I(x;y)与 I(x|y)的区别?
互信息的性质
★ 互易性 ★ 当事件x,y统计独立时,互信息为0,即 I(x;y)=0 ★ 互信息可正可负 ★ 任何两事件之间的互信息不可能大于其中 任一事件的自信息
信息论课件 2-1.3马尔科夫信源
1:0.75
:
:
1 0.5 0 0.25
0:0.5
12
• 例3 设有一个二元二阶马尔科夫信源,其信源 符号集X={0,1},信源输出符号的条件概率为
P(0|00)=p(1|11)=0.8, p(1|00)=0.2
p(0|01)=p(0|10)=p(1|01)=p(1|10)=0.5 求状态转移概率矩阵,画出状态转移图
p(x2|x1)
x2
x1
0
1
0
0.3
0.4
1
0.7
0.6
再下一单位时间:输出随机变量X3与X2X1有依赖关系
p(x3|x1x2) x3
00
x1 x2 01 10
11
0 0.4 0.2 0.3 0.4
1 0.6 0.8 0.7 0.6
23
• 从第四单位时间开始,随机变量Xi只与前面二 个单位时间的随机变量Xi-2Xi-1有依赖关系:
–齐次马尔可夫链可以用其
0/0.4
状态转移图(香农线图)表示
–每个圆圈代表一种状态
so
s1
–状态之间的有向线代表某 1/0.6
一状态向另一状态的转移
0/0.3
1/0.2
1/0.7
–有向线一侧的符号和数字
分别代表发出的符号和条
s2
件概率
0/0.8
11
• 例2 设一个二元一阶马尔科夫信源,信源符号 集X={0,1},信源输出符号的条件概率为
• 由 p(s3 ) 0.4 p(s3 ) 0.3 p(s5 )
Wj=p(sj) p(s4 ) 0.6 p(s3 ) 0.7 p(s5 ) p(s5 ) 0.2 p(s4 ) 0.4 p(s6 )
信息论与编码第2章信源与信息熵PPT课件
p(Si |Sj)
pji表示从第(l-1)时刻到第l时刻的状态 转移概率,称为一步状态转移概率。 此时,信源的随机状态序列服从马尔
四、 马尔可夫信源的状态转移图
【补充】 马尔可夫信源的状态序列在数学模型上 可以用马尔可夫链的状态转移图来描述 信源。
状态转移图也可称为香农线图。
2. 数学条件
② 信源某一时刻(l)所处的状态只由当前 输出的符号和前一时刻(l-1)信源的状 态唯一确定。 即:
p(ul Si | xl ak,ul1 Sj ) p(Si | ak,Sj )
(Si,Sj S; ak A)
三、 n阶马尔可夫信源的条件
3. 状态转移概率
设信源在第(l-1)时刻处于状态Sj时, 下一时刻转移到Si的状态概率为:
四、 马尔可夫信源的状态转移图
状态转移图的元素
① 每个圆圈代表一个状态。
② 状态之间的有向线段代表某一状态向 另一状态的转移。
③ 有向线的一侧标注发出的某符号ak和 条件概率p(ak|Sj)。 ak:p(ak|Sj)
S1
S2
【例2.5】
设一个二元一阶马尔可夫信源,信 源符号集为A={0,1},条件概率为 p(0|0)=0.25,p(0|1)=0.50, p(1|0)=0.75,p(1|1)=0.50。 试画出该信源的状态转移图。 【课本P64 例3.5.2】
假设信源发出的消息x用二进码011表示接收到每个二进制码元后得到有关2012128492222符号符号符号2012128502222平均互信息量其中2012128512222熵的性质对称性确定性香农辅助定理最大熵定理条件熵小于无条件熵20121285222222012128532222对称性信息熵相同2012128542222确定性香农辅助定理loglog2012128552222最大熵定理条件熵小于无条件熵2012128562222平均互信息的性质互易性与熵和条件熵及联合熵关系极值性凸性函数性质信息不增性原理2012128572222同理2012128582222互易性2012128592222平均互信息与熵的关系2012128602222互信息量与熵的关系2012128612222极值性2012128622222凸性函数当条件概率分布给定时平均互信息量是输入概率分布的上凸函数当集合x的概率分布保持不变时平均互信息量是条件概率分布的下凸函数2012128632222信息不增性条件下假设在2012128642323离散无记忆信源的序列熵离散有记忆信源的序列熵2012128652323离散无记忆信源的序列熵ililil2012128662323离散无记忆信源的序列熵平均每个符号熵消息熵2012128672323离散有记忆信源的序列熵和消息熵2012128682323eg求信源的序列熵和平均符号熵361191118211342918792012128692323离散有记忆信源的序列熵和消息熵结论1是l的单调非增函数结论3是l的单调非增函数2012128702323马氏链极限熵左边遍历马氏链对于齐次2012128712323右边2012128722323eg求马氏链平均符号熵三个状态2012128732424幅度连续的单个符号信源熵loglimloglim2012128742424幅度连续的单个符号信源熵互信息条件熵联合熵相对熵2012128752424波形信源熵随机波形信源取条件熵相对熵2012128762424最大熵定理具有最大熵当它是均匀分布时变量对于定义域有限的随机限峰功率最大熵定理dxdxdxdxdxdxdxdxdxdxdxdxdxdxdx2012128772424最大熵定理限平均功率最大熵定理
信息论讲义_第二讲
B C D E F G H
2.1.2 条件自信息量(续)
Answer:
p xi y j 1/ 64
1) I xi y j log p xi y j 6 bit 2)I xi | y j log p xi | y j log
p xi y j p yj 3 bit
A(新闻) 2
H 2台(天津) p( H 2 ) 0.4
A(体育) 3
求:当接收信号为A2时,哪个电台发射的可能性大?
2.2.1 互信息量(续)
解:从概率论角度分析,根据贝叶斯公式
(H1 | A2)= p (H 2 | A2)= p p( H1 ) p( A2 | H1 ) 0.6 0.2 3 = p( H1 ) p( A2 | H1 ) p( H 2 ) p( A2 | H 2 ) 0.6 0.2 0.4 0.4 = 7
3离散集的平均自信息量231平均自信息量熵entropy?熵的定义?熵的性质232条件熵和联合熵233各种熵的关系234加权熵?加权熵定义?加权熵性质?一个布袋内放100个球其中80个球是红色的20个球是白色的若随机摸取一个球猜测其颜色求平均摸取一次所能获得的自信息量
信息理论基础
授课教师:于
泽
电子信息工程学院201教研室
p(A) = 1/36 ×2=1/18
(2)甲1乙1
I(A)=-log p(A) =4.17 bit I(B)=-log p(B) =5.17 bit I(C)=-log p(C) =1.71 bit
p(B) = 1/36
(3)扣掉 甲、 乙都不是1的概率
p(C) = 1-6/5 × 5/6=11/36
信息论第2章(信息量、熵及互信息量)PPT课件
信息论基础
The Basis of Information Theory
主题No2:信息量、熵和互信息量
在上一次课中我们提到香农对信息定性的 定义——事物运动状态或存在方式的不确定性 的描述。事实上,香农对信息不仅作了定性描 述,而且还进行了定量分析。
信源发出的消息常常是随机的,具有不确 定性。如果信源中某一消息的不确定性越大, 一旦发生,并为收信者收到,消除的不确定性 就越大,获得的信息也就越大。同时事件发生 的不确定性与事件发生的概率有关,概率越小, 不确定性就越大。
研究通信系统的目的就是要找到信息传输 过程的共同规律,以提高信息传输的可靠性、 有效性、保密性和认证性,以达到信息传输系 统最优化。
写在最后
经常不断地学习,你就什么都知道。你知道得越多,你就越有力量 Study Constantly, And You Will Know Everything. The More
You Know, The More Powerful You Will Be
谢谢大家
荣幸这一路,与你同行
It'S An Honor To Walk With You All The Way
I(X;Y)是一个用来衡量信道好坏的 非常好的工具。
计算条件熵的例子
例6 设一个二进制对称信道BSC:
其先验概率为p(0)=p(1)=1/2,试计算条 件熵. [解答]由已知条件得:
由条件熵的定义有:
结果表明,虽然每个字符的错误率只有 0.1,可导致整个信宿对信源的平均不确定 性达到了0.469,将近一半。可见通信系统 对信道的要求非常高。
信息论2-2
(2) H ( X ) H ( X )
例7:对例2中的马氏信源,计算其熵率。
例8:对例3中的二阶马氏信源,计算其熵率。
三、信源的冗余度
冗余度常用来描述信源输出符号携带信息的有效程度, 它表示给定信源在实际发出信息时所包含的多余信息。 冗余度来自两个方面:①信源符号间的相关性;②信 源符号分布的不均匀性。 定义:冗余度 log H ( X )
引理2.2.1 设 f (n)是满足 f (m n) f (m) f (n) 的半可 加数列,则: 1 1 lim f (n) inf f (n) n n n n
3. 平均符号熵
定义2.2.1:定义n长信源序列中平均每个信源符号所 携带的信息量为:
Hn (X ) 1 H ( X 1 , X 2 , , X n ) n
n
i 1 n
1. 熵的不等式
H ( X 1 , X 2 ,, X mn ) H ( X 1 , X 2 ,, X m ) H ( X m1 , X h(m) h(n),对任意整数 ,n成立 m
2. 半可加数列 若数列满足上述不等式,则称该数列为半可加数列.
存在,且:
H ( X ) inf
n
1 H ( X 1 , X 2 ,, X n ) n
Th2.2.3: 设 X {X 1 , X 2 ,, X n ,} 是平稳信源,则:
(1) H ( X ) l im H ( X n | X 1 , X 2 ,, X n1 ) 存在,且:
0.029 0.023
0.0225 0.021 0.0175
V K
X J,Q Z
0.008 0.003
0.002 0.001 0.001
信息论讲义-第二章
例
英文字母中“ 的出现概率为0.105, 的出现概率为0.105 的出现概率为0.023 英文字母中“e”的出现概率为0.105,“c”的出现概率为0.023, 的出现概率为0.023, “o”出现的概率为 0.001。分别计算它们的自信息量。 出现的概率为 0.001。分别计算它们的自信息量。 解:根据自信息量的定义 “e”的出现的信息量为 e 的出现的信息量为
n j
/ xi )
=
p( xi ) p( y j / xi ) p( y j )
m
, = p( y j ) p( xi / y j )
m j =1 j i j
p( y j / xi ) =
p( xi y j )
j =1 i j
∑ p( x y ) ∑ p( y ) p( x / y )
n
=
p( y j ) p( xi / y j )
释:
1 I ( x i ) = log = − log p( x i ) p( x i )
p(xi) ≤1, 表示事件 i出现的概率 , 表示事件x 出现的概率, 号的主要目的是: 取“-”号的主要目的是:使I(xi) ≥0 号的主要目的是
11
自信息量的单位 为底: 比特(bit) 以2为底: 比特(bit) (binary unit) 为底: 奈特(nat) 以e为底: 奈特(nat) (nature unit) 10为底 为底: 哈脱来(Hart) 以10为底: 哈脱来(Hart) (Hartley) 换算关系: 换算关系: 1 nat ≈ 1.443 bit 1 Hart ≈ 3.322 bit 一般取以2为底, bit的信息量就是二元概率 一般取以2为底,1 bit的信息量就是二元概率 空间在等概时的每个事件蕴含的自信息量。 空间在等概时的每个事件蕴含的自信息量。 计算机技术中的术语“比特” 注:计算机技术中的术语“比特”表示一个二 元数字, 元数字,每个二元数字所能提供的最大平均信息量 比特。 为1比特。
信息论PPT第二章
7
2.1 信源的数学模型及分类
B. N次扩展信源的信源空间 次扩展信源的信源空间
因为信源XN 的每一个消息[Xi],(i=1,2,…,N)均 因为信源 的每一个消息 , 均 由信源X的符号集 的符号集A:{a1,a2,…aq}中的 个符号组成, 中的N个符号组成 由信源 的符号集 中的 个符号组成, 所 以 , XN 的 某 一 个 具 体 符 号 α i 可 以 表 示 为 [αi]=(ai1,ai2,…aij…aiN) aij∈A:{a1,a2,…aq},这个关系 , 表明扩展信源的每个符号取值于同一个单符号信源 空间, 空间,A:{ a1,a2,…aq}。 。 因此扩展信源X 就有q 种不同的符号, 因此扩展信源 N就有 N 种不同的符号 , 可以表 示为 [XN ]: {[α1],[α2],…[αi],…[αqN]}; (i=1,2, qN)
X1 1 2 = P(x1) 1/4 1/4
H(x) - H(x1) = 1--获得1bit信息量 X2 1 2 3 4 5 6 7 = P(x2) 1/2 1/2 0 0 0 0 0 H(x1) - H(x2) =1 --获得1bit信息量 X3 = P(x3) 1 1 2 0 3 0 4 0 5 0 6 0 7 0
根据消息的不同的随机性质对信源进行分类: 根据消息的不同的随机性质对信源进行分类: 离散信源:信源输出的都是单个符号( 离散信源:信源输出的都是单个符号(或代 的消息, 码)的消息,它们符号集的取值是有限的或 可数的。 可数的。可用一维离散型随机变量X来描述这 些信源的输出。这样的信源称为~。 些信源的输出。这样的信源称为~。
H(x2) = log2 = 1(bit/符号)
8 H(x3) 0 = log1 = 0(bit/符号)
信息论第二讲
第二次测量获得的信息量 = I [P (x2)] - I [P (x3)]=1(bit) 第三次测量获得的信息量 = I [P (x3)] -0=1(bit) 至少要获得3个比特的信息量就可确切知道哪个灯泡已坏。
[例]:求离散信源的自信息量。 一次掷两个骰子,作为一个离散信源,求下列事件产生后提供的信 息量。
a. 仅有一个为3;
b. 至少有一个为4; c. 两个之和为偶数;
解:
一个骰子有6个符号,这一随机事件的总数(信源符号数)为36。 a事件样本数=5×2=10(另外一个不能为3)
b事件样本数=5×2+1=11(加上一个双4)
c事件样本数=18 则 p(a)=10/36=5/18; p(b)=11/36; p(c)=18/36=1/2;
i 1 i
q
X x1 x2 x3 x4 x5 x6 P 1 / 6 1 / 6 1 / 6 1 / 6 1 / 6 1 / 6
离散无记忆信源N次扩展信源
•
由离散无记忆信源输出N长的随机序列构成的信 源。符号取自同一符号集,其相互独立
2 , qN X N 1 , P(1 ), P( 2 ), , P( q N ) P( i )
底为e,单位为“奈特(nat, nature
信息论第2章 信息的度量
4
甲地极端情况: 极端情况1:晴天概率=1
X 晴 阴 大雨 小雨 P( x) 1 0 0 0 H ( X ) 1 log1 0 log0 0 log0 0 log0
lim log 0 H ( X ) 0(bit / 符号 ) 0 极端情况2:各种天气等概率分布
2.2.1 平均自信息(信息熵)的概念
定义2.3 随机变量X的每一个可能取值的自信息I(xi)的统计平 均值定义为随机变量X的平均自信息量:
H ( X ) E I ( xi ) p( xi ) log p( xi )
i 1 q
这里q为的所有X可能取值的个数。 熵的单位也是与所取的对数底有关,根据所取的对数底 不同,可以是比特 / 符号、奈特 / 符号、哈特莱 / 符号或者 是r进制单位/符号。通常用比特/符号为单位。 一般情况下,信息熵并不等于收信者平均获得的信息量, 收信者不能全部消除信源的平均不确定性,获得的信息量将 小于信息熵。
乙地极端情况:
极端情况1:晴天概率=1 Y 晴 小雨 P( y ) 1 0 H (Y ) 1 log1 0 log0 0(bit / 符号)
极端情况2:各种天气等概率分布
Y 晴 阴 P ( y ) 1/2 1/2
H ( X ) pi log pi H ( p1 , p2 ,
i 1 q
, pq ) H (p)
熵函数H(P)具有以下性质: 对称性
H ( p1, p2 , , pq ) H ( p2 , p1, , pq )= = H ( pq , p1, , pq1 )
说明熵函数仅与信源的总体统计特性有关。
信息论第二章ppt
特别,对于离散情形,记 xi 表示时刻t i 所取的值, { X (t )} 若 为平稳过程,则其各维联合概率分布均与 t i, t j,( i j) 时间起点无关,即当时 ,有 , P( x ) P( x ) ,
i j
P( xi xi1 ) P(x j x j 1 )
为描述随机过程在不同时刻的状态之间的统 计联系,一般可对任意个 n(n 2,3, ) 不同时 刻 t1, t2 , , tn T,引入 n 维随机变 量 ( X (t1 ), X (t2 ), , X (tn )) ,它的分布函数记为:
FX ( x1, x2 , , xn ; t1, t2 , , tn ) P{X (t1) x1, X (t2 ) x2 , , X (tn ) xn}, xi R, i 1,2, , n
当t1 t2 t
2
2 2 ( t ) C ( t , t ) R ( t , t ) X X X (t ) 时, X
。
如果对每一个 t T ,随机过程 {X (t ), t T }的二 阶矩 E[ X (t )] 都存在,则称它为二阶过程。二阶过 程的相关函数总存在。 例3. 求随机相位正弦波的均值函数、方差函 数和自过程
(1) 如果X (t ) E[ X (t )] X (t ) 以概率1成立,称随机过程{ X (t )} 的均值具有各态历经性; (2) 若对任意实数 ,RX ( ) E[ X (t) X (t )] X (t) X (t ) 以概率1成立,则称随机过程 {X (t )} 的自相关函数具有各 态历经性,特别当 0 时,称均方值具有各态历经 性; (3) 如果随机过程 { X (t )} 的均值和自相关函数都具有各 态历经性,则称 { X (t )}是各态历经过程,或称{ X (t )} 是各 态历经的。各态历经性有时也称作遍历性或埃尔谷德性。
信息论基础课件chp2
定度的差
观察者站在通信系统总体立场上
通信前:输入随机变量X和输出随机变量Y之间没有任何关 联关系,即X与Y统计独立:p(xi yj)=p(xi)p(yj) 先验不确定度 I'(xiyj)lo2gp(xi)1p(yj)
通信后:输入随机变量X和输出随机变量Y之间由信道的统 计特性相联系,其联合概率密度: p(xi yj)=p(xi)p(yj /xi )= p(yj)p(xi / yj) 后验不确定度
(4)两个独立事件的联合信息量应等于它们分别的信息量 之和。
根据上述条件可以从数学上证明这种函数形式是对数形式。
定义2.1 随机事件的自信息量定义为该事件发生概
率的对数的负值。设事件x i 的概率为 p ( xi ),则它的
自信息定义为
I(xi)deflogp(xi)logp(1xi)
当统计独立时,表明xi和yj之间不存在统计约束关系,从yj 得不到关于的xi任何信息,反之亦然。
I(xiyj)lo2g p(xi)1 p(yj)lo2g p(x1 iyj)0
互信息量可为正值或负值
当后验概率大于先验概率时,互信息量为正
当后验概率小于先验概率时,互信息量为负
当后验概率与先验概率相等时,互信息量为零。这就是 两个随机事件相互独立的情况。
解:(1) I(a)log20.0643.96bit I(c)log20.0225.51 bit
( 2 ) I ( a c ) l o g 2 0 . 0 6 4 0 . 0 2 2 3 . 9 6 5 . 5 1 9 . 4 7 b i t
( 3 )I( c |a ) lo g 2 0 .0 4 4 .6 4 b it
信息论第二章课件及习题答案.ppt
2020/1/29
17
图2.2.1
H(X) 1.0
0.5
0
0.5
2020/1/29
1P
18
§2.2 离散型随机变量的平均 自信息量(熵)
定义2.2.2(条件熵) 给定一个二维离散型
随机变量 {(X, Y), (xk, yj), rkj,
k=1~K; j=1~J}。
量定义为I(xk; yj)
2020/1/29
2
§2.1 离散型随机变量的非平 均信息量(事件的信息量)
(本章将给出各种信息量的定义和 它们的性质。)
定义2.1.1(非平均互信息量) 给定 一个二维离散型随机变量
{(X, Y), (xk, yj), rkj, k=1~K; j=1~J} (因此就给定了两个离散型随机
(条件的非平均自信息量实际上是非平均自信息量的简单推 广,只不过将概率换成了条件概率)。
条件的非平均自信息量的特殊性质: h(xk|yj)=h(xk)-I(xk; yj) 。
2020/1/29
12
§2.1 离散型随机变量的非平 均信息量(事件的信息量)
定义2.1.5(联合的非平均自信息量) 给定一个二维离散型随机 变量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}。事件(xk, yj)∈(X, Y) 的自信息量定义为
I (xk ; y j )
log a
rkj qk wj
log a
P((X ,Y ) (xk , y j )) P( X xk )P(Y y j )
2020/1/29
4
§2.1 离散型随机变量的非平 均信息量(事件的信息量)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.2.1 互信息量(续)
A(新闻) 2
H 2台(天津) p( H 2 ) 0.4
A(体育) 3
求:当接收信号为A2时,哪个电台发射的可能性大?
2.2.1 互信息量(续)
解:从概率论角度分析,根据贝叶斯公式
( p H1 | A2)= ( p H 2 | A2)= p( H1 ) p( A2 | H1 ) 0.6 0.2 3 = p( H1 ) p( A2 | H1 ) p( H 2 ) p( A2 | H 2 ) 0.6 0.2 0.4 0.4 = 7
例:一副充分洗乱了的牌(含52张牌),求:(1) 任一特定排列 (2) 若从中抽取13张牌,所给出的 点数都不相同的信息量? 。
解:依题意 1) 52张牌共有52!种排列,假设每种排列方式等概出现,则 所给出的信息量
I ( xi ) log p( xi ) log1/ 52! 225.581 bit
自信息的推导
• 某事件发生所含有的信息量应该是该事件发生的先验 概率的函数。即:
I (ai) = f [ p(ai)]
• 根据客观事实和人们的习惯概念,函数 f [ p(ai)] 应满足 以下条件:
(1)它应是先验概率p(ai)的单调递减函数,即当 p (a1) > p (a2) 时,有 f [ p (a1)] < f [ p (a2) ] (2)当p (ai) =1时, f [ p (ai)] = 0 (3)当p (ai) =0时, f [ p (ai)] = (4)两个独立事件的联合信息量应等于它们分别的信息量之和。 即统计独立信源的信息量等于它们分别的信息量之和。
4.贝叶斯公式
P( Bi | A)
P( Bi ) P( A | Bi )
P( B ) P( A | B )
j 1 j j
n
2.1.2 条件自信息量(续)
例:有一正方形棋盘,分64个格,如果甲将一棋子放在某 1 2 3 4 5 6 7 8 格内,让乙猜测。 1.将方格按顺序编号 (1,2, … ,64),让乙猜测棋 子所在格的序号。 2.将方格按行,列编号(如图 所示),甲告诉乙棋子所在行 或者列的编号,让乙猜测位 置。 计算乙猜中的信息量。
2.2.1 互信息量(续)
例: 8个串联的灯泡x1,x2,…,x8,其损坏的可能性是等概率 的,现假设其中有一个灯泡已损坏,问每进行一次测量可获得多 少信息量?
解:收到某消息获得的信息量(即收到某消息后获得关于某事件 发生的信息量) =不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) - (收到此消息后关于某事件发生的不确定性)
2.1.1 自信息量
一、简单事件
• 自信息量 任意简单随机事件xi的发生概率 为p(xi),则自信息量为
I xi log p xi
释: (1) p(xi) ≤1, 表示事件xi出现的概率,
取“-”号的主要目的是:使I(xi) ≥0
2.1.1 自信息量(续)
– 具有某种概率分布的随机事件不管发生与否,都存在不确 定度,不确定度表征了该事件的特性,而自信息量是在该 事件发生后给予观察者的信息量。
2.2.1 互信息量(续)
已知8个灯泡等概率损坏,所以先验概率P (x1)=1/8 ,即
I [ P( x1 )] log2 1 3(bit) P ( x1 )
一次测量后,剩4个灯泡,等概率损坏,P (x2)=1/4
第一次测量获得的信息量 = I [P (x1)] - I [P (x2)]=1(bit) 经过二次测量后,剩2个灯泡,等概率损坏,P (x3)=1/2
当事件xi发生后,表示事件xi所提供的信息量。
2.1.1 自信息量(续)
(3) 单位:取决于对数的底 比特(以2为底) I(xi)=-log2 p(xi) 奈特(以e为底) I(xi)=-loge(xi) 哈特来(以10为底) I(xi)=-log10(xi)
– 根据换底公式得:
logb X loga X logb a
第二章 信息的统计度量
内容提要 2.1 自信息量和条件自信息量 事 件 2.2 互信息量和条件互信息量 2.3 离散集的平均自信息量 2.4 离散集的平均互信息量 2.5 连续随机变量的互信息和相对熵
离 散 随 机 变 量
2.1 自信息量和条件自信息量
• 2.1.1 自信息量 简单事件 联合事件 • 2.1.2 条件自信息量
2.2.1 互信息量(续)
(3)互信息量小于自信息量
任何两个事件之间的互信息量不可能大于其 中任一事件的自信息量。
I(xi ; yj) ≤ I(xi ) I(xi ; yj) ≤ I(yj) 物理意义 表明:自信息量I(xi)是为了确定事件xi的出 现所必需提供的信息量,也是任何其他事件所 能提供的关于事件xi的最大信息量。
I xi y j log p xi y j
def
• 其中,xiyj 是积事件;
p( xiyj) 是二维联合概率
2.1.1 自信息量(续)
例:同时抛一对质地均匀的骰子,每个骰子各面朝上的概率均 为1/6。试求: (1)“3和5同时发生”的自信息量 (2)“两个1同时发生”的自信息量 (3)“两个点数中至少有一个是1”的自信息量 解: (1)甲3乙5 , 甲5乙3
p( H 2 ) p( A2 | H 2 ) 0.4 0.4 4 = = p( H1 ) p( A2 | H1 ) p( H 2 ) p( A2 | H 2 ) 0.6 0.2 0.4 0.4 7
接收H2 可能性 大
从互信息量角度分析
( I H1; A2)= log p(H1 ) [ log p(H1 | A2 )] = log 0.6 log 7 =0.222-0.368=-0.146 bit ( I H2 ; A2)= log p(H2 ) [ log p(H2 | A2 )]= log 0.4 log
③条件自信息量单位同自信息量。
2.1.2 条件自信息量(续)
概率知识复习 1.乘法公式
P( AB) P( B) P( A | B) P( AB) P( A) P( B | A)
2.全概率公式
P( A) P( Bi ) P( A | Bi )
i 1
n
P( AB) 3.条件概率公式 P( A | B) P( B)
2) 52张牌共有4种花色、13种点数,抽取13张点数不同的 牌的概率如下:
4 I ( xi ) log p( xi ) log 13 13.208 bit C52
13
2.1.1 自信息量(续)
二、联合事件
• 联合自信息量 二维联合集XY上元素( xi yj ) 的自信息量定义为
– 一个出现概率接近于1的随机事件,发生的可能性很大,所 以它包含的不确定度就很小; – 反之,一个出现概率很小的随机事件,很难猜测在某个时刻 它能否发生,所以它包含的不确定度就很大; – 若是确定性事件,出现概率为1,则它包含的不确定度为0。
(2) 意义: 当事件xi发生前,表示事件xi发生的不确定性。
自信息的推导(续)
• 可以证明对数函数满足上述条件:
1 I (ai ) f [ P(ai )] logr P(ai )
• 1928年,信息论的先驱者之一哈特莱(Hartley)首先研 究了具有Nm个组合的单个消息信源。他对这类非概率 信源进行了研究,并给出了最早的信息度量公式, 定义 为可能消息量的对数: I = logNm = mlogN
物理意义:
p( xi | y j )
1 1 log log p( xi ) p ( xi ) p ( xi | y j )
自信息量 条件信息量
• 互信息量是一种消除的不确定性的度量。
• 互信息量=先验的不确定性-尚存在的不确定性。 • 表示事件xi 发生后传递给事件yj的信息量; • 表示事件yj发生所能提供的关于事件xi的信息量。
的自信息量为: I(0)= I(1)= - log2 (1/2)=log22=1 bit
例:若是一个m位的二进制数,因为该数的每一位可 从0, 1两个数字中任取一个,因此有2m个等概率的 可能组合。所以I= -log2(1/2m)=m bit,就是需要m 比特的信息来指明这样的二进制数。
2.1.1 自信息量(续)
p(A) = 1/36 ×2=1/18
(2)甲1乙1
I(A)=-log p(A) =4.17 bit I(B)=-log p(B) =5.17 bit I(C)=-log p(C) =1.71 bitp(B) = Nhomakorabea1/36
(3)扣掉 甲、 乙都不是1的概率
p(C) = 1-6/5 × 5/6=11/36
p xi y j p yj 3 bit
2.2 互信息量和条件互信息量
• 2.2.1 互信息量 定义 性质 • 2.2.2 条件互信息量
2.2.1 互信息量
一、互信息量定义
对两个离散随机事件集X和Y,事件yj的出现给出关于事件 xi的信息量,其定义式为
I(xi ; yj)= log
A B C D E F G H
2.1.2 条件自信息量(续)
Answer:
p xi y j 1/ 64
1) I xi y j log p xi y j 6 bit 2)I xi | y j log p xi | y j log
解:根据自信息量的定义,解得 “e”的自信息量: I (e) log2 0.105 3.25bit “c”的自信息量:I (c) log2 0.023 5.44bit “o”的自信息量:I (o) log2 0.001 9.97bit