第二章.离散信息的度量
第二章 离散信息的度量
Copyright (C) School of Information Engineering of BUPT, Beijing, China
2.2.1 互信息的性质
1)互易性:I (x;y) = I (y;x) 2)当事件x ,y 统计独立时,互信息为零,即 I (x;y) = 0; 3)互信息可正可负; 4)任何两事件之间的互信息不可能大于其中任一事 件的自信息。
本节包括以下内容
互信息
互信息的性质
条件互信息
Copyright (C) School of Information Engineering of BUPT, Beijing, China
2.2.1 互信息
离散随机事件x=ai和y=bj 之间的互信息 (x∈X ,y ∈Y)定义为:
I X ;Y (ai ; b j ) log
Copyright (C) School of Information Engineering of BUPT, Beijing, China
从本例中我们看到,事件“降雨”本来不确定性 很大(=3 bit),但由于事件“空中有乌云”的出现, 不确定性减小(=0.322 bit),这是因为“空中有乌 云”提供了关于“降雨”正的信息量(=2.678 bit)。 相反,事件“无雨”本来不确定性较小(=0.193 bit ),但由于事件“空中有乌云”的出现,不确定 性反而变大(=2.322 bit),这是因为“空中有乌云” 提供了关于“无雨”负的信息量(= -2.129 bit)。 一般地说,如果某事件x提供了关于另一事件y正 的信息量,说明x的出现有利于y的出现;如果某事件 x提供了关于另一事件y负的信息量,说明x的出现不 利于y的出现。
《信息论与编码》课件1第2章
如果消息ai已发生,则该消息发生所含有的自信息定 义为
1
1
I (ai ) log P(ai ) log pi
(2.4)
第2章 离散无记忆信源与信息熵
可以很容易地证明, 自信息的定义满足上面提出的四个
(1) 此自信息的定义是根据消息发生的概率建立的一个 工程定义,而不是根据这个消息对人的实际意义而建立的 定义。这一纯粹技术性的定义仅仅抓住了“信息”一词在
(2) 自信息I(ai) 在消息ai发生之前,自信息I(ai)表示ai发生的不确定性; 在消息ai发生以后,自信息I(ai)表示ai所含有的(或提
第2章 离散无记忆信源与信息熵
(3) 在式(2.4)中关于对数的底未作明确规定。这是 因为对数的底仅仅影响到度量的单位,实际中可根据
如果取对数的底为2,则所得信息量的单位为比特 (bit, binary unit),此时logx用lbx
第2章 离散无记忆信源与信息熵
第2章 离散无记忆信源与信息熵
2.1 离散无记忆信源 2.2 自信息和熵 2.3 熵函数的性质 2.4 联合事件的熵及其关系 2.5 连续信源的信息测度 习题2
第2章 离散无记忆信源与信息熵
信息理论的研究对象是以各类信息的获取、表示、 传输和处理为目的的信息系统。图2-1给出了一个典型 的通信系统物理模型。在这样的通信系统中,一个贯 穿始终的、最基本的问题便是信息,即信源输出的是 信息,在系统中传输的是信息,接收者获得的也是信 息。可见,在信息理论的学习和研究中,首先需要对
信息论第二章信息的度量
I(xi yj ) = - log p(xi yj ) = log 60 = 5.907(比特)
(2)在二维联合集X Y上的条件分布概率为 事件提供给甲的信息量为条件自信息量
p(y j
1 xi ) 12
,这一
I(yj︱xi) = -log p(yj︱xi) = log12 = 3.585(比特)
2.1.2 互信息量和条件互信息量
2.联合自信息量
XY
P
(
XY
)
p(a a 11 b b 11 ,) ,,,pa (1 a b 1m bm ,) ,,,pa (a nb n1 b,1) ,,,p a(nb am nbm )
其中 0 p(aibj ) 1(i 1,2,,n; j 1,2,,m)
nm
p(aibj ) 1。
根据概率互换公式p(xi yj) = p(yj︱xi)q(xi)=φ(xi︱yj)ω(yj) 互信息量I(xi ;yj )有多种表达形式:
I(xi;yj)loq(p x g (ix ) iy (jy )j)I(xi)I(yj)I(xiyj) (2-7)
I(xi;yj)lopg (y(yjjx)i)I(yj)I(yj xi)(2-8)
第2章 信息的度量
内容提要:
根据香农对于信息的定义,信息是一个系 统不确定性的度量,尤其在通信系统中, 研究的是信息的处理、传输和存储,所以 对于信息的定量计算是非常重要的。本章 主要从通信系统模型入手,研究离散情况 下各种信息的描述方法及定量计算,讨论 它们的性质和相互关系。
பைடு நூலகம் 2.1 自信息量和互信息量
x
i(i = 1,2,
X q(X)
x1 1
3
x2 1
信息论第2章(2010)
ai 后所获得的信息量。
自信息量的性质:
1)非负性。 2) 单调递减性。 3) 可加性。
I xi ,y j log pxi ,y j
若两个符号x i , y j同时出现,可用联合概率px i , y j 来表示 这时的自信息量为 I y j I xi | y j
例题:二元信源,每个符号发生的概率分别为p(x1)=p,p(x2)=1-p. 试计算信源熵,并画出熵函数H(p)和p的曲线图。
① 等概时(p=0.5):随机变量具有最大的不确定性
② p=0或1时:随机变量的不确定性消失。
信息熵的物理意义
1)表示了信源输出前,信源的平均不确定性。 2)表示了信源输出后,每个消息或符号所提供的 平均信息量。 3)信息熵反映了变量X的随机性。
平均自信息量H (X ) 表示信源输出消息中的每个符号所含信息量的统计 平均值,其表达式为 q
H ( X ) EI ( xi ) P( xi ) log P( xi )
i 1
式中, E 表示统计平均,
I ( xi ) 表示符号 x i 包含的自信息量。
平均信息量可以表示为:
任何一个物理量的定义都应当符合客观规律和逻辑上 的合理性,信息的度量也不例外。直观经验告诉我们: ① 消息中的信息量与消息发生的概率密切相关:出现消 息出现的可能性越小,则消息携带的信息量就越大。 ② 如果事件发生是必然的(概率为1),则它含有的信息 量应为零。如果一个几乎不可能事件发生了(概率趋 于0),则它含有巨大的信息量。 ③ 如果我们得到不是由一个事件而是由若干个独立事件 构成的消息,那么我们得到的信息量就是若干个独立 事件的信息量的总和。
② 联合信源中平均每个符号对所包含的信息量?
离散信息的度量
例
2.2
有8×8=64个方格,甲将一棋子放入方格中,让乙猜: 1)将方格按顺序编号,让乙猜顺序号的困难程度为 何? 2)将方格按行和列编号,当甲告诉乙方格的行号后, 让乙猜列顺序号的困难程度为何? 解: 两种情况下的不确定性 1) I(xylog2 p(x|y)=-log2(1/8)=3 bit
300000
解: 可能的画面数是多少? 10 代入公式:
p
1 10 300000
H ( X ) log2 (1/ p) log2 (10300000 ) 106 bit
例
2.5
A、B两城市天气情况概率分布如下表:
晴 A城市 B城市 0.8 0.4 阴 0.15 0.3 雨 0.05 0.3
解:
三种情况都是求联合自信息。设x为红球数,y为白球数。 (1)
1 1 C90 C10 90 10 PXY (1,1) 2 / 11 2 100 99 / 2 C100
I (1,1) log 2 / 11 2.460 比特
(2)
2 C10 10 9 / 2 PXY (0,2) 2 1 / 110 C100 100 99 / 2
其中,q(ui)为节点ui的概率,H(ui)为节点ui的分支熵。
例
2.6
1/2 p
a1: p/3
b1: 2p/3
2/3
b2: 2/3
1/2
a2: p/3
r: 1
1-p
a3: 2(1-p)/3
1/3
a4: 1/3
条件熵
★
条件熵:联合集XY上,条件自信息I(y|x)的平均值
H (Y / X ) E [ I ( y / x)]
信息论-信息论第四次课ch2--平均信息量
Jenson不等式
q
q
f [ k xk ] k f (xk )
k 1
k 1
当且仅当x1=x2=…=xq或λk=1(1 ≦k≦ q)且λj=0(j ≠k)时,等 式成立
1.凸函数
★ 特别地,当xk为离散信源符号的
取值,λk为相应的概率,f(x)为 对数函数时,有
E[log (x)] log[E(x)]
• A measure of the information lost when Q is used to approximate P • A measure of the inefficiency of assuming that the distribution is q
when the true distribution is p:
举例
例2.13
对某城市进行交通忙闲的调查,并把天气分成晴 雨两种状态,气温分成冷暖两种状态。调查结果 得到的各数据联合出现的相对频率如下表所示。
D( p // q) (1 1/ 2) log 1 1/ 2 1/ 2 log 1/ 2
11/ 4
1/ 4
1 (log 3) / 2 0.2075 bit
2.信息散度
解:
D(q // p) (11/ 4) log 11/ 4 1/ 4 log 1/ 4
11/ 2
1/ 2
3 log 3 1 0.1887bit 4
x
y
2.信息散度
定
义 ★ P和Q为定义在同一概率空 间的两个概率测度,则P相 对于Q的散度:
D(
P
//
Q)
x
P(
x)
log
P( Q(
x) x)
信息论与编码第二章信息的度量
14
2.1.1 自信息量
(1)直观定义自信息量为:
收到某消息获得的信息量 = 不确定性减少的量
= 收到此消息前关于某事件发生的不确定性 收到此消息后关于某事件发生的不确定性
15
2.1.1 自信息量
举例:一个布袋中装有对人手感觉完全 一样的球,但颜色和数量不同,问下面 三种情况下随意拿出一个球的不确定程 度的大小。
18
2.1.1 自信息量
应用概率空间的概念分析上例,设取红球的状 态为x1,白球为x2,黑球为x3,黄球为x4,则 概率空间为: x2 (1) X x1
P( x) 0.99 0.01
( 2)
( 3)
X x1 P( x) 0.5
一、自信息和互信息
二、平均自信息
2.1.2 互信息
三、平均互信息
2.1.1 自信息量
信源发出的消息常常是随机的,其状态存在某种 程度的不确定性,经过通信将信息传给了收信者, 收信者得到消息后,才消除了不确定性并获得了 信息。
获得信息量的多少与信源的不确定性
的消除有关。
不确定度——惊讶度——信息量
第二章:信息的度量
自信息和互信息 平均自信息 平均互信息
2.1.1 自信息(量) (续9)
例4:设在一正方形棋盘上共有64个方格,如果甲将一 粒棋子随意的放在棋盘中的某方格且让乙猜测棋子所 在位置。 (1) 将方格按顺序编号,令乙猜测棋子所在的顺序 号。问猜测的难易程度。
(2)将方格按行和列编号,甲将棋子所在方格的列编 号告诉乙之后,再令乙猜测棋子所在行的位置。问猜 测的难易程度。
自信息是事件发生前,事件发生的不确定性。
信息论编码 第二章信息度量1
50个红球,50个黑球
Y
20个红球,其它4种 颜色各20个
Z
问题:能否度量、如何度量??
2.3.2信源熵数学描述
信源熵
• 定义:信源各个离散消息的自信息量的数学期望 (即概率加权的统计平均值)为信源的平均信息 量,一般称为信源的信息熵,也叫信源熵或香农 熵,有时也称为无条件熵或熵函数,简称熵。 • 公式: n 1 H ( X ) = E[ I ( xi )] = E[log2 ] = −∑ p( xi ) log2 p( xi ) p( xi ) i =1 • 熵函数的自变量是X,表示信源整体,实质上是无 记忆信源平均不确定度的度量。也是试验后平均 不确定性=携载的信息 信息量为熵 • 单位:以2为底,比特/符号 • 为什么要用熵这个词,与热熵的区别?
3
( 2)
∑ p ( x ) = 1, ∑ p ( y
i =1 m i j =1
n
m
j
) = 1,∑ p ( xi / y j ) = 1,
i =1 n
n
概 率 复 习
∑ p( y
j =1 n
j
/ xi ) = 1, ∑ ∑ p ( xi y j ) = 1
j =1 i =1 m
m
( 3) ( 4) (5)
1
对天气x1 ,Q p( x1 / y1 ) = 0,∴不必再考虑x1与y1之间 信息量
对天气 x 2 : I ( x 2 : y 1 ) = log
2
p ( x 2 / y1 ) = log p ( x2 )
2
1/ 2 = 1( bit ) 1/ 4
同理 I ( x 3 : y 1 ) = I ( x 4 : y 1 ) = 1( bit ), 这表明从 y 1 分别得到了
信息论基础第2章离散信源及其信息度量[83页]
I (ai ) logr P(ai ) (r进制单位)
通常采用“比特”作为信息量的实用单位。在本书中,且为了 书写简洁,底数 2 通常省略不写。
【例】假设有这样一种彩票,中奖概率为 0.0001,不中 奖概率为 0.9999。现有一个人买了一注彩票。 试计算
定义: 设信源的概率空间为
X
P( x)
a1 P(a1
)
a2 P(a2 )
aq
P(aq )
则自信息量的数学期望定义为信源的平均自信息量,即
q
H ( X ) E[I (ai )] P(ai ) log2 P(ai ) (bit/符号) i 1
简记为
H ( X ) P(x) log2 P(x) xX
(1) 事件“彩票中奖”的不确定性; (2) 事件“彩票不中奖”的不确定性; (3) 事件“彩票中奖”和事件“彩票不中奖”相
比较,哪个提供的信息量较大?
【例】 对于 2n 进制的数字序列, 假设每一符号的出现相互 独立且概率相等,求任一符号的自信息量。
解:
根据题意, P(ai ) =1/2n,所以 I (ai ) log P(ai ) log(1/ 2n ) n(bit)
一般的多符号离散信源输出的随机序列的统计特性 比较复杂,分析起来也比较困难。将在第 3 章中详细讨 论。
《信息论基础》
2.3 离散随机变量的信息度量
一、自信息量I(xi)和信息熵H(X)
定义: 随机事件的自信息量定义为该事件发生概率的
对数的负值。设集合 X 中的事件 x ai 发生概率为 P(ai ) ,
按输出符号之间依赖关系分类,多符号离散信源 可分为无记忆信源和有记忆信源。
信息论与编码第三版资料讲解
自信息量:事件ai发生所含有的信息量
I (ai )
f [P(ai )] logr
2
第三页,共248页。
第1章
绪论
第四页,共248页。
1.1 信息(xìnxī)的概念
4
第五页,共248页。
几个(jǐ ɡè)常见概 念
情报:是人们对于某个特定对象所见、所闻、所理 解而产生的知识。
知识:一种具有普遍和概括性质的高层次的信息 , 以实践为基础,通过抽象思维(sīwéi),对客观事物 规律性的概括。
25
第二十六页,共248页。
2.2 离散(lísàn)信源的信息熵
基本的离散信源: 输出(shūchū)单符号消息,且这些消息间两两互不相
容。用一维随机变量X来描述信源的输出(shūchū),其 数学模型可抽象为:
X P( x)
a1
P(a1
)
a2 P(a2 )
a3 P(a3 )
... ...
消息:用文字、符号、语音、图像等能够被人们感 觉器官所感知的形式,把客观物质运动和主观思维 (sīwéi)活动的状态表达出来。
5
第六页,共248页。
香农信息(xìnxī)的度量
(1)样本空间 某事物各种可能出现的不同状态。
(2)概率测度 对每一个(yī ɡè)可能选择的消息指定一个(yī ɡè) 概率。
1924年奈奎斯特(Nyquist)的 “影响电报速率因素 的确定” 。
1928年哈特莱(Hartley) 的“信息传输” 一文研究 了通信系统传输信息的能力,并给出了信息度量 方法。
16
第十七页,共248页。
1946年柯切尔尼柯夫的学位论文“起伏噪声下的潜在抗干扰 理论”,根据最小错误概率准则和最小均方误差准则研究了 离散和连续信道(xìn dào)的最佳接收问题。
信息论与编码基础第2章离散信源及其信息测度
故:
P1(Xi) = P2 (Xi)= ···= PN (Xi)
N
P( X ) P( X1, X 2, , X N ) P( X i ) i 1
2.1 信源的数学模型及分类
15
设各随机变量 Xi 取自同样符号集 A={a1, a2, …, aq},则:
N
P( X i ) P(ai1 , ai2 ,..., aiN ) P(aik ), ik {1, 2,..., q} k 1
... ...
aq P(aq )
q
P(ai ) 1
i 1
称事件ai发生所含有的信息量为 ai 的自信息量。定义为:
I (ai )
f [P(ai )] logr
1 P(ai )
logr
P(ai )
2.2 离散信源的信息熵
24
I(ai)代表两种含义:(1) 当事件ai 发生以前,表示事件ai 发生 的不确定性;(2) 当事件ai 发生以后,表示事件ai 所提供的信 息量。
1
信息论与编码基础
第二章 离散信源及其信息测度
第二章 离散信源及其信息测度
2
消息是信息的载荷者。对信息的研究,要从消息开始。 信源是产生消息或消息序列的源头。我们并不关心信源的内
部结构,不关心消息的产生原因和过程,而研究信源各种可 能的输出,以及输出各种可能消息的不确定性。 对收信者而言,在收到消息之前,对于信源发送什么消息是 不可预知的、随机的。因此可以用随机变量和随机过程来描 述信源输出的消息,或者说用一个概率空间来描述信源。 不同的信源输出不同类型的消息。可以根据消息不同的随机 性质来对信源进行分类。
qN
qN N
k 1
P(i ) P(aik ) 1
第二章信源及其信息量
2
1 2
3
计算出各事件Байду номын сангаас自信息量列表2-1如下:
消息xi 概率分布q (xi) 自信息量I (xi)
x1 1/3 log 3
x2 1/6 log 6
x3 1/2 log 2
自信息量I(ai)代表两种含义:
1.事件ai发生以前,表示事件发生的先验不确定性
x1 x2 x3 X 3 x0 (3)信源三: 等概信源 q ( X ) 0 . 25 0 . 25 0 . 25 0 . 25 3 熵 H(X3) = -4×0.25 log 0.25 = log4 = 2(比特/符号)
(4)信源四: 信源为确定事件
⑵.平均互信息量
定义xi ∈ X和yj ∈ Y之间的互信息量为I(xi ;yj ),在集合X上对 I(xi ;yj )进行概率加权统计平均,可得I(X;yj)为:
I ( X ; y j ) p xi y j I ( xi ; y j ) p xi y j log
i i
p ( xi y j ) p ( xi )
第2章 离散信源及其信息熵
内容提要: 根据香农对于信息的定义,信息是一个系 统不确定性的度量,尤其在通信系统中, 研究的是信息的处理、传输和存储,所以 对于信息的定量计算是非常重要的。本章 主要研究离散信源下各种信息的定量计算 ,讨论它们的性质和相互关系。
2.1 信源基本分类及其数学模型
在通信系统中,收信者在未收到信息以前, 对信源发出什么样的消息是不确定的,是随机的, 所以可以用随机变量、随机矢量或随机过程来描 述信源输出的消息,或者说用一个样本空间及其 概率测度来描述信源。 不同的信源根据其输出消息的不同的随机性 质进行分类。
信息论与编码第二章答案
第二章信息的度量2.1信源在何种分布时,熵值最大?又在何种分布时,熵值最小?答:信源在等概率分布时熵值最大;信源有一个为1,其余为0时熵值最小。
2.2平均互信息量I(X;Y)与信源概率分布q(x)有何关系?与p(y|x)又是什么关系?答:若信道给定,I(X;Y)是q(x)的上凸形函数;若信源给定,I(X;Y)是q(y|x)的下凸形函数。
2.3熵是对信源什么物理量的度量?答:平均信息量2.4设信道输入符号集为{x1,x2,……xk},则平均每个信道输入符号所能携带的最大信息量是多少?答:kk k xi q xi q X H i log 1log 1)(log )()(2.5根据平均互信息量的链规则,写出I(X;YZ)的表达式。
答:)|;();();(Y Z X I Y X I YZ X I 2.6互信息量I(x;y)有时候取负值,是由于信道存在干扰或噪声的原因,这种说法对吗?答:互信息量)()|(log );(xi q yj xi Q y x I ,若互信息量取负值,即Q(xi|yj)<q(xi),说明事件yi 的出现告知的是xi 出现的可能性更小了。
从通信角度看,视xi 为发送符号,yi 为接收符号,Q(xi|yj)<q(xi),说明收到yi 后使发送是否为xi 的不确定性更大,这是由于信道干扰所引起的。
2.7一个马尔可夫信源如图所示,求稳态下各状态的概率分布和信源熵。
答:由图示可知:43)|(41)|(32)|(31)|(41)|(43)|(222111110201s x p s x p s x p s x p s x p s x p 即:43)|(0)|(41)|(31)|(32)|(0)|(0)|(41)|(43)|(222120121110020100s s p s s p s s p s s p s s p s s p s s p s s p s s p 可得:1)()()()(43)(31)()(31)(41)()(41)(43)(210212101200s p s p s p s p s p s p s p s p s p s p s p s p得:114)(113)(114)(210s p s p s p )]|(log )|()|(log )|()[()]|(log )|()|(log )|()[()]|(log )|()|(log )|()[(222220202121211111010100000s s p s s p s s p s s p s p s s p s s p s s p s s p s p s s p s s p s s p s s p s p H 0.25(bit/符号)2.8一个马尔可夫信源,已知:0)2|2(,1)2|1(,31)1|2(,32)1|1(x x p x x p x x p x x p 试画出它的香农线图,并求出信源熵。
第二章:信息的度量
8. 上凸性: H (p ) 是严格的上凸函数,设 . 上凸性:
p = ( p1 , p2 ,L , pq ), p ' = ( p1 ', p2 ',L , pq '), ∑ pi = 1, ∑ pi ' = 1
则对于任意小于1的正数 α , ( 0 < α < 1 ) 有以下不等式成立:
性说明熵函数仅与信源的总体统计特性有关。
BUPT Press
2. 确定性: . 确定性: 在概率矢量中,只要有一个分量为1,其它分量必为0,它们对熵 的贡献均为0,因此熵等于0。也就是说确定信源的不确定度为0。 3. 非负性:H (p) = H ( p1 , p2 ,L , pq ) ≥ 0 . 非负性: 对确定信源,等号成立。信源熵是自信息的数学期望,自信息是 非负值,所以信源熵必定是非负的。 4. 扩展性: lim H q +1 ( p1 , p2 ,L , pq − ε,ε ) = H q ( p1 , p2 ,L , pq ) . 扩展性: ε →0 这个性质的含义是增加一个基本不会出现的小概率事件,信源的 熵保持不变。 5. 连续性: lim H ( p1 , p2 ,L , pq −1 − ε, pq + ε ) = H ( p1 , p2 ,L , pq ) 连续性: ε →0 即信源概率空间中概率分量的微小波动,不会引起熵的变化。
BUPT Press
例2.1.3 某地二月份天气出现的概率分别为晴1/2,阴1/4, 雨1/8,雪1/8。某天有人告诉你:“今天不是晴天”,把 这句话作为收到的消息y1,求收到y1后, y1与各种天气的 互信息量。 解:把各种天气记作x1(晴),x2(阴),x3(雨),x4(雪),收到消 息y1后,阴天发生的概率为
彭代渊王玲-信息论与编码理论-第二章习题解答精选全文
1第2章 信息的度量2.1 同时扔一对质地均匀的骰子,当得知“两骰子面朝上点数之和为5”或“面朝上点数之和为8”或“两骰子面朝上点数是3和6”时,试问这三种情况分别获得多少信息量?解:某一骰子扔得某一点数面朝上的概率是相等的,均为1/6,两骰子面朝上点数的状态共有36种,其中任一状态出现都是等概率的,出现概率为1/36。
设两骰子面朝上点数之和为事件a ,有:⑴ a=5时,有1+4,4+1,2+3,3+2,共4种,则该事件发生概率为4/36=1/9,则信息量为I(a)=-logp(a=5)=-log1/9≈3.17(bit)⑵ a=8时,有2+6,6+2,4+4,3+5,5+3,共5种,则p(a)=5/36,则I(a)= -log5/36≈2.85(bit) ⑶ p(a)=2/36=1/18,则I(a)=-log1/18≈4.17(bit)2.2 如果你在不知道今天是星期几的情况下问你的朋友“明天是星期几”,则答案中含有多少信息量?如果你在已知今天是星期三的情况下提出同样的问题,则答案中你能获得多少信息量(假设已知星期一至星期日的排序)?解:设“明天是星期几”为事件a :⑴ 不知道今天是星期几:I(a)=-log1/7≈2.81(bit) ⑵ 知道今天是星期几:I(a)=-log1=0 (bit)2.3 居住某地区的女孩中有20%是大学生,在女大学生中有80%是身高1米6以上的,而女孩中身高1米6以上的占总数的一半。
假如我们得知“身高1米6以上的某女孩是大学生”的消息,求获得多少信息量?解:设“居住某地区的女孩是大学生”为事件a ,“身高1米6以上的女孩”为事件b ,则有: p(a)= 0.2,p(b|a)=0.8,p(b)=0.5,则“身高1米6以上的某女孩是大学生”的概率为:32.05.08.02.0)()|()()|(=⨯==b p a b p a p b a p信息量为:I=-logp(a|b)=-log0.32≈1.64(bit)2.4 从大量统计资料知道,男性中红绿色盲的发病率为7%,女性发病率为0.5%,如果你问一位男同志:“你是否是红绿色盲?”,他回答“是”或“否”,问这两个回答中各含有多少信息量?平均每个回答中含有多少信息量?如果你问一位女同志,则答案中含有的平均自信息量是多少?解:⑴ 男同志回答“是”的概率为7%=0.07,则信息量I=-log0.07≈3.84(bit) 男同志回答“否”的概率为1-7%=0.93,则信息量I=-log0.93≈0.10(bit) 平均信息量为:H 1=-(0.07×log0.07+0.93×log0.93) ≈0.37(bit/符号) ⑵ 问女同志的平均自信息量:H 2=-[0.05×log0.05+(1-0.05) ×log(1-0.05)] ≈0.045(bit/符号)2.5 如有7行9列的棋型方格,若有两个质点A 和B ,分别以等概率落入任一方格内,2且它们的坐标分别为(X A ,Y A )、(X B ,Y B ),但A 、B 不能落入同一方格内。
第二章 信息的度量
有时随机变量X和Y之间有一定的关联关 系,一个随机变量发生某结果后,对另一个随 机变量发生的结果会产生影响,这时我们用 条件概率来描述两者之间的关系:如P(yk|xj) 表示X发生xj后,Y又发生yk的条件概率,而 P(yk)表示对xj一无所知时yk发生的概率。有 时相应地称P(yk)为yk的无条件概率。同理 有P(xj|yk)和P(xj)。
概率的基本性质:
(1)0 P ( x j ), P ( yk ), P ( yk | x j ), P ( x j | yk ), P ( x j yk ) 1 ( 2) P ( x j )
j 1 J J
P( y
k 1
K
k
)
P( x
j 1
J
j
| yk )
P( y
2.3.4 自信息量的性质和相互关系 上面介绍的三种自信息量:自信息量、联 合自信息量和条件自信息量在数学上看具有 一些共同的性质: (1)概率为0时,相应的自信息量无意义; (2)非负性。 三种自信息量之间的关系:
I ( xk y j ) log2 P( xk y j ) log2 P( xk ) P( y j | xk ) I ( xk ) I ( y j | xk ) log2 P( y j ) P( xk | y j ) I ( y j ) I ( xk | y j )
Shannon,Weaver 曾把信息理论划分为三个层次 :① 实用性层次(可用于各领域) ②实效性层次 ( 研究信息产生传输的实际效果与 效率问题)
③意义性层次(研究信息的意义和对信息的理解)
本课程只讨论客观信息的度量
在信息论中,常把基本消息称为符号,基本 消息集合就是符号集合或符号表,消息则是符 号串。对认识主体而言,信源在某一时刻输出 什么符号是随机的,可以用概率统计的方法加 以处理。信源在各个时刻的输出组成了一随 机变量输出序列: {Xtk;tk∈T} 式中T为时间参数集,Ex为Xtk的值域或取值空间。
信息论与编码理论-第2章信息的度量-习题解答-20071017
1第2章 信息的度量习 题2.1 同时扔一对质地均匀的骰子,当得知“两骰子面朝上点数之和为5”或“面朝上点数之和为8”或“两骰子面朝上点数是3和6”时,试问这三种情况分别获得多少信息量?解:某一骰子扔得某一点数面朝上的概率是相等的,均为1/6,两骰子面朝上点数的状态共有36种,其中任一状态出现都是等概率的,出现概率为1/36。
设两骰子面朝上点数之和为事件a ,有:⑴ a=5时,有1+4,4+1,2+3,3+2,共4种,则该事件发生概率为4/36=1/9,则信息量为I(a)=-logp(a=5)=-log1/9≈3.17(bit)⑵ a=8时,有2+6,6+2,4+4,3+5,5+3,共5种,则p(a)=5/36,则I(a)= -log5/36≈2.85(bit) ⑶ p(a)=2/36=1/18,则I(a)=-log1/18≈4.17(bit)2.2 如果你在不知道今天是星期几的情况下问你的朋友“明天是星期几”,则答案中含有多少信息量?如果你在已知今天是星期三的情况下提出同样的问题,则答案中你能获得多少信息量(假设已知星期一至星期日的排序)?解:设“明天是星期几”为事件a :⑴ 不知道今天是星期几:I(a)=-log1/7≈2.81(bit) ⑵ 知道今天是星期几:I(a)=-log1=0 (bit)2.3 居住某地区的女孩中有20%是大学生,在女大学生中有80%是身高1米6以上的,而女孩中身高1米6以上的占总数的一半。
假如我们得知“身高1米6以上的某女孩是大学生”的消息,求获得多少信息量?解:设“居住某地区的女孩是大学生”为事件a ,“身高1米6以上的女孩”为事件b ,则有: p(a)= 0.2,p(b|a)=0.8,p(b)=0.5,则“身高1米6以上的某女孩是大学生”的概率为:32.05.08.02.0)()|()()|(=⨯==b p a b p a p b a p信息量为:I=-logp(a|b)=-log0.32≈1.64(bit)2.4 从大量统计资料知道,男性中红绿色盲的发病率为7%,女性发病率为0.5%,如果你问一位男同志:“你是否是红绿色盲?”,他回答“是”或“否”,问这两个回答中各含有多少信息量?平均每个回答中含有多少信息量?如果你问一位女同志,则答案中含有的平均自信息量是多少?解:⑴ 男同志回答“是”的概率为7%=0.07,则信息量I=-log0.07≈3.84(bit) 男同志回答“否”的概率为1-7%=0.93,则信息量I=-log0.93≈0.10(bit)2平均信息量为:H 1=-(0.07×log0.07+0.93×log0.93) ≈0.37(bit/符号) ⑵ 问女同志的平均自信息量:H 2=-[0.05×log0.05+(1-0.05) ×log(1-0.05)] ≈0.045(bit/符号)2.5 如有7行9列的棋型方格,若有两个质点A 和B ,分别以等概率落入任一方格内,且它们的坐标分别为(X A ,Y A )、(X B ,Y B ),但A 、B 不能落入同一方格内。
第2章:信源及其信息量1
其中:0≤p(xiyj)≤1 (i=1,2,…,n; j=1,2, …,m),
p( x y ) 1
i 1 j 1 i j
n
m
则联合自信息量为:
1 I ( x i y j ) log 2 p( x i y j )
② 联合自信息量
当 X 和 Y 相互独立时,p(xiyj)=p(xi) p(yj)
用概率测度定义信息量:设离散信源 X,其概率空间为:
X x1 P ( X ) p( x ), 1 x2 , xn p( xn )
p( x2 ) ,
如果知道事件 xi 已发生,则该事件所含有的自信息定 义为: 1
I ( xi ) log
p( xi )
(1) 自信息量 (2) 联合自信息量 (3) 条件自信息量
① 自信息量 信息量的直观定义:
收到某消息获得的信息量=不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) -(收到此消息后关于某事件发生的不确定性)
不确定性与发生概率
事件发生的概率越小,我们猜测它有没有发生的困难程
度就越大,不确定性就越大。
单符号离散信源:只涉及一个随机事件,可用随机变量描 述。
扩展信源/多符号离散信源:每次输出是一个符号序列,
序列中每一位出现哪个符号都是随机的,而且一般前后符 号之间是有依赖关系的。可用随机矢量描述。
② 连续信源:输出连续消息。可用随机过程描述。
单符号离散信源数学模型
单符号离散信源的数学模型:
X x1 P ( X ) p( x ), 1 x2 , p( x2 ) , xn p( xn )
2015-第2章 离散信息的度量-2.2
例
2.5
A、B两城市天气情况概率分布如下表:
晴 阴 雨
A城市
B城市
0.8
0.4
0.15
0.3
0.05
0.3
问哪个城市的天气具有更大的不确定性?
解:
H ( A) H (0.8,0.15,0.05) 0.8 log 0.8 0.15 log 0.15 0.05 log 0.05 0.884 比特/符号
2 3
p x (1)
1 3
p( y 1 | x 1) 1
求H(Y|X)
解:H (Y | X ) p( x) H (Y | x) p( x 0) H (Y | x 0) p( x 1) H (Y | x 1)
x
2 1 1 2 H ( ) H (1) 比特/符号 3 2 3 3
第 2章 离散信息的度量
本章知识结构
自信息 条件自信息 单个事件信息度量 联合自信息 互信息 离散信息的度量 条件互信息 熵
条件熵 事件集平均信息度量 联合熵 平均互信息
平均条件互信息
§2.2
信息熵
★信息熵的定义与计算
★条件熵与联合熵
★熵的基本性质
信息熵的引入
x2, …, xn} 离散集的概率分布表示为
严格上凸函数
★ 对于α(0≤α≤1) 及任意两矢量x1,x2,有 f[αx1+(1-α)x2]≤αf(x1)+(1-α)f(x2) 下凸函数(cup)
x2 若当且仅当x1 = x2或α= 0,1时等式成立 x1
严格下凸函数
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章
习题:
2.1. 同时抛掷一对质地均匀的骰子,骰子朝上面的点数称做骰子的点数,求
1)“3点与5点同时发生”事件的自信息;
2)“两个1点同时发生”事件的不确定性;
3)“至少有1个1点”事件所提供的信息量;
4)“两个点的和为5”事件所提供的信息量。
2.2. 某地区的女孩中有25%是大学生,在女大学生中有75%是身高 1米6以上的,而 女孩中身高1米6以上的占总数的一半。
假如我们得知“身高1米6以上的某女 孩是大学生”的消息,问获得多少信息量?
2. 3. 一副充分洗乱了的牌(52张),问
1) 任一特定排列所给出的信息量是多少?
2) 若从中抽出13张牌,所给出的点数都不相同时得到多少信息量?
2. 4. 一个汽车牌照编号系统使用3个字母后接3个数字作代码,问一个牌照所提供的 信息量是多少?如果所有6个符号都用字母数字做代码,问一个牌照所提供的信 息量是多少?假定有26个字母,10个数字。
2. 7. 给定一概率分布12,,,)n p p p (和一个整数,0m m n ≤≤,定义,
01m m j j q p ==-∑,证明 11(,)(,,,)log()n n m m H p p H p p q q n m ≤+- ,
何时等式成立?
2. 8. 设随机变量集合,X Y ,其中12{,,}n X a a a = ,()X M M P X a P α===,
求证:()log (1)log(1)(1)log(1)H X M ααααα≤----+--,并确定等式成
立条件。
2. 9. 已知随机变量X 、Y 的联合概率分布为P XY (a k ,b j ),满足:P X (a 1)=1/2, P X (a 2) = P X (a 3)=1/4, P Y (b 1)=2/3, P Y (b 2) = P Y (b 3) =1/6, 试求能使H (XY )取最大值的XY 的联合概率分布。
2. 10. 设X 和Y 是两个随机变量集合,其值取自于一个有限群,定义Z Y X =-, 证明: (/)()H X Y H Z ≤;如果X 和Y 是独立的,证明:(/)()H X Y H Z =
2.11. 有两个离散随机变量集合,X Y ,和为Z X Y =+,若,X Y 相互独立,求证 1)()()H X H Z ≤;2)()()H Y H Z ≤;3)()()H X Y H Z ≥。
2.12. 三离散随机变量,,X Y Z ,求证
1)()()(/)(;/)H X Y Z H X Z H Y X I Z Y X =+-;
2)()()()()H X Y Z H X Y H X Z H X =+-。
2. 1
3. 两随机变量集合,X Y ,联合概率为
0 1
0 1
0 1/8 3/8
1 3/8 1/8
=⋅(一般乘积),试计算
Z X Y
1)),),(),(),(),()
((,
H X H Y H Z H X Z H Y Z H X Y Z
2)/),/),(/),(/),(/),(/)
((,
H X Y H Y X H X Z H Z X H Y Z H Z Y
(;
H X Y Z H Y X Z H Z X Y
/),(/),(/)
3);),),(;),(/),(;/),(;/)
I X Y I I Y Z I X Y Z I Y Z X H X Z Y
((X;Z。
2.15. 设信源X的符号集为{0,1,2},其概率分布为:P X(0)=1/4, P X(1)=1/4, P X(2)=1/2,每个信源符号通过两个信道同时传输,输出分别为Y、Z ,两信道转移概率如图所
示;
x P(y/x) y x P(z/x) z
0 0 0
1 1 1
2
求:1)H(X) ,H(Y) ,H(Z) ,H(YZ);
2) I(X;Y), I(X;Z);
3) I(X;Y/ Z), I(X;YZ)。
2.16.某城市天气情况与气象预报分别看成包含{雨,无雨}的随机变量集合X和Y,且X与Y的联合概率为:P(雨,雨)=1/8,P(雨,无雨)=1/16,P(无雨,雨)
=3/16,P(无雨,无雨)=10/16;(1)求气象预报的准确率;(2)求气象预报所
提供的关于天气情况的平均互信息I(X;Y);(3)如果天气预报总是预报“无雨”,
求此时气象预报的准确率以及气象预报所提供的关于天气情况的平均互信息I
(X;Y);(4)以上两种情况相比,哪种情况天气预报准确率高?从信息论的观点
看,哪种情况下的天气预报有意义?
讨论题:进一步思考信息熵和热熵的本质联系和区别
思考题
2.1:“太阳从东边出来”,“行星撞地球”,“太阳从西边出来”,这样的几个事件如果发生提
供的信息量有什么不同?用实例说明为什么用概率的对数函数定义事件的自信息。
2.2试分析条件自信息)
(y
x
I的区别?
;
I和互信息)
|
(y
x
2.3盒中有12个外形相同的硬币。
知道其中有一个重量不同的假币,但不知是比真币轻,
还是比真币重。
现用一无砝码天平对现有硬币进行称重来鉴别假币,无砝码天平的称重有3种结果:平衡,左倾、右倾。
如何用3次称重鉴别出假币并判断出轻或重?
2.3 一个“20问题”游戏允许被测试者提出20个问题对另一个测试者的职业进行提
问,要求每个问题必须用“是”或“否”来回答。
假定存在15
2可能的职业;
1) 一个测试者可能有的关于另一个测试者的最大的不确定性;
2) 得知对一个问题的答案为“是”或“否”后,不确定性的最大变化如何?
3) 确定一个总是能够确定正确职业的算法,该算法需要回答多少问题?
2.4 熵函数(,1)
,当p接近0或 1 时,斜率变成无限大,试问对于m个事
H p p
件的熵是否有类似的论断?解释原因。