2014.信息论.第2章信息的统计度量

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

10
2.1.2条件自信息量
– 定义2.1.3 联合集XY中,对事件xi和yj,事件xi在事 件yj给定的条件下的条件自信息量定义为
– 条件概率对数的负值,在特定条件下(yj已定)随机事 件xi发生所带来的信息量 – 联合自信息量和条件自信息量也满足非负和单调递 减性。
11
甲将棋子所在方格的行告诉乙之后,再令乙猜测棋子 所在列的位置。 在二维联合集XY上,元素xi相对yj的条件自信息量为
H对任何 P= Q= 有
和任何两个概率矢量
45
上凸函数:对任意
有 f(x)
对于一元函数,设x1<x2为定义 域中的任意两点。令 f(x1) 则必有 x1 x
f(x2)
x2
意味着在区间(x1,x2)内,任意一点的函数值总在 连接x1和x2的函数值的连线的上方。
46
詹森不等式:
若f(x)是定义在区间[a,b]上的实值连续上凸函数,则 对于任意一组 和任意一组满足 有 的非负实数
xi yj
由事件yj提供的有关事件xi的信息量 等于由事件xi提供的有关事件yj的信息量。 证明:
– 当事件xi,yj统计独立时,互信息量为零。
xi yj
不能从观测yj获得关于另一个事件xi的任何信息。 证明:
23
– 互信息量可正可负
• 当后验概率p(xi|yj)大于先验概率p(xi)时,互信息量 I(xi;yj)大于零,为正值,意味着事件yj的出现有助 于肯定事件xi的出现; • 当后验概率p(xi|yj)小于先验概率p(xi)时,互信息量 I(xi;yj)小于零,为负值,意味着事件yj的出现不利 于肯定事件xi的出现。造成不利的原因是存在信道 干扰。
19
2.2互信息量和条件互信息量 2.2.1 互信息量
– 定义2.2.1 对两个离散随机事件集X和Y,事件yj的出 现给出关于事件xi的信息量,定义为互信息量,其 定义式为 xi yj
Βιβλιοθήκη Baidu
互信息量等于自信息量减去条件自信息量。是获得的 信息量,或消除的不确定性的度量,等于先验的不确 定性减去尚存在的不确定性。
• 小概率事件所包含的不确定性大,自信息量大。 • 大概率事件所包含的不确定性小,自信息量小。 • 概率为1的确定性事件,自信息量为零。
2
• 对数基础知识
log(xy)=logx+logy log(x/y)=logx-logy
3
– 自信息量I(xi)的性质
• • • • I(xi)是非负值; 当P(xi) =1时, I(xi)=0; 当P(xi) =0时, I(xi)= ∞ ; I(xi)是P(xi) 的单调递减函数
24
若信道无干扰
Y=危险X=危险;Y=安全X=安全
25
X
信道故障(设备故障,人员问题)Y=安全X=安全;
X
信道错误,X,Y取值相反
26
– 任何两个事件之间的互信息量不可能大于其 中任一事件的自信息量。
• 自信息量I(xi)是为了确定事件xi的出现所必须提供 的信息量,也是任何其他事件所能提供的最大信 息量。
条件熵小于等于无条件熵,等式成立的条件是集X集Y相 互独立。 X Y
联合熵小于等于各自熵的和,等式成立的条件是集X集Y 相互独立。
55
2.4平均互信息量
– 互信息量 的重要基础。 是定量地研究信息流通问题
• 但只能描述信源发出某个具体消息 ,信宿收 到某具体消息 时流经信道的信息量,是随 和 变化的随机变量。 • 不能从整体上作为信道中信息流通的测度。
35
电视屏上约有500×600=3×105个点,按每点有10个不同的灰 5 × 3 10 度等级考虑,则共能组成10 个不同的画面。按等概计 算,平均每个画面可提供的信息量为
另有一篇千字的文章,每字从万字表中选择,共有不同的 千字文N=10 0001 000篇=104 000篇,仍按等概计算,平均每 篇千字文可提供的信息量为
33
理解BIT
一个二进制信源,如果0和1两个符号出现的概率 都是0.5,那么,这个信源平均每输出一个符号, 我们就得到1bit信息。
34
例:一个布袋内放100个球,其中80个是红的,20个白的,若 随机摸取一个,猜测其颜色,求平均摸取一次所能获得的自 信息量。 概率空间
随机摸取n次,红球出现的次数为np(x1),白球出现的次数为np(x2) 随机模取n次后总共所获得的信息量为 平均模取1次所获得的信息量为 熵是从平均 意义上来表 征信源的总 体特征-- 平均不确定 性
• 在接到两次电话后,A获得关于B的互信息量为
• 事件E,F的出现有助于肯定事件B的出现。
28
2.2.3 条件互信息量
– 给定条件 下, 与 之间的互信息量
yj zk
xi
– 联合集XYZ上还存在

之间的互信息量
29
yj
一对事件yj zk出现后所提供 的有关xi的信息量I(xi;yjzk),
xi
zk
A地人口
<20 其他 >60
信源的熵仅与信源总体的统计特性有关。不能描述事 件本身的具体含义和主观价值。
38
– 非负性 确知信源具有最小熵零。
39
– 确定性(不确定性完全消失)
集合X中只要有一个事件为必然事件,则其余事件 为不可能事件。此时,集合中每个事件对熵的贡献 都为0,因而熵为0。
40
– 扩展性
– 平均互信息量
• 从整体的角度出发,在平均意义上度量每通过一 个符号流经信道的平均信息量。
56
• 互信息量I(xi;yj) 在集XY上的概率加权平 均值称为集合Y与集合X间的平均互信息 量。
xi
yj
27
例:A某已知其三位朋友B,C,D中必定会有一人晚上到他家, 并且这三人来的可能性均相同,其先验概率 p(B)=p(C)=p(D)=1/3。但这天上午A接到D的电话,说因故不 能来了。下午,A又接到C的电话,说他因晚上要出席一个重 要会议不能来A家。 若把上午D电话作为事件E,则p(D/E)=0,p(B/E)=p(C/E) =1/2 若把下午C电话作为事件F,则p(C/EF)= p(D/EF)=0, p(B/EF)=1 • 在接到D的电话后,A获得关于B的互信息量为
等于事件zk出现后所提供的有关xi的信息量I(xi;zk),加上给 定事件zk的条件下再出现事件yj所提供的有关xi的信息量。 等于事件yj出现后所提供的有关xi的信息量I(xi; yj ),加上给 定事件yj 的条件下再出现事件zk所提供的有关xi的信息量。 30
2.3 离散集的平均自信息量 2.3.1平均自信息量(熵)
第二章 信息的统计度量
信息的可度量性是信息论建立的基础; 香农的信息论用事件发生概率的对数来 描述事件的不确定性,得到消息的信息 量,建立熵的概念;熵 熵是香农信息论最 基本最重要的概念。
1
2.1 自信息量和条件自信息量
2.1.1自信息量
– 定义2.1.1 任意随机事件的自信息量定义为该 事件发生概率的对数的负值。
12
• 概率基础知识
棋盘上有若干个方 格,将方格分别按行 和列编号。甲将一粒 棋子随意地放在棋盘 中的某方格内,让乙 猜测棋子所在位置;
yj
xi
– 只考虑第几列的情况,涉及一个随机事件,可用离 散随机变量X来表示。
其中, X代表随机变量; 代表随机事件的某一结果。
14
– 只考虑第几行的情况,涉及一个随机事件,可用离 散随机变量Y来表示。
是已知一随机变量,对另一个随机变量的不确定性的量度 当X表示信源的输出,Y表示信宿的输入时,条件熵 H(X/Y)可表示信宿在收到Y后,信源X仍然存在的 不确定度,即信道的损失。 求条件熵为什么要用联合概率?
49
50
例:已知X,Y
,XY的联合概率为:
p(00)=p(11)=1/8,p(01)=p(10)=3/8,计算条件熵H(X/Y)。 解: 根据条件熵公式
20
例:某地二月份天气构成的信源为
现有人告诉你“今天不是晴天”。收到这个消息 种天气发生的概率为:
后,各
21
由y1分别得到x2、x3、x4各1比特的信息量,也可以理解 为y1使x2、x3、x4不确定度各减少1比特
算式无意义, 因x1已成为确 定事件。
22
2.2.2 互信息的性质
– 互信息量的互易性
一个离散随机变量X,以不同的取值概率有N个可能取值,
是一个随机变量,不能用来作为整个信源的信息测度。
31
– 定义2.3.1 集X上,随机变量I(xi)的数学期望 定义为平均自信息量,又称作集X的信源 熵,简称熵。
• 熵函数的自变量是X,表示信源整体。集X的平均 自信息量表示集X中事件出现的平均不确定性。 即集X中每出现一个事件平均给出的信息量 • 熵这个名词是香农从物理学中的统计热力学借用 过来的,在物理学中热熵是表示分子混乱程度的 一个物理量。
4
– 例:棋盘共8列,甲随手一放,将一枚 棋子放在了第3列。
5
– 例:袋内红、白球各50个,随意从袋中 摸出一球。
6
– 例:袋内红球1个、白球7个,随意从袋 中摸出一球。
7
– 联合自信息量
• 定义2.1.2 二维联合集XY上的元素(xiyj) 的联合自信息量定义为
其中p(xiyj)为元素xiyj的二维联合概率。
8
设在一正方形棋盘上共有64个方格,将方格分别按行和列 编号。如果甲将一粒棋子随意地放在棋盘中的某方格且让 乙猜测旗子所在位置; yj
xiyj
xi
9
由于甲是将一粒旗子随意地放在棋盘中某一方格内,因 此,棋子在棋盘中所处位置为二维等概率分布。二维概率 分布函数为p(xiyj)=1/64,故 在二维联合集XY上的元素xiyj的联合自信息量为
当取xk为一离散信源x的符号,而λk为其相应概率 时,不等式可写成
47
X
Y
– 可加性
如果有两个随机变量X和Y,它们不是相互独立的,则二 维随机变量X和Y的联合熵,等于X的无条件熵加上当X已 给定时Y的条件概率定义的熵。
48
2.3.3条件熵
• 在已知随机变量Y的条件下,随机变量X的熵称为 集X对集Y的条件熵。是联合集XY上条件自信息 量的数学期望。
43
例:二元熵函数
X P(x)

x1 p
x2 1-p p=0.5等概时, 熵最大为1bit。 p=0,1时, 随机变量的不确 定性消失,熵为0。
H(X) = -plogp-(1-p)log(1-p)=H(p) H(p)/bit 1.0
0
0.5 二元熵函数曲线
1.0
p
44
– 上凸性
是概率分布 的严格上凸函数
其中, Y代表随机变量; 代表随机事件的某一结果。
15
– 同时考虑行和列,涉及两个随机事件,可用两个离散随 机变量来表示。随机变量X,Y分别取值于集合
其中,
16
yj
xi
yj
xi
作业题
• 有12块银元,其中有一块是假的。真假 银元从外观看完全相同,但假银元的重 量与真银元略有不同。
– 求证,用一架天平称3次即可找出假银元, 并知道假银元是轻是重。 – 给出一种称量方法。
51
2.3.4 联合熵(共熵)
• 联合离散符号集合XY上的每个元素对 的联 合自信息量的数学期望。是二元随机变量不确定 性的度量。
52
2.3.5 各种熵的性质
联合熵等于无条件熵加上条件熵。 证明: X Y
53
等式成立的条件是X和Y统计独立 证明:
X
Y
54
联合熵等于无条件熵加上条件熵。 X Y
• 证明:因为 故上式成立。 • 集中一个事件的概率相对于其他事件的概率很 小时,对集合的熵值的贡献可忽略不计。
41
– 极值性
对于离散随机变量,当其可能的取值等概分布时, 其熵达到最大值。即:
42
证明:
先证明不等式:lnx≤x-1 可令f(x)=lnx–(x-1)
结论:等概率分布时熵最大,不确定性最大。故这一 定理又被称为离散信源最大熵定理。
500*600的一个画面比1000个字的文章提供的信息量大。
36
2.3.2 熵函数的数学特性
– 熵函数H(X)只是其概率分布的函数,当X有q个可能 取值时,是q-1元函数。
37
– 对称性:当概率矢量P=(p1,p2,…,pq)中的各分量的次 序任意变更时,熵值不变。 A地天气情况 晴 阴 雨 B地天气情况 晴 阴 雨
32
熵的单位
• 信息熵 信息熵的单位与公式中的对数取底有关。 • 通信与信息中最常用的是以2为底,这时单位 为比特 特(bit),H(X); • 理论推导中用以e为底较方便,这时单位为奈 特(nat), He(X) ; • 工程上用以10为底较方便,这时单位为哈特 (hat), H10(X) 。 • 它们之间可应用对数换底公式进行互换。 1 bit = 0.693 nat = 0.301 hat
相关文档
最新文档