信息论与编码-第4讲-第2章信源及信息度量(修改最新)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1) 如果二进制信源的输出是确定的(p=1),则该信源不提 供任何信息;
2) 当二进制信源符号0和1等概率发生时,信源的熵达到最
大值,等于1比特信息
3) 二元数字是二进制信源的输出。在具有等概率的二进制 信源输出的二进制数字序列中,每一个二元数字提供1比特 的信息量。如果符号不是等概率分布,则每一个二元数字 所提供的平均信息量总是小于1比特。这也进一步说明了 “二元数字”(计算机术语称“比特”)与信息量单位 “比特”的关系。
p(a1|b2)=0.75
p(a2|b1)=0.75
p(a2|b2)=0.25
根据条件熵的计算表达式可得
H(X|Y)=-p(a1,b1) logp(a1|b1)-p(a1,b2) logp(a1|b2) -p(a2,b1) logp(a2|b1)-p(a2,b2) logp(a2|b2) =0.406比特/符号
以熵H(X)≥0;
只有当随机变量是一确知量时,熵H(X)=0。 这种非负性对于离散信源的熵是合适的,但对连续信源来 说这一性质并不存在。
(2) 对称性
① 定义:当变量p(x1),p(x2),…,p(xn) 的顺序任意互换时,熵
函数的值不变,即
H[ p( x1 ), p( x2 ),, p( xn )] H[ p( xi1 ), p( xi2 ),, p( xin )] ,其中i1, i2 ,in 1,2,, n
H ( X ) E[log p (1xi ) ] p( xi ) log p (1xi )
i 1
r
为了求得整个信源所提供的平均信息量,首先
,我们应当了解数学中有关三种不同类型的平均方
法以及它们各自的计算公式。这三种平均方法分别
是算术平均、统计平均和几何平均。
(2-8)
式中,Pi=Ni/N(i=1,2,„,r)为对应的随
P( X ) p 1 p
二进制信源的信息熵为 H ( X ) [ p log2 p (1 p) log2 (1 p)] 这时信息熵H(X)是p的函数。p取值于[0,1]区间,我们可以 画出熵函数H(p)的曲线。
从图中可以得出熵函数的一些性质:
Y y 1 ,y 2 0.5 P(Y ) 0.5,
信息熵分别为 H(X)=-0.99log0.99-0.01log0.01=0.08 比特/符号 H(Y)=-0.5log0.5-0.5log0.5=1 比特/符号
可见 H(Y)>H(X)
本例结论
1、信源Y的二个输出消息是等可能性的,所以在信源没有
② 含义:该性质说明熵只与随机变量的总体结构有关,与
信源的总体统计特性有关。如果某些信源的统计特性相同 (含有的符号数和概率分布相同),那么这些信源的熵就 相同。
③举 例
下面三个信源的概率空间为
X x1 , x2 , x3 P( X ) 1 , 1 , 1 3 6 2
1) 信源熵—平均信息量
2) 信源熵的三种物理含义
1) 信源熵—平均信息量
自信息是一个随机变量:自信息是指某一信源发
出某一消息所含有的信息量。所发出的消息不同,它们所
含有的信息量也就不同。
平均信息量—信源熵:自信息的数学期望。也称为
信源的信息熵/信源熵/香农熵/无条件熵/熵函数/熵。
信息熵的数学表达式:
例:已知信源X取自符号集{a1=0,a2=1},信源Y取自符
号集{b1=0,b2=1},联合集合{X,Y}的联合概率密度为
计算条件熵H(X|Y)。
解
由全概率公式
可得
p(b1)=p(a1,b1)+p(a2,b1)=0.5 p(b2)=p(a1,b2)+p(a2,b2)=0.5
由概率公式p(ai,bj)=p(ai)p(bj|ai)=p(bj)p(ai|bj)(i,j=1,2), 可以求出
Y x1 , x2 , x3 P (Y ) 1 , 1 , 1 6 2 3
Z y1 , y2 , y3 P( Z ) 1 , 1 , 1 3 6 2
x1—红 x2 —黄 x3 —蓝 y1—晴 y2 —雾 y3 —雨
H[p(x1),p(x2),…,p( xn) ]≤H(1/n,1/n,…,1/n)=log2n 出现任何符号的可能无记忆信源输出n个不同的信息符号,
举 例
二进制信源是离散信源的一个特例。 设该信源符号只有二个:0和1 设符号输出的概率分别为p和1-p 信源的概率空间为 X 0 1
2) 信源熵的三种物理含义
信源熵是从平均意义上来表征信源的总体特性的一个
量。因此信源熵有以下三种物理含义。
1) 信源熵H(X)是表示信源输出后每个消息/符号所提供的 平均信息量; 2) 信源熵H(X)是表示信源输出前,信源的平均不确定性;
3) 用信源熵H(X)来表征变量X的随机性。
举 例1
(4) 扩展性
证明
根据定义
由对数函数的性质知道
而
显然第二项
而第一项
由于
归纳起来
本性质说明,信源的取值增多时,若这些取值
对应的概率很小(接近于零),则信源的熵不变。
虽然概率很小的事件出现后,给予收信者较多的
信息。但从总体来考虑时,因为这种概率很小的
事件几乎不会出现,所以它在熵的计算中占的比 重很小。这也是熵的总体平均性的一种体现。
可加性 是熵函数的一个重要特性,正因为具有可加性,所以可以证 明熵函数的形式是唯一的,不可能有其它形式存在。
(7) 极值性/香农辅助定理
对任意两个消息数相同的信源
n
X Y P( X ) P(Y ), i 1,2, ,n
1 p ( xi )
有
1 p ( yi )
I(x i | yj)=-log p(xi | yj) 集合X的条件熵为:
在给定Y(即各个yj)条件下,集合X的条件熵定义为
信道疑义度—H(X/Y):表示信 宿在收到Y后,信源X仍然存在 的不确定度。是通过有噪信道
传输后引起的信息量的损失,
是传输失真造成的,故也可称 为损失熵。
噪声熵—H(Y/X):表示在已知X 的条件下,对于符号集Y尚存在 的不确定性(疑义),这完全 是由于信道中噪声引起的。
信息论与编码理论基础
第4讲 信息熵及熵的基本性质
主讲
刘 巧 平
延安大学物电学院
本讲主要内容:
1、信源熵
2、条件熵
3、联合熵
4、熵的基本性质和定理
本讲重点:
1、掌握信息熵的物理含义及数学表达式 2、熟悉条件熵和联合熵的定义 3、掌握信息熵的基本性质及定理
本讲难点:
信息熵的定义及熵的基本性质及定理
1 信源熵
3、 联合熵
定义—是联合离散符号集合XY上的每个元素 对的联合自信息量的数学期望,也叫共熵。 用H(XY)表示。
4 熵的基本性质和定理
熵函数H(X):熵H是p(x1),p(x2),„,p(xn)的n元函数
(1) (2) (3) (4) (5) (6) (7) (8) 非负性 对称性 最大离散熵定理 扩展性 确定性 可加性 极值性 上凸性
H ( X ) H p( x1 ), p( x2 ),, p( xn )
n
p( x ) log
i i 1
n
1 p ( xi )
p( x ) 1和0 p( x ) 1(i 1,2,, n)
i i i 1
(1) 非负性
H(X)≥0
因为随机变量X的所有取值的概率分布满足0≤p(xi)≤1; 当取对数的底大于1时log p(xi)≤0,而- p(xi) log p(xi)≥0,所
H n p( x1 ), p( x2 ),, p( xn ) p( xi ) log2 其中
p ( x ) p ( y ) 1
i i i i
i 1
p( xi ) log2
i 1
n
上式含义:任一概率分布p(xi),它对其它概率分布p(yi)的自 信息 [log2
有一布袋内放100个球,其中80个球是红色的,20个球是 白色的。随便摸出一个球,猜测是什么颜色,其概率空间 为
X x1 , x2 P( X ) 0.8,0.2
x1:表示摸出的是红球
x2:表示摸出的是白球
举 例2
有两个信源,其概率空间分别为
X x 1 ,x 2 0.01 P(X ) 0.99,
机变量xi出现的概率(或称为频数)。即
(2-9)
(2-10)
根据有关统计平均的定义,可求得信源X自
信息量的统计平均值,我们把这个统计平均值
记为H(X),即
(2-9)
(2-10)
信息熵的数学表达式
信息熵的单位:取决于对数选取的底。一般选用以
2为底,其单位为比特/符号。
信息熵的意义:信源的信息熵H是从整个信源的统 计特性来考虑的。它是从平均意义上来表征信源的总 体特性的。对于某特定的信源,其信息熵只有一个。 不同的信源因统计特性不同,其熵也不同。
2 条件熵
定义:条件熵是在联合符号集合XY上的条件自信息的数学 期望。 在已知Y时,X的条件熵为
H ( X / Y ) E[ I ( xi / y j )] p( xi y j ) I ( xi / y j )
j 1 i 1 m n
p( xi y j ) log2
j 1 i 1
i 1 2 p ( xi )
p ( xi y j ) log2
p( y j / xi ) H (Y / X ) j
H ( X ) H (Y / X ) 其中 p( xi y j ) p ( xi ) p( y j / xi )
p( y
j
j
/ xi ) 1
只要信源符号表中有一个符号出现概率为1,信源熵就 等于0。在概率空间中,如果有两个基本事实,其中一个 是必然事件,另一个则是不可能事件,因此没有不确定 性,熵必为0。当然可以类推到n个基本事件构成的概率 空间。
(6) 可加性
H(XY)=H(X)+H(Y/X) 证明第一个式子:
H ( XY ) p( xi y j ) log2
(5) 确定性
H(1,0)=H(1,0,0)=H(1,0,0,0)=…=H(1,0, …,0)=0
在概率矢量P(X)=[p(x1),p(x2),…,p(xn)]中
当p(xi)=1时,-p(xi)log2p(xi)=0;其余变量p(xj)=0(j≠i),
p ( x j ) 0
lim
p ( x j ) log2 p ( x j ) 0
输出消息以前,事先猜测哪一个消息出现的不确定性要大;
2、信源Y比信源X的平均不确定性大; 3、信源X的二个输出消息不是等概率的,事先猜测x1和x2
哪一个出现,虽然具有不确定性,但大致可以猜出x1会出
现,因为x1出现的概率大。所以信源X的不确定性要小;
4、信息熵反映的就是信源输出前平均不确定程度的大小。
m
n
1 p ( xi / y j )
已知X时,Y的条件熵为
H (Y / X ) E[ I ( y j / xi )]
为什么要 用联合概 率?
1 2 p ( y j / xi )
p( x y ) log
i j i 1 j 1
n
m
证明: 在给定 y j 条件下,x i 的条件自信息量为:
i j i j 1 p ( xi y j ) i
H(XY)=H(Y)+H(X/Y)
p( xi y j ) log2
j 1 p ( xi ) i j 1 p ( xi ) p ( y j / xi ) 1 p ( y j / xi )
p( xi ) p( y j / xi ) log2 p( xi ) log
① X与Z信源的差别:它们所选择的具体消息/符号其含义不同; ② X与Y信源的差别:它们选择的某同一消息的概率不同; ③ 但它们的信息熵是相同的。这三个信源总的统计特性是相 同的。所以熵表征信源总的统计特性,总体的平均不确定 性。
(3) 最大离散熵定理
当且仅当各个符号出现概率相等时(即p(xi)=1/n), 熵最大。