信源及信源熵
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
11
2.2.1 自信息量 2. 不确定度
定义:随机事件的不确定度在数量上等于它的自信息量. 说明:
a. 两者的单位相同,但含义却不相同。 b. 具有某种概率分布的随机事件不管发生与否,都存在不确定度,不确定度表征了该事
件的特性,而自信息量是在该事件发生后给予观察者的信息量。
12
2.2.1 自信息量 c. 一个出现概率接近于1的随机事件,发生的可能性很大,所以它包含的不确定度就很
小; 反之,一个出现概率很小的随机事件,很难猜测在某个时刻它能否发生,所以它包含的
不确定度就很大; 若是确定性事件,出现概率为1,则它包含的不确定度为0。
13
2.2.1 自信息量
两个消息xi,yj同时出现的联合自信息量
I (xi y j ) log p(xi y j )
•
注意:
a. 当xi,yj相互独立时,有P(xiyj)=P(xi)P(yj),那么就有 I(xiyj)=I(xi)+I(yj)。 b. xiyj所包含的不确定度在数值上也等于它们的自信息量。
i
是
xi
的函数,
I (xi ) xi
9
2.2.1 自信息量
b. 自信息量的单位的确定 • 在信息论中常用的对数底是2,信息量的单位为比特(bit); • 若取自然对数,则信息量的单位为奈特(nat); • 若以10为对数底,则信息量的单位为笛特(det)。
这三个信息量单位之间的转换关系如下: 1 nat=log2e l.433 bit, l det=log210 3.322 bit
14
3. 条件自信息量
2.2.1 自信息量
定义:在事件yj出现的条件下,随机事件xi发生的条件概率为 义为条件概率对数的负值:
p(xi / y j )
,则它的条件自信息量定
I (xi / y j ) log p(xi / y j )
注意: 在给定yj条件下,随机事件xi所包含的不确定度在数值上与条件自信息量相同,但两者含义不同。
• 发出符号序列的马尔可夫信源 发出符号序列的马尔可夫信源是指某一个符号出现的概率只与前面一个或有限个符号有 关,而不依赖更前面的那些符号,这样的信源可以用信源发出符号序列内各个符号之 间的条件概率来反映记忆特征。
4
第一节 信源的描述和分类
三、先验概率及概率空间的形式
x • 符号 的先验概率 i
一个离散信源发出的各个符号消息的集合为
i 1
6
第二节 离散信源熵和互信息
问题: • 什么叫不确定度? • 什么叫自信息量? • 什么叫平均不确定度? • 什么叫信源熵? • 什么叫平均自信息量? • 什么叫条件熵? • 什么叫联合熵? • 联合熵、条件熵和熵的关系是什么?
7
第二节 离散信源熵和互信息 • 什么叫后验概率? • 什么叫互信息量? • 什么叫平均互信息量? • 什么叫疑义度? • 什么叫噪声熵(或散布度)? • 数据处理定理是如何描述的? • 熵的性质有哪些?
{
离散有记忆信源
{
发出单个符号的无记忆信源 发出符号序列的无记忆信源 发出符号序列的有记忆信源 发出符号序列的马尔可夫信源 2
第一节 信源的描述和分类
• 离散无记忆信源 离散无记忆信源所发出的各个符号是相互独立的,发出的符号序列中的各个符号之间没有 统计关联性,各个符号的出现概率是它自身的先验概率。
• 离散有记忆信源 离散有记忆信源所发出的各个符号的概率是有关联的。
• 发出单个符号的信源 发出单个符号的信源是指信源每次只发出一个符号代表一个消息;
• 发出符号序列的信源 发出符号序列的信源是指信源每次发出一组含二个以上符号的符号序列代表一个消息。 3
第一节 信源的描述和分类
• 发出符号序列的有记忆信源 发出符号序列的有记忆信源是指用信源发出的一个符号序列的整体概率(即联合概率)反 映有记忆信源的特征。
X {x1, x2 ,, xn},它们的概率分别为
P {p(x1), p(x2 wk.baidu.com,, p(xn )},
为符号
x的先验概率。通常把它们写 i
p(xi )
到一起,称为概率空间:
5
第一节 信源的描述和分类
,
X P
x1 p( x1
)
x2 p( x2 )
xn p(xn )
n
显然有
p(xi ) 0, p(xi ) 1
信源及信源熵
第一节 信源的描述和分类
1. 连续信源 连续信源是指发出在时间和幅度上都是连续分布的连续消息(模拟消息)的信源,如语言 、图像、图形等都是连续消息。
2. 离散信源 离散信源是指发出在时间和幅度上都是离散分布的离散消息的信源,如文字、数字、数据 等符号都是离散消息。
离散无记忆信源
{
离散信源
10
2.2.1 自信息量
几个例子
i.
一个以等概率出现的二进制码元(0,1)所包含的自信息量为:
I(0)= I(1)= - log2 (1/2)=log22=1 bit
ii. 若是一个m位的二进制数,因为该数的每一位可从0, 1两个数字中任取一个,因此有2m个等 概率的可能组合。所以I= -log2(1/2m)=m bit,就是需要m比特的信息来指明这样的二进制数。
16
2.2.2 离散信源熵
例2-2-2
• 一个布袋内放100个球,其中80个球是红色的,20个球是白色的,若随机摸取一个球,猜测其 颜色,求平均摸取一次所能获得的自信息量。
解: 依据题意 这一随机事件的概率空间为
X P
8
2.2.1 自信息量
1. 自信息量 定义:一个随机事件的自信息量定义为其出现概率对数的负值。即:
I (xi ) log p(xi )
说明: a.
因为概率
越小, 的出现就越稀罕,一旦出现,所获得的信息量也就较大。由
p( x ) x 于 是随机出现的,它是X的一个样值,所以是一个随机量。而
它必须也是一个随机量i。
15
2.2.1 自信息量 例2-2-1
英文字母中“e” 出现的概率为0.105,“c”出现的概率为0.023,“o”出现的概率为0.001。分别计算它们 的自信息量。
解:“e”的自信息量 I(e)= - log2 0.105=3.25 bit “c”的自信息量 I(c)= -log2 0.023=5.44 bit “o”的自信息量 I(o)= -log2 0.001=9.97 bit