第2章 信息的统计度量
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息论与编码理论 第2章 信息的统计度量
主要内容 从概率的角度研究问题
自信息量 互信息量 平均自信息量 平均互信息量
信息的大小
多个信息之间 关联的密切程度
2.1 自信息和条件自信息
2.1.1 自信息量
事件发生的概率越大,它发生后提供的信息量
越小。
张三今天吃饭了 事件发生的概率越小,一旦该事件发生,它提 供的信息量就越大。 美国总统的专机发生空难
n
2.3.2 熵函数的数学特性
对称性 非负性 确定性 扩展性 可加性 极值性 上凸性
熵函数的数学特性1 对称性
集合中各分量的次序任意变更时,熵值 (平均自信息量)不变 从熵(平均自信息量)的公式上来看,该 结论是明显的 q
H ( X ) p( xi ) log p( xi )
熵函数的数学特性5 可加性
H(X, Y) = H(X) + H(Y|X) 当X、Y相互独立时, H(X, Y) = H(X)+H(Y)
1 0.9
H(p,1-p)
熵函数的数学特性6 极值性
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
概率:
前面已求出自信息量和条件自信息量为:
I ( x) 13.2877
而x和y的互信息量为:
I ( x | y) 6.6439
p( x | y ) 1% I ( x; y ) log log log100 6.6439 p ( x) 0.01% I ( x) I ( x | y )
事件x的自信息量为: I ( x) log p( x) log 0.01% 13.2877 事件x在事件y发生的情况下的条件自信息量为: I ( x | y) log p( x | y) log1% 6.6439
2.2 互信息量
象形字,本意:绞绳用的工具,又象握手 互相,两者或者多者相互作用 两个或者多个事件之间关联的密切程度
p(x):x出现的概率 I(x):x的不确定性 p(x|y):y出现之后 I(x|y):知道y之后仍然保留的关于 x出现的概率 x的不确定性
后验概率
衡量的都是不确定性
条件自信息量的例子
事件:
x=“美国总统的专机发生空难” y=“今天是9.11”
概率:
p(x)= 0.01% p(x|y)=1%
含义:本身的不确定性,减去知道了事 件y之后仍然保留的不确定性,即由y所 提供的关于x的信息量,或者说由y所消 除的x的不确定性。
I ( x; y) I ( x) I ( x | y)
互信息量=原有的不确定性-尚存在的不确定性
互信息量的例子
事件:
x=“美国总统的专机发生空难” y=“今天是9.11” p(x)= 0.01% p(x|y)=1%
单位:同自信息量
对数的几个性质:
互信息量的含义
p( x | y ) I ( x; y ) log 还可表示为: p ( x)
1 log a log a a log log a log b b log ab log a log b
log p( x | y) log p( x) log p( x) log p( x | y) I ( x) I ( x | y)
熵函数的数学特性3 确定性
集合中只要有一个事件为必然事件,则其 余事件为不可能事件,熵为0。 H(1,0)=H(1,0,0)=…=H(1,0,…,0)=0
熵函数的数学特性4 扩展性
lim Hq 1 ( p1 , p2 ,
0
, pq , ) Hq ( p1 , p2 ,
2.2.2 互信息量的性质
概率乘法公式 p ( x, y ) p ( y ) p ( x | y ) 全概率公式 p( x) p( x, yi ) p( yi ) p( x | yi )
i 1 i 1 n n
全概率公式
x1 y1 y2 … ym p(x1y1) p(x1y2) … p(x1ym) x2 p(x2y1) p(x2y2) … p(x2ym) … … … … … xn p(xny1) p(xny2) … p(xnym) 和 p(y1) p(y2) … p(ym)
证明
p( x | y ) 1 I ( x; y ) log log I ( x) p( x) p( x)
同理:I(x;y) = I(y;x) ≤ I(y) 互信息量=原有的不确定性-尚存在的不确定 性
2.3 离散集的平均自信息量(熵)
离散集X={x1, x2, …, xn} x2 xn 离散集的概率分布表示为 X x1 P p( x ) p ( x ) p ( x ) 1 2 n 离散集中的每一个事件 I ( x1 ) I ( x2 ) I ( xn ) 都有自己的自信息量 所有这些自信息量的均值,就是离散集的平均自 信息量 定义2-5 集X上,随机变量I(xi)的数学期望定义为 平均自信息量。 n H ( X ) E ( I ( xi )) E[ log p( xi )] p( xi ) log p( xi ) 又称作集X的信息熵,简称熵。 H(X)又可记作H(p1,p2,…,pn)
x:李四考了全班第一名。 p( x | y ) y:李四没有复习功课。 1 p( x | y ) p( x)
p( x)
无论正负,互信息量的绝 对值越大,x和y的关系越密 切。
回想自信息量I(x) I(x)≥0:x的出现或多或少总能 带来一些信息
互信息量的性质4 互信息量不大于其中任一事件的自信息量
2.1.2 条件自信息量
定义2-3 事件xi在事件yj给定的条件下的条件自 信息量定义为: I ( xi | y j ) log p( xi | y j ) 含义:知道事件yj之后,仍然保留的关于事件xi 的不确定性;或者,事件yj发生之后,事件xi再 发生,能够带来的信息量。
先验概率
证明:
p( x | y ) I ( x; y ) log p ( x)
p( xy ) p ( y | x) p ( x) log I ( y; x) p( y ) p( y )
p( x | y ) p( y ) log log p ( x) p ( y )
含义:由y所提供的关于x的信息量等于由x 所提供的关于y的信息量
冰雹 1/8 1/4 2
17 H wA ( X ) wi p A ( xi ) log p A ( xi ) 8 i 1
18 H wB ( X ) wi pB ( xi ) log pB ( xi ) 8 i 1
4
熵函数的数学特性2 非负性
H(X)≥0 源于自信息量的非负性。 什么时候为0:有且仅有一个pi=1,其余的 pi=0,即确定事件集。
2.1.1 自信息
定义2-1 任意随机事件 的自信息量定义为该事 件发生概率的对数的负 值。 假设事件xi发生的概率为 p(xi),则其自信息定义 式为
I ( xi ) log p( xi )
根据该公式可能提出的 问题
底数是多少? 常用底数:2 真的成反比吗? I(x)≥0
熵的单位同自信息量的单位
熵的例子
串口通信 某串口的概率空间为
0 X P 1 2 1 1 2
则熵为
1 1 1 1 H ( X ) p ( xi ) log p ( xi ) log log 1 2 2 2 2 i 1
和
p(x1)
p(x2)
…
p(xn)
1
互信息量的性质1 互信息量的互易性
概率乘法公式 p ( x, y ) p ( y ) p ( x | y ) 全概率公式
p( x) p( x, yi ) p( yi ) p( x | yi )
i 1 i 1 n n
I(x;y) = I(y;x)
i 1
深层含义:熵是有局限性的。它仅与随机 变量的总体结构有关,抹煞了个体的特性。 例2-7 晴 多云 雨 冰雹 A地 1/2 1/4 1/8 1/8 “加权熵”
B地 1/2 1/8 1/8 1/4
加权熵
例2-8
A地 B地 权重 晴 1/2 1/2 1
4
多云 1/4 1/8 1
雨 1/8 1/8 1
证明:
p( x | y ) p ( x) I ( x; y ) log log log1 0 p ( x) p ( x)
含义:当两个事件相互独立时,一个事件不能提供另一个 事件的任何信息。 即一个事件发生之后,对于确定另一个事件是否发生没有 任何帮助。
互信息量的性质3 互信息量可正可负
p( x | y ) I ( x; y ) log 0 正: p( x) y的出现有助于肯定x的出现 p( x | y ) x:张三病了。 1 p ( x | y ) p( x) y:张三没来上课。 p( x) 负: p( x | y ) 0 y的出现有助于否定x的出现 I ( x; y ) log p( x)
自信息量的例子
假设“张三今天吃饭 了”这个事件发生的 概率是99.99%,则该 事件的自信息量为:
log(0.9999) 0.00014428
假设“美国总统的专 机发生空难”这个事 件发生的概率是0.01%, 则该事件的自信息量 为:
log(0.0001) 13.2877
这表明该事件的不确 定性很小。
规定:0log0 = 0
Hale Waihona Puke Baidu
自信息量的含义
自信息量表示了一个事件是否发生的不确 定性的大小。一旦该事件发生,就消除了 这种不确定性,带来了信息量,即: 自信息量表示了一个事件的发生带给我们 的信息量的大小。 自信息量表示了确定一个事件是否发生, 所需的信息量的大小。 自信息量表示了将事件的信息量表示出来, 所需的二进制位的个数。
互信息量的性质2 互信息量可为0
概率乘法公式 p ( x, y ) p ( y ) p ( x | y ) 全概率公式
p( x) p( x, yi ) p( yi ) p( x | yi )
i 1 i 1 n n
当事件x、y统计独立时,互信息量为0 p(x|y)=p(x) 无论是否知道y,都对x出现的概率没有影响 x和y没有什么关系
这表明该事件的不确 定性很大。
联合自信息量
定义2-2 二维联合集XY上的元素(xiyj) 的联 合自信息量定义为
I ( xi y j ) log p( xi y j )
联合自信息量衡量的是多个事件同时出现 的不确定性; 或者,两个事件同时发生带给我们的信息 量的大小; 或者,将该信息量表示出来,所需的二进 制位的个数。
i 1
平均自信息量
含义
熵表示了集合中所有事件是否发生的平均不确
定性的大小。 熵表示了集合中事件发生,带给我们的平均信 息量的大小。 熵表示了确定集合中到底哪个事件发生时,所 需的平均信息量的大小。 熵表示了,如果用二进制数据将集合中的各个 元素表示出来,所需的二进制位的个数的平均 值。
举例
张三今天没来上课 张三有可能病了
为什么没来上课就会猜到生病了? 因为二者有关系 互信息衡量的就是这种关系的大小
2.2.1 互信息量
定义2-4 随机事件yj的出现给出关于事件xi 的信息量,定义为互信息量。 定义式:
I ( xi ; y j ) log
p( xi | y j ) p( xi )
, pq )
集合X有q个事件,集合Y比X仅仅是多了一个概率 接近0的事件,则两个集合的熵值一样。 证明: lim log 0 0 含义:
集合中,一个事件发生的概率比其它事件发生的概率
小得多时,这个事件对于集合的熵值的贡献可以忽略。 即在研究这个集合的时候,该小概率事件可以不用考 虑
主要内容 从概率的角度研究问题
自信息量 互信息量 平均自信息量 平均互信息量
信息的大小
多个信息之间 关联的密切程度
2.1 自信息和条件自信息
2.1.1 自信息量
事件发生的概率越大,它发生后提供的信息量
越小。
张三今天吃饭了 事件发生的概率越小,一旦该事件发生,它提 供的信息量就越大。 美国总统的专机发生空难
n
2.3.2 熵函数的数学特性
对称性 非负性 确定性 扩展性 可加性 极值性 上凸性
熵函数的数学特性1 对称性
集合中各分量的次序任意变更时,熵值 (平均自信息量)不变 从熵(平均自信息量)的公式上来看,该 结论是明显的 q
H ( X ) p( xi ) log p( xi )
熵函数的数学特性5 可加性
H(X, Y) = H(X) + H(Y|X) 当X、Y相互独立时, H(X, Y) = H(X)+H(Y)
1 0.9
H(p,1-p)
熵函数的数学特性6 极值性
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
概率:
前面已求出自信息量和条件自信息量为:
I ( x) 13.2877
而x和y的互信息量为:
I ( x | y) 6.6439
p( x | y ) 1% I ( x; y ) log log log100 6.6439 p ( x) 0.01% I ( x) I ( x | y )
事件x的自信息量为: I ( x) log p( x) log 0.01% 13.2877 事件x在事件y发生的情况下的条件自信息量为: I ( x | y) log p( x | y) log1% 6.6439
2.2 互信息量
象形字,本意:绞绳用的工具,又象握手 互相,两者或者多者相互作用 两个或者多个事件之间关联的密切程度
p(x):x出现的概率 I(x):x的不确定性 p(x|y):y出现之后 I(x|y):知道y之后仍然保留的关于 x出现的概率 x的不确定性
后验概率
衡量的都是不确定性
条件自信息量的例子
事件:
x=“美国总统的专机发生空难” y=“今天是9.11”
概率:
p(x)= 0.01% p(x|y)=1%
含义:本身的不确定性,减去知道了事 件y之后仍然保留的不确定性,即由y所 提供的关于x的信息量,或者说由y所消 除的x的不确定性。
I ( x; y) I ( x) I ( x | y)
互信息量=原有的不确定性-尚存在的不确定性
互信息量的例子
事件:
x=“美国总统的专机发生空难” y=“今天是9.11” p(x)= 0.01% p(x|y)=1%
单位:同自信息量
对数的几个性质:
互信息量的含义
p( x | y ) I ( x; y ) log 还可表示为: p ( x)
1 log a log a a log log a log b b log ab log a log b
log p( x | y) log p( x) log p( x) log p( x | y) I ( x) I ( x | y)
熵函数的数学特性3 确定性
集合中只要有一个事件为必然事件,则其 余事件为不可能事件,熵为0。 H(1,0)=H(1,0,0)=…=H(1,0,…,0)=0
熵函数的数学特性4 扩展性
lim Hq 1 ( p1 , p2 ,
0
, pq , ) Hq ( p1 , p2 ,
2.2.2 互信息量的性质
概率乘法公式 p ( x, y ) p ( y ) p ( x | y ) 全概率公式 p( x) p( x, yi ) p( yi ) p( x | yi )
i 1 i 1 n n
全概率公式
x1 y1 y2 … ym p(x1y1) p(x1y2) … p(x1ym) x2 p(x2y1) p(x2y2) … p(x2ym) … … … … … xn p(xny1) p(xny2) … p(xnym) 和 p(y1) p(y2) … p(ym)
证明
p( x | y ) 1 I ( x; y ) log log I ( x) p( x) p( x)
同理:I(x;y) = I(y;x) ≤ I(y) 互信息量=原有的不确定性-尚存在的不确定 性
2.3 离散集的平均自信息量(熵)
离散集X={x1, x2, …, xn} x2 xn 离散集的概率分布表示为 X x1 P p( x ) p ( x ) p ( x ) 1 2 n 离散集中的每一个事件 I ( x1 ) I ( x2 ) I ( xn ) 都有自己的自信息量 所有这些自信息量的均值,就是离散集的平均自 信息量 定义2-5 集X上,随机变量I(xi)的数学期望定义为 平均自信息量。 n H ( X ) E ( I ( xi )) E[ log p( xi )] p( xi ) log p( xi ) 又称作集X的信息熵,简称熵。 H(X)又可记作H(p1,p2,…,pn)
x:李四考了全班第一名。 p( x | y ) y:李四没有复习功课。 1 p( x | y ) p( x)
p( x)
无论正负,互信息量的绝 对值越大,x和y的关系越密 切。
回想自信息量I(x) I(x)≥0:x的出现或多或少总能 带来一些信息
互信息量的性质4 互信息量不大于其中任一事件的自信息量
2.1.2 条件自信息量
定义2-3 事件xi在事件yj给定的条件下的条件自 信息量定义为: I ( xi | y j ) log p( xi | y j ) 含义:知道事件yj之后,仍然保留的关于事件xi 的不确定性;或者,事件yj发生之后,事件xi再 发生,能够带来的信息量。
先验概率
证明:
p( x | y ) I ( x; y ) log p ( x)
p( xy ) p ( y | x) p ( x) log I ( y; x) p( y ) p( y )
p( x | y ) p( y ) log log p ( x) p ( y )
含义:由y所提供的关于x的信息量等于由x 所提供的关于y的信息量
冰雹 1/8 1/4 2
17 H wA ( X ) wi p A ( xi ) log p A ( xi ) 8 i 1
18 H wB ( X ) wi pB ( xi ) log pB ( xi ) 8 i 1
4
熵函数的数学特性2 非负性
H(X)≥0 源于自信息量的非负性。 什么时候为0:有且仅有一个pi=1,其余的 pi=0,即确定事件集。
2.1.1 自信息
定义2-1 任意随机事件 的自信息量定义为该事 件发生概率的对数的负 值。 假设事件xi发生的概率为 p(xi),则其自信息定义 式为
I ( xi ) log p( xi )
根据该公式可能提出的 问题
底数是多少? 常用底数:2 真的成反比吗? I(x)≥0
熵的单位同自信息量的单位
熵的例子
串口通信 某串口的概率空间为
0 X P 1 2 1 1 2
则熵为
1 1 1 1 H ( X ) p ( xi ) log p ( xi ) log log 1 2 2 2 2 i 1
和
p(x1)
p(x2)
…
p(xn)
1
互信息量的性质1 互信息量的互易性
概率乘法公式 p ( x, y ) p ( y ) p ( x | y ) 全概率公式
p( x) p( x, yi ) p( yi ) p( x | yi )
i 1 i 1 n n
I(x;y) = I(y;x)
i 1
深层含义:熵是有局限性的。它仅与随机 变量的总体结构有关,抹煞了个体的特性。 例2-7 晴 多云 雨 冰雹 A地 1/2 1/4 1/8 1/8 “加权熵”
B地 1/2 1/8 1/8 1/4
加权熵
例2-8
A地 B地 权重 晴 1/2 1/2 1
4
多云 1/4 1/8 1
雨 1/8 1/8 1
证明:
p( x | y ) p ( x) I ( x; y ) log log log1 0 p ( x) p ( x)
含义:当两个事件相互独立时,一个事件不能提供另一个 事件的任何信息。 即一个事件发生之后,对于确定另一个事件是否发生没有 任何帮助。
互信息量的性质3 互信息量可正可负
p( x | y ) I ( x; y ) log 0 正: p( x) y的出现有助于肯定x的出现 p( x | y ) x:张三病了。 1 p ( x | y ) p( x) y:张三没来上课。 p( x) 负: p( x | y ) 0 y的出现有助于否定x的出现 I ( x; y ) log p( x)
自信息量的例子
假设“张三今天吃饭 了”这个事件发生的 概率是99.99%,则该 事件的自信息量为:
log(0.9999) 0.00014428
假设“美国总统的专 机发生空难”这个事 件发生的概率是0.01%, 则该事件的自信息量 为:
log(0.0001) 13.2877
这表明该事件的不确 定性很小。
规定:0log0 = 0
Hale Waihona Puke Baidu
自信息量的含义
自信息量表示了一个事件是否发生的不确 定性的大小。一旦该事件发生,就消除了 这种不确定性,带来了信息量,即: 自信息量表示了一个事件的发生带给我们 的信息量的大小。 自信息量表示了确定一个事件是否发生, 所需的信息量的大小。 自信息量表示了将事件的信息量表示出来, 所需的二进制位的个数。
互信息量的性质2 互信息量可为0
概率乘法公式 p ( x, y ) p ( y ) p ( x | y ) 全概率公式
p( x) p( x, yi ) p( yi ) p( x | yi )
i 1 i 1 n n
当事件x、y统计独立时,互信息量为0 p(x|y)=p(x) 无论是否知道y,都对x出现的概率没有影响 x和y没有什么关系
这表明该事件的不确 定性很大。
联合自信息量
定义2-2 二维联合集XY上的元素(xiyj) 的联 合自信息量定义为
I ( xi y j ) log p( xi y j )
联合自信息量衡量的是多个事件同时出现 的不确定性; 或者,两个事件同时发生带给我们的信息 量的大小; 或者,将该信息量表示出来,所需的二进 制位的个数。
i 1
平均自信息量
含义
熵表示了集合中所有事件是否发生的平均不确
定性的大小。 熵表示了集合中事件发生,带给我们的平均信 息量的大小。 熵表示了确定集合中到底哪个事件发生时,所 需的平均信息量的大小。 熵表示了,如果用二进制数据将集合中的各个 元素表示出来,所需的二进制位的个数的平均 值。
举例
张三今天没来上课 张三有可能病了
为什么没来上课就会猜到生病了? 因为二者有关系 互信息衡量的就是这种关系的大小
2.2.1 互信息量
定义2-4 随机事件yj的出现给出关于事件xi 的信息量,定义为互信息量。 定义式:
I ( xi ; y j ) log
p( xi | y j ) p( xi )
, pq )
集合X有q个事件,集合Y比X仅仅是多了一个概率 接近0的事件,则两个集合的熵值一样。 证明: lim log 0 0 含义:
集合中,一个事件发生的概率比其它事件发生的概率
小得多时,这个事件对于集合的熵值的贡献可以忽略。 即在研究这个集合的时候,该小概率事件可以不用考 虑