信息论第四讲
信息论讲义4

1、关于离散信源熵的总结 实际信源可能是非平稳的有记忆随机序列信源,其极限熵H∞不存在。 解决的方法是假设其为离散平稳随机序列信源,极限熵存在,但求解困难; 进一步假设其为m阶Markov信源,用其m阶条件熵Hm+1来近似,近似程度的 高低取决于记忆长度m 的大小; 最简单的是记忆长度 m =1的马尔可夫信源,其熵Hm+1=H2=H(X2|X1) 再进一步简化,可设信源为无记忆信源,信源符号有一定的概率分布。这时 可用信源的平均自信息量H1=H(X)来近似。 最后可假定是等概分布的离散无记忆信源,用最大熵H0 来近似。
补充:文本隐写技术
– 法轮功的信息传递:使用文本隐写工具软件Snow。
– 该软件使用公开对称加密算法ICE对秘密信息进行加密,再使用基于 行末不可见字符的文本隐写方法把秘密信息隐藏在文本中。
– 这种使用隐写技术传递隐秘信息的方法使得政府许多常规侦察方法失 去效果,从而使得相关职能部门对这些不法分子进行的不法活动更加 难以采取预防措施,给国家安全、社会稳定和经济的发展带来了严峻 的挑战。
补充:文本隐写技术
• 4)基于文件格式的文本隐写技术
• 该类方法利用文件格式中通常允许存在一定冗余的特性, 在文件格式中加入一些隐藏的信息。比如附加编码法, 是在文件中附加经过编码后的隐藏信息;PDF注释法, 是在PDF文件格式的注释部分加入编码后的隐藏信息等。
补充:文本本都当作一个独立的m阶时齐遍历马尔可夫信 源,以该文本中的单词作为信源符号;即检测方法只考虑每一篇文 本内部单词间的关系,而不将该文本与其所属的语种的总体特征进 行对比。 • 一般传统意义上关于文本的剩余度是指将某种自然语言作为信源并 计算该语言的剩余度,每个单独的文本只是作为该信源的一个输出。
数字通信原理4信息论基础1103页PPT文档

xMy1,pxMy1 xMy2,pxMy2 ...xMyN,pxMyN
满足条件:
M i1
N j1pxiyj 1
2020/4/5
11
离散信源的联合熵与条件熵(续)
第四章 信息论基础
两随机变量的联合熵
定义4.2.3 两随机变量 X :x iy Y j,i 1 , 2 ,. M ; .j .1 , 2 ,,. N ..,
I[P(xM)]
H(X)
图4-2-1 符号的平均信息量与各个符号信息量间关系 的形象表示
2020/4/5
7
离散信源的熵(续) 示例:求离散信源
X: 0 1 2 3
pX: 38 14 14 18
的熵。
第四章 信息论基础
按照定义:
H X i4 1pxilopg xi 8 3lo8 3g 1 4lo1 4g 1 4lo1 4g 8 1lo8 1g
2020/4/5
6
4、离散信源的平均信息量:信源的熵
第四章 信息论基础
离散信源的熵
定义4.2.2 离散信源 X:xi,i 1 ,2 ,.N ..的,熵
H X iN 1p xilop x g i
熵是信源在统计意义上每个符号的平均信息量。
I[P(x1)]
I[P(x2)]
I[P(x3)]
I[P(x4)]
同时满足概率函数和可加性两个要求。
2020/4/5
4
离散信源信的息量(续)
第四章 信息论基础
定义 离散消息xi的信息量:
IPxi loP g1xiloP gxi
信息量的单位与对数的底有关:
log以2为底时,单位为比特:bit
log以e为底时,单位为奈特:nit
信息论课件CHAPTER4

由于
h( X
)
h( X
/Y
)
p( xy) log
p( x / y)dxdy p( x)
p( xy)(1
p( x) )dxdy p(x | y)
0
仅当X、Y独立时等式成立。
4.1.5 连续随机变量集合差熵的性质(续) ——连续熵与离散熵的类似性
3. 可加性 设N维高斯随机矢量集合 XΝ X1X2 X N ,很容易证明
4.1.1 连续随机变量的离散化
一个连续随机变量的离散化过程大致如下:
若给定连续随机变量集合X 的概率分布F(x) P{X x} 或 概率密度p(x) ;再给定一个由实数集合到有限或可数集 合的划分 P ,使得
P {Si, i 1, 2, },其中Si 表示离散区间,i Si 为实数集合,
主要是高斯信源的差熵;然后介绍连续信 源最大熵定理;最后介绍连续集合之间的 平均互信息、离散集合与连续集合的平均 互信息。
§4.1 连续随机变量集合的熵
本节主要内容:
1.连续随机变量的离散化 2.连续随机变量集的熵 3.连续随机变量集的条件熵 4.连续随机变量集的联合熵 5.连续随机变量集合差熵的性质 6.连续随机变量集合的信息散度
4.1.5 连续随机变量集合差熵的性质 ——连续熵与离散熵的类似性
1. 连续熵与离散熵计算表达式类似。通过比较可见,由计算 离散熵到计算连续熵,不过是将离散概率变成概率密度, 将离散求和变成积分。
2. 熵的不增性。连续熵同样满足熵的不增原理,即
h( X ) h( X / Y )
(4.1.15)
i
p(xi )x log p(xi ) p(xi )x log x (4.1.5)
信息论4-1

在一般的广义通信系统中, 在一般的广义通信系统中,信道是很重要的一部 分,信道是信息传输的通道(如电缆、光纤、电波传 信道是信息传输的通道(如电缆、光纤、 播的介质等物理通道,以及磁盘、光盘等),其任务 播的介质等物理通道,以及磁盘、光盘等),其任务 ), 是以信号方式传输信息和储存信息, 是以信号方式传输信息和储存信息,在信息论中只研 究信号在这些信道中传输的特性及在此基础上信息的 可靠传输问题,而并不研究这些特性如何获得的 即研 可靠传输问题,而并不研究这些特性如何获得的(即研 究信道中理论上能够传输和存储的最大信息量, 究信道中理论上能够传输和存储的最大信息量,即信 道容量问题) 道容量问题 。
4.据信道的统计特性来分类 据信道的统计特性来分类 ①无记忆信道:信道的输出只与信道该时刻的输入有关 无记忆信道: 而与其他时刻的输入无关 . 有记忆信道(无扰信道 无扰信道) 信道某一时刻输出的消息, ②有记忆信道 无扰信道 :信道某一时刻输出的消息, 不仅与该时刻的输入消息有关, 不仅与该时刻的输入消息有关,而且还与前面时刻的输 入消息有关。 入消息有关。 5. 根据信道的参数与时间关系来划分 统计特性)不随时间而变化 ①恒参信道:信道的参数(统计特性 不随时间而变化 . 恒参信道:信道的参数 统计特性 统计特性)随时间而变化 ②随参信道:信道的参数(统计特性 随时间而变化 随参信道:信道的参数 统计特性 随时间而变化. 6.根据信道的统计特性对输入端是否有对称性分类 根据信道的统计特性对输入端是否有对称性分类 ①恒参信道 ②随参信道
(2) 对称信道 ① 定义 若信道矩阵中,每行元素都是第一行元素的不同排列, 若信道矩阵中,每行元素都是第一行元素的不同排列, 每列元素都是第一列元素的不同排列, 每列元素都是第一列元素的不同排列,则这类信道称为 对称信道。 对称信道。
信息论讲义-第四章(10讲)

信息理论基础第10讲北京航空航天大学201教研室陈杰2006-11-274.3离散无记忆扩展信道一、无记忆N次扩展信道定义:假设离散信道[X, p (y|x ), Y ],输入符号集合:A ={a 1,a 2,……,a r }输出符号集合:B ={b 1,b 2, ……,b s } X 取值于A,Y取值于B.将输入,输出N次扩展得其中,Xi 取值于A,Yi 取值于B,i =1,2,……N12()N X X X =X "12()N YY Y =Y "信道XYp (y|x )2006-11-274.3离散无记忆扩展信道二、无记忆N次扩展信道其数学模型如下:若则称为N次无记忆扩展信道。
信道NX X X ……21NY Y Y ……211212(|)N N p y y y x x x ……12121(|)(|)(|)NN N i i i p p y y y x x x p y x ===∏y x ""[,(|),]N N N N X p y x Y2006-11-27三、离散无记忆信道数学模型信道输入序列取值信道输出序列取值信道转移概率信道X YNX X X X (21)Y Y Y Y ……=2112,N x x x x =……A x i ∈12,N y y y y =……B y i ∈1(|)(|)Ni i i p y x p y x ==∏{,(|),}i ip y x X Y 离散无记忆信道2006-11-27离散信道的数学模型可表示为定义若离散信道对任意N 长的输入、输出序列有称为离散无记忆信道,简记为DMC 。
数学模型为{,(|),}p y x X Y 1(|)(|)Ni i i p y x p y x ==∏{,(|),}i i p y x X Y2006-11-27(1) 对于DMC 信道,每个输出符号仅与当时的输入符号有关,与前后输入符号无关。
(2) 对任意n 和m ,,,若离散无记忆信道还满足则称此信道为平稳信道的或恒参信道。
第二章信息论

无记忆信源 X的各时刻取值相互独立。
有记忆信源 X的各时刻取值互相有关联。
补充解释 信源和信宿
信源亦称信息源,它能够形成和发送一组有待于传输
给接收端的消息或消息序列。
信宿即信息接受者,它能够接收信息并使信息再现从
而达到通信的目的。
说明:
信源和信宿是多方面的,既可以是人,也可以是 物
信源和信宿是相对的 信源发出的信息对于信宿来说是不确定的
第二节 信息论基础知识
一、通信系统模型 1、通信系统模型
申农认为通信应该是信息在系统中识别、 传输、变换、存储、处理、显示的过程。因此 通信系统必须是一个发送与接收,输入与输出 两者相互联系的不可分割的统一体。
通信系统模型
通信的基本问题是在彼时彼地精确地或近似地再现此时此 地发出的消息。 各种通信系统,一般可概括为下图所示的统计模型:
信源
信源编码器 信道编码器
等效信源 等效信宿
信宿
信源译码器 信道译码器
等效干扰 信道
信
干
道
扰
源
这个模型包括以下五个部分: 1.信源 信源是产生消息的源。
2. 编码器 编码器是将消息变成适合于 信道传送的信号的设备。
信源编码器,提高传输效率
编码器
信道编码器,提高传输可靠性
3. 信道 信道是信息传输和存储的媒介。
维纳从控制和通信的角度研究了信息问题,以自动 控制的观点解决了信号被噪声干扰时的处理问题,建立 了“维纳滤波理论”,从而扩大了信息论的研究范围。
申农信息论
申农使信息论成为了一门独立的学科,主要解决 了信息编码问题和如何提高通信的效率和可靠性。
《通信中的数学理论》和《在噪声中的通信》集 中了申农的研究成果,系统的论述了信息理论,奠定 了现代信息论的基础。
信息论基础详细ppt课件

1928年,哈特莱(Hartley)首先提出了用对数度量信
息的概念。一个消息所含有的信息量用它的可能值
香农
的个数的对数来表示。
(香农)信息: 信息是事物运动状态或存在方式的不确定性的描述。 可运用研究随机事件的数学工具——概率来测度不确定性大小。 在信息论中,我们把消息用随机事件表示,而发出这些消息的信 源则用随机变量来表示。
2.1 自信息和互信息
2.1.1 自信息
随机事件的自信息量 I (xi ) 是该事件发生概率 p(xi ) 的函数,并且应该满 足以下公理化条件:
1. I (xi )是 p(xi )的严格递减函数。当 p(x1)p(x2) 时,I(x1)I(x2),概率 越小,事件发生的不确定性越大,事件发生后所包含的自信息量越大
事件 x i 的概率为p(xi ) ,则它的自信息定义为:
I(xi)d eflogp(xi)logp(1xi)
从图2.1种可以看到上述信息量的定义正 是满足上述公理性条件的函数形式。I (xi ) 代表两种含义:当事件发生以前,等于 事件发生的不确定性的大小;当事件发 生以后,表示事件所含有或所能提供的 信息量。
2.极限情况下当 p(xi )=0时,I(xi);当 p(xi ) =1时,I (xi ) =0。
3.另外,从直观概念上讲,由两个相对独立的不同的消息所提供的 信息量应等于它们分别提供的信息量之和。 可以证明,满足以上公理化条件的函数形式是对数形式。
定义2.1 随机事件的自信息量定义为该事件发生概率的对数的负值。
我们把某个消息 x i 出现的不确定性的大小,定义为自信息,用这
个消息出现的概率的对数的负值来表示:I(xi)lop(g xi)
自信息同时表示这个消息所包含的信息量,也就是最大能够给予 收信者的信息量。如果消息能够正确传送,收信者就能够获得这 么大小的信息量。
信息论课件.ppt教学文案

– 先验概率:选择符号 ai 作为消息的概率----P(ai)
– 自信息:ai 本身携带的信息量
I(ai
)
log 1 P(ai
)
– 后验概率:接收端收到消息(符号) bj 后而发送端
发的是 ai 的概率 P(ai/bj)
– 互信息:收信者获得的信息量-----先验的不确定 性减去尚存在的不确定性
I(ai;bj)loP g(1 ai)loP g(ai1/bj)
第一章 绪论
信息论
通信技术 概率论 随机过程 数理统计
相结合逐步发展而形 成的一门新兴科学
奠基人:美国数学家香农(C.E.Shannon) 1948年“通信的数学理论”
本章内容:
信息的概念 数字通信系统模型 信息论与编码理论研究的主要内容及意义
1.1 信息的概念
信息是信息论中最基本、最重要的概念,既抽象又复杂
– 信息具有以下特征: (1)信息是可以识别的 (2)信息的载体是可以转换的 (3)信息是可以存贮的 (4)信息是可以传递的 (5)信息是可以加工的 (6)信息是可以共享的
1.2 信息论研究的对象,目的,内容
一、 研究对象 – 前面介绍的统一的通信系统模型。人们通过系统 中消息的传输和处理来研究信息传输和处理的共 同规律。
消息:用文字等能够被人们感觉器官所感知的形式, 把客观物质运动和主观思维活动的状态表达出来。 知识:一种具有普遍和概括性质的高层次的信息 , 以实践为基础,通过抽象思维,对客观事物规律性的 概括。 情报:是人们对于某个特定对象所见、所闻、所理解 而产生的知识 。
它们之间有着密切联系但不等同 ,信息的含义更深刻、广泛
– 它的主要目的是提高信息系统的可靠性、有效性、 保密性和认证性,以便达到系统最优化;
4-第四讲信道容量及其计算

不同排列组成,并且每一列也是同一元素
集的不同的排列组成。
1 1 1 1
,
1 1 1 1
6 6 3 3
1 1 1
2
3
6
P
1 6
1 2
1 3
1
1
1
3 6 2
1/3 1/3 1/6 1/6
1/6 1/6
1/3
1/3
行
列
1/2
1/3 1/6
1/6 1/2
1/3
1/3 1/6
1/2
行
列
C log 4 H (1 , 1 , 1 , 1) 2 (1 log 1 1 log 1 1 log 1 1 log 1)
3366
3 33 36 66 6
0,0817(bit / symbol)
(2)、准对称信道的容量
准对称信道:信道矩阵(列)的子阵是对称矩阵。
1 1 1 1
P
3
有时我们需要关心单位时间内(一般为秒为单位) 平均传输的信息量,若平均传输一个符号需要 t 秒,则 信道每秒平均传输的信息量为(速率)
Rt
1 I(X ;Y ) t
1H(X)1H(X
t
t
|Y)
(bit / sec)
I(X;Y)是输入随机变量的概率分布的上凸函数, 所以对于固定的信道,总存在一种信源分布,使传输 每个符号平均获得的信息量最大,也就是说,每一个 固定信道都有一个最大的信息传输率。
信道2 p(j’|k’)
Y1 {bj} Y2 {bj '}
定理:独立并行信道的容量为各分信道容量之和。
C C1 C2
和信道:随机选取信道1或信道2传送,(并信道)。
信息论与编码第四课精品课件

• 设信道的输入符号集合是X{x0,x1, ,xn1} ,
• 输出符号集合是 Y{y0,y1, ,ym 1}
• 再加上一组(mn个)转移概率
p (Yyj/Xxi)p (yj/xi)
这样的一种信道称为离散无记忆信道 • (DMC:Discrete Memoryless Channel)。
信息论与编码-信道与信道容量
下面我们讨论几种常用信道。
(1)二进制离散信道 二进制离散信道的输入值集合是{0,1},输出值集合也是{0, 1},再加上一组描述信道统计特性的转移概率,就可以完全 确定信道。
• 二进制离散信道的一个特例:二进制对称信道(BSC-Binary Symmetric Channel)。如果描述二进制离散信道的转移概率 对称,即
X{a0,a1, ,an1}
• 信道输出时未经量化的任意值,即 m->∞
• 信道特性由转移概率密度函数决定
p Y (y|X a i),i 1 ,2 , ,n
• 典型信道是加性高斯白噪声信道(AWGN)
pY(y|Xai)
1 2
e(yai)2/22
信息论与编码-信道与信道容量
(4)波形信道 • 输入和输出都是随机过程{x(t)}和{y(t)},模拟系统。 • 对于频带受限的波形信道,可以用抽样的方法变成
• 只要知到了信道的输入信号和输出信号以及它们之间 的统计依赖关系,则信道的全部特性就确定了。所以 可以用信道的转移概率矩阵P(Y/X)来描述信道、信道 的数学模型及分类
• 研究信道,就要研究信道中能够传送的最大信息量, 即信道容量问题。
信息论与编码-信道与信道容量
➢ 信道的分类:从不同的角度,有不同的分类方法。 • 根据信道的参数是否随时间变化,可以分为: (1)固定参数信道:信道的参数不随时间变化; (2)时变参数信道:信道的参数随时间变化。 • 根据输入和输出信号的特点,可以分为: (1)离散信道:信道的输入和输出的随机序列取值都是
信息论讲义(4讲)

信息论第4讲北京航空航天大学201教研室陈杰buaa201gcss@ PWD:buaaf615例4.14 根据概率转移图给出信道矩阵,并求信道的信道容量1 31 21 61 31 6161613131316161213131216x a1a2Yb1b2b3b4xa1a2a3Yb1b2b32由概率转移图可以写出信道矩阵如下11111336611116633⎡⎤⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦P2111236111623111362⎡⎤⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦P34解:信道1和2都为对称信道,所以()'''112log ,,,sC s H p p p=−"1111log 4,,,3366H ⎛⎞=−⎜⎟⎝⎠0.0817 bit=()'''212log ,,,sC s H p p p=−"111log 3,,236H ⎛⎞=−⎜⎟⎝⎠0.126 bit=5例4.15 根据信道矩阵,求下列信道的信道容量解:该信道为对称信道111002211002211002211022⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦P ()'''112log ,,,sC s H p p p=−"11log 4,22H ⎛⎞=−⎜⎟⎝⎠1 bit=6例4.15 根据信道矩阵,求下列信道的信道容量解:信道为无损信道21100 0 0 0 0221100 0 0 0 022110000 0 022110000 0 0 22⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦P 22log C r=2log 4=2 bit=7另解:将该信道看成准对称信道输入等概分布时,输出为:2211()(|)log 8,2 22C H Y H Y X H bit⎛⎞=−=−=⎜⎟⎝⎠12818q q q ===="8例4.15 根据信道矩阵,求信道容量1111336611116363⎡⎤⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦P9解法1:利用定理信道为准对称信道,当输入为等概分布时达到信道容量则121/2p p ==|11111133661111226363Y X Y X⎡⎤⎢⎥⎡⎤=•=⎢⎥⎢⎥⎣⎦⎢⎥⎢⎥⎣⎦P P P 1111 4364⎡⎤=⎢⎥⎣⎦10()max (;)p x C I X Y =[]()max ()(|)p x H Y H Y X =−11111111,,,,,,43643366H H ⎛⎞⎛⎞=−⎜⎟⎜⎟⎝⎠⎝⎠0.041 bit=11例4.16 有一离散信道的概率转移图如图所示:试求①信道容量C②若求信道容量010x 1121εε−−121εε−−1ε2ε2ε1ε20ε=12解法1:利用定理求解由转移概率矩阵可知,此信道为准对称信道当时,达到信道容量122121211 1 εεεεεεεε−−⎡⎤=⎢⎥−−⎣⎦P 1212p p ==13则输出端符号概率分布为:()()()()0122112121111111122211111222122q q q εεεεεεεεεεε⎧=−−+=−⎪⎪⎪=+−−=−⎨⎪⎪=×=⎪⎩14()max (;)p x C I X Y =[]()max ()(|)p x H Y H Y X =−()()011212,,1,,H q q q H εεεεε=−−−112212121(1)log (1)log (1)log(1)2εεεεεεεε=−−−++−−−−210 =1C εε=−当时15三、离散无记忆N 次扩展信道的信道容量N 次扩展信道的信道容量为其中{}()max ()Np x C I =X;Y {}()max (,)i i i p x C I X Y =()1max (,)N i i p x i I X Y ==∑1Ni i C ==∑16•物理意义:对于离散无记忆N 次扩展信道,其信道容量等于单变量信道的信道容量的N 倍。
信息论基础-第4章信息论基础1

研究目的——信息传输系统最优化
1.可靠性高 使信源发出的消息经过信道传输后,尽可能准确地、 不失真地再现在接收端。
2.有效性高 经济效果好,用尽可能短的时间和尽可能少的设备来 传送一定数量的信息。
往往提高可靠性和提高有效性是矛盾的。
3. 保密性 隐蔽和保护通信系统中传送的消息,使它只能被授
权接收者获取,而不能被未授权者接收和理解。
★信息论研究的对象、目的和内容
研究对象——通信系统模型
信 源 消息 编码器 信号 信 道
干扰
噪声源
译码器 消息 信 宿
1. 信息源:简称信源 信源是产生消息和消息队列的源。如电视直播厅,广 播室,人等等。
特点:信源输出的消息是随机的、不确定的,但有一 定的规律性。
2. 编码器:
编码器是把消息变换成信号的措施,编码器输出的 是适合信道传输的信号。
定理4.2.5 熵函数 H X 是概率 px1, px2 ,..., pxN
的型凸函数。
定理4.2.6 当离散信源X取等概分布时,其熵 H X 取最大值。
max
H px1 ,
px2
,...,
pxN
H
1 N
,
1 Ng 1 log 1
i1 N
N
N
即:当信源取等概分布时,具有最大的不确定性。
(1) f ( p应i ) 是先验概率 的P(x单i ) 调递减函数,
即
P(x1)时 P,(x2 )
f [P(x1)] f [P(x2)]
(2) 当 P(xi )时,1
f ( pi ) 0
(3) 当 P(xi )时 0, f ( pi )
(4) 两个独立事件的联合信息量应等于它们分
信息论ppt第四章

如图所示,信源在某时刻处于某一状态 si , 当它发出一个符号xim1 后,所处的状态就变了, 转移到状态 s j,因此,信源输出的符号序列X1 X 2 X m X m1 变换成信源状态序列S1S2 SmSm1 ,于是一个讨论 信源输出符号不确定性的问题变成讨论信源状态 转换的问题。
作业:1. 证明 2. 有一无记忆信源的符号集为{0,1},已知信源的 概率空间为 1 X 0 P 1 / 4 3 / 4 , (1)求信源熵; (2)求由m个“0”和(100-m)个“1”构成的某一特定序 列的自信息量的表达式; (3)计算由100个符号构成的符号序列的熵。
并设发出的符号只与前一个符号有关,其关联程 度由条件概率 p(a j | ai ) 给出,如下所示:
, 求:(1)此信源每发出一条消息提供的平均信息 量 H(X ) ; (2)此信源的平均符号熵 H2 ( X ) (3)此信源的极限熵 H 。
7 / 9 2 / 9 0 1/ 8 3/ 4 1/ 8 2 / 11 9 / 11 0
实际信源分类如下:
离散无记忆信源 记忆长度无限 平稳信源 离散平稳信源 离散有记忆信源 记忆长度有限 随机过程:波形信源 (马尔科夫信源) 连续平稳信源 非平稳信源
第二节
离散离 散单符号信源,它是最简单、最基本的信 源,是组成实际信源的基本单元,用一个 离散型随机变量表示。 信源所有可能输出的消息和消息所对应 的概率共同组成的二元序 [ X , P( X )] 对称为信 源的概率空间。
X X x1 , X x2 , X xi , X xq P( X ) p( x ), p( x ), p( x ), p( x ) 2 i q 1
信息论基础ppt课件

(a) H ( X , Y ) , H ( X ) , H ( Y ) , H ( X |Y ) , H ( Y |X ) , I ( X ; Y ) ;
(b)如果q(x,y)p(x)p(y)为两个边际分布的乘积分布,计 算 D( p Pq) 和 D(q P p)。
解:
(a )
H (X ,Y ) 1 lo g 1 1 lo g 1 1 lo g 1 5 lo g 5 44441 21 21 21 2
1 p(X)
可见熵是自信息的概率加权平均值
引理 1.2.1 H(X) 0,且等号成立的充要条件是 X 有退化分布。
例题 1.2.1 设
1
X
0
依概率 p 依概率 1 p
则 H ( X ) p l o g p ( 1 p ) l o g ( 1 p ) h ( p ) 。
I (x) log 1 。 p(x)
1.2 熵、联合熵、条件熵
X 定义 1.2.1 离散随机变量 的熵定义为
H(X)p(x)logp(x) x
e 我们也用 H ( p ) 表示这个熵,有时也称它为概率分布 p 的熵,其中对
数函数以2为底时,熵的单位为比特(bit),若对数以 为底时,则熵的
图1.1 通信系统模型
第一章 随机变量的信息度量
1.1 自信息 1.2 熵、联合熵、条件熵 1.3 相对熵和互信息
1.1 自信息
定理1.1.1
定义 1.1.1
若自信息I ( x ) 满足一下5个条件:
( i ) 非复性:I(x) 0;
( i i ) 如 p(x) 0, 则 I(x) ;
信息论第四讲平稳随机序列信源

2020/1/20
7
B.N次扩展信源的信源空间
因为信源XN的每一个消息[Xi]=[Xi1,Xi2,……XiN]均由 信源X的符号集X:{x1,x2,…xn}中的N个符号组成,所 以,XN 的某一个具体符号Xi可以表示为:
[Xi]=(Xi1,Xi2,……XiN)
Xij∈X:{x1,x2,…xn},
这个关系表明多符号信源中的每个符号取值
2020/1/20
11
单符号离散平稳无记忆信源的N次扩展信源是一种 最简单的多符号信源。
如果单符号离散平稳无记忆信源[X]=[X1,X2,…XN] 中的各变量Xi取值于不同的单符号离散无记忆信源 [Xi,P]。
[X i , P]
Xi P(X i )
xi1 xi2 ... xin p(xix ) p(xi2 )... p(xin )
n
p( xil ) 1
l 1
(i 1,2,... N )
这种信源称为多符号离散无记忆信源
2020/1/20
12
可以证明这种多符号离散无记忆信源的熵为:
H([X]) H( X1, X2,... XN ) H( X1) H( X2)...H( XN )
其中H(Xi)为单符号离散信源[Xi,P]的熵。
p(x1,x2,…xn)=p(x1)p(x2)…p(xn) ②多符号离散无记忆信源,
P(X1,X2,…XN)= P(X1)P(X2)P(X3)…P(XN)
2020/1/20
6
P(X1,X2,…XN)= P(X1)P(X2)P(X3)…P(XN) 在这种假设前提下,可以把多符号离散 平稳信源看作单符号离散平稳信源的N 次扩展信源。 通常N次扩展信源,记为XN。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.2 重要定理2.2.1 链式法则从定理 2.1,我们得到:)|()(),(X Y H X H Y X H +=和)|()(),(Y X H Y H Y X H +=,并解释说它们是熵的链式法则在两个随机变量情况下的特例。
现在,我们来看它的一般形式,即针对一组随机变量的情况。
世界上有很多事情取决于多种因素,这时就可以看作多个随机变量共同决定了事情的不确定性。
定理2.3(熵的链式法则)设随机变量n X X X ,,,21 服从联合分布),,,(21n x x x p ,则∑=-=ni i i n X X X H X X X H 11121),,|(),,,( (2-36)证明 根据式(2-15),可以把等式左边写成左边=)),,,,((),,,(12121n n n X X X X H X X X H -=)),,,(|(),,,(121121--+=n n n X X X X H X X X H)),,,(|(),,,(2211221---+=n n n X X X X H X X X H ),,|(11X X X H n n -+∑=-=ni i i X X XH 111),,|( =右边在证明过程中,我们没有使用联合概率分布),,,(21n x x x p ,如果使用之,同样可以证明这个定理。
可以从物理概念上对上述定理加以解释:多随机变量的联合熵是多个事件同时发生的不确定性,它应该等于事件1X 的不确定性与1X 已出现的情况下其它事件同时发生的不确定性之和,而后者是1X 已出现的前提下事件2X 的不确定性,与1X 、2X 已出现的情况下其它事件同时发生的不确定性之和,依此类推。
这个定理告诉我们一个重要的结论:多随机变量的联合熵等于条件熵之和。
;如果多个事件互相独立,问题就变得更简单了。
例如,我们班上有n 个同学,每人的学习成绩是[0,100]间的随机数,用随机变量i X 表示。
根据上述定理,全班成绩的不确定性为∑=-=ni i i n X X X H X X X H 11121),,|(),,,( ,是条件熵之和,但是由于大家的成绩相互独立,全班成绩的不确定性只由每人成绩不确定性之和决定,即为∑=n i i X H 1)(。
定理2.4(平均互信息的链式法则)∑=-=n i i in X X Y X I Y X X X I 11121),,|;();,,( (2-37)此式的左边是多个事件n X X X ,,,21 能给另一事件Y 提供的互信息(或者相反),右边是Y 与各个i X 事件在一定条件下的互信息之和(即已知一些Xi 的条件下,下一个Xi 带给Y 的互信息)。
证明 运用)|()();(Y X H X H Y X I -=和熵的链式法则可作如下推导: )|,,,(),,,();,,,(212121Y X X X H X X X H Y X X X I n n n -=∑∑∑=-=-=-=-=ni i i ni i i n i i i X X Y X I Y X X X H X X X H 111111111),|;(),,,|(),,|( 定理2.5 (相对熵的链式法则)))|(||)|(())(||)(()),(||),((x y q x y p D x q x p D y x q y x p D += (2-38) 证明 ∑=XY y x q y x p y x p y x q y x p D ),(),(log ),()),(||),(( ))|(||)|(())(||)(()|()|(log ),()()(log ),()|()()|()(log ),(x y q x y p D x q x p D x y q x y p y x p x q x p y x p x y q x q x y p x p y x p XY XYXY +=+==∑∑∑ 相对熵的链式法则定义了两个随机变量的两种不同分布间的距离。
以上链式法则把第一节所给出的概念推广到更复杂的情况,适用于多个随机变量。
它们之间存在着某种“层次”上的关系,让我们来看下面的例题。
例2.11 在实际工作和生活中,常常会由于某种需要有序地论述某些思路,然后,如有必要就会对这些思路进行适当的推广。
那么前面的三个链式法则哪个最强,哪个最弱?请排一下顺序。
解 推导平均互信息的链式法则时,我们利用了熵的链式法则,说明熵的链式法则更有一般性,而相对熵的定义比平均互信息更宽泛,它的链式法则也就适合更宽泛的情况,所以说平均互信息要求的条件最强。
在熵和相对熵之间,由于后者是对两个概率密度函数定义的,要求条件比熵的定义更宽。
所以若以条件而言,从强到弱的顺序是平均互信息-熵-相对熵,若以适用范围而言,从强到弱的顺序是相对熵-熵-平均互信息。
2.2.2 杰森(Jensen ) 不等式定理2.6 对于凹函数f 和随机变量X ,总有)()(EX f X Ef ≥ (2-39)证明 用数学归纳法进行证明。
对于两点分布,杰森不等式蜕化为如下形式:)()()(22112211x p x p f x f p x f p +≥+其中121=+p p 。
这是函数f 为凹函数的条件,而且当且仅当01=p 或1时,f 是严格凹函数。
而杰森不等式的条件就是给定一个凹函数f ,所以上式是成立的。
假定随机变量X 是k-1点分布,则∑=i i p 1,记)1k ii p p p -=',其中1,,2,1-=k i ,则有∑∑=-='-+=k i k i i i k k k i i x f p p x f p x f p 111)()1()()( ⎪⎪⎭⎫ ⎝⎛=⎪⎪⎭⎫ ⎝⎛'-+≥⎪⎪⎭⎫ ⎝⎛'-+≥∑∑∑=-=-=k i i i k i i i k k k b k i i i k k k a x p f x p p x p f x p f p x f p 111)(11)()1()1()( 其中(a )由归纳假设得到,(b)是因为f 是凹函数。
以上用归纳法证明了杰森不等式在离散分布下是正确的,对连续分布也是正确的,这里不再讨论。
下面,我们利用杰森不等式来证明相对熵的非负性。
定理2.7 相对熵不小于0。
即0)||(≥q p D (2-40)而且当且仅当概率密度函数)()(),(X x •x q x p ∈满足)()(x q x p = 条件时,等号成立。
证明 ∑∑=-=-X X x p x q x p x q x p x p q p D )()(log )()()(log )()||( 01log )(log )()()(log ===≤∑∑XX x q x p x q x p (2-41) 式中不等号由定理2.6得到。
由于t log 是关于t 的严格凸函数,所以式(2-41)中的等号在当且仅当1)(/)(=x p x q 时成立,此时)()(x q x p =。
有了定理2.7,平均互信息量的非负性立即得证。
定理2.8 设n X X X ,,,21 服从分布),,,(21n x x x p ,有∑=≤n i i n XH X X X H 121)(),,,( (2-42)而且当且仅当n X X X ,,,21 互相独立时,等号成立。
由熵的链式法则和定理2.2可以直接证明之,此处从略。
这个结果叫做熵的界。
定理2.9 设随机事件集合X 共有N 个元素,则N X H log )(≤ (2-43)而且当且仅当集合中各随机事件均匀分布时,等号成立。
证明 设)(x p 是随机变量X 的实际概率密度,)(x q 是X 各元素均匀分布时的概率密度,显然N x q 1)(=,∑∑∑-==)(l o g )()(l o g )()()(l o g )()||(x q x p x px p x q x p x p q p D∑∑-=+=)(log )(log )(log )(X H N x p x p N x p 因为0)||(≥q p D ,所以 N X H log )(≤,当且仅当)(x p =)(x q ,即均匀分布时, 0)||(=q p D ,式(2-43)中等号成立。
在这个证明中,我们得到了等式)(log )||(X H N q p D -=,其中N log 是个常数,所以由)(X H 的凸函数性立即得到)||(q p D 是个凹函数。
例2.12 英文加空格共27个字符,编码时平均要用多少比特表示英文字符?解 752.4584.133log 327log )(=⨯==≤X H (比特)2.2.3 数据处理不等式有时人们希望,通过某种数据处理的方式更多地了解某一事物,获得更多的信息。
但是数据处理不等式从理论上告诉我们这是不可能的。
我们不可能找到一种最优的数据处理方式,使我们得到比原来更多的信息。
为了证明这个不等式,需要用到马尔可夫链的概念。
关于马尔可夫链的详细内容,在本章附录中有所回顾,此处简单表述如下:对于随机变量空间X ,Y ,Z ,如果某一变量的条件分布仅取决于前一个变量,而与更前面的变量无关,例如Z 的条件分布仅取决于Y ,而与X 的条件无关,则称X ,Y ,Z 构成了马尔可夫链。
正规的定义为:定义2.10 如果X ,Y ,Z 的联合概率分布密度函数满足条件 )|()|()(),,(y z p x y p x p z y x p = (2-44)则X ,Y ,Z 构成马尔可夫链,简记为Z Y X →→。
Z Y X →→蕴含着X Y Z →→,因此有时记作Z Y X ↔↔。
定理2.10 如果Z Y X →→,则);();(Z X I Y X I ≥ (2-45)证明 根据链式法则,将平均互信息),;(Z Y X I 展开为如下形式 )|;();(),;(Z Y X I Z X I Z Y X I += (2-46))|;();(),;(Y Z X I Y X I Z Y X I += (2-47)因为给定Y 的条件下,X 与Z 互相独立,所以有0)|;(=Y Z X I ,而0)|;(≥Z Y X I ,比较(2-46)和(2-47)两式得到);();(Z X I Y X I ≥。
当0)|;(=Z Y X I 时,式(2-45)中等号成立。
类似地,);();(Z X I Z Y I ≥ (2-48)如果Z 是对Y 进行数据处理的结果,即Z 是Y 的函数)(Y g Z =,则由于)(Y g Y X →→构成马尔可夫链,可以得到))(;();(Y g X I Y X I ≥,说明对数据Y 处理后所得到的)(Y g Z = 不会增加关于X 的信息。