第8讲_自然语言的熵
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
F.U
M P
0.0225
0.021 0.0175
X
J.Q Z
0.002
0.001 0.001
下面,首先求得独立等概率情况,即
H 0 log2 27 4.76 bit / symbol
其次,计算独立不等概率情况
H 1 pi log pi 4.03 bit / sym bol
i 1
H c 1.2
比特/符号
H 1.2 R 1 1 1 0.4 H0 2
正由于信源存在着冗余度,即存在着不必要传送的信息,因 此信源也就存在进一步压缩信息率的可能性。冗余度越大,压缩 潜力也就越大。可见它是信源编码,数据压缩的前提与理论基础。 下面,以英文为例,计算文字信源的冗余度。 首先给出英文字母(含空档)出现概率如下:
27
再次,若仅考虑字母有一维相关性,求 H 2
H 2 3.32 bit / symbol
还可进一步求出:
H 3 3.1 bit / symbol
最后,利用统计推断方法求出 H ,由于采用的逼近的 方法和所取的样本的不同,推算值也有不同,这里采用 Shannon的推断值。
H 1.4 bit / sym bol
为计算这些熵,要计算字母之间的一维条件概率、二维条件 概率
P (a j ai )
ai , a j [英文字母集 ]
P(ak ai a j )
ak , ai , a j [英文字母集 ]
二阶马尔可夫信源,条件概率为 273 19683 个。 香农做法:
对于其它文字,也有不少人作了大量的统计工作,现简述如下:
表
位码: 低7位 区码:高7位
GB2312编码局部表
010 010 08 哀 抱 钵 09 皑 报 波 癌 暴 博
010 010 010 010 010 010 010 01 啊 薄 病 02 阿 雹 并 03 埃 保 玻 04 挨 堡 菠 05 哎 饱 播 06 唉 宝 拨 07
0001 0010 0011 0100 0101 0110 0111 1000 1001
H0
英文 法文 德文
H1
4.03
H2
3.32
H3
3.1
...
H
1.4
0.29
R
0.71
4.7
4.7
4.7
3
1.08
0.63
0.23
0.37
0.77
西班牙文 4.7 中文
1.97
0.42
0.58
13
9.41
8.1
7.7
4.1
0.315
0.685
(按8千汉字计算)
汉字的编码
GB2312-80 国家标准汉字编码简称国标码。该编码集的全称是“信 息交换用汉字编码字符集—基本集”,国家标准代号是 “GB2312-80”。该编码的主要用途是作为汉字信息交换码使 用。 国标码中收集了二级汉字,共约7445个汉字及符号。其 中,一级常用汉字3755个,汉字的排列顺序为拼音字典序; 二级常用汉字3008个,排列顺序为偏旁序;还收集了682个图 形符号。一般情况下,该编码集中的二级汉字及符号已足够 使用。 国标码规定:一个汉字用两个字节来表示,每个字节只 用前七位,最高位均未作定义(见图)。为了方便书写,常 常用四位十六进制数来表示一个汉字。
H m1
H m1 H 2 H ( x2 x1 )
对于一般的离散信源都可以近似地用不同记忆长度的马尔可夫信源来 逼近。进一步简化,可以建设信源为无记忆信源,信源符号有一定的概 率分布。最后可以假定是等概率分布的离散无记忆信源。
log q H0 H1 H2 Hm1 H
在诊断过程中,每进行一项检查获得一个 征候信息表现时,它就给医生对疾病的认识带 来一定的信息量,医生对患者所患疾病认识的 不确定性就会减少。设征候S有m个互不相容的 表现s1 ,s2 ,…,sm ,当sj 出现时,疾病ai 发生 的概率设为
P(ai|sj),i=1,2,…,n,j=1,2,…,m 在获得征候表现sj 后,信源(患者)不确定性 大 小 , 按信 息 论 , 可 以 用 条件 熵 度 量 , 即 H (x|sj)
临 床 诊 断 的 信 息 分 析
信源的熵由H(X)降到获得征候表 现Sj 后的H(x|sj ),此时,两个熵值之 差就是征候表现Sj 提供给医生的信息量: I(X,Sj)=H(X)- H(X|Sj) 上面各式可计算和比较各征候及每 个征候各临床表现的信息量,信息量越 大的征候或征候表现,其临床诊断的价 值就越大。
b7
b6
b5 b4
b3
b2
b1
b0
b7
b6
b5
b4
b3
b2
b1
b0
0
×
× × × × × ×
0
×பைடு நூலகம்
×
×
× × ×
×
国标码的格式 例如: 汉字“大”的国标码是“3473”(十六进制 数)。 国标码是一种机器内部编码,其主要作用是:用于统 一不同的系统之间所用的不同编码。通过将不同的系统使用 的不同编码统一转换成国标码,不同系统之间的汉字信息就 可以相互交换。
可见对于有记忆信源,最小单个消息熵应
为 H ,即从理论上看,对有记忆信源只需传送 H 即可。但是这必需要掌握信源全部概率统计特性和
所有的记忆关系。这显然是不现实的。实际上,往 往只能掌握有限的N维,这时只需传送 H N 1 ,那么 与理论值相比,就多传送了 H N 1 H 。 为了定量描述信源熵的有效性,定义了信源冗余度:
GB2312 编码表的格式和布局
国际汉字编码也用类似于ASCCII码表的形式给出, 将汉字和必要的非汉字字符排列在94×94方阵的区域中。方 阵中的每一个位置的行和列分别用一个七位二进制编码表示, 称为区码和位码,每一个汉字和非汉字字符对应于方阵中的 一个位置,因此,可以把汉字和非汉字字符所在位置的区码 和位码作为它们的编码。区码和位码的存储各占一个字节, 所以在国际汉字编码中,每个汉字和非汉字字符占用俩个字 节。表2-6给出了GB2312编码表的局部格式。
什么是信息?
关于信息的定义,众说纷纭。
哲学家说,信息就是认识论。
数学家则认为信息是概率论。 物理学家把信息定义为熵。 通信专家把信息看作是消除不确定性。 表明信息科学尚未形成一套统一的、完整的、 得到公认的理论。
获取信息的过程是一个由未知到已知的过程(哲
学),或者说由不确定到确定的过程(通信)。
由此看出,由于信源输出符号间的依赖关系也就是信 源信号的相关性使信源的实际熵减小。信源输出符号间统 计约束关系越长,信源的实际熵越小。当信源输出符号间 彼此不存在依赖关系且为等概率分布时,信源的实际熵等 于最大熵。 定义:一个信源的熵率(极限熵)与具有相同符号集的最 大熵的比值称为熵的相对率:
H H0
H log q H R 1 1 H0 log q
从提高信息传输效率的观点出发,人们总是希望尽量
去掉冗余度。 但是从提高抗干扰能力角度来看,却希望增加或保留信 源的冗余度,因为冗余度大的消息抗干扰能力强。
中华人民共和国 母亲病愈,身体健康
输效率。
中国 母病愈
信源编码是减少或消除信源的冗余度以提高信息的传 信道编码则通过增加冗余度来提高信息传输的抗干扰能 力。
第8讲 信源冗余度与自然语言的熵
背景知识:
实际的信源可能是非平稳的,其极限熵
可以假定它是平稳的,用平稳信源的 对于一般平稳的离散信源,求
H
不一定存在。
H
来代替。
H
值也是极其困难的。
进一步假设它是m阶马尔可夫信源,用m阶马尔可夫信源的信息熵 来近似。
最简单的马尔可夫信源是记忆长度为m=1的信源,信源的熵:
GB2312中的6763个汉字是在文化部1965年发布的《印刷
通用汉字字形表》(6196字)的基础上,根据需要增加了500 多个科技名词、地名和姓名用字,既基本上满足了各方面的 需要,又有利于降低汉字信息处理系统的成本,提高汉字编 码的效率,有利于汉字信息处理技术的推广和应用。 GB2312广泛应用于我国通用汉字系统的信息交换及硬、 软件设计中。例如,目前汉字字模库的设计都以GB2312为准, 绝大部分汉字数据库系统、汉字情报检索系统等软件也都以 GB2312为基础进行设计。 GB2312是汉字信息处理技术领域内的基础标准,许多 其他标准都与它密切相关,例如,汉字点阵字型标准、磁 盘格式标准的制定均根据GB2312标准。
因此信息可以看作是消除不确定性。
信息分析与统计的工具是概率论(数学)。
具有实际意义的平均信息量称为熵(物理)。
对信息量的认识理解 衡量信息多少的物理量称为信息量。 信息量的大小与消息所描述事件的出现概率有 关。
若概率很小,受信者感觉很突然,该消息所含信 息量就很大; 若概率很大,受信者事先已有所估计,则该消息 信息量就越小; 若受信者收到完全确定的消息,则没有信息.
例:一个输出A、B、C、D四个符号的信源,它输出10个 符号的序列包含最大可能的信息量为:
I max
1 1 10 * H max ( X ) 10 * [ log ] 20 bit 4 i 1 4
4
当信源的符号间有依赖关系时,或概率分布不均匀时, 信源熵要下降,因此信源输出的序列总信息量也要下降。假 定信源由于符号间的相关性或不等概率,信源熵下降到
请用信息论思想阐述临床诊断的实
临 床 诊 断 的 信 息 分 析
质和过程。
诊断是要在互不相容的疾病中作出鉴 别。设每个疾病发生的先验概率分别为P (a1),P(a2),……P(an) 医生做诊断前,病人所患的疾病是不 确定,如上所述,信源的熵就是这种不确 定性大小的量度。
临 床 诊 断 的 信 息 分 析
字母 空档 E T O A
Pi
0.2 0.105 0.072 0.0654 0.063
字母 S H D L C
Pi
0.0502 0.047 0.035 0.029 0.023
字母 Y.W G B V K
Pi
0.012 0.011 0.0105 0.008 0.003
N
I R
0.059
0.055 0.054
这样,可以计算出:
0.29 , R 0.71
这一结论说明,英文信源,从理论上看71%是多余成分。即有 71%是由语言结构定好的,而剩下的29%可由写文章的人自由 发挥的。 直观地说100页英文书,理论上看仅有29页是有效的,其 余71页是多余的。正是由于这一多余量的存在,才有可能对英 文信源进行压缩编码。
GB2312编码表总体布局
位 区 01 至 94 区 1 2 3 4 5 6 7 8 9 … 16~55 56~87 88 … 94 常用符号(94) 序号、罗马数字(72) GB1988图形字符集(94) 日文平假名(83) 日文片假名(86) 希腊字母(48) 俄文字母(66) 汉语拼音符(26)、注音字母(37) 制表符(76) … 第一级汉字(3755个) 第二级汉字(3008个) … 01~94位
H log q H R 1 1 H0 log q
信源的冗余度来自两个方面: 1、信源符号间的相关性 信源符号间相关程度越大,符号间的依赖关系 越长,信源的实际熵越小; 2、另一方面是信源符号分布的不均匀性使信源的 实际熵越小。 为了更经济有效的传送信息,需要尽量压缩信 源的冗余度,压缩冗余度的方法就是尽量减小符号 间的相关性,并且尽可能的使信源符号等概率分布。
0110000 16 0110001 17 0110010 18
0110011 19
0110100 20 0110101 21
场
础 怠
尝
储 耽
常
矗 担
长
搐 丹
偿
触 单
肠
处 郸
厂
揣 掸
敞
川 胆
畅
穿 旦
在“国际基本集”中,从16区到55区是常用的一级汉字,从56
区到87区是二级汉字除此之外还收录了一般符号202个(包括间 隔、标点、运算符号、单位符号、制表符号),序号60个(1~ 20共20个,(1)~(20)共20个,①~⑩共10个,(一)~ (十)共10个),数字22个(0~9共10个,Ⅰ~Ⅻ共12个), 拉丁字母52个,日本假名169个,希腊字母48个,俄文字母66个, 汉语拼音符号、注音符号63个。这些符号占1区到10 区。该字符 集共收入了汉字和图形符号共7445个。因为全表共94区、94位, 所以最多可表示的字符个数为94×94,即8836个。表中的空位 作为扩充之用。 GB2312编码表的总体布局如下表所示。