汉语信源与英语信源及其信息熵的研究

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

汉语信源、英语信源及其信息熵的研究

【摘要】本文主要搜集资料，对目前在信息熵领域内对于汉语、英语这两大主流语言的信源进行信息熵研究的资料进行了阅读和整合，给出了基本研究方法及目前比较权威的几种语言的信息熵。

【关键字】信息熵

【正文】汉语信息产业基础建设的中心课题，就是要利用信息熵的基本原理和方法来提高中文的效率。美国的信息产业能有今天的称雄世界的实力，能接连不断地产生新的技术产品，是跟坚实的基础建设分不开的。这个基础建设的基本依据，是信息科学技术的基本原理和方法：信息熵（ENTROPY ）。

第二次世界大战期间，美国为了提高信息储存和传递的效率，发明了多种新的编码方法，奠定了现代信息科学技术的基础。战争结束后，这些方法得到了飞跃发展。在这些方法当中，科学家香农和霍夫曼提出的信息熵和数据压缩的理论和方法最能代表现代信息学的基本概念。个人计算机和BBS 问世以后，信息熵和数据压缩技术迅速普及。现在，这种技术已经成为计算机和联网必不可少的组成部份。

信息熵的基本目的，是找出某种符号系统的信息量和多余度之间的关系，以便能用最小的成本和消耗来实现最高效率的数据储存、管理和传递。

从信息论的角度考虑, 自然语言理解可以看作是利用所获得信息消除句子中文字的不确定性过程. 统计语言模型是对自然语言的一种近似描述, 它是自然语言理解的核心. 应用语言模型就可以帮助人们实现对句子中所出现的语言成分的预测, 消除自然语言理解过程中的不确定性. 不同的语言模型其预测或者说消除不确定性的能力不同. 预测能力强的模型是人们所期望的, 因此, 对语言模型性能的评价就成了语言建模的一个很重要问题, 它能够指导人们建立更为有效的语言模型. 针对各种语言模型建立有效的评价指标, 是一个比较复杂和困难的问题, 目前还没有一个好的解决办法.不过从信息熵的角度对统计语言模型的复杂度度量方法进行定量化的推理与描述,可以得到一些有意义的结论.

从信息论角度考虑, 一种语言或其子集可以看作离散信源. 如果所考虑的语言的字符集V 的大小为V , 语言中的语句由这些字符任意构成, 各字符的出现与上下文无关, 且出现的概率相等, 则在某一时刻出现某一字符的随机试验结局就有V 种可能. 按照信息论中的编码理论, 要区别每个字符就需要log

2..V..比特的信息. 也就是说, 每个字符所含的信息量为log 2V , 记为H0.但实际的自然语言中, 语句中各语言符号的出现概率不可能相等. 若暂不考虑上下文相关性, 假设第i( i= 1, 2, ., V) 个字符出现的概率为Pi , 则信源输出的各字符的平均信息量为:

H= - Pi log 2Pi V i=1 (1)

信息论中将式( 1) 称为熵. 熵表示了消息出现的不确定性的大小, 表现在

自然语言理解中就是对语言识别难度的一种估计,熵越大, 说明预测的不确定性越大.因为不等概率结局随机试验的不确定性小于等概率结局随机试验的不确定性, 因此, 下式成立:

- Pi log 2Pi n i=1≤log 2V 即H ≤H0 ( 2)

因为语言不但各符号出现的概率不等, 而且是上下文相互关联, 因而自然语言可以看作是一个马尔科夫链, 在这个链中, 从消息的历史可以预测消息的将来, 且随着马尔科夫链重数的增大, 对未来语言成分的预测就越准确. 如果信源符号间的依赖关系长度为n, 则可以求出已知前面n-1 个符号时, 后面出现一个符号所携带的平均信息量, 即条件熵.

Hn= - P( w 1w2…w n)w i ∈ v log 2P (Wn|w1w 2…wn-1) (3)

其中P(Wnw1w 2…wn-1wn) 是w 1w 2…w n-1w n 在语言中的出现概率, P(Wn|w1w 2…wn-1) 为该语言中w1w 2…w n-1 出现的条件下w n 出现的概率.由( 3) 式, 我们可以分别对一阶马尔科夫链、二阶马尔科夫链、……, 分别计算出它们的条件熵.

依此类推, 我们可以计算出包含在语句中一个语言成分的任意阶条件熵.根据信息论理论, 可以证明[ 1] : 条件熵随着阶数n 的增加而呈非负单调递减, 且有下界. 即

H0≥H1≥H2≥H3…≥Hn …≥…→H ∞

当各语言符号的出现概率相等时, 式中等号成立. 这就是说, 每在前面增加一个语言成分, 不会使包含在语句中的语言符号中的熵有所增加. 当n 逐渐增加时, 熵逐渐趋于稳定而不再增加, 这时, 它就是汉语语言一个符号中的信息量, 叫作极限熵.

lim n →∞Hn = H ∞

另一方面, 从联合熵的角度考虑, 若信源符号间的依赖长度为n, 则符号序列( w 1, w 2, …, w n) 的联合熵为:

H( X) = - P( w 1w2…w n)log 2P (wnw1w 2…wn −1)w i ∈ v

那么, 平均每个信源符号所携带的信息量, 即平均信息熵为

Hn( X) = -1n P( w 1w2…w n)log 2P (wnw1w 2…wn −1)w i ∈ v

可以证明[ 1] , Hn( X) 也是n 的单调非负递减函数, 也有下界, 它的下界也是H ∞ . H ∞反映了语言中每个符号的平均信息熵, 即语言熵. 由于自然语言是各态遍历、平稳的随机过程。

由以上可知, 可以用条件熵或者平均符号熵来近似描述自然语言. 但估计自然语言熵, 都要知道P( w1w 2…w n-1wn ) 或P( wn|w1w 2…wn-1) . 由于语言本身的复杂性和随意性, 要想知道某个字符串在该语言中的出现概率几乎是不可能的, 即P( w1w 2…w n-1wn ) 或P( wn|w1w 2…wn-1)是不可能知道的. 但根据马尔科夫随机过程理论, 可将语言看作n-1 阶马尔科夫链。

根据上述基本理论，许多学者对几种主要语言的信息熵进行了研究，他们的基本方法是：逐渐扩大语言文字的容量，随着容量增大，信息熵的增加趋缓；对于汉语来说，汉字增加到12370以后，信息熵不再有明显的增加。通过数理语言学中著名的齐普夫定律（ZIPF’SLAW ）核算，我国科学家指出，汉字的容量极限是12366个汉字，汉字静态平均信息熵的值（平均信息量）是9．65比特。这是