关于语言熵的研究总结

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关于语言信息熵的分析总结

2900103004 杨禄

一、背景介绍

近年来,统计语言模型逐渐在自然语言处理和语音处理中得到了广泛的应用。为了比较不同语言模型的差异性,必须考察各模型的不确定性。模型的不确定性越大,正确估计语言现象的可能性就越小。语言模型的不确定性可用“熵”加以定量的描述。之前已经有很多的学者对各语言的熵进行过统计分析,得到一些有用的结论,并且由于计算机可读文本的大量出现,以及计算能力的不断提高,使得在更大语料规模上更为精确的统计方法计算语言熵成为可能。

语言的信息熵的研究分为两种层次,一种是不考虑文字相关性的独立统计信息熵,另一种是考虑文字的上下文关系的相关统计信息熵,后者称之为极限熵。另外还有一阶熵、二阶熵等多种概念。统计资料一般是特定时期的书籍、报刊和其他文本文档。

二、基本概念

信息熵:熵是由德国物理学家克劳修斯于1868年引入,用以从统计概率的角度对一个系统混乱无序程度的度量。信息熵是从信源角度考虑信息量,表示信源整体不确定性的量。

冗余度:是对信息的确定性、有序性和可预见性的计量,与信源的熵值成反比,信源的熵值越大则冗余度越小,熵值越小则冗余度越大。

Markov链:因安德烈•马尔可夫(A.A.Markov,1856-1922)得名,是数学中具有马尔可夫性质的离散时间随机过程。该过程中,在给定当前知识或信息的情况下,过去(即当期以前的历史状态)对于预测将来(即当期以后的未来状态)是无关的。

三、研究历史

早在1913年,俄国著名数学家A.A.Markov就注意到语言符号出现概率之间的相互影响,他把普希金叙事长诗《欧根·奥涅金》中国的连续字母加以分类,把元音记为V,把辅音记为C,得到了元辅音字母表,从而证明了元音在辅音之后出现的概率大于在元音之后出现的概率,说明了元音字母和辅音字母之间出现的概率相互影响。

Zipf1931年提出英语单词的概率分布律,即是Zipf定律。50年代初,香农(Shannon)把信息论应用于语言的研究,计算出了英语字母的一阶熵。在此之后,又有许多科学家发展了这一成果,世界主要语种的信息熵研究很是普遍,基本上都有公认的结果。各语言字母的熵:法语3.98比特,西班牙语4.01比特,英语4.03比特,俄语4.35比特,德文4.10比特罗马尼亚语4.12比特。

在国内,最早由冯志伟先生用了将近10年时间,进行手工查频,于70年代末首次计算出在不考虑上下文关系的前提下汉字信息熵是9.65比特。在1995年,冯志伟又进一步测定了在充分考虑汉字上下文关系的影响时包含在一个汉字中的熵,这个熵即是极限熵。他测得,汉字的极限熵平均为4.0462比特。后来黄萱菁等在4年《人民日报》语料基础上,所求得零阶熵、一阶熵、二阶熵分别为9.62、6.18和4.89比特,刘源给出的汉字信息熵结果是9.71比特。孙帆等给予词的语言模型估计方法得到了更为精确的估计,为5.31比特。

四、计算方法

实际自然语言中,语句中各符号出现的概率是不一样的,若不考虑上下文关联性,假设第)

P,则信源输出的各符号的i

i 个符号出现的概率为

(N

,

...

2

1

i

信息量为

∑=-=N

i i Pi

P H 1

2

log

H

为一阶熵,表示消息出现的不确定性大小,熵越大,说明预测的不确定性越大。

因为不等概结局随机试验的不确定性小于等概率结局随机事件的不确定性,因此下式成立

N

P P N

i i i

2

1

2

log

log

≤-

∑=

因为语言不但各符号出现的概率不等,而且是上下文相互关联,因而自然语言可以看做是是一个markov 链,在这个链中,从消息的历史可以预测消息的未来,且随着Markov 链重数的增大,对未来语言成分的预测也就越准。如果信源符号间的依赖关系长度为n ,则可以求出已知前面n-1个符号时,后面出现一个符号所携带的平均信息链,即是条件熵

()()∑∈--=v

w n n n n i w w w W P w w w P H 1212

21...|log

...

应用上式我们可以分别对一阶Markov 链、二阶Markov 链求出其条件熵。

一阶条件熵按下列公式计算:

()()∑-=j

i j i j i w w P w w P H ,22|log

二阶条件熵按下列公式计算:

()()∑-=k

j i j i k k j i w w w P w w w P H ,,2

3|log

以此类推,我们可以计算出包含在语句中一个语言成分的任意阶条件熵。 根据信息论理论,可以证明:条件熵随着结束n 的增加而呈现非负单调递减,且有下界,即

→≥≥≥≥H H H H H (3210)

当各语言符号出现概率相等时,式子中等号成立,这就是说,每在前面增加一个语言成分,不会使包含在语句中的熵有所增加,当n 逐渐增加,熵趋于稳定而不再增加,这是,他就是语言符号中的信息量,叫做极限熵。

→=H H n n lim

另一方面,从联合熵的角度考虑,还可以得到每个信源符号的信息量,即平均信息熵

()()()∑∈--

=v

w n n n n i w w w w P w w

w P n

X H 1212

2

1

...log

...1

从上面的可以看出,可以用条件熵或者平均符号熵来近似描述自然语言,而问题的关键是要知道()n w w w P ...21或者()121...|-n n w w w w P ,由于语言本身的复杂性和随意性,要想知道某个字符出现的概率几乎是不可能的。

相关文档
最新文档