英语,汉语信源信源熵研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

英语信源,汉语信源的信源熵的研究

吴斌伟2902102020

【摘要】信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。因此,信源的信息熵是衡量一个信源所含信息多少的度量。

信息的基本作用就是消除人们对事物了解的不确定性。一个信源所发出的编码的不确定性越大,那么这个信源所含的信息量越大。若一个信源发出某个码字的概率为一,那么该信源可传达的信息量为零。美国信息论创始人香农发现任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。香农借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”。

信源熵是信息论中用来衡量信源信息量有序化程度的一个概念,定义为信源各个离散消息的自信息量的数学期望(即概率加权的统计平均值)。根据定义,信源熵值与信源有序化程度成反比;有序度越高,信源熵值越低,反之亦成立。

不同的语言,如汉语,英语,德语,法语等,所含的信息熵各不相同。具体数据如下:按字母计算:

英文的平均信息熵是4.03 比特,

法文的平均信息熵是3.98,

西班牙文的平均信息熵是4.01,

德文的平均信息熵是4.10,

俄文的平均信息熵是4.8,

中文的平均信息熵是9.65比特

由上述数据可知,法语的信息熵最小,而中文的信息熵最大。因此有人说汉语这种语言不如其他语言,汉语是落后的。

显然这样的答案是否定的。平均信息熵并不是语言文字效率的基本公式,而是在通讯中编码的码长的效率!提出这公式,申农是用以研究信息编码的。说得通俗一点,就是要(在可能有噪音的情况下)把已方(信息源)的信息进行标准化编码(比如,0-1化),然后传送出去,对方接收,解码,恢复成原来的信息。研究的重点,是多长的一组码为合理——如果太短,无法正确还原,如果太长,就有冗余。从上面的数据可以推断,要正确表示英文字符至少需要4.03比特,也就是需要5位二进制字符。现实中共有26个英文字符,满打满算也需要5位,这与前文的推断相符。但是通过文本查找可以发现,在26个字符中,有些字符使用频率高,有些字符使用频率低,因此可以通过适当的编码,将所需要的二进制字符(编码长度)压缩至4个多一点的长度。而中文从上面的数据可以看出,至少需要10个比特,而在现实中,一个中文字符是使用2个字节来表示的。

但是,这样能否看成中文不如英文?例如:英文中的“I”是使用一个字节来表示,但是中文中的“我”则需要两个字节表示。

从这个方面看,平均信息熵越小,使用的比特数越少,这文字越好。但是事实并非如此。假设,当年中国的老祖宗创造中文时,仅发明两个文字“是”“不是”,那么中文的信息熵为1比特。是所有文字中最小的。但是这样好吗?

造成这样荒谬的结论的原因是并不是每个英文字母组成的词汇都是有用的。如”aa ,ab ,ac,…”所以,如果有人用汉字对比英文(在同样意义的词汇)的byte数,十有八九汉字要“节约”得多!

若想知道文字的效率的话,可以根据语言中的词汇来计算词汇的熵。

按词汇计算的零阶熵

英语:10.0 bits 汉语:11.46 bits

以上数据说明汉语的词汇丰富。经过统计不同的语言的冗余度数据如下:

英语:73%;俄语:70%;汉语:63%;文言文更低。

以上这点也可以从联合国收藏的文件中看出。同一份文件,法译本最厚,中译本最薄。

但是随着时代的发展,语言也在不断地变换。例如,在中国,以前的文言文和现在的白话文相比,很明显,文言文的信源熵较小,而白话文的信源熵较大。因为同一段文言文所含的信息量要大于白话文。从不确定度上分析,文言文的前后字符的不确定性无疑要大于白话文,这也印证了上述结论。而英文也在发生变化,如新出现的“CSDM,TTL,LAN,”等等。这无疑是提高了英语的信源熵。

不容忽视的是中文的平均信息熵是9.65比特,在计算机信息作业的时候,汉字的每个字符需要两个字节的空间,因而中文的信息处理和传递的整体效率比英文等拼音文字的效率要低得多。尽管我们已经说明汉字实际上比英文和其他拼音文字只简不冗(从占用字节数的角度看),语言学上的问题仍然相当复杂,谁简谁繁似乎也还难以成为一种语言优劣的绝对定论。比如世界语、数学语言、电脑的汇编,显然都极简单而且规范,可是要代替自然的生活语言明显是不行的。因此,评价一种语言必须从多个方面考虑,仅考虑信息熵明显是不可行的。

相关文档
最新文档