英语信源汉语信源信息熵的研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

英语信源、汉语信源及其信息熵的研究

摘要英语信源和汉语信源是两种不同的自然语信源,而信息熵反映了信源的记忆长度,信源的记忆长度越长,熵就越小。只有当记忆长度为0,即信源符号间彼此没有任何依赖关系且等概率分布时,信源

符号概率符号概率符号概率

空格0.2 S 0.052 Y,M 0.012

E 0.105 H 0.047 G 0.011

T 0.072 D 0.035 B 0.0105

O 0.0654 L 0.029 V 0.008

0.023 K 0.003

A 0.063

C

N 0.059 F,U 0.0225 X 0.002

I 0.055 M 0.021 J,Q 0.001

R 0.054 P 0.0175 Z 0.001

如果不考虑上述符号之间的依赖关系,即近似地认为信源是离散无记忆信源,根据离散上的定义可得

27121()log () 4.03(/)

i i i H p a p a bit symbol ==-=∑

1.4(/)H bit symbol ∞=

二、汉语信源及其信息熵

对于英语,字符数少,可轻松的计算出英语信源的信息熵,但是对于汉语这个中文字符极其庞大的信源,科学家们做出了大量的统计

与计算。方法同上面的英语信源信息熵的计算,不过计算量增加了非常多。下面是截取的一些统计资料。

CCL 语料库-现代汉语总字频数:307,317,060

总字种数:9711

字频表:

的:11523375 一:4140344 是:3291508 了:3059837 在:2933070

人:2827726 不:2733842 国:2645758 有:2507415 中:2182025

他:2029395 这:1968713 我:1940875 和:1872750 大:1832977

(ZIPF'S LAW)核算,汉字的容量极限是12366个汉字,汉字的平均信息量是9.65比特

三、英语信源和汉语信源的比较

显而易见,汉语信源的信源熵远远大于英语信源的信息熵,说明

英语信源的记忆长度比汉语的长,相关性比汉语信源强,非常简洁。很多人认为信源的信息熵小就一定好,但并不是这样,并不是信息熵小就好,信息熵大也有他的好处。

汉语是“表意文字”,英语是“表音文字”。表意文字要求汉字拥有了一个数量庞大的字符集,但现代汉语已经不用增加字符来表达

的输入速度是不能说明问题的,因为“字”与“word”是不同的概念。要比较只能比较同一内容的中英文两个不同文本,计算击键数的差值。在“词”的单位基础上,现代汉语与英语是可以进行比较的。现代英语为了应付不断涌现的新事物、新思想、新科技、新概念,也在不断地造词。无非是借助拉丁词根、或重新组合已有单词,结果越

是专业科技的词汇,就越长、越难记。或者是大量使用缩写:如WTO、FBI、IBM、UFO等等,缩写一多就容易混淆、难以理解。在这方面,现代汉语造词的优势就十分突出了。这就是汉字字符集信息熵高的优势。汉语是有他独特的魅力的。

相关文档
最新文档