英语信源汉语信源信息熵的研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
英语信源、汉语信源及其信息熵的研究
摘要英语信源和汉语信源是两种不同的自然语信源,而信息熵反映了信源的记忆长度,信源的记忆长度越长,熵就越小。只有当记忆长度为0,即信源符号间彼此没有任何依赖关系且等概率分布时,信源
符号概率符号概率符号概率
空格0.2 S 0.052 Y,M 0.012
E 0.105 H 0.047 G 0.011
T 0.072 D 0.035 B 0.0105
O 0.0654 L 0.029 V 0.008
0.023 K 0.003
A 0.063
C
N 0.059 F,U 0.0225 X 0.002
I 0.055 M 0.021 J,Q 0.001
R 0.054 P 0.0175 Z 0.001
如果不考虑上述符号之间的依赖关系,即近似地认为信源是离散无记忆信源,根据离散上的定义可得
27121()log () 4.03(/)
i i i H p a p a bit symbol ==-=∑
1.4(/)H bit symbol ∞=
二、汉语信源及其信息熵
对于英语,字符数少,可轻松的计算出英语信源的信息熵,但是对于汉语这个中文字符极其庞大的信源,科学家们做出了大量的统计
与计算。方法同上面的英语信源信息熵的计算,不过计算量增加了非常多。下面是截取的一些统计资料。
CCL 语料库-现代汉语总字频数:307,317,060
总字种数:9711
字频表:
的:11523375 一:4140344 是:3291508 了:3059837 在:2933070
人:2827726 不:2733842 国:2645758 有:2507415 中:2182025
他:2029395 这:1968713 我:1940875 和:1872750 大:1832977
(ZIPF'S LAW)核算,汉字的容量极限是12366个汉字,汉字的平均信息量是9.65比特
三、英语信源和汉语信源的比较
显而易见,汉语信源的信源熵远远大于英语信源的信息熵,说明
英语信源的记忆长度比汉语的长,相关性比汉语信源强,非常简洁。很多人认为信源的信息熵小就一定好,但并不是这样,并不是信息熵小就好,信息熵大也有他的好处。
汉语是“表意文字”,英语是“表音文字”。表意文字要求汉字拥有了一个数量庞大的字符集,但现代汉语已经不用增加字符来表达
的输入速度是不能说明问题的,因为“字”与“word”是不同的概念。要比较只能比较同一内容的中英文两个不同文本,计算击键数的差值。在“词”的单位基础上,现代汉语与英语是可以进行比较的。现代英语为了应付不断涌现的新事物、新思想、新科技、新概念,也在不断地造词。无非是借助拉丁词根、或重新组合已有单词,结果越
是专业科技的词汇,就越长、越难记。或者是大量使用缩写:如WTO、FBI、IBM、UFO等等,缩写一多就容易混淆、难以理解。在这方面,现代汉语造词的优势就十分突出了。这就是汉字字符集信息熵高的优势。汉语是有他独特的魅力的。