信息论与编码在现实中的运用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息论与编码在现实中的运用
之从信息论的观点来看学习中文与英文的难易比较学院:电气学院专业:通信工程姓名:孙大山学号:1043031420 教师:王忠
【摘要】当今世界是一个充满信息的世界,没有信息的世界是混乱的世界。因而信息十分重要,随着社会信息化进程的加速,人们对信息的依赖程度会越来越高。为此,有关信息研究的科学——信息论也就应运而生,其中研究信息论的佼佼者与先驱便是香农,他为信息论的发展做出了巨大贡献。为此,信息论也叫做香农信息论。信息论自诞生现在不到60年的时间,在人类科学史上是短暂的,但他的发展对学术界与人类社会的影响是相当广泛的。信息在信息化程度越来越高的现代社会将起到越来越重要的作用,是比物质和能量更为宝贵的资源。全面掌握,理解运用它,有效的利用信息,更能为人类服务。就如,在日常学习英文与中文中。
【关键词】信息、香农信息论、学习中文、学习英文
1、信息论的发展过程
一般认为信息论的创始人是香农和维纳,但由于香农的贡献更大,所以更多人认为香农更合适。•维纳,美国数学家,控制论的创始人。1894年11月26日生于密苏里州的哥伦比亚,1964年3月18日卒于斯德哥尔摩。•维纳在其50年的科学生涯中,先后涉足哲学、数学、物理学和工程学,最后转向生物学,并且在各个领域中都取得了丰硕的成果,称得上是恩格斯颂扬过的、本世纪多才多艺和学识渊博的科学巨人。他一生发表论文240多篇,著作14本,自传两本《昔日神童》和《我是一个数学家》。•维纳的主要成果有八个方面:建立维纳测度、引进巴拿赫—维纳空间、位势理论、发展调和分析、发现维纳—霍普夫方法、提出维纳滤波理论、开创维纳信息论、创立控制论。
2、目前的发展香农信息论:
信息概念的深化;网络信息理论和多重相关信源编码理论的发展和应用;通信网的一般信息理论研究;信息率失真理论的发展及其在数据压缩和图像处理中的应用;信息论在大规模集成电路中的应用;磁记录信道的研究等。纠错码理论:在工程方面应用及最优编码方法研究。维纳信息论:对量子检测和估计理论、非参数检测和估计理论以及非线性检测与估计理论的研究。
3、信息论研究的问题:
信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由信息传输定理、信源-信道隔离定理相互联系。
香农被称为是“信息论之父”。人们通常将香农于1948年10月发表于《贝尔系统技术学报》上的论文《A Mathematical Theory of Communication》(通信的数学理论)作为现代信息论研究的开端。这一文章
部分基于哈里·奈奎斯特和拉尔夫·哈特利先前的成
果。在该文中,香农给出了信息熵(以下简称为“熵”)
的定义:
香农
(1916.4.30—2001.2.26
美国数学家、信息论的创
始人)
H = - ∑ pilogpi
i这一定义可以用来推算传递经二进制编码后的原信息所需的信道带宽。熵度量的是消息中所含的信息量,其中去除了由消息的固有结构所决定的部分,比如,语言结构的冗余性以及语言中字母、词的使用频度等统计特性。信息论中熵的概念与物理学中的热力学熵有着紧密的联系。玻耳兹曼与吉布斯在统计物理学中对熵做了很多的工作。信息论中的熵也正是受之启发。
4、现实运用:
○1在上述中我们已经知道熵度量的是消息中所含的信息量,其中去除了由消息的固有结构所决定的部分,比如,语言结构的冗余性以及语言中字母、词的使用频度等统计特性。信息论中熵的概念与物理学中的热力学熵有着紧密的联系。
○2为此我们就可以抓住语言结构的冗余性以及语言中字母、词的使用频度等统计特性。使用香农信息论的信息量等观点,来研究一下中文与英文的信息量,从而比较出学习这两种语言的难易程度。
○3众所周知,学习英语比学习中文容易,这不是没有科学依据的,从信息论的角度来看:
信源符号的相关性与提供的平均信息量把多符号离散信源都用马尔可夫信源来逼近,则记忆长度不同,熵值就不同,意味着平均每发一个符号就有不同的信息量。
log2n=H0≥H1≥H2≥…≥Hm≥H∞
所以信源的记忆长度越长,熵值越小。当信源符号间彼此没有任何依赖关系且呈等概率分布时,信源熵达到最大值。即信源符号的相关性越强,提供的平均信息量越小。
○4自然语言信源:
•可以简单地将自然语信源定义为以人类的自然语言作为输出消息的信源。
•自然语言又可以分为书面语言和声音语言两大类
–书面语言由一个个文字符号构成,是一种典型的离散信源,
–也是信息论中首先讨论和研究最多的信源,
–以英文和中文为例讨论书面语言,
–声音语言的信源放在连续信源中讨论。
•英文信源
–先将英文看成仅由26个字母和空格构成,即暂不考虑标点符号及其它。
–英文中字母的组合构成单词,单词的组合构成句子,句子的组合构成段落和文章。
–在某一个统计集合中能得出其字母、单词、句子的分布概率。
–通过大量统计可以得到26个字母和空格的出现概率,它构成了英文字母和空格的信源空间。
–仅仅按照表中的出现概率随机构成的一串字母序列通常并不能构成英文单词,。–其构成还有许多语法和修辞方面的制约,这种制约在数学关系上的反映就是其关联性。
•中文信源,通常指汉字
–由字组词、由词组句、由句成文的本质与英文一样
–中文与英文的重要区别是每个单字都有明确的意义,而且数量巨大
•收入《辞海》的汉字有1.5万左右,
•收入《康熙字典》、《汉语大字典》分别超过了4万个和6万个。
–要给出汉字的信源空间,须对大量的汉字文献进行统计
•新华社曾对2亿左右的汉字作了统计,得出了1850个汉字的使用率为98%
•当被统计的数量趋于无穷时,每个汉字的使用频率应该趋于平稳。
○5可以用符号的联合概率或条件概率来描述自然语信源的关联性。
–对于英文,可以将包含K个字母的单词看成是具有K个字母的符号序列,或称为K重符号序列,将其作为一个整体消息,其联合概率就已考虑了字母与字母间的关联性了。
–也可以把由汉字组成的中文词汇作为符号序列。
–还可以将句子、段落甚至整篇文章分别作为符号序列来考虑,用联合概率来描述。
•有了符号或符号序列的信源空间就可以度量它们出现时所给出的信息量,并可以计算它们的信源熵。
•但无论是符号概率还是符号序列的联合概率都具有先验概率的性质,只能描述静态的情形,不能描述动态的过程。
•条件概率描述了符号间的记忆特性,但它同时给出了符号间的转移特性,故也称之为转移概率。
–以用第一个字母为T来构成3个字母的英文单词为例,第二个字母为H的概率可以用条件概率P(H|T)来表示,第三个字母为E的概率可以用条件概率P(E|TH)来表示,其它各种可能的组合也都可用其条件概率来表示。
○6用转移概率来描述的信源就是一种典型的马尔可夫信源。
*把英语看成是离散无记忆信源
•英语字母26个,加上一个空格,共27个符号。
•英语信源的最大熵(等概率) H0=log227=4.76(比特/符号)
•英语字母并非等概率出现,字母之间有严格的依赖关系。表2是对27个符号出现的概率统计结果。
符号概率符号概率符号概率
空格0.2 S 0.052 Y,W 0.012
E 0.105 H 0.047 G 0.011
T 0.072 D 0.035 B 0.0105
0 0.0645 L 0.029 V 0.008
A 0.063 C 0.023 K 0.003
N 0.055 F,U 0.0225 X 0.002
I 0.055 M 0.021 J,Q 0.001
R 0.054 P 0.0175 Z 0.001
如果不考虑符号间的依赖关系,近似认为信源是离散无记忆的,则按表2的概率分布,随机地选择英语字母并排列起来,得到一个输出序列:
•AI_NGAE_ITE_NNR_ASAEV_OTE_BAINTHA_HYROO_PORE_SETRYGAIET RWCO_EHDUARU_EUEU_C_FT_NSREM_DIY_EESE_F_O_SRIS_R_UNNASH OR…•这个序列看起来有点像英语,但不是。实际英语的某个字母出现后,后面的字母并非完全随机出现,而是满足一定关系的条件概率分布。例如T后面出现