信息熵的表示和计算

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验一信息熵的表示和计算
（实验估计时间：120 分钟）
1.1.1 背景知识
信息熵是美国贝尔实验室数学家仙侬(SHANNON)在1948年他的"通讯数学理论"那篇文章中首先提出的. 仙侬也因此获得了现代信息通讯技术之父的美称. 他对信息通讯的贡献可以说是对世纪进入信息时代奠定了最重要的基础理论.
要简单说信息熵(ENTROPY)的概念很不容易,不过你只要把它看做是信息的一种数量化的衡量尺度就八九不离十了. 就象世界原来并没有时间这个东西,但是处于测度生命和运动过程的需要,人们发明了时间的概念.同样,信息原本并没有测度标准,但是出于衡量信息传递量和速度的需要,仙侬先生发明了对于信息的一个度量方法,这就是信息熵,它的单位是BIT.
为什么用BIT? 因为在二次大战结束后,世界通讯领域发展很快,电报,电话,电传等普及了,而这些以电脉冲为信号载体的设备的最基本的结构就是只具有两种状态的开关(继电器). 所以二进制的通讯信号已经是最普及的信息通讯编码方式,以它作为信息的测度尺寸也是最自然的选择.
以英文为例看如何计算信息熵. 我们都知道英文使用26个字母,如果我们把字母在所传输信息中出现的频率看做是随机的,而且具有同样的概率. 那么要传输26个字母中的任何一个就至少需要4个多BIT才够(4位最大是16个,5位最大是32个,26个字母介于两者之间). 当然,每个字母在传输信息中出现的概率不可能一样,比如 A是1/16; Ｂ是1/13; ...Z是1/126;(它们的和是1),那么通过计算可以得出英文的信息熵是4.03(根据参考文章介绍的数据). 2n = X; 其中 X 就是传输信息所需要的字符集的大小减去它的冗余度.
公式: H(信息熵) = -∑ P
i log
2
(P
i
); P
i
:为每个字母在信息中出现的概率;
计算公式并不复杂. 取以2为底的对数的道理也很简单,因为如果: 2n = X 的话,那么logX = n; 所以可以看出所谓信息熵就二进制的字符集在去掉冗余度后的二进制编码位数.冗余度是通过统计每个字符出现概率获得的。

小知识
冯志伟先生将仙侬的信息熵的计算用于非拼音的汉字字符集的信息熵的计算,这是一项工作量很大的任务.因为我们都知道,汉字的字符集很大,常用的有6-7000个,当然随着字符集的扩大,每个汉字出现的概率是不同的,有些罕用字
的出现概率几乎是零.他们计算出的结果是9.3X. 这个测度的结论说明汉字在
去掉冗余后,最短的信息传输字位需要9.3个BIT.
英文的信息熵是4.03,而计算机最初设计时的ASCII码是8位的,留有足够的空间. 那末如果当初是为汉字设计计算机的话,就至少需要留有18位,二个字节多. 这是一个什么成本概念? 在计算机研制的初期,总线宽度,内存大小可都是可以和黄金比的价格,更不要提设计的复杂程度的增加和早期集成度能否实现的问题了. 单是这一点就可以推论出使用汉字的人是不可能发明或创造计算机的.
现在再回到我们上面题目中的问题,信息熵的概念适用于汉字吗? 仙侬计算公式中的第一个假设就是字符在信息中出现的概率是随机的,而汉字在信息中出现频率是否是随机的呢? 这个问题就决定了汉字最后的计算结果. 因为我们通过上面的计算公式可以知道,如果每个汉字出现的频率不是随机的,比如说是均等的(一个极端情况),那么汉字的信息熵就会出现最大值并随着汉字的字数的增加而增加. 因为我们完全可以根据题目不同或作者的不同，而写出使用不同汉字字数的文章. 汉字的信息出现是随人的表达需求而变的,不是随机的,因为每一个汉字都它的意义.
26个英文字母在平均出现时的信息熵是4.7BIT,而去掉冗余度后的英文字母的信息熵是4.03BIT. 然而6000个汉字的平均出现时的信息熵是12.55BIT,当使用7000个平均出现的汉字是汉字的信息熵是12.77BIT,至于使用的汉字个数达到冯先生计算的12366个极限汉字时的信息熵是13.59,它们和使用概率计算的结果9.3相差太悬殊(和英文比起来).所以如何统计每个汉字的出现概率成了最后决定汉字信息熵的最大因素. 而每个汉字的出现概率又是如此的主观(或因人而异). 我对9.3的结果持某种怀疑。

1.1.2 实验目的
（1）掌握信息熵的基本概念。

（2）以学生评教数据的分析为例，学会用信息熵的知识处理教育中的实际问题。

1.1.3 工具/准备工作
1.学生评教数据分析思路。

学生评教是教师教学评价的重要组成部分,很多学校为了使评价结果更科学、更能表现教师真实的教学水平,根据学校自身情况,选用更适合的测量参照标准,如目标参照标准(以某些具体目标作为评定标准)；常模参照标准(以某一研究对象的集体平均水平作为评定的标准) ,自我参照标准(以研究对象自身在某一时期或状态的特征作为评定标准)。

然而,无论教师教学评价采用哪种测量标准，反馈给教师的往往只是一个依据某个测量标准的评定分数,该分数不能将评价结果所隐含的更详细、更明确的信息表现出来，比如分数相同的两位教师的教学水平差异；教学哪个方面还存在问题，问题的具体原因所在等。

请你自己设计方案，利用信息熵的单峰性,对称性,确定性等性质，深入分析学生评教的评价结果，目的是在为教师管理提供更科学、可靠依据的同时,帮助教师发现教学中的问题，剖析问题的具体原因，以便教师改进教学，提高教学水平。

2.准备足够的学生评教原始数据。

1.1.4 实验内容与步骤
1.整理学生评教原始数据。

（至少选择两位教师分别整理）
2.计算总分和各评价指标的单项总分。

3.分别计算总分值的概率、各分值出现的概率。

4.利用概率，分别计算相关信息熵，并与相应分数结合，比较两位
教师的数据，分析得出结论。

分析过程的参考理论知识：
(1) 确定性。

熵的大小表示了概率系统的不确定程度。

信息熵越大,说明学
生对教师在某个评价指标上的评价越分散,越不确定；相反,信息熵越小,说明学生对教师的评价越一致,信息越确定。

(2) 单峰性与对称性。

对于一个被评价教师来说,在每条评价指标的十个量
度中,如果所有学生均选择了其中一个度量,无论选择的是哪个度量,说明选择某一度量的概率为1,而其他量度的概率为0,由熵的定义表达式可知,此时信息熵H = 0,表明学生对教师在该项指标上的评价是一致的。

而当学生选择十个量度的概率相同时,信息熵(H = log 2 10)为最大
值,此时表明学生在对教师该项指标的评价上,分歧很大。

此种情形,信息熵取得唯一的极值。

另外,评价量度位置的互换并不会影响学生对教师的评价结果。

信息熵的值仅与学生对教师评价量度的概率有关,由信息熵的定义表达式不难推知,信息熵具有对称性。

(3) 可加性。

由于0 ≤p i ≤1，所以每一事件(量度)发生所传达的信息量:
H i = - log 2 p i ≥0，则信息熵H = - p i log 2 p i ≥0。

因此，信
息熵具有可加性。

信息熵之和,同样具有信息熵的各种性质。

可以通过熵值分析向教师及管理者提供某些指导性信息。

(4) 在应用信息熵分析学生评价结果时，必须以简单总分作参照。

设参与每
位教师评价的学生为n ，学生评教量表总评价指标数为m ，评价体系包括t 个方面，一级评价指标下的二级指标条目分别为c t （m = c 1 + c 2 + …+ c t )；学生i 对二级评价指标j 的评分记为P ij (1≤i ≤n, 1≤j ≤
m,)；将学生所评价教师记为v 。

所谓简单记分，是指学生对教师v 的评价量度的相应简单记分的算术平均分，它包括三个层次: (1)总分简单记分(记为U) ，即学生对教师v 评价总分的算术平均分为
; (2)单方面简单记分(记为T) ,即学生就一级指标t
对同一教师进行评价，将教师v 在该一级指标下每个二级评价指标的算术平均分为，(此时,0<j ≤c t )(3)单项指标简单记
分(记为S) ,即全体学生在二级指标j 上对教师v 的评价等级的相应赋值分的算术平均分为。

简单记分可以从直观上看出学生对某个教师的总体评价情况,在某种程度上可以反映被评价教师的教学水平,但简单记分也忽略了很多详细的反馈信息。

各层次的简单记分及各种信息熵的功能不同,因此应用信息熵于学生评教结果分析时,也应从总信息熵,单方面信息熵,及单项指标信息熵入手对教师评价的结果进行深入分析,从而为教师管理提供更科学的依
据,为教师提高教学提供更详细的评价反馈信息。

学生评教结束后,为教
师及管理者及时反馈评价结果的同时,还应为教师和管理者提供信息熵
附加分,来表示学生评价的一致度。

5.完成实验报告，记录实验步骤、数据和分析过程、结论。

1.1.5 实验总结
本次实验完成后，写出你自己的心得体会等总结。

（写在实验报告后面）。