信息熵的计算及实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
认知实习报告
题目 __信息熵的计算及实现_________ _ (院)系数理系 ___________ 专业 _______信息与计算科学__________________ 班级_ _ 学号_ 20081001 _
学生姓名 _ _
导师姓名_ ___ ________
完成日期 ________2011年12月23日___________
信息熵的计算及实现
信息与计算科学专业:
指 导 教 师:
摘要:信息的销毁是一个不可逆过程,一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。本文讨论了一维几种熵的计算方法:离散信源的熵、图像熵的一维熵和二维熵、基于信息熵的Web 页面主题信息计算方法,并给出一定的理论分析和数值实验以及数值实验结果。 关键字:离散信源的熵、图像熵、Web 页面主题信息
1 引言
信息论之父 C. E. Shannon 在 1948 年发表的论文“通信的数学理论( A
Mathematical Theory of Communication )”中, Shannon 指出,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。 Shannon 借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式。 2 问题提出
信源的平均不定度。在信息论中信源输出是随机量,因而其不定度可以用概率分布来度量。记 H(X)=H(P1,P2,…,Pn)=P(xi)logP(xi),这里P(xi),i =1,2,…,n 为信源取第i 个符号的概率。P(xi)=1,H(X)称为信源的信息熵。 2.1 离散信源的熵
利用信息论中信息熵概念,求出任意一个离散信源的熵(平均自信息量)。 自信息是一个随机变量,它是指某一信源发出某一消息所含有的信息量。所发出的消息不同,它们所含有的信息量也就不同。任何一个消息的自信息量都代表不了信源所包含的平均自信息量。不能作为整个信源的信息测度,因此定义自信息量的数学期望为信源的平均自信息量:
()()()()∑=-=⎥⎦⎤
⎢⎣
⎡=n
i ai p ai p ai p E x H 1log 1log
信源的信息熵H 是从整个信源的统计特性来考虑的。它是从平均意义上来表征信源的总体特性的。对于某特定的信源,其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。 2.2 图像熵
通过理解图像熵基本概念,能够求出图像一维熵和二维熵。 图像熵是一种特征的统计形式,它反映了图像中平均信息量的多少。图像的一维熵表示图像中灰度分布的聚集特征所包含的信息量,令Pi 表示图像中灰度值为i 的像素所占的比例,则定义灰度图像的一元灰度熵为:
∑
==
255
log i pi
pi H
图像的一维熵可以表示图像灰度分布的聚集特征,却不能反映图像灰度分布的空间 特征,为了表征这种空间特征,可以在一维熵的基础上引入能够反映灰度分布空间特征的特征量来组成图像的二维熵。选择图像的邻域灰度均值作为灰度分布的空间特征量,与图像的像素灰度组成特征二元组,记为( i, j ),其中i 表
示像素的灰度值(0 <= i <= 255),j 表示邻域灰度(0 <= j <= 255),
()N p
j i f ij
2
/
,=
上式能反应某像素位置上的度值与其周围像素灰度分布的综合特征,其中f(i, j) 为特征二元组(i, j)出现的频数,N 为图像的尺度,定义离散的图像二维熵为:
p p
ij
I ij
H log
255
∑==
构造的图像二维熵可以在图像所包含信息量的前提下,突出反映图像中像素位置的灰度信息和像素邻域内灰度分布的综合特征.
2.3 基于信息熵的Web 页面主题信息计算方法概述
Web 主题信息抽取系统主要由HTML 解析器、过滤器、关键词抽取器、剪枝器四部分组成,下图是Web 主题信息抽取系统的框图。
HTML解析器负责将HTML文档转换为DOM树,使后续工作在此DOM树基础上进行。过滤器将不需要处理的元素从DOM树中删除,主要是一些图片、脚本代码等。本系统采用CyberNekoHTML Parser解析器,它可以同时完成HTML解析器和过滤器的工作,解析生成的DOM树可以用XML标准接口进行操作,通过在管道添加不同过滤器的方法实现过滤目的。关键词抽取器则对文本语义块进行处理.并对相关结点抽取出关键词向量、关键词词频等信息,为对结点进行信息熵计算作好准备。本系统采用海星智能分词软件及其获取关键词接1:3来实现关键词抽取器。剪枝器则对DOM树从下向上计算有语义结点的信息熵,并根据剪枝规则剪枝结点。最后输出能够保持源Web页面结构的主题信息页面。在配置管理界面设置各有关参数,并进行相关文档的加载与输出,完成主题信息抽取任务。
2.3.1剪枝规则与构造s1Ⅵ一DOM树
剪枝的基本原则是贡献了较大信息熵的结点应该被剪枝。但一定要考虑结点的关键词数,如果仅以信息熵来剪枝,可能会把包含关键词多的结点剪枝,所以采用平均信息熵来判定结点信息熵的贡献情况,则剪枝规则为:(1)计算根结点R的信息熵t(R)及平均信息熵I(R)/C。
(2)对STU—DOM树从根结点出发,按深度优先计算各结点Ⅳ信息熵I(N)及其平均信息熵。
(3)当整个STU—DOM树遍历结束后,剪枝工作结束。
构造s1Ⅵ一DOM树
针对不同的剪枝算法,需要构造不同的STU—DOM树。在文献[1]所提出的抽取方法中,构造STU—DOM树的主要目的是为了计算局部相关度和上下文相关度,所以通过统计文本块中的字符数和链接数来构造STU—DOM树。本文构造STU—DOM 树的主要目的是计算信息熵,其过程在HTML解析器生成的DOM树基础上。从下向上查找包含语义信息的文本块和链接文字的结点,调用关键词抽取器对其进行处理,找到该结点所包含的关键词KDi(i=0,⋯,n),n为该结点关键词数,构造关键词分布向量T=[Ci,cR;】,(i=0,⋯,凡),q为KD;在该结点中出现的次数。对父结点的处理中。可以利用子结点的统计结果,但不是所有子结点的简单叠加.主要考虑当不同的子结点中有相同的关键词时,需要将其合并,父结点中关键词KD:出现次数为其在子结点中出现次数总和。最后,当到达根结点时,就会统计出该文档共包含多少个关键词,每一个关键词出现的次数及总关键词出现次数C。