最优二叉树——哈夫曼树

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

最优二叉树——哈夫曼树

【引入】

在实际应用中，常常要考虑一个问题：如何设计一棵二叉树，使得执行路径最短，即算法的效率最高。

例7.1快递包裹的邮资问题

假设邮政局的包裹自动测试系统能够测出包裹的重量，如何设计一棵二叉树将包裹根据重量及运距进行分类从而确定邮资。

国内快递包裹资费单位：元

（2004年1月1日起执行）

根据表7.1可以制定出许多种二叉树，但不同的二叉树判定的次数可能不一样，执行的效率也不同。

例7.2 铁球分类

现有一批球磨机上的铁球，需要将它分成四类：直径不大于20的属于第一类;直径大于20而不大于50的属于第二类；直径大于50而不大于100的属于第三类；其余的属于第四类；假定这批球中属于第一、二、三、四类铁球的个数之比例是1:2:3:4。

我们可以把这个判断过程表示为图7.1中的两种方法：

图7.1 两种判断二叉树示意图

那么究竟将这个判断过程表示成哪一个判断框，才能使其执行时间最短呢？让我们对上述判断框做一具体的分析。

假设有1000个铁球，则各类铁球的个数分别为：100、200、300、400；对于图7.1中的左图和右图比较的次数分别如表7.2所示：

表7.2 两种判断二叉树比较次数

过上述分析可知，图7.1中右图所示的判断框的比较次数远远小于左图所示的判断框的比较次数。为了找出比较次数最少的判断框，将涉及到树的路径长度问题。

7.1哈夫曼树的基本概念

最优二叉树，也称哈夫曼（Haffman ）树，是指对于一组带有确定权值的叶结点，构造的具有最小带权路径长度的二叉树。那么什么是二叉树的带权路径长度呢？

在前面我们介绍过路径和结点的路径长度的概念，而二叉树的路径长度则是指由根结点到所有叶结点的路径长度之和。如果二叉树中的叶结点都具有一定的权值，则可将这一概念加以推广。设二叉树具有n 个带权值的叶结点，那么从根结点到各个叶结点的路径长度与相应结点权值的乘积之和叫做二叉树的带权路径长度，记为：

WPL ＝ W k ·L k

n ∑ k=1

其中W k为第k个叶结点的权值，L k为第k个叶结点的路径长度。如图7.2所示的二叉树，它的带权路径长度值WPL＝2×2＋4×2＋5×2＋3×2＝28。

在给定一组具有确定权值的叶结点，可以构造出不同的带权二叉树。例如，给出4个叶结点，设其权值分别为1，3，5，7，我们可以构造出形状不同的多个二叉树。这些形状不同的二叉树的带权路径长度将各不相同。图7.3给出了其中5个不同形状的二叉树。

这五棵树的带权路径长度分别为：Array（a）WPL＝1×2＋3×2＋5×2＋7×2＝32

（b）WPL＝1×3＋3×3＋5×2＋7×1＝29

（c）WPL＝1×2＋3×3＋5×3＋7×1＝33

（d）WPL＝7×3＋5×3＋3×2＋1×1＝43 图7.2 一个带权二叉树

（e）WPL＝7×1＋5×2＋3×3＋1×3＝29

(b)

(a)

(d) (e)

图7.3 具有相同叶子结点和不同带权路径长度的二叉树

由此可见，由相同权值的一组叶子结点所构成的二叉树有不同的形态和不同的带权路径长度，那么如何找到带权路径长度最小的二叉树（即哈夫曼树）呢？根据哈夫曼树的定义，一棵二叉树要使其WPL值最小，必须使权值越大的叶结点越靠近根结点，而权值越小的叶结点越远离根结点。

哈夫曼（Haffman）依据这一特点于1952年提出了一种方法，这种方法的基本思想是：（1）由给定的n个权值{W1，W2，…，Wn}构造n棵只有一个叶结点的二叉树，从而得到一个二叉树的集合F＝{T1，T2，…，Tn}；

（2）在F中选取根结点的权值最小和次小的两棵二叉树作为左、右子树构造一棵新的二叉树，这棵新的二叉树根结点的权值为其左、右子树根结点权值之和；

（3）在集合F中删除作为左、右子树的两棵二叉树，并将新建立的二叉树加入到集合F中；

（4）重复（2）（3）两步，当F中只剩下一棵二叉树时，这棵二叉树便是所要建立的哈夫曼树。

由于这种算法是哈夫曼最早提出的，所以将最优二叉树称为哈夫曼树。

图7.4给出了前面提到的叶结点权值集合为W ＝{1，3，5，7}的哈夫曼树的构造过程。可以计算出其带权路径长度为29，由此可见，对于同一组给定叶结点所构造的哈夫曼树，树的形状可能不同，但带权路径长度值是相同的，一定是最小的。

第一步

第二步

第三步

第四步

图7.4 哈夫曼树的建立过程

7. 2 哈夫曼树的构造算法

从上述算法中可以看出，F 实际上是森林，该算法的思想是不断地进行森林F 中的二叉树的“合并”，最终得到哈夫曼树。

算法一：

在构造哈夫曼树时，可以设置一个结构数组HuffNode 保存哈夫曼树中各结点的信息，根据二叉树的性质可知，具有n 个叶子结点的哈夫曼树共有2n －1个结点，所以数组HuffNode 的大小设置为2n －1，数组元素的结构形式如下：

其中，weight 域保存结点的权值，lchild 和rchild 域分别保存该结点的左、右孩子结点在数组HuffNode 中的序号，从而建立起结点之间的关系。为了判定一个结点是否已加入到要建立的哈夫曼树中，可通过parent 域的值来确定。初始时parent 的值为－1，当结点加入到树中时，该结点parent 的值为其双亲结点在数组HuffNode 中的序号，就不会是－1了。

构造哈夫曼树时，首先将由n 个字符形成的n 个叶结点存放到数组HuffNode 的前n 个分量中，然后根据前面介绍的哈夫曼方法的基本思想，不断将两个小子树合并为一个较大的子树，每次构成的新子树的根结点顺序放到HuffNode 数组中的前n 个分量的后面。

下面给出哈夫曼树的构造算法。