散列法的课程设计说明书

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中北大学

数据结构

课程设计说明书

学生姓名:淮华瑞学号:1021010908 学院: 软件学院

专业: 软件工程

题目: 散列表的实验研究

指导教师康珺

2011年12月20日

1. 设计任务概述(包括系统总体框图及功能描述)

系统总体框图

问题描述

散列法中,散列函数构造方法多种多样,同时对于同一散列函数解决冲突的方法也可以不同。两者是影响查询算法性能的关键因素。对于几种典型的散列函数构造方法,做实验观察,不同的解决冲突方法对查询性能的影响。 概要设计

散列又称哈希或杂凑。散列法(Hashing )在表项的存储位置与它的关键码

之间建立一个确定的对应函数关系Hash (),以使每个关键码与结构中的唯一存储位置相对应,该关系可用下式表示: Address=Hash (Record.key )

相应的表称为哈希表,这种方法的基本思想是:首先在元素的关键字k 和元素的存储位置p 之间建立一个对应关系H ,使得p=H(k),H 称为哈希函数。创建哈希表时,把关键字为k 的元素直接存入地址为H(k)的单元;以后当查找关键字为k 的元素时,再利用哈希函数计算出该元素的存储位置p=H(k),从而达到按关键字直接存取元素的目的。

哈希函数是一个映象,哈希函数的设定灵活,只要使得任何关键字所得的哈希函数值都落在表长范围之内即可。

当关键字集合很大时,关键字值不同的元素可能会映象到哈希表的同一地址上,即 k1≠k2,但H(k1)=H(k2),这种现象称为冲突,此时称k1和k2为同

建立散列表

线性探测再散列

二次探测再散列

链地址法

线性探测再散列查找

二次探测再散列查找

链地址法查找

义词。实际中,冲突是不可避免的,只能通过改进哈希函数的性能来减少冲突。

综上所述,哈希法主要包括以下两方面的内容。

(1)如何构造哈希函数;

(2)如何处理冲突。

2. 本设计所采用的数据结构(如:链表、栈、树、图等)

一、散列函数

通常,构造散列函数应该注意的几个问题包括:首先,散列函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有m个地址,其值域必须在1~m-1之间;其次,散列函数计算出来的地址应能均匀分布在整个地址空间中;再次,散列函数应当是尽量简单的。

1.直接定址法

直接定址法蓝颜元素关键码的某个线性函数值作为该元素的散列地址(散列地址,即元素最终在字典中的存储位置)。如下面的函数式:

Hash(key)=a×key+b

式中,a,b为常数。采用该种方法,当向字典中加入某一新元素时算法自动调用此函数,以确定该元素最终的存储位置。若某元素关键码key为1,上式中,a=2,b=3则该元素最终会存储在字典第5个位置中。

直接定址法的优点是实现方法简单,算法时间复杂度较小,而且不会产生冲突。但是,直接定址法要求散列地址空间的大小与关键码集合的大小一致,而这种要求是苛刻的,一般很难实现。例如当关键码的范围为1~1000000时,元素散列地址的个数也要达到1000000。这么大的散列地址是不合实际的。

2.除留余数法

设散列表中允许的地址数为m,取一个不大于m,但最接近或等于m的质数k,或选取一个不含有小于20的质因子的合数作为除数。利用下面的式子计算元素的散列地址的方法称为除留余数法。

Hash(key)=key%k,k≤m

其中,“%”是整数除余法取余的运算,要求这时的质数不是接近2的幂。例如,

当元素的关键码key为2008,散列地址总数为50,这时取k=47,则散列地址为Hash(2008)=2008%47=34,所以运算将存储在字典第47个位置中。

除留余数法将有效缩减散列地址空间的大小,例如上例散列地址空间中只有50个有效的散列地址。除留余数法的缺点是极易发生冲突,如关键码为1914的元素经过上述教例函数计算后也将获得散列地址34。此时出现的两个不同元素争用同一存储地址的情况就称为冲突。

3.平方取中法

平方取中法是一种常用的实现散列函数的方法。

平方取中法是一种先放大再集合的构造方法,这种构造模式先通过求关键字的平方值扩大相近数的差别,然后根据表长度取中间的几位数作为散列函数值,这种取中间数的方法是一种类随机方案,因此也可以认为平方取中法是一种产生伪随机数的方法。因为一个乘积的中间几位数和乘数的每一位都相关,所以有此产生的散列地址较为均匀。

利用平方取中法实现散列函数的过程:首先,利用一定的编码规则把元素的关键码转换成标识符。然后,求出标识符的内码表示并计算内码的平方值。最后,取内码平方数的中间x位作为元素最终的散列地址。简而言之,即先计算构成关键码表示符的内码平方,然后按照散列表的大小取中间的若干位作为散列地址。

在平方取中法中,地址空间内散列地址的数目一般为2的k次幂,并在计算出内码平方的平方后,根据k的大小决定最终散列地址的位数。例如某个地址空间中散列地址的个数为128,则最终取内码平方中间7位作为元素最终的散列地址。

4.乘余取整法

乘余取整法利用下面的式子计算元素的散列地址。

Hash(key)=[Z×(a×key%1)]

其中,a为一个常数且0

×(0.6180339×2008%1)]=120。

乘余取整法不但会缩减散列地址空间的大小,还能极大减小冲突情况的发生几率。Knuth对常数a的取法做了仔细的研究,发现虽然a取任何值都可以,但一般取黄金分割数0.6180339比较好。

5.折叠法

折叠法的工作方式很有趣,此方法把关键吗从左至右划分为位数相等的几部分,每一部分的位数与散列地址数相同。当关键码位数不能被散列地址位数整除时,最后一部分可取得短些。

折叠法有两种,即位移法和分界法。其中,位移法所采取的具体方式是把各部分的最后一位对齐相加。分界法所采用的具体方式是各部分不折断,而沿各部分的分界来回折叠,然后对齐相加,并将相加的结果当做散列地址。折叠法适用于关键码位数很多,且每一位上数字分布比较均匀的情况。下面通过实例演示这两种方法的工作方式。

设关键码key=987654321,散列地址为4位。位移法和分界法计算散列地址的算式如图所示。

98769876

5432 2345

+ 1 + 1

15309 12222

移位法分界法

由式可见,位移法计算结果为15309,由于散列地址为4位,所以舍去最高位数字1,元素最终的散列地址为5309。分界法结算结果为12222,同样舍去最高位数字1,元素最终的散列地址为2222。

二、散列冲突解决方法

在构造散列函数的过程中,不可避免地会出现冲突的情况。所谓处理冲突,就是在有冲突发生时,为产生冲突的关键字找到另一个地址存放该关键字。在解

相关文档
最新文档