严蔚敏数据结构课件10哈希表

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

5. 除留余数法
?设散列表中允许的地址数为 m,取一个不大于 m，但最接近于或等于 m的质数p,或选取一个不小于 20的质因数的合数作为除数，利用以下公式把关键字转换成散列地址。散列函数为：
hash ( key ) = key % p
p? m
?其中, “%”是整数除法取余的运算，要求这时的质数 p 不是接近 2的幂。
?在查找时，首先对表项的关键字进行函数计算，把函数值当做表项的存储位置，在结构中按此位置取表项比较。若关键字相等，则查找成功。在存放表项时，依相同函数计算存储位置，并按此位置存放。
哈希函数的构造方法
构造散列函数时的几点要求： ? 散列函数的定义域必须包括需要存储的全部关
键码，如果散列表允许有 m个地址时,其值域必须在 0 到 m-1 之间。 ? 散列函数计算出来的地址应能均匀分布在整个地址空间中：若 key是从关键字集合中随机抽取的一个关键字，散列函数应能以同等概率取 0到 m-1 中的每一个值。 ? 散列函数应是简单的，能在较短的时间内计算出结果。
4. 折叠法
? 此方法把关键字自左到右分成位数相等的几部分，每一部分的位数应与散列表地址位数相同，只有最后一部分的位数可以短一些。
? 把这些部分的数据叠加起来，就可以得到具有该关键字的记录的散列地址。
? 有两种叠加方法：移位法 — 把各部分的最后一位对齐相加；
分界法 — 各部分不折断，沿各部分的分界来回折叠，然后对齐相加，将相加的结果当做散列地址。
942148 941269 940527 941630 941805 941558 942047 940001 ①②③④⑤⑥
数字分析法仅适用于事先明确知道表中所有关键字每一位数值的分布情况，它完全依赖于关键字集合。如果换一个关键字集合，选择哪几位要重新决定。
3. 平方取中法 ? 此方法在词典处理中使用十分广泛。它先计算构成关键字
?示例：设给定的关键字为 key = 23938587841 ，若
存储空间限定 3 位, 则划分结果为每段 3 位. 上述关键字可划分为 4段：
239
385
878
41
?把超出地址位数的最高位删去 , 仅保留最低的 3位，做为可用的散列地址。
? 一般当关键字的位数很多，而且关键字每一位上数字的分布大致比较均匀时，可用这种方法得到散列地址。
1. 直接定址法
此类函数直接取关键字或关键字的某个线性函数值作为散列地址： Hash ( key ) ＝ a * key + b { a, b 为常数 }
? 这类散列函数是一对一的映射，一般不会产生冲突。但是，它要求散列地址空间的大小与关键字集合的大小相同。
2. 数字分析法
设有n个d位数，每一位可能有 r种不同的符号。这 r 种不同的符号在各位上出现的频率不一定相同，可能在某些位上分布均匀些；在某些位上分布不均匀，只有某几种符号经常出现。可根据散列表的大小，选取其中各种符号分布均匀的若干位作为散列地址。
?示例：有一个关键字 key = 962148 ，散列表大小 m = 25，即 HT[25]。取质数 p= 23。散列函数 hash ( key ) = key % p 。则散列地址为：
hash ( 962148 ) = 962148 % 23 = 12
? 可以按计算出的地址存放记录。需要注意的是，使用上面的散列函数计算出来的地址范围是 0到 22，因此，从23到24这几个散列地址实际上在一开始是不可能用散列函数计算出来的，只可能在处理溢出时达到这些地址。
散列 (Hashing)
?在线性表、树结构中查找纪录是通过与关键字的“比较”完成的。
? 顺序查找，比较的结果为“ =”或“≠” ? 非顺序查找，比较的结果为“ <”，“=”，“>”
?散列的思想：根据纪录的关键字直接找到记录的存储位置，即为关键字和记录的存储位置建立一个对应关系f，使每个关键字和结构中一个唯一的存储位置相对应。对应关系f为散列函数，按该思想建立的表为散列表。
? 以上介绍了几种常用的散列函数。在实际工作中应根据关键字的特点，选用适当的方法。有人曾用“轮盘赌”的统计分析方法对它们进行了模拟分析，结论是平方取中法最接近于“随机化”。
? 在应用平方取中法时，若关键字不是整数而是字符串时，可以把每个字符串转换成整数。
处理冲突的方法
1. 开放定址法（闭散列）——是处理溢出的一种常用的方法 ? Hash函数：
哈希表的定义
根据设定的哈希函数 H(key) 和处理冲突的方法将一组关键字映像到一个有限的连续的地址集（区间）上，并以关键字在地址集中的“像”作为纪录在表中的存储位置，这种表便称为哈希表，这一影像过程称为哈希造表或散列，所得存储位置称哈希地址或散列地址。
?散列方法在表项的存储位置与它的关键字之间建立一个确源自文库的对应函数关系 Hash( )，使每个关键字与结构中一个唯一存储位置相对应： Address ＝ Hash ( Rec.key )
Hi = (H(key)+di) MOD m, i=1,2,…,k(k≤m-1) 其中：H(key)为哈希函数，m为哈希表表长， di为增量序列。 di分别有三种取法： (1) di=1,2,3,…,m-1 线性探测再散列（常考知识点） (2) di=12,-12,22,-22,…, k2, -k2,(k≤m/2)
的标识符的内码的平方，然后按照散列表的大小取中间的若干位作为散列地址。 ? 设标识符可以用一个计算机字长的内码表示。因为内码平方数的中间几位一般是由标识符所有字符决定，所以对不同的标识符计算出的散列地址大多不相同，即使其中有些字符相同。 ? 在平方取中法中，一般取散列地址为2的某次幂。例如，若散列地址总数取为m = 2r，则对内码的平方数取中间的r位。如果r = 9，所取得的散列地址参看图的最右一列。(表参见教材255页9.23)
—— 二次探测再散列特别注意：要求表长m为形如4*j+3的素数 (3) di=伪随机数序列，伪随机探测再散列说明：