严蔚敏数据结构课件10哈希表.
严蔚敏数据结构C语言 原PPT课件
4358 3485 6552 5145 1354 3625 7272 2420 4707
n-i次
…
第n-1趟 排序结束
25
第25页/共58页
第10章 内部排序
10.3 交换类排序
①冒泡排序(相邻比逆法)
void BubbleSort(RecordType r[ ],int length)
{ n=length;
数
据
结
有序序列a[1..i-1]
构
a[i]
无序序列 a[i..n-1]
有序序列a[1..i]
无序序列 a[i+1..n-1]
7
第7页/共58页
第10章 内部排序 10.2 插入类排序
实现“一趟插入排序”可分三步进行:
1.在a[1..i-1]中查找a[i]的插入位置,
数
a[1..j].key a[i].key < a[j+1..i].key;
low = 1; high = i-1;
while (low<=high)
数
{
据
结
构
m= (low+high)/2;
if (L.r[0].key < L.r[m].klse low = m+1;
18
第18页/共58页
第10章 内部排序 10.2 插入类排序
③希尔排序 (又称缩小增量排序)
数 { R[1],R[1+d],R[1+2d],…,R[1+kd] }
据 { R[2],R[2+d],R[2+2d],…,R[2+kd] }
结
…
构 { R[d],R[2d],R[3d],…,R[kd],R[(k+1)d] }
教学课件 数据结构--严蔚敏
1.1 数据结构讨论的范畴
Niklaus Wirth:
Algorithm + Data Structures = Programs
程序设计:
算法: 数据结构:
为计算机处理问题编制 一组指令集
处理问题的策略
问题的数学模型
例如: 数值计算的程序设计问题
结构静力分析计算 ─━ 线性代数方程组
全球天气预报 ─━ 环流模式方程 (球面坐标系)
非数值计算的程序设计问题
例一: 求一组(n个)整数中的最大值 算法: ? 基本操作是“比较两个数的大小” 模型:? 取决于整数值的范围
例二:计算机对弈
算法:? 对弈的规则和策略 模型:? 棋盘及棋盘的格局
例三:足协的数据库管理
S 是 D上关系的有限集。
数据的存储结构
—— 逻辑结构在存储器中的映象
“数据元素”的映象 ?
“关系”的映象 ?
数据元素的映象方法:
用二进制位(bit)的位串表示数据元素 (321)10 = (501)8 = (101000001)2 A = (101)8 = (001000001)2
关系的映象方法:(表示x, y的方法)
抽象数据类型的表示和实现
抽象数据类型需要通过固有数据 类型(高级编程语言中已实现的数据 类型)来实现。
例如,对以上定义的复数。
// -----存储结构的定义
typedef struct { float realpart; float imagpart;
}complex;
// -----基本操作的函数原型说明
顺序映象
以相对的存储位置表示后继关系 例如:令 y 的存储位置和 x 的存储位置之间差一个常量 C
数据结构严蔚敏PPT完整版
算法分析应用举例
算法中基本操作重复执行的次数是问题规模n的某 个函数,其时间量度记作 T(n)=O(f(n)),称作算法的 渐近时间复杂度(Asymptotic Time complexity),简称时 间复杂度。
《算法与数据结构》是计算机科学中的一门综合性 专业基础课。是介于数学、计算机硬件、计算机软件三 者之间的一门核心课程,不仅是一般程序设计的基础, 而且是设计和实现编译程序、操作系统、数据库系统及 其他系统程序和大型应用程序的重要基础。
1.1.1 数据结构的例子
例1:电话号码查询系统
设有一个电话号码薄,它记录了N个人的名字和其 相应的电话号码,假定按如下形式安排:(a1, b1),(a2, b2),…(an, bn),其中ai, bi(i=1,2…n) 分别表示某人的 名字和电话号码。 本问题是一种典型的表格问题。如 表1-1,数据与数据成简单的一对一的线性关系。
K={k1, k2, …, k9} R={ <k1, k3>,<k1, k8>,<k2, k3>,<k2, k4>,<k2, k5>,<k3, k9>, <k5, k6>,<k8, k9>,<k9, k7>,<k4, k7>,<k4, k6> } 画出这逻辑结构的图示,并确定那些是起点,那些是终点
数据元素之间的关系可以是元素之间代表某种含义 的自然关系,也可以是为处理问题方便而人为定义的 关系,这种自然或人为定义的 “关系”称为数据元素 之间的逻辑关系,相应的结构称为逻辑结构。
数据结构不同于数据类型,也不同于数据对象,它 不仅要描述数据类型的数据对象,而且要描述数据对象 各元素之间的相互关系。
数据结构严蔚敏PPT(完整版)
算法具有以下五个特性
① 有穷性: 一个算法必须总是在执行有穷步之后结 束,且每一步都在有穷时间内完成。
② 确定性:算法中每一条指令必须有确切的含义。 不存在二义性。且算法只有一个入口和一个出口。
图状结构
一般线性表 栈和队列 串 数组 广义表 一般树 二叉树 有向图 无向图
图1-5 数据逻辑结构层次关系图
1.1.5 数据类型
数据类型(Data Type):指的是一个值的集合和定 义在该值集上的一组操作的总称。
数据类型是和数据结构密切相关的一个概念。 在C 语言中数据类型有:基本类型和构造类型。
问题:必须先运行依据算法编制的程序;依赖软硬 件环境,容易掩盖算法本身的优劣;没有实际价值。 事前分析:求出该算法的一个时间界限函数。
与此相关的因素有: – 依据算法选用何种策略; – 问题的规模; – 程序设计的语言; – 编译程序所产生的机器代码的质量; – 机器执行指令的速度; 撇开软硬件等有关部门因素,可以认为一个特定算
K={k1, k2, …, k9} R={ <k1, k3>,<k1, k8>,<k2, k3>,<k2, k4>,<k2, k5>,<k3, k9>, <k5, k6>,<k8, k9>,<k9, k7>,<k4, k7>,<k4, k6> } 画出这逻辑结构的图示,并确定那些是起点,那些是终点
数据元素之间的关系可以是元素之间代表某种含义 的自然关系,也可以是为处理问题方便而人为定义的 关系,这种自然或人为定义的 “关系”称为数据元素 之间的逻辑关系,相应的结构称为逻辑结构。
最新2019-清华大学严蔚敏数据结构ppt课件-PPT课件
数据对象可以是有限的,也可以是无限的。 数据结构不同于数据类型,也不同于数据对 象,它不仅要描述数据类型的数据对象,而且 要描述数据对象各元素之间的相互关系。 抽象数据类型:一个数学模型以及定义在该模 型上的一组操作。 抽象数据类型实际上就是对该数据结构的 定义。因为它定义了一个数据的逻辑结构以及 在此结构上的一组算法。 用三元组描述如下: (D,S,P)
ห้องสมุดไป่ตู้
数据类型:在一种程序设计语言中,变量所具 有的数据种类。 例1、 在FORTRAN语言中,变量的数据类型 有整型、实型、和复数型 例2、在C语言中 数据类型:基本类型和构造类型 基本类型:整型、浮点型、字符型 构造类型:数组、结构、联合、指针、枚举型、 自定义 数据对象:某种数据类型元素的集合。 例3、整数的数据对象是{…-3,-2,-1,0,1, 2,3,…} 英文字符类型的数据对象是{A,B,C,D,E,
数据结构的形式定义为:数据结构是一个二元 组: Data-Structure=(D,S) 其中:D是数据元素的有限集,S是D上关系的 有限集。 例 复数的数据结构定义如下: Complex=(C,R) 其中:C是含两个实数的集合﹛C1,C2﹜,分 别表示复数的实部和虚部。R={P},P是定义在 集合上的一种关系{〈C1,C2〉}。 数据结构在计算机中的表示称为数据的物理结 构,又称为存储结构。
1.3 抽象数据类型的表示和实现
P11
1.4 算法和算法分析 算法:是对特定问题求解步骤的一种描述 算法是指令的有限序列,其中每一条指令 表示一个或多个操作。 算法具有以下五个特性: (1)有穷性 一个算法必须总是在执行有穷步 之后结束,且每一步都在有穷时间内完成。 (2)确定性 算法中每一条指令必须有确切的 含义。不存在二义性。且算法只有一个入口和 一个出口。 (3)可行性 一个算法是可行的。即算法描述 的操作都是可以通过已经实现的基本运算执行 有限次来实现的。
数据结构严蔚敏ppt课件
数据结构(严蔚敏)版●资料上传者:安徽大学研究生●资料使用范围:各大学考研及本科教学●欢迎报考安徽大学研究生●“星光考研书屋”祝您学习愉快[学习目标]掌握线性表的顺序存储结构和抽象数据类型中定义的每一种操作的含义,在顺序存储方式下每一种操作的具体实现和相应的时间复杂度;掌握链接存储的概念,线性表的单、双链接存储结构,对它们进行插入和删除结点的方法,循环单、双链表和带表头附加结点的单、双链表的结构和操作特点;掌握每一种线性表操作在由动态结点构成的单链表上具体实现的算法以及相应的时间复杂度。
2第2章线性表线性结构是最常用、最简单的一种数据结构。
而线性表是一种典型的线性结构。
其基本特点是线性表中的数据元素是有序且是有限的。
在这种结构中:① 存在一个唯一的被称为“第一个”的数据元素;② 存在一个唯一的被称为“最后一个”的数据元素;③ 除第一个元素外,每个元素均有唯一一个直接前驱;④ 除最后一个元素外,每个元素均有唯一一个直接后继。
32.1 线性表的逻辑结构线性表(Linear List ) :是由n(n ≧0)个数据元素(结点)a 1,a 2, …a n 组成的有限序列。
该序列中的所有结点具有相同的数据类型。
其中数据元素的个数n 称为线性表的长度。
当n=0时,称为空表。
当n>0时,将非空的线性表记作: (a 1,a 2,…a n ) a 1称为线性表的第一个(首)结点,a n 称为线性表的最后一个(尾)结点。
2.1.1 线性表的定义4a1,a2,…a i-1都是a i(2≦i≦n)的前驱,其中a i-1是a i的直接前驱;a i+1,a i+2,…a n都是a i(1≦i ≦n-1)的后继,其中a i+1是a i的直接后继。
2.1.2线性表的逻辑结构线性表中的数据元素a i所代表的具体含义随具体应用的不同而不同,在线性表的定义中,只不过是一个抽象的表示符号。
◆线性表中的结点可以是单值元素(每个元素只有一个数据项) 。
数据结构严蔚敏ppt课件
数据结构严蔚敏ppt课件数据结构(严蔚敏)版●资料上传者:安徽大学研究生●资料使用范围:各大学考研及本科教学●欢迎报考安徽大学研究生●“星光考研书屋”祝您学习愉快[学习目标]掌握线性表的顺序存储结构和抽象数据类型中定义的每一种操作的含义,在顺序存储方式下每一种操作的具体实现和相应的时间复杂度;掌握链接存储的概念,线性表的单、双链接存储结构,对它们进行插入和删除结点的方法,循环单、双链表和带表头附加结点的单、双链表的结构和操作特点;掌握每一种线性表操作在由动态结点构成的单链表上具体实现的算法以及相应的时间复杂度。
2第2章线性表线性结构是最常用、最简单的一种数据结构。
而线性表是一种典型的线性结构。
其基本特点是线性表中的数据元素是有序且是有限的。
在这种结构中:① 存在一个唯一的被称为“第一个”的数据元素;② 存在一个唯一的被称为“最后一个”的数据元素;③ 除第一个元素外,每个元素均有唯一一个直接前驱;④ 除最后一个元素外,每个元素均有唯一一个直接后继。
32.1 线性表的逻辑结构线性表(Linear List ) :是由n(n ≧0)个数据元素(结点)a 1,a 2,…a n 组成的有限序列。
该序列中的所有结点具有相同的数据类型。
其中数据元素的个数n 称为线性表的长度。
当n=0时,称为空表。
当n>0时,将非空的线性表记作: (a 1,a 2,…a n ) a 1称为线性表的第一个(首)结点,a n 称为线性表的最后一个(尾)结点。
2.1.1 线性表的定义4a1,a2,…a i-1都是a i(2≦i≦n)的前驱,其中a i-1是a i的直接前驱;a i+1,a i+2,…a n都是a i(1≦i ≦n-1)的后继,其中a i+1是a i 的直接后继。
2.1.2线性表的逻辑结构线性表中的数据元素a i所代表的具体含义随具体应用的不同而不同,在线性表的定义中,只不过是一个抽象的表示符号。
◆线性表中的结点可以是单值元素(每个元素只有一个数据项) 。
数据结构严蔚敏完整版 ppt课件
算法具有以下五个特性
① 有穷性: 一个算法必须总是在执行有穷步之后结 束,且每一步都在有穷时间内完成。
② 确定性:算法中每一条指令必须有确切的含义。 不存在二义性。且算法只有一个入口和一个出口。
– 链式存储结构:在每一个数据元素中增加一个存 放另一个元素地址的指针(pointer ),用该指针来表 示数据元素之间的逻辑结构(关系)。
例:设有数据集合A={3.0,2.3,5.0,-8.5,11.0} ,两种不同
的存储结构。
– 顺序结构:数据元素存放的地址是连续的;
– 链式结构:数据元素存放的地址是否连续没有要 求。
例3:交通网络图
从一个地方到另外一个地方可以有多条路径。本问 题是一种典型的网状结构问题,数据与数据成多对多的 关系,是一种非线性关系结构。
佛山
广州
中山
东莞
惠州
珠海
图1-2 网状结构
深圳
1.1.2 基本概念和术语
数据(Data) :是客观事物的符号表示。在计算机科 学中指的是所有能输入到计算机中并被计算机程序处理 的符号的总称。
算法和程序是两个不同的概念。一个计算机程序是 对一个算法使用某种程序设计语言的具体实现。算法必 须可终止意味着不是所有的计算机程序都是算法。
在本门课程的学习、作业练习、上机实践等环节, 算法都用C语言来描述。在上机实践时,为了检查算法 是否正确,应编写成完整的C语言程序。
1.3.2 算法设计的要求
图状结构
一般线性表 栈和队列 串 数组 广义表 一般树 二叉树 有向图 无向图
图1-5 数据逻辑结构层次关系图
数据结构第十章排序严蔚敏.ppt
第十章 排序
10.2.3 直接插入排序
直接插入排序的基本思想是:从数组的 第二个单元开始,依次从原始数据中取 出数据,并将其插入到数组中该单元之 前的已排好序的序列中合适的位置处。
直接插入算法需要经过(n-1)趟插入过 程。如果数据恰好应插入到序列的最后 端,则不需移动数据,可节省时间,所 以若原始数据大体有序,此算法可以有 较快的运算速度。
排 28
14
14 28
17 15
20 17
42 20
︹ 42
23 ︹
23 28
序 23 15 28 23 23 23 42 ︹
过 15 23 23 28 28 28 28 42
程︺ ︺ ︺ ︺ ︺ ︺ ︺ ︺
第十章 排序
需扫描的趟数视原始数据最初的排列次 序的不同而不同,最坏的情况要进行 (n-1)趟扫描,一般常常少于(n-1)趟即 可完成。
第十章 排序
简单插入排序算法
void insertsort (sqlist r, int n) {
int i,j; for( i=2; i<=n; i++) {
r[0]=r[i]; /* r[0]用于暂时存放待插入的元素*/ j= i-1; /* j为待比较元素下标,初始时指 向待插入元素前一个单元*/
第十章 排序
10.3.2 构建堆
一般构建堆是采用一种称为筛选(sift)的算 法。这种方法是将一个无序数据序列的构建 堆的过程看作一个反复“筛选”的过程。
设原始数据为10,10,13,15,4,20,19, 8(数据个数n=8)。
首先把这些数据按任意次序置入完全二叉树 的各结点中,由于原始数据的次序是任意的, 此树一般不符合堆的条件,需要用筛选运算 进行调整。
严蔚敏数据结构(排序)ppt课件
重复上述过程,直到“在一趟排序过程中没有进行 过交换记录的操作”为止
例 1 4398 38 38 38 3183 13
2 3489 49 49 4193 132387 27
3 65 65 6153 142397 23780 30 4 9776 7163 162357 243790 3308 38 5 719637 172367 263750 3409 49 6 19237 732607 3605 65 7 293770 3706 76 8 3907 97
i=7 27 (13 2378 3489 4695 6756 7967) 9277 jjjjjj
排序结果:(13 27 38 49 65 76 97)
❖算法评价
时间复杂度
若待排序记录按关键字从小到大排列(正序) n
关键字比较次数: 1 n 1
i2
记录移动次数:
n
2 2(n 1)
ห้องสมุดไป่ตู้i2
0 1 2 34 5 6 7 13 27 38 49 65 76 97
j j j ji ij ij ij i i i 1 2 3 4 5 6 7 8 9 10 二趟排序:13 4 48 38 27 49 55 65 97 76
❖希尔排序特点
子序列的构成不是简单的“逐段分割”, 而是将相隔某个增量的记录组成一个子序 列
希尔排序可提高排序速度,因为
分组后n值减小,n²更小,而T(n)=O(n²), 所以T(n)从总体上看是减小了
49
50
65
97 76 38 27
13 输出:13 27 38
76
(2024年)数据结构严蔚敏PPT完整版
选择排序的基本思想
在未排序序列中找到最小(或最大)元素,存放到排序 序列的起始位置,然后,再从剩余未排序元素中继续寻 找最小(或最大)元素,然后放到已排序序列的末尾。 以此类推,直到所有元素均排序完毕。
2024/3/26
33
交换排序和归并排序
交换排序的基本思想
通过不断地交换相邻的两个元素(如果它们的顺序错 误)来把最小的元素“浮”到数列的一端。具体实现 时,从第一个元素开始,比较相邻的两个元素,如果 前一个比后一个大,则交换它们的位置;每一对相邻 元素做同样的工作,从开始第一对到结尾的最后一对 ;这步做完后,最后的元素会是最大的数;针对所有 的元素重复以上的步骤,除了最后一个;持续每次对 越来越少的元素重复上面的步骤,直到没有任何一对 数字需要比较。
图的基本操作
创建图、添加顶点、添加边、删除顶点、删除边 等
2024/3/26
27
图的存储结构
01
邻接矩阵表示法
用一个二维数组表示图中顶点间的 关系,适用于稠密图
十字链表表示法
用于有向图,可以方便地找到任一 顶点的入边和出边
03
2024/3/26
02
邻接表表示法
用链表表示图中顶点间的关系,适 用于稀疏图
入栈操作将元素添加到栈顶,出栈操作将栈顶元素删 除,取栈顶元素操作返回栈顶元素但不删除,判断栈
是否为空操作检查栈中是否有元素。
2024/3/26
12
栈的表示和实现
栈可以用数组或链表来实现。
用数组实现时,需要预先分配一块连续的内存空间,用一个变量指示栈顶位置。入栈和出栈操作都可以 通过移动栈顶位置来实现。
22
二叉树的定义和基本操作
二叉树的定义
二叉树是一种特殊的树,每个节点最 多有两个子节点,分别称为左子节点 和右子节点。
严蔚敏数据结构课件10:哈希表
1. 直接定址法
此类函数直接取关键字或关键字的某个线性函数 线性函数值 线性函数 作为散列地址: Hash ( key ) = a * key + b { a, b为常数 } 这类散列函数是一对一的映射,一般不会产生冲突。 但是,它要求散列地址空间的大小与关键字集合的 大小相同。
2. 数字分析法 设有n个d位数,每一位可能有r种不同的符号。这 r 种不同的符号在各位上出现的频率不一定相同,可能 在某些位上分布均匀些;在某些位上分布不均匀,只 有某几种符号经常出现。可根据散列表的大小,选取 其中各种符号分布均匀的若干位作为散列地址。
查找关键字时所需对桶的平均访问次数
从图中可以看出,链地址法优于开放定址法;在散列函 数中,用除留余数法作散列函数优于其它类型的散列函 数,最差的是折叠法。
用不同的方法溢出处理冲突时散列表的平均查找长度 如图所示
处 理 溢 出 的 方 法 开 放 定 址 法 伪随机探查法 二次探查法 双散列法 链 地 址 法 (同义词子表法)
1 + α 2
平 均 搜 索 长 度 ASL 搜索成功 Sn
1 1 1 + 2 1 − α
搜索不成功(登入新记录) Un
1 2 1 1 + 2 (1 − α )
线性探查法
1 − log α
e (1 − α )
1 1− α
α + e −α ≈ α
散列 (Hashing)
在线性表、树结构中查找纪录是通过与关键 字的“比较”完成的。
• 顺序查找,比较的结果为“=”或“≠” • 非顺序查找,比较的结果为“<”,“=”,“>”
散列的思想: 根据纪录的关键字直接找到记录的存储位置, 即为关键字和记录的存储位置建立一个对应 关系f,使每个关键字和结构中一个唯一的 存储位置相对应。 对应关系f为散列函数,按该思想建立的表 为散列表。
数据结构严蔚敏PPT(完整版)
数据结构(Data Structure):是指相互之间具有(存在) 一定联系(关系)的数据元素的集合。元素之间的相互联 系(关系)称为逻辑结构。数据元素之间的逻辑结构有四 种基本类型,如图1-3所示。
① 集合:结构中的数据元素除了“同属于一个集合” 外,没有其它关系。
② 线性结构:结构中的数据元素之间存在一对一的 关系。
4 《数据结构与算法》。夏克俭 编著。国防工业出 版社。
第1章 绪 论
目前,计算机已深入到社会生活的各个领域,其应 用已不再仅仅局限于科学计算,而更多的是用于控制, 管理及数据处理等非数值计算领域。计算机是一门研究 用计算机进行信息表示和处理的科学。这里面涉及到两 个问题:信息的表示,信息的处理。
– 如何用数据形式描述问题?—即由问题抽象出一个 适当的数学模型; – 问题所涉及的数据量大小及数据之间的关系; – 如何在计算机中存储数据及体现数据之间的关系? – 处理问题时需要对数据作何种运算? – 所编写的程序的性能是否良好? 上面所列举的问题基本上由数据结构这门课程来回答。
1.1 数据结构及其概念
K={k1, k2, …, k9} R={ <k1, k3>,<k1, k8>,<k2, k3>,<k2, k4>,<k2, k5>,<k3, k9>, <k5, k6>,<k8, k9>,<k9, k7>,<k4, k7>,<k4, k6> } 画出这逻辑结构的图示,并确定那些是起点,那些是终点
数据元素之间的关系可以是元素之间代表某种含义 的自然关系,也可以是为处理问题方便而人为定义的 关系,这种自然或人为定义的 “关系”称为数据元素 之间的逻辑关系,相应的结构称为逻辑结构。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9 4 2 1 4 8 9 4 1 2 6 9 9 4 0 5 2 7 9 4 1 6 3 0 9 4 1 8 0 5 9 4 1 5 5 8 9 4 2 0 4 7 9 4 0 0 0 1 ① ② ③ ④ ⑤ ⑥ 数字分析法仅适用于事先明确知道表中所有关键字每一位数 值的分布情况,它完全依赖于关键字集合。如果换一个关键字集 合,选择哪几位要重新决定。
示例:设给定的关键字为 key = 23938587841,若 存储空间限定 3 位, 则划分结果为每段 3 位. 上 述关键字可划分为 4段:29385878
41
把超出地址位数的最高位删去, 仅保留最低的3位, 做为可用的散列地址。
一般当关键字的位数很多,而且关键字每一位上 数字的分布大致比较均匀时,可用这种方法得到 散列地址。
示例——P258例9-3
=n/m 散列函数 种类 平方取中 除留余数 移位折叠 分界折叠 数字分析 理论值
0.50 链地 开放 址法 定址法 1.26 1.73 1.19 1.33 1.39 1.35 1.25 4.52 21.75 22.97 4.55 1.50
0.75 链地 开放定 址法 址法 1.40 9.75 1.31 1.48 1.57 1.49 1.37 10.20 65.10 48.70 30.62 2.50
4. 折叠法 此方法把关键字自左到右分成位数相等的几部分,每 一部分的位数应与散列表地址位数相同,只有最后一 部分的位数可以短一些。 把这些部分的数据叠加起来,就可以得到具有该关键 字的记录的散列地址。 有两种叠加方法: 移位法 — 把各部分的最后一位对齐相加; 分界法 — 各部分不折断,沿各部分的分界来回折叠, 然后对齐相加,将相加的结果当做散列地址。
哈希表的定义
根据设定的哈希函数H(key)和处理冲突的方法将一 组关键字映像到一个有限的连续的地址集(区间)上, 并以关键字在地址集中的“像”作为纪录在表中的存储 位置,这种表便称为哈希表,这一影像过程称为哈希造 表或散列,所得存储位置称哈希地址或散列地址。
散列方法在表项的存储位置与它的关键字之间建立一 个确定的对应函数关系Hash( ),使每个关键字与结构 中一个唯一存储位置相对应: Address = Hash ( Rec.key ) 在查找时,首先对表项的关键字进行函数计算,把函 数值当做表项的存储位置,在结构中按此位置取表项 比较。若关键字相等,则查找成功。在存放表项时, 依相同函数计算存储位置,并按此位置存放。
0.90 链地 开放 址法 定址法 1.45 310.14 1.38 1.40 1.55 1.52 1.45 22.42 710.01 69.63 89.20 5.50
0.95 链地 开放 址法 定址法 1.47 310.53 1.41 1.51 1.51 1.52 1.48 25.79 118.57 910.56 125.59 10.50
3. 平方取中法 此方法在词典处理中使用十分广泛。它先计算构成关键字 的标识符的内码的平方,然后按照散列表的大小取中间 的若干位作为散列地址。 设标识符可以用一个计算机字长的内码表示。因为内 码平方数的中间几位一般是由标识符所有字符决定, 所以对不同的标识符计算出的散列地址大多不相同, 即使其中有些字符相同。 在平方取中法中,一般取散列地址为2的某次幂。例 如,若散列地址总数取为m = 2r,则对内码的平方数 取中间的r位。如果r = 9,所取得的散列地址参看 图的最右一列。(表参见教材255页9.23)
哈希函数的构造方法
构造散列函数时的几点要求: 散列函数的定义域必须包括需要存储的全部关 键码,如果散列表允许有m个地址时,其值域必 须在 0 到 m-1 之间。 散列函数计算出来的地址应能均匀分布在整个 地址空间中:若 key是从关键字集合中随机抽 取的一个关键字,散列函数应能以同等概率取 0到 m-1 中的每一个值。 散列函数应是简单的,能在较短的时间内计算 出结果。
在应用平方取中法时,若关键字不是整数而是字 符串时,可以把每个字符串转换成整数。
处理冲突的方法
1. 开放定址法(闭散列)——是处理溢出的一种常用的方法 Hash函数: Hi = (H(key)+di) MOD m, i=1,2,…,k(k≤m-1) 其中:H(key)为哈希函数,m为哈希表表长,di为增量序列。 di分别有三种取法: (1) di=1,2,3,…,m-1 线性探测再散列(常考知识点) (2) di=12,-12,22,-22,…, k2, -k2,(k≤m/2) —— 二次探测再散列 特别注意:要求表长m为形如4*j+3的素数 (3) di=伪随机数序列,伪随机探测再散列 说明:
各种方法处理溢出时的平均查找长度
查找关键字时所需对桶的平均访问次数
从图中可以看出,链地址法优于开放定址法;在散列函 数中,用除留余数法作散列函数优于其它类型的散列函 数,最差的是折叠法。
用不同的方法溢出处理冲突时散列表的平均查找长度 如图所示
处 理 溢 出 的 方 法 开 放 定 址 法 伪随机探查法 二次探查法 双散列法 链 地 址 法 (同义词子表法)
平 均 搜 索 长 度 ASL 搜索成功 Sn
搜索不成功(登入新记录) Un
( )
线性探查法
1 l oge 1
e
5. 除留余数法
设散列表中允许的地址数为m,取一个不大于m,但最 接近于或等于m的质数p,或选取一个不小于20的质因 数的合数作为除数,利用以下公式把关键字转换成 散列地址。散列函数为: hash ( key ) = key % p p m 其中, “%”是整数除法取余的运算,要求这时的质数p 不是接近2的幂。 示例:有一个关键字 key = 962148,散列表大小 m = 25,即 HT[25]。取质数 p= 23。散列函数 hash ( key ) = key % p。则散列地址为:
hash ( 962148 ) = 962148 % 23 = 12
可以按计算出的地址存放记录。需要注意的是,使用 上面的散列函数计算出来的地址范围是 0到 22,因此, 从23到24这几个散列地址实际上在一开始是不可能用 散列函数计算出来的,只可能在处理溢出时达到这些 地址。
以上介绍了几种常用的散列函数。在实际工作中 应根据关键字的特点,选用适当的方法。有人曾 用“轮盘赌”的统计分析方法对它们进行了模拟 分析,结论是平方取中法最接近于“随机化”。
散列 (Hashing)
在线性表、树结构中查找纪录是通过与关键 字的“比较”完成的。
• 顺序查找,比较的结果为“=”或“≠” • 非顺序查找,比较的结果为“<”,“=”,“>”
散列的思想: 根据纪录的关键字直接找到记录的存储位置, 即为关键字和记录的存储位置建立一个对应 关系f,使每个关键字和结构中一个唯一的 存储位置相对应。 对应关系f为散列函数,按该思想建立的表 为散列表。
如果Hi>m,则Hi= Hi- m*n; 其中n为整数 如果Hi<0, 则Hi= Hi+ m*n; 其中n为整数
线性探测再散列演示。Hash(key)=key MOD 13
2. 再哈希法(也称双散列法)
Hi = R Hi (key)
3. 链地址法—开散列方法
将所有关键字为同义词的记录存储在同一线性 表中。
1. 直接定址法
此类函数直接取关键字或关键字的某个线性函数值 作为散列地址: Hash ( key ) = a * key + b { a, b为常数 } 这类散列函数是一对一的映射,一般不会产生冲突。 但是,它要求散列地址空间的大小与关键字集合的 大小相同。
2. 数字分析法 设有n个d位数,每一位可能有r种不同的符号。这 r 种不同的符号在各位上出现的频率不一定相同,可能 在某些位上分布均匀些;在某些位上分布不均匀,只 有某几种符号经常出现。可根据散列表的大小,选取 其中各种符号分布均匀的若干位作为散列地址。