计算思维导论4 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

对所有文每当用户输入一个关键词，是否要扫描所有文档？档建立
怎样按照关键词找到相应的文档呢?
怎样快速找到关键词呢?
4.1 排序问题及其算法
倒排索引：也称为反向索引，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。
A A A A A
12
7
7
12
49
49
78
78
19
19
33
33
66
66
50
50
51
51
80
80
i=1
i=3
7 7 7
12 12 12
19 19 19
78 78 33
49 49 49
33 33 78
66 66 66
50 50 50
51 51 51
80 80 80
i=4
i=4 i=4
…
A
7
12
19
33
49
4.1 排序问题及其算法
INSERTION-SORT(A) 1. for i=2 to N 2. { 3. 4. 5. 6. key = A[i] ; j =i-1; While (j>0 and A[j]>key) do { A[j+1]=A[j]; j=j-1; }
7.
8. }
A[j+1]=key; O(N2)
A[j+1]=temp;
haschange=true;
O(N2)
if (haschange ==false) then break;
4.1 排序问题及其算法
外排序算法：内存: 2GB 待排序数据: 7GB, 10GB, 100GB?--大数据集合这种需要使用硬盘等外部存储设备进行大数据集合排序的过程/算法称为外排序。外排序策略：排序--归并
【算法B：已排序数据查找算法】
Start of algorithm Step 1. 从数据表的第1条记录开始，直到其最后一条记录为止，读取每一条记录，做Step 2和Step 3步。 Step 2. 对每一条记录，判断成绩是否等于给定的分数：如果等于，则输出；如果不等于，则不输出。 Step 3. 判断该条记录的成绩是否小于给定的分数：如
A A A A A A A
12 7 7 7 7 7 7
i=2 i=3 i=4 i=5 i=5 i=5
i=5
…
ALeabharlann Baidu
7
12
19
33
49
50
51
66
78
80
i=9
插入排序:递增排序示意. 其中三角形左侧为已排好序的元素, 其右侧为未排序的元素, 实心三角形本身为待插入的元素. 图中示意了为待排序元素19腾挪空间的过程, 由箭头示意. 空心三角形表示新插入的元素
【算法A：未排序数据查找算法】
Start of algorithm
Step 1. 从数据表的第1条记录开始，直到其最后一
条记录为止，读取每一条记录，做Step 2。 Step 2. 对每一条记录，判断成绩是否等于给定的分
数：如果是，则输出；如果不是，则不输出。
End of algorithm 算法效率：读取并处理所有记录，即n条记录
4.2 递归的概念
1、递归：用有限的语句定义对象的无限集合
递归是一种表达相似性对象及动作的无限性构造的方法。递归是一种关于抽象的表达方法---用递归定义无限的相似事物。递归是一种算法或程序的构造技术---自身调用自身，高阶调用低阶，构造无限的计算步骤。递归是一种典型的计算过程---由后向前代入，再由前向后计算。递归的感性认识
4.1 排序问题及其算法
BUBBLE-SORT(A)
1. for i=1 to N-1 2. { 3. 4. 5. 6. haschange=false; for j=1 to N-i { if A[j]>A[j+1] then { temp =A[j]; A[j]=A[j+1];
7.
8. 9. 10. 11. 12. } } }
4.1 排序问题及其算法
简单选择法排序：先在所有数组元素中找出最小值元素，放在A[1]中；接着在不包含A[1]的余下数组元素中再找出最小值元素，放置在A[2]中；如此下去，一直到最后一个元素。这一排序策略被称为简单选择排序。
4.1 排序问题及其算法
1 2 3 4 5 6 7 8 9 10
50
51
66
78
80
i=9
(b)选择排序:递增排序示意. 其中三角形代表本轮要找的最小元素应在的位置, 方形代表本轮次至今为止所找到的最小元素所在位置, 三角形左侧为已排好序的元素,三角形右侧的每一元素依次和方形位置元素比较. 实线双向箭头代表两个元素交换. 虚线双向箭头代表两个元素需要比较
4.1 排序问题及其算法
4.1 排序问题及其算法
结构化数据表的查找与统计需要排序查找成绩为80分的所有同学?
学号 120300101 120300105 120300107 120300102 120300103 120300106 120300108 120300104 120300109 120300110 姓名李鹏张伟闫宁王刚李宁徐月杜岩赵凯江海周峰成绩 88 66 95 79 94 85 44 69 77 73
数据表记录数: n
4.1 排序问题及其算法
结构化数据表的查找与统计需要排序
学号 120300101 120300105 120300107 120300102 120300103 120300106 120300108 120300104 120300109 120300110 姓名李鹏张伟闫宁王刚李宁徐月杜岩赵凯江海周峰成绩 88 66 95 79 94 85 44 69 77 73
SELECTION-SORT(A) 1. for i=1 to N-1
2. {
3． 4. 5. 6. 7. 8.
k=i;
for j=i+1 to N { if A[j]<A[k] then k=j; } if k<>i then { temp =A[k]; A[k]=A[i];
9.
10. 11. } }
4.1 排序问题及其算法
非结构化数据(文档)的查找和搜索需要排序
文档
图书馆或网上有大量文档，这些文档大小各不相同。
查找如何快速地查找一份文档？文档
哪些是关键词呢?
关键词查询如何确定一份文档是否包含给定的一个或多个“关键词”
关键词索引表---倒排索引哪些词汇是一份文档的关键词？
4.2 递归及递归算法
4.2 递归的概念
递归函数 Fibonacci数列可以递归地定义为：
1 n=0 n=1
F(n) =
1
Fact(n-1)+ Fact(n-2) n>1
整数的阶乘可以递归地定义为： F(n) =
1 n≦1
n×F(n-1) n >1
End of algorithm
数据表记录数: n •算法效率：除极端情况外读取并处理<=n/2条记录
4.1 排序问题及其算法
非结构化数据(文档)的查找和搜索需要排序图书馆或网上有大量文档，这些文档大小各不相同。如何快速地查找一份文档？
如何确定一份文档是否包含给定的一个或多个“关键词”
A[i]=temp;
O(N2)
4.1 排序问题及其算法
冒泡法排序：一个轮次一个轮次地处理。在每一轮次中依次对待排序数组元素中相邻的两个元素进行比较，将大的放前，小的放后--递减排序(或者是将小的放前，大的放后--递增排序)。当没有交换时，则数据已被排好序。
4.1 排序问题及其算法
大学计算机-计算思维导论
冯元
南京理工大学计算机学院
第四章算法与复杂性
内容提要：
排序问题及其算法
递归的概念
4.1 排序问题及其算法
1、排序问题
排序问题：现实世界中十分常见，如：在一类信息中查找某个特定信息。为提高搜索效率，需要先排序。结构化数据查找与统计中的排序问题
非结构化数据查找与统计中的排序问题
1 2 7 7 49 49 7 78 7 3 49 49 4 78 78 78 5 19 19 19 19 33 33 33 33 6 66 66 66 66 7 50 50 50 50 8 51 51 51 51 9 10 80 80 80 80
A A A A A A
12 12 12 12
i=1 j=1 i=1 j=2 i=1 j=3 i=1 j=4 i=1 j=9 i=2 j=1
果不是，则继续；否则，退出循环，算法结束。
End of algorithm
数据表记录数: n
算法效率：读取并处理所有记录，即n条记录
4.1 排序问题及其算法
结构化数据表的查找与统计需要排序【算法C：已排序数据查找算法】
学号 120300101 120300105 120300107 120300102 120300103 120300106 120300108 120300104 120300109 120300110 姓名李鹏张伟闫宁王刚李宁徐月杜岩赵凯江海周峰成绩 88 66 95 79 94 85 44 69 77 73
4.1 排序问题及其算法
2、基本排序算法
内排序算法：插入法、简单选择法、冒泡法插入法排序：类似于打扑克，边抓牌，边理牌。每抓一张牌就把它插入到适当的位置；牌抓完了，也理完了。这种策略被称为插入排序
4.1 排序问题及其算法
1 2 7 12 12 12 12 12 12 49 49 49 49 49 49 19 3 78 78 78 78 78 49 49 4 19 19 19 19 78 78 78 5 33 33 33 33 33 33 33 6 66 66 66 66 66 66 66 7 50 50 50 50 50 50 50 8 51 51 51 51 51 51 51 9 10 80 80 80 80 80 80 80
…
12 12 49 49 78 78 19 19 33 33 66 66 50 50 51 51 7 80 80 7
…
A A
78 80
80 78
66 66
51 51
50 50
49 49
33 33
19 19
12 12
7 7
i=8 j=1 i=9 j=1
(c)冒泡排序:递减排序示意，其中小圆点代表本轮本次比较的两个元素, 双向弧线箭头代表两个元素要相互交换
排序问题的复杂性在哪里？
4.1 排序问题及其算法
排序问题：本质是对一组对象按照某种规则进行有序排列。通常是把一组对象整理成按关键字递增(或递减) 的排列，关键字是指对象的一个用于排序的特性。例如：对一组“人” ，按“年龄”或“身高” 排序；对一组“商品”，按“价格” 排序；对一组“网页”，按“重要度” 排序；对一组“词汇”，按“首字母”字典序排序。 ……
哪些词汇是一份文档的关键词？
每当用户输入一个关键词，是否要扫描所有文档？
4.1 排序问题及其算法
内排序问题：待排序的数据可一次性地装入内存中，即排序者可以完整地看到和操纵所有数据，使用数组或其他数据结构便可进行统一的排序处理。外排序问题：待排序的数据保存在磁盘上，不能一次性装入内存，即排序者不能一次完整地看到和操纵所有数据，需要将数据分批装入内存分批处理。
Start of algorithm
Step 1. 假设数据表的最大记录数是n，待查询区间的起始记录位置Start为1，终止记录位置Finish为n； Step 2. 计算中间记录位置I=(Start+Finish)/2，读取第I条记录。 Step 3. 判断第I条记录成绩是否大于给定查找分数： (1)如果是小于，调整Finish = I-1, 如果Start >Finish则结束，否则继续做Step 2；(2)如果是大于，调整Start = I+1，如果 Start>Finish则结束，否则继续做Step 2；(3)如果是等于，则输出，继续读取I周围所有的成绩与给定查找条件相等的记录并输出，直到所有相等记录查询输出完毕则算法结束。