数据结构-模式匹配算法
数据结构参考答案
简答一.1、已知模式串pat=’ADABBADADA’,写出该模式串的next函数值和nextval值;2、模式匹配算法是在主串中快速寻找模式的一种有效的方法,如果设主串的长度为m,模式的长度为n,则在主串中寻找模式的KMP算法的时间复杂性是多少?如果,某一模式 P=’abcaacabaca’,请给出它的NEXT函数值及NEXT函数的修正值NEXTVAL之值。
3、已知模式串pat=“abaabc”,写出该模式串的next函数值和nextval值;4、给出字符串‘abacabaaad’在KMP算法中的next和nextval数组。
二、(意思对即可,不一定是这种写法)1、数据结构按照逻辑结构分为哪四种结构,说出元素之间的关系?集合:无关系线性结构:一对一树形结构:一对多图形结构:多对多2、图形结构有几种存储结构?分别是什么存储结构?4种。
邻接矩阵,邻接表,十字链表,邻接多重表3、度数为2的树和二叉树有何区别?(1)度为2的树中至少有一个结点的度为2,而二叉树中没有这种要求。
(2)度为2的树不区分左右子树,而二叉树严格区分左右子树。
4、简述栈和队列的特点。
栈:是一种只能在一端进行插入或删除操作的线性表。
“后进先出”队列:是一种仅允许在表的一端进行插入操作,而在表的另一端进行删除操作的受限的线性表“先进先出”三(只是最终的结果,有的题可能需要中间步骤,自己完善一下)1、已知某有向图的顶点集合为{A,B,C,D,E,F},边集合为{〈A,B〉,〈A,C〉,〈A,E〉,〈C,F〉,〈E,D〉},画出该图的邻接表,以它为基写出深度优先、广度优先遍历序列(深度、广度遍历要求从结点A开始)。
深度:A B C F E D广度:A B C E F D2、设无向图G(如右图所示),给出该图的最小生成树上边的集合并计算最小生成树各边上的权值之和。
3、对下图所示的无向图,从顶点1开始,写出该图的深度优先遍历和广度优先遍历。
模式匹配KMP算法实验报告
实验四:KMP算法实验报告一、问题描述模式匹配两个串。
二、设计思想这种由D.E.Knuth,J.H.Morris和V.R.Pratt同时发现的改进的模式匹配算法简称为KM P算法。
注意到这是一个改进的算法,所以有必要把原来的模式匹配算法拿出来,其实理解的关键就在这里,一般的匹配算法:int Index(String S,String T,int pos)//参考《数据结构》中的程序{i=pos;j=1;//这里的串的第1个元素下标是1while(i<=S.Length && j<=T.Length){if(S[i]==T[j]){++i;++j;}else{i=i-j+2;j=1;}//**************(1)}if(j>T.Length) return i-T.Length;//匹配成功else return 0;}匹配的过程非常清晰,关键是当‘失配’的时候程序是如何处理的?为什么要回溯,看下面的例子:S:aaaaabababcaaa T:ababcaaaaabababcaaaababc.(.表示前一个已经失配)回溯的结果就是aaaaabababcaaaa.(babc)如果不回溯就是aaaaabababcaaaaba.bc这样就漏了一个可能匹配成功的情况aaaaabababcaaaababc这是由T串本身的性质决定的,是因为T串本身有前后'部分匹配'的性质。
如果T为a bcdef这样的,大没有回溯的必要。
改进的地方也就是这里,我们从T串本身出发,事先就找准了T自身前后部分匹配的位置,那就可以改进算法。
如果不用回溯,那T串下一个位置从哪里开始呢?还是上面那个例子,T为ababc,如果c失配,那就可以往前移到aba最后一个a的位置,像这样:...ababd...ababc->ababc这样i不用回溯,j跳到前2个位置,继续匹配的过程,这就是KMP算法所在。
数据结构-第4章 串
4.1 串的类型定义
子串的序号:将子串在主串中首次出现时的该 子串的首字符对应在主串中的序号,称为子串 在主串中的序号(或位置)。 【例】 A=“abcdefbbcd”,B=“bcd”,B在A中的 序号为2。 特别地,空串是任意串的子串,任意串是其自 身的子串。
4.1.2 串的抽象数据类型定义
//查找ab子串
if (p->data==‘ a’ && p->next->data==‘b’)
{ p->data=‘x’; p->next->data=‘z’;
q=(LinkStrNode *)malloc(sizeof(LinkStrNode));
q->data=‘y’;
q->next=p->next; p->next=q;
s: a a a a b c d
t: a ab bac acb bc c ✓ 匹配成功 算法的思路是从s的每一个字符开始依次与t的 字符进行匹配。
4.2.1 Brute-Force算法
int BFIndex(SqString s,SqString t)
{ int i=0, j=0,k;
while (i<s.length && j<t.length)
4.1 串的类型定义 4.2 串的表示和实现 4.3 串的模式匹配算法
本章要求
理解: 1、串的基本概念、类型定义 2、串的存储表示和实现 3、串的KMP算法
掌握: 4、串的简单模式匹配算法(BF)
第4章 串的基本概念
串(或字符串):是由零个或多个字符组成 的有限序列。
串的逻辑表示: S=“a1a2…ai…an”,其中S为 串名,ai (1≤i≤n)代表单个字符,可以是字母、 数字或其它字符(包括空白符)。 串值:双引号括起来的字符序列。双引号不是 串的内容,只起标识作用。
《数据结构与算法》第四章-学习指导材料
《数据结构与算法》第四章串知识点及例题精选串(即字符串)是一种特殊的线性表,它的数据元素仅由一个字符组成。
4.1 串及其基本运算4.1.1 串的基本概念1.串的定义串是由零个或多个任意字符组成的字符序列。
一般记作:s="s1 s2 … s n""其中s 是串名;在本书中,用双引号作为串的定界符,引号引起来的字符序列为串值,引号本身不属于串的内容;a i(1<=i<=n)是一个任意字符,它称为串的元素,是构成串的基本单位,i是它在整个串中的序号; n为串的长度,表示串中所包含的字符个数,当n=0时,称为空串,通常记为Ф。
2.几个术语子串与主串:串中任意连续的字符组成的子序列称为该串的子串。
包含子串的串相应地称为主串。
子串的位置:子串的第一个字符在主串中的序号称为子串的位置。
串相等:称两个串是相等的,是指两个串的长度相等且对应字符都相等。
4.2 串的定长顺序存储及基本运算因为串是数据元素类型为字符型的线性表,所以线性表的存储方式仍适用于串,也因为字符的特殊性和字符串经常作为一个整体来处理的特点,串在存储时还有一些与一般线性表不同之处。
4.2.1 串的定长顺序存储类似于顺序表,用一组地址连续的存储单元存储串值中的字符序列,所谓定长是指按预定义的大小,为每一个串变量分配一个固定长度的存储区,如:#define MAXSIZE 256char s[MAXSIZE];则串的最大长度不能超过256。
如何标识实际长度?1. 类似顺序表,用一个指针来指向最后一个字符,这样表示的串描述如下:typedef struct{ char data[MAXSIZE];int curlen;} SeqString;定义一个串变量:SeqString s;这种存储方式可以直接得到串的长度:s.curlen+1。
如图4.1所示。
s.dataMAXSIZE-1图4.1 串的顺序存储方式12. 在串尾存储一个不会在串中出现的特殊字符作为串的终结符,以此表示串的结尾。
数据结构课程学习报告
一、课程简介算法与数据结构是计算机等相关专业的一门十分重要的专业基础课,在计算机学科中起到承前启后的作用。
它主要研究计算机加工对象的逻辑结构、在计算机中的表示形式以及实现各种基本操作的算法。
要求学生学会分析研究计算机加工的数据结构的特性,以便为应用涉及的数据选择适当的逻辑结构、存储结构及其相应的算法,并初步掌握算法的时间分析和空间分析技术,培养学生数据抽象的能力。
本课程主要是让我们掌握数据结构的基本概念、线性表、栈和队列、串和数组、树形结构、图结构、查找、排序等内容。
二、各章知识点概述第一章---绪论学习内容:数据结构相关的基本概念,包括数据、数据元素、数据项、数据对象、数据结构、逻辑结构、存储结构等;算法时间复杂度的分析。
重难点:数据结构相关的基本概念,数据结构所含两个层次的具体含义及其相互关系以及算法时间复杂度的分析方法(多重循序)。
第二章---线性表学习内容:第二章线性表主要内容是顺序表和链表的相关概念,顺序表和链表的查找、插入和删除等相关操作及其算法实现,链表的创建算法,并能够设计出线性表应用的常用算法,比如线性表的合并等;能够从时间和空间复杂度的角度比较两种存储结构的不同特点及其适用场合,明确它们各自的优缺点。
重难点:理清顺序表和链表的特点,学会用C写相关操作的代码。
第三章---栈和队列学习内容:栈和队列的特点。
顺序栈和链栈的进栈和出栈算法,以及循环队列和链队列的进队和出队算法。
重难点:学会灵活运用栈和队列解决实际应用问题,用C及栈和队列的特点写相关操作的代码。
比如表达式求值算法,理解递归算法执行过程中栈的状态变化过程,以更好地使用递归算法等。
第四章---串、数组和广义表学习内容:串的存储方法,理解串的两种模式匹配算法—BF算法和KMP算法。
明确数组和广义表这两种数据结构的特点,数组地址计算方法,几种特殊矩阵的压缩存储方法。
广义表的定义、性质及GetHead和GetTail的操作。
重难点:KMP算法;数组存储时地址的计算方法等。
理解模式匹配算法的基本原理
理解模式匹配算法的基本原理模式匹配算法是计算机科学中一种重要的算法,它在各个领域都有广泛的应用,如文本搜索、图像识别、数据分析等。
本文将介绍模式匹配算法的基本原理,帮助读者更好地理解和应用这一算法。
一、什么是模式匹配算法模式匹配算法是一种用于在文本中查找特定模式的算法。
它通过比较输入的模式和文本中的子串,找到与模式完全匹配或近似匹配的子串。
模式可以是一个字符串、一个正则表达式或其他形式的数据结构。
二、基本的模式匹配算法最简单的模式匹配算法是暴力匹配算法,也称为朴素匹配算法。
该算法的思想是从文本的第一个字符开始,逐个比较模式和文本中的字符,直到找到匹配的子串或到达文本的末尾。
暴力匹配算法的时间复杂度为O(n*m),其中n是文本的长度,m是模式的长度。
这种算法的效率较低,特别是在处理大规模文本时,需要耗费大量的时间。
三、改进的模式匹配算法为了提高模式匹配算法的效率,人们提出了许多改进算法,其中最著名的是KMP算法和Boyer-Moore算法。
KMP算法是由D.E.Knuth、J.H.Morris和V.R.Pratt三位计算机科学家于1977年提出的,它的核心思想是利用已经匹配过的信息,避免不必要的比较。
KMP算法通过构建一个部分匹配表,记录模式中每个位置的最长公共前后缀的长度。
在匹配过程中,当出现不匹配的字符时,根据部分匹配表的信息,可以跳过一些比较操作,从而提高匹配的效率。
Boyer-Moore算法是由R.S.Boyer和J.S.Moore于1977年提出的,它的核心思想是从模式的末尾开始匹配,并利用模式中的字符出现位置的信息,跳过一些比较操作。
Boyer-Moore算法通过构建一个坏字符表和一个好后缀表,根据这两个表的信息,可以确定每次跳跃的位置,从而提高匹配的效率。
四、应用举例模式匹配算法在实际应用中有很多例子。
以文本搜索为例,当我们在一个文本编辑器中输入关键词进行搜索时,编辑器会利用模式匹配算法找到与关键词匹配的子串,并高亮显示。
串的模式匹配算法
/* 在目标串s中找模式串t首次出现的位置,若不存在返回0。采用定长顺序
存储结构第二种方式存放串S和串T */
{
int i,j;
for(i=1,j=1;i<=s.length&&j<=t.length;)
{if(s.ch[i-1]==t.ch[j-1])
{i++;j++;}
/*字符比较成功,继续比较后续字符*/
设有两个串S和T,其中: S="s1s2s3…sn" T="t1t2t3…tm"(1≤m≤n,通常有m<n)
模式匹配算法的基本思想是:用T中字符依次与S中 字符比较:从S中的第一个字符(i=1)和T中第一个字 符( j=1)开始比较,如果s1=t1,则i和j各加1,继续 比较后续字符,若s1=t1,s2=t2,…,sm=tm, 返回1;否则,一定存在某个整数j(1≤j≤m)使得si≠tj ,即第一趟匹配失败,一旦出现这种情况,立即中断 后面比较,将模式串T向右移动一个字符执行第二趟 匹配步骤,即用T中第一个字符( j=1)与S中的第2个字 符(i=2)开始依次比较;
数据结构
串的模式匹配算法
基本的模式匹配算法
子串定位操作又称为串的模式匹配(Pattern Matching)或串匹配,该操作是各种串处理系统中的 重要操作之一 。
子串定位操作是要在主串中找出一个与子串相同的 子串。一般将主串称为目标串,子串称之为模式串。 设S为目标串,T为模式串,把从目标串S中查找模式串 T的过程成为“模式匹配”。匹配的结果有两种:如果 S中有模式为T的子串,则返回该子串在S中的位置,若 S中有多个模式为T的子串时,则返回的是模式串T在S 中第一次出现的位置,这种情况称匹配成功;否则,称 为匹配失败。
大数据结构概念名词解释大全
数据:是对客观事物的符号表示。
数据元素:是数据的基本单位,也称节点(node)或记录(record)。
数据对象:是性质相同的数据元素的集合,是数据的一个子集。
数据项:有独立含义的数据最小单位,也称域(field)。
数据结构:是相互之间存在一种或多种特定关系的数据元素的集合。
根据数据元素间关系的基本特性,有四种基本数据结构集合:结构中的数据元素之间除了“同属于一个集合”的关系外,别无其他关系。
线性结构:结构中的数据元素之间存在一个对一个的关系。
树形结构:结构中的数据元素之间存在一个对多个的关系。
图状结构或网状结结构:结构中的数据元素之间存在多个对多个的关系。
>逻辑结构:抽象反映数据元素之间的逻辑关系。
(算法设计)物理结构(存储结构):数据结构在计算机中的表示。
(算法实现)存储结构分为:顺序存储结构:借助元素在存储器中的相对位置来表示数据元素间的逻辑关系。
链式存储结构:借助指示元素存储地址的指针表示数据元素间的逻辑关系。
算法:对特定问题求解步骤的一种描述。
算法的五个重要特性:有穷性,确定性,可行性,输入和输出。
算法设计的原则或要求:正确性,可读性,健壮性,效率与低存储量需求。
衡量算法效率的方法:事后统计法和事前分析估算法。
算法执行时间的增长率和f(n) 的增长率相同,则可记作:T (n) = O(f(n)),称T (n) 为算法的(渐近)时间复杂度¥算法运行时间的衡量准则:以基本操作在算法中重复执行的次数。
栈:限定仅在表尾进行插入或删除操作线性表。
入栈:插入元素的操作;出栈:删除栈顶元素的操作。
队列:只能在队首进行删除、队尾进行插入的线性表。
允许插入的一端叫队尾,删除的一端叫队头。
串:由零个或多个字符组成的有限序列;空串:零个字符的串;长度:串中字符的数目;空串:零个字符的串;子串:;串中任意个连续的字符组成的子序列;位置:字符在序列中的序号;相等:串的值相等;空格串:由一个或多个空格组成的串,空格串的长度为串中空格字符的个数。
实现顺序串的各种模式匹配算法
实现顺序串的各种模式匹配算法序号一:引言实现顺序串的各种模式匹配算法是一项重要而复杂的任务。
在计算机科学领域,这一问题一直备受关注,因为它涉及到如何高效地在一个文本中找到一个模式的出现。
通过使用不同的算法和数据结构,我们可以在实际应用中更有效地实现字符串匹配。
在本文中,我们将深入探讨各种模式匹配算法,包括它们的原理、优缺点以及适用场景,以便读者能够更全面地理解和应用这些算法。
序号二:模式匹配算法的基本原理在开始讨论不同的模式匹配算法之前,让我们先了解一下模式匹配的基本原理。
模式匹配是指在一个文本串中查找一个模式串的过程。
具体来说,我们需要在文本串中以每一个位置为起点,依次比较模式串和文本串的对应字符,从而确定模式串是否出现在文本串中。
这个过程类似于在一本书中找到特定章节的名字,只不过在计算机中我们需要以更快的速度完成这一任务。
序号三:常见的模式匹配算法及其优缺点在实际应用中,有许多不同的模式匹配算法可供选择。
其中,最常见的包括朴素匹配算法、KMP算法、Boyer-Moore算法、Rabin-Karp 算法等。
每种算法都有其独特的优缺点,以适应不同的应用场景。
朴素匹配算法是一种简单直观的算法,它从文本串的每一个位置开始和模式串进行匹配,直到找到匹配或者遍历完整个文本串为止。
这种算法的优点是实现简单,但是对于大规模文本串和模式串来说效率较低。
KMP算法是一种高效的模式匹配算法,它利用了模式串自身的特点来快速匹配文本串。
通过构建部分匹配表,KMP算法可以在匹配过程中跳过一些已经匹配过的位置,从而提高匹配的效率。
其主要缺点是需要额外的空间来存储部分匹配表,因此在内存有限的场景下可能不适用。
Boyer-Moore算法是另一种经典的模式匹配算法,它通过利用模式串和文本串之间的信息来跳过一些不可能匹配的位置,从而减少比较次数。
这使得Boyer-Moore算法在最坏情况下的时间复杂度较低,适用于大规模文本串和模式串的匹配。
数据结构—串的模式匹配
数据结构—串的模式匹配数据结构—串的模式匹配1.介绍串的模式匹配是计算机科学中的一个重要问题,用于在一个较长的字符串(称为主串)中查找一个较短的字符串(称为模式串)出现的位置。
本文档将详细介绍串的模式匹配算法及其实现。
2.算法一:暴力匹配法暴力匹配法是最简单直观的一种模式匹配算法,它通过逐个比较主串和模式串的字符进行匹配。
具体步骤如下:1.从主串的第一个字符开始,逐个比较主串和模式串的字符。
2.如果当前字符匹配成功,则比较下一个字符,直到模式串结束或出现不匹配的字符。
3.如果匹配成功,返回当前字符在主串中的位置,否则继续从主串的下一个位置开始匹配。
3.算法二:KMP匹配算法KMP匹配算法是一种改进的模式匹配算法,它通过构建一个部分匹配表来减少不必要的比较次数。
具体步骤如下:1.构建模式串的部分匹配表,即找出模式串中每个字符对应的最长公共前后缀长度。
2.从主串的第一个字符开始,逐个比较主串和模式串的字符。
3.如果当前字符匹配成功,则继续比较下一个字符。
4.如果当前字符不匹配,则根据部分匹配表的值调整模式串的位置,直到模式串移动到合适的位置。
4.算法三:Boyer-Moore匹配算法Boyer-Moore匹配算法是一种高效的模式匹配算法,它通过利用模式串中的字符出现位置和不匹配字符进行跳跃式的匹配。
具体步骤如下:1.构建一个坏字符规则表,记录模式串中每个字符出现的最后一个位置。
2.从主串的第一个字符开始,逐个比较主串和模式串的字符。
3.如果当前字符匹配成功,则继续比较下一个字符。
4.如果当前字符不匹配,则根据坏字符规则表的值调整模式串的位置,使模式串向后滑动。
5.算法四:Rabin-Karp匹配算法Rabin-Karp匹配算法是一种基于哈希算法的模式匹配算法,它通过计算主串和模式串的哈希值进行匹配。
具体步骤如下:1.计算模式串的哈希值。
2.从主串的第一个字符开始,逐个计算主串中与模式串长度相同的子串的哈希值。
数据结构教学中KMP算法解析
数据结构教学中KMP算法解析摘要:模式匹配是字符串的基本运算之一,也是数据结构教学中的难点之一。
分析了模式匹配KMP算法以及算法中next函数的含义,给出了next函数的两种实现方法,有助于在教学实践中帮助学生更好地理解该算法。
关键词:数据结构;模式匹配;KMP算法0引言模式匹配(Patten Matching)是许多计算机应用领域的基础问题,在数据结构中模式匹配是字符串的基本运算之一。
字符串模式匹配指的是,找出特定的模式串在一个较长的字符串中出现的位置。
有两个字符串S和T,字符串S称为目标串,字符串T称为模式串,要求找出模式T在S中的首次出现的位置。
一旦模式T在目标S中找到,就称发生一次匹配。
有些应用可能会要求找出所有的匹配位置<sup>[1]</sup>。
例如,目标串S= 'Shanghai',模式串T= 'gha',则匹配结果为4。
模式匹配的典型算法包括朴素匹配算法、KMP算法和BM算法等,其中KMP算法是效率较高且经典的模式匹配算法之一<sup>[2]</sup>。
在数据结构教学中,由于KMP算法较难理解,课堂讲授往往很难取得好的效果。
本文通过对传统的朴素匹配算法与KMP算法的比较,分析next函数的含义以及实现方法,来帮助理解KMP算法。
1朴素匹配算法在朴素匹配算法中,S和T分别为目标串和模式串,变量i和j 为两个静态指针,分别表示S和T中当前正待比较的字符位置。
算法的基本思想是:第1趟匹配:从S的第1个字符(序号为0)起和T的第一个字符比较之,如果相等,则继续逐个比较后续字符(i++;j++),否则开始下一趟匹配。
新的一趟匹配:i的初值为上一趟的初值+1 ,j的初值为1,如果比较结果相等,则继续逐个比较后续字符,否则开始下一趟匹配。
依次类推,直至某一趟匹配中,T的每个字符依次和S中的一个连续的字符序列相等,则称匹配成功,否则称匹配不成功。
04 串d
子串: 子串:串中任意个连续的字符组成的子序列称 为该串的子串。 为该串的子串。 主串:包含子串的串相应地称为主串。 主串:包含子串的串相应地称为主串。 空串: 时的串为空串。 空串: n=0时的串为空串。 时的串为空串 空格串: 空格串:由一个或多个称为空格的特殊字符组 成的串。 成的串。 通常将字符在串中的序号称为该字符在串中的 通常将字符在串中的序号称为该字符在串中的 位置。 位置。
ADT LinearList{ 数据元素: 为某一数据对象} 数据元素 D={ai| ai∈D0, i=1, 2, …,n,n≥0,D0为某一数据对象 关系: S={<ai, ai+1> | ai, ai+1∈D0,i=1, 2, …, n-1} 关系 基本操作: 基本操作 InitList(L): 初始化 DestroyList(L): 销毁 ClearList(L): 置空表 EmptyList(L): 判断表是否为空 ListLength(L): 求表长 Locate(L, e): 查找 GetData(L, i): 求第 个结点 求第i个结点 InsList(L, i, e): 插入 DelList(L, i, &e): 删除 } ADT LinearList
9
第四章 串
串的定义 抽象数据类型串的实现
定长顺序串 堆串 块链串
模式匹配 串的应用举例: 串的应用举例:文本编辑 要点小结 参考书目及网络资源 讨论时间
School of Computer Sci. & Eng.,Wenzhou University
10
定长顺序串
定长顺序串是将串设计成一种结构类型 串的 定长顺序串是将串设计成一种结构类型,串的 是将串设计成一种结构类型 存储分配是在编译时完成的。 存储分配是在编译时完成的。 定长顺序串类型定义 #define MAXLEN 40 typedef struct {//串结构定义 串结构定义 char ch[MAXLEN]; int len; } SString;
数据结构实验报告-基于字符串模式匹配算法的病毒感染检测问题
《数据结构》实验报告
abcd abcde abc def
00 输出结果为:
YES
NO 四、分析过程
在主函数中利用键盘输入 human[ ]、virus[ ],即 cin>>human>>virus; ,输入时要注意模 式串 virus 的长度不要超过主串 human 的长度。
调用 BF 子函数,输入的两个实参会送到 BF 算法里进行比较,当比较次数小于各自的长 度 时 , 开 始 匹 配 , 即 while(i<strlen(human)&&j<strlen(virus)) 。 如 果 模 式 串 和 主 串 相 同 human[i]==virus[j]时,i 和 j 都要加 1,否则 i=i-j+1; j=0;。当 j 等于 virus 的长度时,说明匹 配成功,令输出返回值 1;否则返回值为 0。
实验时间 实验地点 指导教师
年月日 电气楼 308
实验项目
实验类别
实 验 目 的 及 要 求
基于字符串模式匹配算法的病毒感染检测问题
基础实验
实验学时
4 学时
实验目的: 1.掌握字符串的顺序存储表示方法 2.掌握字符串模式匹配算法 BF 算法或 KMP 算法的实现
实验要求: 输入多组数据,每组数据占 1 行,输入 0 0 时结束输入;每组数据输
BF 算法的基本思想是:从主串的第 pos 个字符起与模式串的第一个字符比较,若相等, 则继续逐个比较后续字符;否则从主串的下一个字符起再重新和模式串进行比较。直至模式 串中的每一个字符和主串中的一个连续字符序列相同,则称匹配成功,否则不成功。
(1)首先全局定义了两个一定长度的数组用来存储人类和病毒的 DNA,分别是 human[100] 和 virus[100]。分别用 i 和 j 来指示主串 human 和模式串 virus 当前正待比较的字符位置。
两种常见的模式匹配算法(代码实现)
两种常见的模式匹配算法(代码实现)BF算法(暴⼒法)不多解释,直接上代码:// BF算法 O(mn)int bf(SString s, SString t, int pos){int i = pos, j = 0;while (i < s.length && j < t.length){if (s.ch[i] == t.ch[j]){i++;j++;} else {i = i - j + 1;j = 0;}}if (j >= t.length)return i - t.length;elsereturn -1;}// 另⼀个版本的BF算法 - O(mn)int pm(SString s, SString t, int pos){for (int i = pos; i <= s.length-t.length; i++){bool status = true;for (int j = 0; j < t.length; j++){if (s.ch[i+j] != t.ch[j]){status = false;break;}}if (status)return i;}return -1;}KMP算法KMP算法较难理解,在⼤⼆上数据结构这门课的时候就没有搞懂,今天花了点时间终于把它看懂了。
KMP算法相⽐BF算法,其改进主要在使⽤了⼀个前后缀匹配数组next(我⾃⼰起的名⼉~)来记录前缀和后缀的匹配信息,以使得在发现主串与模式串的⽐较中出现不匹配时,主串指针⽆需回溯,并根据前后缀匹配数组中的信息,向后移动,从⽽减少了多余的⽐较。
代码实现:// KMP算法int kmp(SString &s, SString &t, int pos){int next[t.length], j = 0, i = 0;get_next(t, next);while (i < s.length && j < t.length){if (j == -1 || s.ch[i] == t.ch[j]){i++; j++;} elsej = next[j];}if (j >= t.length)return i-t.length;elsereturn -1;}void get_next(SString &t, int next[]){ int i = 0, j = -1;next[0] = -1;while (i < t.length - 1){if (j == -1 || t.ch[i] == t.ch[j]){i++; j++;next[i] = j;} else {j = next[j];}}}参考博客:(讲得⾮常好,但是没有代码实现)(进⼀步理解)(含代码实现)可运⾏的整体代码:#include<iostream>#define MAXLEN 100#define CHUNKSIZE 50using namespace std;// 串的普通顺序存储typedef struct {char ch[MAXLEN+1];int length;}SString;// 串的堆式顺序存储//typedef struct {// char *ch;// int length;//}SString;// 串的链式存储typedef struct chunk{char ch[CHUNKSIZE];struct chunk *next;}Chunk;typedef struct {Chunk *head, *tail;int length;}LString;// 普通顺序存储的初始化操作void SsInit(SString &s){s.length = 0;}void SsInput(SString &s){char c;while ((c = getchar()) != '\n'){s.ch[s.length++] = c;}}void printString(SString &s){for (int i = 0; i < s.length; i++){cout << s.ch[i];}cout << endl;}// BF算法 - O(mn)int pm(SString s, SString t, int pos){for (int i = pos; i <= s.length-t.length; i++){ bool status = true;for (int j = 0; j < t.length; j++){if (s.ch[i+j] != t.ch[j]){status = false;break;}}if (status)return i;}return -1;}// 另⼀种版本的BF算法 O(mn) - 与暴⼒法相似int bf(SString s, SString t, int pos){int i = pos, j = 0;while (i < s.length && j < t.length){if (s.ch[i] == t.ch[j]){i++;j++;} else {i = i - j + 1;j = 0;}}if (j >= t.length)return i - t.length;elsereturn -1;}// KMP算法int kmp(SString &s, SString &t, int pos){int next[t.length], j = 0, i = 0;get_next(t, next);while (i < s.length && j < t.length){if (j == -1 || s.ch[i] == t.ch[j]){i++; j++;} elsej = next[j];}if (j >= t.length)return i-t.length;elsereturn -1;}void get_next(SString &t, int next[]){int i = 0, j = -1;next[0] = -1;while (i < t.length - 1){if (j == -1 || t.ch[i] == t.ch[j]){i++; j++;next[i] = j;} else {j = next[j];}}}int main(){SString s, t;SsInit(s);SsInput(s);SsInit(t);SsInput(t);int loc = -1;// loc = pm(s, t, 0); // loc = bf(s, t, 0);loc = kmp(s, t, 0); cout << loc << endl; }。
数据结构实验报告-串
实验四串【实验目的】1、掌握串的存储表示及基本操作;2、掌握串的两种模式匹配算法:BF和KMP。
3、了解串的应用。
【实验学时】2学时【实验预习】回答以下问题:1、串和子串的定义串的定义:串是由零个或多个任意字符组成的有限序列。
子串的定义:串中任意连续字符组成的子序列称为该串的子串。
2、串的模式匹配串的模式匹配即子串定位是一种重要的串运算。
设s和t是给定的两个串,从主串s的第start个字符开始查找等于子串t的过程称为模式匹配,如果在S中找到等于t的子串,则称匹配成功,函数返回t在s中首次出现的存储位置(或序号);否则,匹配失败,返回0。
【实验内容和要求】1、按照要求完成程序exp4_1.c,实现串的相关操作。
调试并运行如下测试数据给出运行结果:•求“This is a boy”的串长;•比较”abc3”和“abcde“;表示空格•比较”english”和“student“;•比较”abc”和“abc“;•截取串”white”,起始2,长度2;•截取串”white”,起始1,长度7;•截取串”white”,起始6,长度2;•连接串”asddffgh”和”12344”;#include<stdio.h>#include<string.h>#define MAXSIZE 100#define ERROR 0#define OK 1/*串的定长顺序存储表示*/typedef struct{char data[MAXSIZE];int length;} SqString;int strInit(SqString *s);/*初始化串*/int strCreate(SqString *s); /*生成一个串*/int strLength(SqString *s); /*求串的长度*/int strCompare(SqString *s1,SqString *s2); /*两个串的比较*/int subString(SqString *sub,SqString *s,int pos,int len);/*求子串*/int strConcat(SqString *t,SqString *s1,SqString *s2);/*两个串的连接*//*初始化串*/int strInit(SqString *s){s->length=0;s->data[0]='\0';return OK;}/*strInit*//*生成一个串*/int strCreate(SqString *s){printf("input string :");gets(s->data);s->length=strlen(s->data);return OK;}/*strCreate*//*(1)---求串的长度*/int strLength(SqString *s){return s->length;}/*strLength*//*(2)---两个串的比较,S1>S2返回>0,s1<s2返回<0,s1==s2返回0*/int strCompare(SqString *s1,SqString *s2){int i;for(i=0;i<s1->length&&i<s2->length;i++){if(s1->data[i]>s2->data[i]){return 1;}if(s1->data[i]<s2->data[i]){return -1;}}return 0;}/*strCompare*//*(3)---求子串,sub为返回的子串,pos为子串的起始位置,len为子串的长度*/int subString(SqString *sub,SqString *s,int pos,int len) {int i;if(pos<1||pos>s->length||len<0||len>s->length-pos+1) {return ERROR;}sub->length=0;for(i=0;i<len;i++){sub->data[i]=s->data[i+pos-1];sub->length++;}sub->data[i]='\0';return OK;}/*subString*//*(4)---两个串连接,s2连接在s1后,连接后的结果串放在t中*/int strConcat(SqString *t,SqString *s1,SqString *s2){int i=0,j=0;while(i<s1->length){t->data[i]=s1->data[i];i++;}while(j<s2->length){t->data[i++]=s2->data[j++];}t->data[i]='\0';t->length=s1->length+s2->length;return OK;}/*strConcat*/int main(){int n,k,pos,len;SqString s,t,x;do{printf("\n ---String--- \n");printf(" 1. strLentgh\n");printf(" 2. strCompare\n");printf(" 3. subString\n");printf(" 4. strConcat\n");printf(" 0. EXIT\n");printf("\n ---String---\n");printf("\ninput choice:");scanf("%d",&n);getchar();switch(n){case 1:printf("\n***show strLength***\n");strCreate(&s);printf("strLength is %d\n",strLength(&s));break;case 2:printf("\n***show strCompare***\n");strCreate(&s);strCreate(&t);k=strCompare(&s,&t); /*(5)---调用串比较函数比较s,t*/if(k==0)printf("two string equal!\n");else if(k<0)printf("first string<second string!\n");elseprintf("first string>second string!\n");break;case 3:printf("\n***show subString***\n");strCreate(&s);printf("input substring pos,len:");scanf("%d,%d",&pos,&len);if(subString(&t,&s,pos,len))printf("subString is %s\n",t.data);elseprintf("pos or len ERROR!\n");break;case 4:printf("\n***show subConcat***\n");strCreate(&s);strCreate(&t);if(strConcat(&x,&s,&t)) /*(6)---调用串连接函数连接s&t*/printf("Concat string is %s",x.data);elseprintf("Concat ERROR!\n");break;case 0:exit(0);default:break;}}while(n);return 0;}2、按照要求完成程序exp4_2.c,实现BF&KMP串的模式匹配算法。
《KMP 字符串模式匹配算法》教学课例
《KMP字符串模式匹配算法》教学课例程玉胜安庆师范学院计算机与信息学院KMP字符串模式匹配是数据结构课程中一个重要的知识点,也是一个难点(学过KMP 算法的同学100%认为:KMP是数据结构课程中最难的部分)。
为了消除他们对KMP算法学习的恐惧心理,激发他们的学习兴趣,调动其积极性,显得尤为重要。
基于以上,我们根据学生的认知特点和接受水平,对教材内容进行了重新构建,并按照数据结构中“时间复杂度”概念,增加了不同模式匹配算法的运行时间,动态逼真的显示了算法的“时间”性能,获得了较好的教学效果。
一、教学目标知识目标:让学生了解KMP算法应用的普遍性。
如:在目前众多的文字处理软件中得到广泛应用,如Microsoft Word中的“查找”或“替换”操作。
而这种操作实现的机制,同学们特别是计算机专业的学生很少去想过。
能力目标:要求学生体验一个完整的抽象数据类型(ADT)的实现方法和过程,并学会判断、计算算法优劣的方法。
价值目标:消除恐怖的学习心态,让学生感悟数据结构算法实际应用价值,从而激发学习的兴趣,形成积极主动式学习的态度。
二、教材分析使用教材是清华大学严蔚敏教授并由清华大学出版社出版的《数据结构(C语言版)》,该教材难度较大,其实验方法特别是ADT方法在教材中介绍较少,而且KMP算法更是从理论分析的角度介绍了匹配算法和next的计算,自学难度很大;虽然该节知识点属于“**(表示难度较大,可以不讲)”,但是其又是考研的一个热点,所以我们又不得不讲。
三、教学重点、难点教学重点:KMP算法中的next和改进的nextval计算教学难点:KMP算法中如何计算next值四、教具准备卡片:多个字符串,字符串指针强力磁吸:6个五、互动式教学过程教学内容教师活动学生活动目标状态创设情境引入课题目前的众多软件中,“查找”、“替换”等操作实现方法,要求学生举例。
给出一篇word文档完成在上述文档中从当前位置向后查找“计算机”或者向前查找“计算机”字符串的方法。