KMP算法
kmp算法原理
kmp算法原理KMP算法(Knuth-Morris-Pratt算法)是一种用于快速搜索字符串中某个模式字符串出现位置的算法,由Knuth, Morris 和 Pratt于1977年提出。
KMP算法的工作方式如下:首先,给定一个主串S和一个模式串P,KMP算法的第一步就是先构造一个新的模式串P,其中的每一项存储着P中每一个字符前面由不同字符串组成的最长前缀和最长后缀相同的子串。
接着,在S中寻找P,它会从S的第一个字符开始,如果匹配上,就继续比较下一个字符,如果不匹配上,就根据P中相应位置上保存的信息跳到特定位置,接着再开始比较,如此不断循环下去,直到从S中找到P为止。
KMP算法的思路特别巧妙,比较效率很高,它的复杂度为O(m+n),其中m为主串的长度,n为模式串的长度。
它取代了以前的暴力搜索算法,极大地提高了程序的性能。
KMP算法的实现过程如下:(1)首先确定模式串P的每一个字符,构造模式串P的next数组:next[i]存储P中第i个字符之前最长相同前缀和后缀的长度(P中第i个字符之前最长相同前缀和后缀不包括第i个字符);(2)接着从S中的第一个字符开始比较P中的每一个字符,如果字符不匹配,则采用next数组中保存的信息跳到特定位置,而不是暴力比较,以此不断循环,直到从S中找到P为止。
KMP算法是由Don Knuth, Vaughan Pratt和James Morris在1977年提出的。
它的思想是利用之前遍历过的P的信息,跳过暴力比较,可以把字符串搜索时间从O(m×n)降低到O(m+n)。
KMP算法在很多领域有着重要的应用,如文本编辑,模式匹配,编译器设计与多项式字符串匹配等等,都是不可或缺的。
KMP算法实现及优化方法
KMP算法实现及优化方法KMP算法(Knuth-Morris-Pratt算法)是一种字符串匹配算法,用于在一个主文本字符串S内查找一个模式字符串P的出现位置。
KMP算法利用模式字符串中前缀和后缀的信息来跳过不必要的比较,从而提高查找的效率。
KMP算法的基本思想是,当出现不匹配时,通过已经部分匹配的信息,可以确定一部分字符是匹配的,可以直接跳过这部分已经匹配的字符,继续进行比较。
这个部分匹配的信息,就是模式字符串P自身的前缀和后缀的最长共有元素的长度,也称为前缀函数或部分匹配表。
1.构建部分匹配表:对模式字符串P进行分析,计算出每个位置的最长共有元素的长度,存储在一个部分匹配表中。
2.在主文本字符串S中进行匹配:从主文本字符串的第一个位置开始,逐个字符与模式字符串进行比较,如果字符相等则继续比较下一个字符,如果字符不相等,则根据部分匹配表跳过一部分字符,继续比较,直到找到匹配的位置或者比较结束。
优化KMP算法可以从两方面进行:1.改进部分匹配表的构建:KMP算法中最耗时的部分是部分匹配表的构建,可以对其进行优化。
一种优化方法是使用动态规划思想,利用已计算的部分匹配值来计算新的部分匹配值,从而减少计算量。
2.改进模式字符串的跳过方式:KMP算法中,当在主文本字符串S中比较到一些位置时,如果字符不匹配,则根据部分匹配表来跳过一部分字符。
可以根据具体问题的特点,利用更加有效的跳过方式来提高算法的效率。
一种常见的跳过方式是使用好后缀和坏字符的信息,来决定向右移动的步数。
总结起来,KMP算法是一种高效的字符串匹配算法,通过部分匹配表的构建和优化,可以在O(n+m)的复杂度内完成匹配。
在实际应用中,根据具体问题的特点,可以进一步改进KMP算法来提高效率。
严蔚敏 数据结构 kmp算法详解
当此集合非空时
next[j]= -1 0 当j=0时 其他情况
t=“abab”对应的next数组如下:
j t[j] next[j] 0 a -1 1 b 0 2 a 0 3 b 1
void GetNext(SqString t,int next[]) { int j,k; j=0;k=-1;next[0]=-1; while (j<t.len-1)
既然如此,回溯到si-j+1开始与t匹配可以不做。那 么,回溯到si-j+2 开始与t匹配又怎么样?从上面推理 可知,如果 "t0t1…tj-2"≠"t2t3…tj"
仍然有
"t0t1…tj-2"≠"si-j+2si-j+3…si"
这样的比较仍然“失配”。依此类推,直到对于 某一个值k,使得: "t0t1…tk-2"≠" tj-k+1tj-k+2…tj-1"
b 3
第 1 次匹配
第 2 次匹配
s=aaabaaaa b t=aaaab
第 3 次匹配
s=aaabaaaa b t=aaaab
第 4 次匹配
s=aaabaaaa b t=aaaab
第 5 次匹配
s=aaabaaaa b t=aaaab
上述定义的next[]在某些情况下尚有缺陷。 例如,模式“aaaab”在和主串“aaabaaaab”匹配时, 当i=3,j=3时,s.data[3]≠t.data[3],由next[j]的指示还需 进行i=3、j=2,i=3、j=1,i=3、j=0等三次比较。实际上, 因为模式中的第1、2、3个字符和第4个字符都相等, 因此,不需要再和主串中第4个字符相比较,而可以将模 式一次向右滑动4个字符的位置直接进行i=4,j=0时的 字符比较。
kmp算法概念
kmp算法概念KMP算法概念KMP算法是一种字符串匹配算法,它的全称是Knuth-Morris-Pratt 算法。
该算法通过预处理模式串,使得在匹配过程中避免重复比较已经比较过的字符,从而提高了匹配效率。
一、基本思想KMP算法的基本思想是:当模式串与文本串不匹配时,不需要回溯到文本串中已经比较过的位置重新开始匹配,而是利用已知信息跳过这些位置继续匹配。
这个已知信息就是模式串自身的特点。
二、next数组1.定义next数组是KMP算法中最核心的概念之一。
它表示在模式串中当前字符之前的子串中,有多大长度的相同前缀后缀。
2.求解方法通过观察模式串可以发现,在每个位置上出现了相同前缀和后缀。
例如,在模式串“ABCDABD”中,第一个字符“A”没有任何前缀和后缀;第二个字符“B”的前缀为空,后缀为“A”;第三个字符“C”的前缀为“AB”,后缀为“B”;第四个字符“D”的前缀为“ABC”,后缀为“AB”;第五个字符“A”的前缀为“ABCD”,后缀为“ABC”;第六个字符“B”的前缀为“ABCDA”,后缀为“ABCD”;第七个字符“D”的前缀为“ABCDAB”,后缀为“ABCDA”。
根据上述观察结果,可以得到一个求解next数组的方法:(1)next[0]=-1,next[1]=0。
(2)对于i=2,3,...,m-1,求解next[i]。
①如果p[j]=p[next[j]],则next[i]=next[j]+1。
②如果p[j]≠p[next[j]],则令j=next[j],继续比较p[i]和p[j]。
③重复执行步骤①和步骤②,直到找到满足条件的j或者j=-1。
(3)通过上述方法求解出所有的next值。
三、匹配过程在匹配过程中,文本串从左往右依次与模式串进行比较。
如果当前字符匹配成功,那么继续比较下一个字符;否则利用已知信息跳过一些位置继续进行匹配。
具体地:(1)如果当前字符匹配成功,则i和j都加1。
(2)如果当前字符匹配失败,则令j=next[j]。
KMP算法(改进的模式匹配算法)——next函数
KMP算法(改进的模式匹配算法)——next函数KMP算法简介KMP算法是在基础的模式匹配算法的基础上进⾏改进得到的算法,改进之处在于:每当匹配过程中出现相⽐较的字符不相等时,不需要回退主串的字符位置指针,⽽是利⽤已经得到的部分匹配结果将模式串向右“滑动”尽可能远的距离,再继续进⾏⽐较。
在KMP算法中,依据模式串的next函数值实现字串的滑动,本随笔介绍next函数值如何求解。
next[ j ]求解将 j-1 对应的串与next[ j-1 ]对应的串进⾏⽐较,若相等,则next[ j ]=next[ j-1 ]+1;若不相等,则将 j-1 对应的串与next[ next[ j-1 ]]对应的串进⾏⽐较,⼀直重复直到相等,若都不相等则为其他情况题1在字符串的KMP模式匹配算法中,需先求解模式串的函数值,期定义如下式所⽰,j表⽰模式串中字符的序号(从1开始)。
若模式串p 为“abaac”,则其next函数值为()。
解:j=1,由式⼦得出next[1]=0;j=2,由式⼦可知1<k<2,不存在k,所以为其他情况即next[2]=1;j=3,j-1=2 对应的串为b,next[2]=1,对应的串为a,b≠a,那么将与next[next[2]]=0对应的串进⾏⽐较,0没有对应的串,所以为其他情况,也即next[3]=1;j=4,j-1=3 对应的串为a,next[3]=1,对应的串为a,a=a,所以next[4]=next[3]+1=2;j=5,j-1=4 对应的串为a,next[4]=2,对应的串为b,a≠b,那么将与next[next[4]]=1对应的串进⾏⽐较,1对应的串为a,a=a,所以next[5]=next[2]+1=2;综上,next函数值为 01122。
题2在字符串的KMP模式匹配算法中,需先求解模式串的函数值,期定义如下式所⽰,j表⽰模式串中字符的序号(从1开始)。
若模式串p为“tttfttt”,则其next函数值为()。
KMP算法的时间复杂度
KMP算法的时间复杂度KMP算法是一种字符串匹配算法,它可以在一个主串中高效地查找所有匹配某个模式串的位置。
在计算机科学中,算法的时间复杂度是衡量算法执行时间与输入规模之间关系的度量。
在本文中,我们将深入探讨KMP算法的时间复杂度。
KMP算法的时间复杂度可通过三个方面来分析:预处理阶段的时间复杂度、匹配阶段的时间复杂度以及总体时间复杂度。
1. 预处理阶段的时间复杂度在KMP算法中,要先对模式串进行预处理,生成部分匹配表(Partial Match Table),也称为最长公共前后缀表(Longest Proper Prefix which is also Sufix,简称为LPS表)。
这个过程的时间复杂度是O(m),其中m是模式串的长度。
在生成部分匹配表的过程中,KMP算法利用了前缀与后缀的性质,通过动态规划的方式计算每个位置的最长匹配长度。
虽然这个过程需要遍历整个模式串,但是每次计算的操作都具有重叠子问题的性质,因此可以通过状态转移方程高效地计算出来。
2. 匹配阶段的时间复杂度在匹配阶段,KMP算法将主串与模式串进行逐个字符的比较,并利用已经生成的部分匹配表来决定下一次比较的位置。
这个过程的时间复杂度是O(n),其中n是主串的长度。
在匹配过程中,KMP算法利用了部分匹配表的信息,根据当前位置的匹配长度来确定下一次比较的位置。
通过避免无效的比较,KMP 算法可以在最坏情况下实现线性的时间复杂度。
3. 总体时间复杂度KMP算法的总体时间复杂度是预处理阶段的时间复杂度与匹配阶段的时间复杂度之和。
即O(m) + O(n) = O(m + n)。
从总体时间复杂度可以看出,KMP算法的执行时间与主串和模式串的长度之和成正比。
相比于朴素的字符串匹配算法,KMP算法可以大大提高匹配的效率,尤其是在模式串较长的情况下。
总结:KMP算法的时间复杂度是O(m + n),其中m是模式串的长度,n是主串的长度。
通过对模式串进行预处理并利用部分匹配表的信息,KMP算法可以高效地在主串中查找所有匹配模式串的位置。
kmp算法next数组求解原理
kmp算法next数组求解原理
KMP算法是一种字符串匹配算法,它的核心是求解next数组。
next数组是一个跳转数组,用于在匹配字符串时快速跳过已经匹配
过的部分,提高匹配效率。
求解next数组的原理是在模式串中找到最长的既是前缀又是后
缀的字符串,称之为最长公共前缀后缀(LPS),然后将模式串在该字符串后面的位置作为下一次比较的起点。
例如,对于模式串 'ABCDABD',它的next数组为
[0,0,0,0,1,2,0]。
其中,next[0]=-1,表示在第一个字符匹配失败时,模式串的下一次比较应该从文本串的下一个字符开始。
next[1]=0,表示在第二个字符匹配失败时,模式串的下一次比较应该从模式串的第一个字符开始。
next[2]=0,表示在第三个字符匹配失败时,模式
串的下一次比较应该从模式串的第一个字符开始。
next[3]=0,表示
在第四个字符匹配失败时,模式串的下一次比较应该从模式串的第一个字符开始。
next[4]=1,表示在第五个字符匹配失败时,模式串的
下一次比较应该从模式串的第二个字符开始。
next[5]=2,表示在第
六个字符匹配失败时,模式串的下一次比较应该从模式串的第三个字符开始。
next[6]=0,表示在第七个字符匹配失败时,模式串的下一
次比较应该从模式串的第一个字符开始。
通过求解next数组,KMP算法能够在时间复杂度为O(m+n)的情
况下完成字符串匹配,其中m和n分别为模式串和文本串的长度。
- 1 -。
KMP算法详解
KMP算法详解KMP 算法详解KMP 算法是⼀个⼗分⾼效的字符串查找算法,⽬的是在⼀个字符串 s 中,查询 s 是否包含⼦字符串 p,若包含,则返回 p 在 s 中起点的下标。
KMP 算法全称为 Knuth-Morris-Pratt 算法,由 Knuth 和 Pratt 在1974年构思,同年 Morris 也独⽴地设计出该算法,最终由三⼈于1977年联合发表。
举⼀个简单的例⼦,在字符串 s = ababcabababca 中查找⼦字符串 p = abababca,如果暴⼒查找,我们会遍历 s 中的每⼀个字符,若 s[i] = p[0],则向后查询p.length() 位是否都相等。
这种朴素的暴⼒的算法复杂度为O(m×n),其中m和n分别是 p 和 s 的长度。
KMP 算法可以⽅便地简化这⼀查询的时间复杂度,达到O(m+n)。
1. PMT 序列PMT 序列是 KMP 算法的核⼼,即 Partial Match Table(部分匹配表)。
举个例⼦:char a b a b a b c aindex01234567PMT00123401PMT 的值是字符串的前缀集合与后缀集合的交集中最长元素的长度。
PMT[0] = 0: 字符串 a 既没有前缀,也没有后缀;PMT[1] = 0: 字符串 ab 前缀集合为 {a},后缀集合为 {b},没有交集;PMT[2] = 1: 字符串 aba 前缀集合为 {a, ab},后缀集合为 {ba, a},交集为 {a},交集元素的最长长度为1;PMT[3] = 2: 字符串 abab 前缀集合为 {a, ab, aba},后缀集合为 {bab, ab, b},交集为 {ab},交集元素的最长长度为2;…… 以此类推。
2. 算法主体现在我们已经知道了 PMT 序列的含义,那么假设在 PMT 序列已经给定的情况下,如何加速字符串匹配算法?tar 存储 s 的下标,从 0 开始,若 tar > s.length() - 1,代表匹配失败;pos 存储 p 的下标,从 0 开始,若 s[tar] != p[pos],则 pos ⾛到下⼀个可能匹配的位置。
KMP模式匹配算法
KMP模式匹配算法KMP算法是一种字符串匹配算法,用于在一个主串中查找一个模式串的出现位置。
该算法的核心思想是通过预处理模式串,构建一个部分匹配表,从而在匹配过程中尽量减少不必要的比较。
KMP算法的实现步骤如下:1.构建部分匹配表部分匹配表是一个数组,记录了模式串中每个位置的最长相等前后缀长度。
从模式串的第二个字符开始,依次计算每个位置的最长相等前后缀长度。
具体算法如下:-初始化部分匹配表的第一个位置为0,第二个位置为1- 从第三个位置开始,假设当前位置为i,则先找到i - 1位置的最长相等前后缀长度记为len,然后比较模式串中i位置的字符和模式串中len位置的字符是否相等。
- 如果相等,则i位置的最长相等前后缀长度为len + 1- 如果不相等,则继续判断len的最长相等前后缀长度,直到len为0或者找到相等的字符为止。
2.开始匹配在主串中从前往后依次查找模式串的出现位置。
设置两个指针i和j,分别指向主串和模式串的当前位置。
具体算法如下:-当主串和模式串的当前字符相等时,继续比较下一个字符,即i和j分别向后移动一个位置。
-当主串和模式串的当前字符不相等时,根据部分匹配表确定模式串指针j的下一个位置,即找到模式串中与主串当前字符相等的位置。
如果找到了相等的位置,则将j移动到相等位置的下一个位置,即j=部分匹配表[j];如果没有找到相等的位置,则将i移动到下一个位置,即i=i+13.检查匹配结果如果模式串指针j移动到了模式串的末尾,则说明匹配成功,返回主串中模式串的起始位置;如果主串指针i移动到了主串的末尾,则说明匹配失败,没有找到模式串。
KMP算法的时间复杂度为O(m+n),其中m为主串的长度,n为模式串的长度。
通过预处理模式串,KMP算法避免了在匹配过程中重复比较已经匹配过的字符,提高了匹配的效率。
总结:KMP算法通过构建部分匹配表,实现了在字符串匹配过程中快速定位模式串的位置,减少了不必要的比较操作。
kmp next算法
kmp next算法KMP算法(Knuth-Morris-Pratt Algorithm)是一种字符串匹配算法,它的核心思想是利用已经得到的匹配结果,尽量减少字符的比较次数,提高匹配效率。
本文将详细介绍KMP算法的原理、实现方法以及应用场景。
一、KMP算法的原理KMP算法的核心是构建next数组,用于指导匹配过程中的回溯操作。
next数组的定义是:对于模式串中的每个字符,记录它前面的子串中相同前缀和后缀的最大长度。
next数组的长度等于模式串的长度。
具体来说,KMP算法的匹配过程如下:1. 初始化主串指针i和模式串指针j为0。
2. 逐个比较主串和模式串对应位置的字符:- 若主串和模式串的字符相等,i和j同时后移一位。
- 若主串和模式串的字符不相等,根据next数组的值,将模式串指针j回溯到合适的位置,继续匹配。
二、KMP算法的实现KMP算法的实现可以分为两个步骤:构建next数组和利用next数组进行匹配。
1. 构建next数组:- 首先,next[0]赋值为-1,next[1]赋值为0。
- 然后,从第2个位置开始依次计算next[i],根据前一个位置的next值和模式串的字符进行判断:- 若前一个位置的next值为-1或模式串的字符与前一个位置的字符相等,则next[i] = next[i-1] + 1。
- 若前一个位置的next值不为-1且模式串的字符与前一个位置的字符不相等,则通过next数组的回溯操作,将模式串指针j回溯到合适的位置,继续判断。
2. 利用next数组进行匹配:- 在匹配过程中,主串指针i和模式串指针j会同时后移:- 若主串和模式串的字符相等,i和j同时后移一位。
- 若主串和模式串的字符不相等,则根据next数组的值,将模式串指针j回溯到合适的位置,继续匹配。
三、KMP算法的应用场景KMP算法在字符串匹配中有广泛的应用,特别是在大规模文本中的模式匹配问题上具有明显的优势。
以下是KMP算法的几个应用场景:1. 子串匹配:判断一个字符串是否是另一个字符串的子串。
字符串匹配kmp算法
字符串匹配kmp算法字符串匹配是计算机科学中的一个基本问题,它涉及在一个文本串中寻找一个模式串的出现位置。
其中,KMP算法是一种更加高效的算法,它不需要回溯匹配过的字符,在匹配失败的时候,根据已经匹配的字符和模式串前缀的匹配关系直接跳跃到下一次匹配的起点。
下面,我将详细介绍KMP算法原理及其实现。
1. KMP算法原理KMP算法的核心思想是:当模式串中的某个字符与文本串中的某个字符不相同时,根据已经匹配的字符和模式串前缀的匹配关系,跳过已经比较过的字符,从未匹配的字符开始重新匹配。
这个过程可以通过计算模式串的前缀函数(即next数组)来实现。
具体地,假设现在文本串为T,模式串为P,它们的长度分别为n和m。
当对于文本串T的第i个字符和模式串P的第j个字符(i和j都是从0开始计数的)进行匹配时:如果T[i]和P[j]相同,则i和j都加1,继续比较下一个字符;如果T[i]和P[j]不同,则j回溯到next[j](next[j]是P[0]到P[j-1]的一个子串中的最长的既是自身的前缀又是后缀的子串的长度),而i不会回溯,继续和P[next[j]]比较。
如果匹配成功,则返回i-j作为P在T中的起始位置;如果匹配失败,则继续执行上述过程,直到文本串T被遍历完或匹配成功为止。
2. KMP算法步骤(1)计算模式串的前缀函数next[j]。
next[j]表示P[0]到P[j-1]的一个子串中的最长的既是自身的前缀又是后缀的子串的长度。
具体计算方式如下:先令next[0]=-1,k=-1(其中k表示相等前缀的长度,初始化为-1),j=0。
从j=1向后遍历整个模式串P:如果k=-1或者P[j]=P[k],则next[j+1]=k+1,k=j,j+1;否则,令k=next[k],再次执行步骤2。
(2)使用next数组进行匹配。
从文本串T的第0个字符开始,从模式串P的第0个字符开始匹配,如果匹配失败,根据next数组进行回溯。
KMP算法
KMP算法KMP算法是一种用于字符串匹配的快速算法,全称为Knuth-Morris-Pratt算法,是由Donald Knuth、Vaughan Pratt和James Morris在1977年共同提出的。
该算法的核心思想是通过利用已经匹配过的部分来避免不必要的字符比较,从而提高匹配效率。
1.暴力匹配算法在介绍KMP算法之前,我们先来了解一下暴力匹配算法。
暴力匹配算法,又称为朴素匹配算法,是最基本的匹配方法,它的思想就是从主串的第一个字符开始,逐个比较主串和模式串的字符,直到匹配成功或者主串和模式串的所有字符都比较完毕。
具体算法如下:```暴力匹配(主串S,模式串P):i=0j=0n = length(S)m = length(P)while i < n and j < m:if S[i] == P[j]: // 匹配成功,继续比较下一个字符i++else: // 匹配失败,模式串向后移动一位i=i-j+1j=0if j == m: // 匹配成功return i - jelse: // 匹配失败return -1```暴力匹配算法的时间复杂度为O(n*m),其中n和m分别为主串和模式串的长度。
2.KMP算法的思想KMP算法的关键在于构建一个部分匹配表,通过这个表来确定模式串在匹配失败时应该移动的位置。
部分匹配表的定义如下:对于模式串P的前缀子串P[0:i],如果存在一个真前缀等于真后缀,则称其长度为i的真前缀的真后缀长度为部分匹配值。
假设有一个模式串P,我们定义一个部分匹配表next,其中next[i]表示在P[i]之前的子串(不包括P[i])中,有多大长度的相同前缀后缀。
例如,P="ABCDABD",则next[7]=2,因为在P[7]之前的子串中,"ABD"是长度为3的前缀,也是长度为3的后缀。
构建部分匹配表的算法如下:构建部分匹配表(P):m = length(P)next = [0] * m // 初始化部分匹配表j=0k=-1next[0] = -1while j < m - 1:if k == -1 or P[j] == P[k]: // P[j]表示后缀的单个字符,P[k]表示前缀的单个字符j++k++next[j] = kelse:k = next[k]```构建部分匹配表的时间复杂度为O(m),其中m为模式串的长度。
kmp百度百科
kmp算法[编辑本段]kmp算法-概述一种改进的字符串匹配算法,由 D.E.Knuth与V.R.Pratt和J.H.Morris同时发现,因此人们称它为克努特——莫里斯——普拉特操作(简称KMP算法)。
[编辑本段]kmp算法-学习介绍完全掌握KMP算法思想学过数据结构的人,都对KMP算法印象颇深。
尤其是新手,更是难以理解其涵义,搞得一头雾水。
今天我们就来面对它,不将它彻底搞懂,誓不罢休。
如今,大伙基本上都用严蔚敏老师的书,那我就以此来讲解KMP 算法。
(小弟正在备战考研,为了节省时间,很多课本上的话我都在此省略了,以后一定补上。
)严老的《数据结构》79页讲了基本的匹配方法,这是基础。
先把这个搞懂了。
80页在讲KMP算法的开始先举了个例子,让我们对KMP的基本思想有了最初的认识。
目的在于指出“由此,在整个匹配的过程中,i指针没有回溯,”。
我们继续往下看:现在讨论一般情况。
假设主串:s: ‘s(1) s(2) s(3) ……s(n)’; 模式串:p: ‘p(1) p(2) p(3)…..p(m)’把课本上的这一段看完后,继续现在我们假设主串第i个字符与模式串的第j(j<=m)个字符‘失配’后,主串第i个字符与模式串的第k(k<j)个字符继续比较此时,s(i)≠p(j), 有主串:S(1)……s(i-j+1)……s(i-1) s(i) ………….|| (相配) || ≠(失配)匹配串:P(1) ……. p(j-1) p(j)由此,我们得到关系式‘p(1) p(2) p(3)…..p(j-1)’= ’s(i-j+1)……s(i-1)’由于s(i)≠p(j),接下来s(i)将与p(k)继续比较,则模式串中的前(k-1)个字符的子串必须满足下列关系式,并且不可能存在k’>k 满足下列关系式:(k<j),‘p(1) p(2) p(3)…..p(k-1)’= ’s(i-k+1)s(i-k+2)……s(i-1)’即:主串:S(1)……s(i-k +1) s(i-k +2) ……s(i-1) s(i) ………….|| (相配) || || ?(有待比较)匹配串:P(1) p(2) ……p(k-1) p(k)现在我们把前面总结的关系综合一下有:S(1)…s(i-j +1)…s(i-k +1) s(i-k +2) ……s(i-1) s(i) ……|| (相配) || || || ≠(失配)P(1) ……p(j-k+1) p(j-k+2) ….... p(j-1) p(j)|| (相配) || || ?(有待比较)P(1) p(2) ……. p(k-1) p(k)由上,我们得到关系:‘p(1) p(2) p(3)…..p(k-1)’= ’s(j-k+1)s(j-k+2)……s(j-1)’接下来看“反之,若模式串中存在满足式(4-4)。
kmp 时间复杂度计算
kmp 时间复杂度计算摘要:一、KMP 算法简介1.KMP 算法的概念2.KMP 算法的原理3.KMP 算法的作用二、KMP 算法的时间复杂度分析1.KMP 算法的时间复杂度公式2.KMP 算法时间复杂度分析的过程3.KMP 算法相对于其他字符串匹配算法的优势三、KMP 算法在实际应用中的案例1.KMP 算法在文本处理中的应用2.KMP 算法在信息检索中的应用3.KMP 算法在自然语言处理中的应用正文:一、KMP 算法简介KMP(Knuth-Morris-Pratt)算法是一种高效的字符串匹配算法,用于在一个主字符串中查找一个子字符串出现的位置。
该算法由Donald Knuth、Charles Morris 和Vaughan Pratt 于1977 年共同提出,其核心思想是利用子字符串的前缀与后缀信息来避免不必要的字符比较,从而提高匹配速度。
1.KMP 算法的概念:KMP 算法是一种滑动窗口法,通过构建一个“部分匹配表”(也称为“失效函数”或“next 数组”),实现字符串的高效匹配。
2.KMP 算法的原理:从主字符串的第一个字符开始,将其与子字符串的第一个字符进行比较。
若相等,继续比较后续字符;若不等,根据部分匹配表的值,将子字符串向右移动若干个字符,再次进行比较。
如此循环,直至找到匹配的子字符串或到达子字符串末尾。
3.KMP 算法的作用:KMP 算法可以在O(n) 的时间复杂度内完成主字符串与子字符串的匹配,其中n 为字符串的长度。
相较于O(n^2) 的暴力匹配算法,KMP 算法具有较高的效率。
二、KMP 算法的时间复杂度分析1.KMP 算法的时间复杂度公式:最优情况下,KMP 算法的时间复杂度为O(n),其中n 为字符串的长度。
最坏情况下,KMP 算法的时间复杂度为O(n^2),此时子字符串与主字符串的前缀完全相同。
2.KMP 算法时间复杂度分析的过程:分析KMP 算法的时间复杂度,需要考虑最优情况、最坏情况和平均情况。
K M P 算 法 详 解
KMP算法详解(转)此前一天,一位MS的朋友邀我一起去与他讨论快速排序,红黑树,字典树,B树、后缀树,包括KMP算法,唯独在讲解KMP算法的时候,言语磕磕碰碰,我想,原因有二:1、博客内的东西不常回顾,忘了不少;2、便是我对KMP算法的理解还不够彻底,自不用说讲解自如,运用自如了。
所以,特再写本篇文章。
由于此前,个人已经写过关于KMP算法的两篇文章,所以,本文名为:KMP算法之总结篇。
本文分为如下六个部分:第一部分、再次回顾普通的BF算法与KMP算法各自的时间复杂度,并两相对照各自的匹配原理;第二部分、通过我此前第二篇文章的引用,用图从头到尾详细阐述KMP算法中的next数组求法,并运用求得的next数组写出KMP算法的源码;第三部分、KMP算法的两种实现,代码实现一是根据本人关于KMP算法的第二篇文章所写,代码实现二是根据本人的关于KMP算法的第一篇文章所写;第四部分、测试,分别对第三部分的两种实现中next数组的求法进行测试,挖掘其区别之所在;第五部分、KMP完整准确源码,给出KMP算法的准确的完整源码;第六步份、一眼看出字符串的next数组各值,通过几个例子,让读者能根据字符串本身一眼判断出其next数组各值。
力求让此文彻底让读者洞穿此KMP算法,所有原理,来龙去脉,让读者搞个通通透透(注意,本文中第二部分及第三部分的代码实现一的字符串下标i从0开始计算,其它部分如第三部分的代码实现二,第五部分,和第六部分的字符串下标i 皆是从1开始的)。
第一部分、KMP算法初解1、普通字符串匹配BF算法与KMP算法的时间复杂度比较KMP算法是一种线性时间复杂的字符串匹配算法,它是对BF算法(Brute-Force,最基本的字符串匹配算法的)改进。
对于给的原始串S 和模式串P,需要从字符串S中找到字符串P出现的位置的索引。
BF算法的时间复杂度O(strlen(S) * strlen(T)),空间复杂度O(1)。
KMP算法(推导方法及模板)
KMP算法(推导⽅法及模板)介绍克努斯-莫⾥斯-普拉特算法Knuth-Morris-Pratt(简称为KMP算法)可在⼀个主⽂本S内查找⼀个词W的出现位置。
此算法通过运⽤对这个词在不匹配时本⾝就包含⾜够的信息来确定下⼀个匹配将在哪⾥开始的发现,从⽽避免重新检查先前匹配的。
此算法可以在O(n+m)时间数量级上完成串的模式匹配操作,其改进在于:每当⼀趟匹配过程中出现字符⽐较不等时,不需回溯i的指针,⽽是利⽤已经得到的“部分匹配”的结果将模式向右“滑动”尽可能远的距离后,继续进⾏⽐较。
kmp的核⼼之处在于next数组,⽽为了⽅便理解,我先介绍KMP的思想KMP匹配当开始匹配时,如果匹配过程中产⽣“失配”时,指针i(原串的下标)不变,指针j(模式串的下标)退回到next[j] 所指⽰的位置上重新进⾏⽐较,并且当指针j退回⾄零时,指针i和指针j需同时加⼀。
即主串的第i个字符和模式的第⼀个字符不等时,应从主串的第i+1个字符起重新进⾏匹配。
简单来说,就是两个串匹配,如果当前字符相等就⽐较两个字符串的下⼀个字符,如果当前匹配不相等时,就让j(待匹配串的下标)回到next[j] 的位置,因为我们已经知道next数组的作⽤是利⽤已经得到的“部分匹配”的结果将模式向右“滑动”尽可能远的距离,如ababac与abac⽐较时i=4,j=4时不匹配,则利⽤next数组让j=2继续匹配⽽不⽤重新开始。
(⽬前先不⽤管next数组的值时如何得到的,只要明⽩它的作⽤即可,下⾯回介绍)所以我们可以写出kmp的代码int KMP(char str[],char pat[]){int lenstr=strlen(str);int lenpat=strlen(pat);int i=1,j=1;while(i<=lenstr){if(j==0 || str[i]==pat[j]) //匹配成功继续往后匹配++i,++j;elsej=next[j]; //否则根据next数组继续匹配if(j==lenpat) //说明匹配完成return 1;}return 0;}接下来就是关键的求next数组了next数组⾸先,next数组取决于模式串本⾝⽽与相匹配的主串⽆关,我们可以对其递推得到。
kmp算法生活例题
kmp算法生活例题KMP算法(Knuth-Morris-Pratt算法)是一种用于字符串匹配的高效算法。
它利用了匹配失败时,模式串中已经部分匹配的信息,避免反复回溯。
在我们的日常生活中也存在很多和字符串匹配相关的问题,下面我将通过几个例题来介绍KMP算法在生活中的应用。
1.字符串查找举个例子,假设我们需要在一首长诗中查找一些单词,如"KMP"。
我们可以使用KMP算法,将单词"KMP"进行预处理,得到部分匹配表,然后根据部分匹配表快速地在长诗中定位关键词。
2.自动补全在引擎、输入法等应用中,自动补全是一种很常见的功能。
用户输入一些关键词的前缀时,系统会自动提示后续可能的词语。
这就涉及到了字符串的匹配。
使用KMP算法,我们可以事先将所有可能的词语进行预处理,得到一个部分匹配表。
然后根据用户输入的前缀,可以快速地在部分匹配表中进行匹配,找出可能的词语,然后进行提示。
举个例子,当用户在引擎中输入"KMP"时,引擎会根据预处理得到的部分匹配表,快速地找到以"KMP"为前缀的可能词语,如"KMP算法"、"KMP字符串匹配"等,并进行提示。
3.字符串替换而使用KMP算法,我们可以预处理需要替换的字符串,并得到一个部分匹配表。
然后在文本中定位要替换的字符串,快速地进行替换操作。
举个例子,假设我们需要将一篇文章中的"KMP"替换为"字符串匹配算法"。
我们可以使用KMP算法,将"KMP"进行预处理,得到部分匹配表。
然后在文章中定位关键词"KMP",并进行替换操作。
综上所述,KMP算法在日常生活中有着广泛的应用。
不仅可以用于字符串查找、自动补全等功能,还可以用于字符串替换等操作。
KMP算法通过利用模式串中已经部分匹配的信息,避免了反复回溯,提高了字符串匹配的效率。
KMP算法详解(超级详细)
KMP算法详解(超级详细)KMP算法,全称为Knuth-Morris-Pratt算法,是一种用于字符串匹配的快速算法。
它的核心思想是在匹配过程中,当出现不匹配的情况时,利用已经匹配的字符信息,避免进行重复匹配,从而提高匹配效率。
首先,我们需要了解一个重要的概念,"部分匹配值"(partialmatch table),它指的是字符串的前缀和后缀的最长的共有元素的长度。
例如,在字符串"ABCDABD"中,它的部分匹配值是[0, 0, 0, 0, 1, 2, 0]。
接下来,我们来详细了解KMP算法的实现过程:1.首先,针对模式串(被查找的字符串)进行预处理,得到部分匹配表。
-定义两个指针,i和j,分别指向模式串的开头和当前字符。
-初始化部分匹配表,将第一个元素置为0。
-在循环中,不断地根据当前指针所指向的字符,判断是否匹配。
-若匹配,则将部分匹配表的下一个元素置为当前指针位置的下一个元素的值加1,并同时将当前指针和i都自增1-若不匹配且i>0,则将i更新为部分匹配表的前一个元素的值。
-若不匹配且i=0,则将当前指针自增1-循环结束后,部分匹配表得到构建。
2.匹配过程:-定义两个指针,i和j,分别指向需要匹配的文本和模式串的开头。
-在循环中,不断地根据当前指针所指向的字符,判断是否匹配。
-若匹配,则将两个指针都自增1-若不匹配且j>0,则将j更新为部分匹配表的前一个元素的值。
-若不匹配且j=0,则将当前指针自增1-若模式串的指针j指向了最后一个字符,则说明匹配成功,返回匹配的位置。
-若循环结束仍未找到匹配的位置,则匹配失败。
总结一下,KMP算法可以分为两个步骤:预处理和匹配。
预处理的过程是构建部分匹配表,通过比较前缀和后缀的最长共有元素的长度,将这个长度记录在部分匹配表中。
匹配的过程是根据部分匹配表中的信息,来确定下一步的匹配位置,提高匹配的效率。
通过KMP算法,我们可以有效地解决字符串匹配问题,提高了匹配的效率。
KMP算法
KMP算法在传统的字符串匹配算法中,最常用的算法是朴素的模式匹配算法。
该算法的基本思想是:从主串的第一个字符开始,逐个字符地与模式串进行比较,如果发现不匹配的字符,则回溯到主串的下一个字符重新开始匹配。
这种算法的时间复杂度是O(m*n),其中m为主串的长度,n为模式串的长度。
在主串与模式串长度相等时,该算法的时间复杂度甚至会达到O(n^2)。
KMP算法的核心思想是利用模式串的信息,避免不必要的比较。
它通过预处理模式串,构建一个部分匹配表(prefix table),来提供匹配失败时的回溯位置。
这样,在匹配的过程中,只需要根据部分匹配表的内容来调整主串和模式串的位置即可。
这种优化使得KMP算法的时间复杂度降低到O(m+n)。
具体来说,KMP算法在预处理模式串时,对于模式串的每个前缀子串,求出其最长的相等的前缀和后缀的长度。
这个长度被称为部分匹配值。
例如,对于模式串"ababc",它的前缀子串有"","a","ab","aba",而其相等的后缀子串有"","c","bc","abc"。
其中,最长的相等的前缀和后缀的长度是2,因此,部分匹配值为2、在KMP算法中,这个信息会被存储在部分匹配表中,即prefix table。
当进行匹配时,如果发现匹配失败,那么根据部分匹配表中的值来进行回溯。
具体来说,如果当前字符匹配失败,那么将模式串向右移动的距离为:当前字符之前的最长相等前缀的长度-1、这样,就可以将模式串与主串对齐继续匹配。
1. 预处理模式串,求出部分匹配表(prefix table)。
2.根据部分匹配表,进行匹配操作。
3.如果匹配成功,返回匹配的位置;否则,返回匹配失败。
总之,KMP算法是一种高效的字符串匹配算法,通过预处理模式串,提供了匹配失败时的快速回溯位置。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
AC自动机
确定数据结构
首先,我们需要确定AC自动机所需的数据存储结构,它们的用处之后会讲 到。
AC自动机
第一步:构建Trie
构建完成后的效果
AC自动机
第二步:构建失败指针
构建失败指针是AC自动机的关键所在,可以说,若没有失败指针,所谓的AC自动机只不过是Trie 树而已。 失败指针原理: 构建失败指针,使当前字符失配时跳转到另一段从 root开始每一个字符都与当前已匹配字符段某 一个后缀完全相同且长度最大的位置继续匹配,如同KMP算法一样,AC自动机在匹配时如果当前字 符串匹配失败,那么利用失配指针进行跳转。由此可知如果跳转,跳转后的串的前缀必为跳转前 的模式串的后缀,并且跳转的新位置的深度(匹配字符个数)一定小于跳之前的节点(跳转后匹 配字符数不可能大于跳转前,否则无法保证跳转后的序列的前缀与跳转前的序列的后缀匹配)。 所以可以利用BFS在Trie上进行失败指针求解。 失败指针利用: 如果当前指针在某一字符 s[m+1] 处失配,即 (p->next[s[m+1]]==NULL) ,则说明没有单词 s[1...m+1]存在,此时,如果当前指针的失配指针指向 root,则说明当前序列的任何后缀不是是 某个单词的前缀,如果指针的失配指针不指向root,则说明当前序列s[i...m]是某一单词的前缀, 于是跳转到当前指针的失配指针,以s[i...m]为前缀继续匹配s[m+1]。 对于已经得到的序列s[1...m],由于s[i...m]可能是某单词的后缀,s[1...j]可能是某单词的前 缀,所以 s[1...m] 中可能会出现单词,但是当前指针的位置是确定的,不能移动,我们就需要 temp临时指针,令temp=当前指针,然后依次测试s[1...m],s[i...m]是否是单词。 >>>简单来说,失败指针的作用就是将主串某一位之前的所有可以与模式串匹配的单词快速在 Trie 树中找出。
在蓝色字符处失配,按照暴力算法,我们应该将p串右移一位,从p串的第一个字符 开始重新与s串比较,但是我们可以发现,我们并不需要这样比较。 我们可以发现,事实上,p串的绿色与红色部分和红色与橙色部分是相同的,也就是 说,对于绿色与红色部分的任意一段字符,它在主串中下一次出现的位置必然是是 红色与橙色部分中与之对应的那段字符的位置。 比如说"abcddda"在主串中下一次出现的位置必然是"abcddda" 同理"abcdddabcddda"下一次出现的位置必然是"abcdddabcddda"
NEXT数组
如何求解NEXT数组?
现在我们面临着一个实际的问题:如何求一段字符串的NEXT数组值。 其实很简单 对于字符串 agctagcagctagctg 来说
我们指定两个指针i,j。i指定当前求解的next值的位置,j为以i位置前一个字符为尾的子字符串 中的next值,换句话说就是以i位置前一个字符为尾的子字符串中头与尾匹配的头部所能到达的最 大位置。最开始时i=1,j=0。 现在开始讨论几种情况: 当j==-1时,代表已经找不到长度大于1的字符串循环了,此时就可以将i位置的next值设为0,然 后i++,j++,如果存在长度等于1的字符串循环的话,在下一次判断时i+1的值就会为1(这是正确的, 因为关于i的next值是i之前(不包括i)的子字符串的最大循环长度) 当t[i]==t[j]时,说明延续了前一个子字符串的对称性,i++,j++,并将next[i]=j,这样子就可以 将当前位置为尾(i)的next值赋值进下一个位置(i+1),并且下一次判断也就从(i+1)这个位置开始 了。 当t[i]!=t[j]且j!=-1时,说明不可能延续前一个子字符串的对称性,也不一定不存在更小的字符 串循环,此时将j=next[j],它的意思就是在当前的对称中继续寻找子对称(因为如果t[i]是某个 更小的字符串循环的最后一个字符,那么为了保证它前方字符同样存在对称性,以t[i]为尾的更 小的字符串循环必然在当前已经存在的t[i-1],t[i-2]....t[i-next[j]]中存在,因为若是子循环 的尾部存在t[i],t[i-1],t[i-2]....t[i-next[j]],那么它也会随着子循环被传递到t[i]这个位置。
NEXT数组
关于NEXT数组
有了上面的铺垫,我们就可以知道next数组的作用了,它的作用就是记录 字符串每一个位置之前的子字符串中头部与尾部相同的字符段的最大长度, 换句话说,就是记录到当前位置(不包括当前字符)之前的那一段子字符 串头与尾中相同的字符段的最长长度。 如字符串 agctagcagctagctg 的next数组值就为 -1 0 0 0 0 1 2 3 1 2 3 4 5 6 3 4
代码:
KMP算法
概述
KMP 算法是一种改进的字符串匹配算法,由 D.E.Knuth 与 V.R.Pratt 和 J.H.Morris同时发现,因此人们称它为克努特——莫里斯——普拉特操作 (简称KMP算法)。KMP算法的关键是利用匹配失败后的信息,尽量减少模 式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个 next()函数,函数本身包含了模式串的局部匹配信息。
AC自动机
第二步:构建失配指针
观察构造失败指针的流程:对照图来看,首先root的fail指针指向NULL,然后root入队,进入循 环。从队列中弹出root,root节点与s,h节点相连,因为它们是第一层的字符,肯定没有比它层数 更小的共同前后缀,所以把这2个节点的失败指针指向root,并且先后进入队列,失败指针的指向 对应图中的(1),(2)两条虚线;从队列中先弹出h(右边那个),h所连的只有e结点,所以接下来扫 描指针指向e节点的父节点h节点的fail指针指向的节点,也就是root,root->next['e']==NULL, 并且root->fail==NULL,说明匹配序列为空,则把节点e的fail指针指向root,对应图中的(3),然后 节点e进入队列;从队列中弹出s,s节点与a,h(左边那个)相连,先遍历到a节点,扫描指针指向a 节点的父节点s 节点的 fail指针指向的节点,也就是 root ,root->next['a']==NULL, 并且root>fail==NULL,说明匹配序列为空,则把节点a的fail指针指向root,对应图中的(4),然后节点a进入 队列。接着遍历到h节点,扫描指针指向h节点的父节点s节点的fail指针指向的节点,也就是root, root->next['h']!=NULL,所以把节点h的fail指针指向右边那个h,对应图中的(5),然后节点h进入 队列...由此类推,最终失配指针如下图所示。
字符串匹配的暴力算法
暴力算法的实现
设i指针为主串s第i位置的字符,j指针为模式串p第j位置的字符,最开始 i与j均从0开始,当s[i]==p[j]时,i++,j++,主串与模式串开始比较下一 位。当s[i]!=p[j] 时,j设为0,i设为上一次s[i]==p[j]时i的值加1,即 将模式串往后滑动一位,并且模式串与主串的匹配再次从模式串的第 0个 字符开始,若搜索到模式串即记录下来,若未搜索到模式串,将会在i指针 到达主串s末尾时结束程序。 很显然时间复杂度为O(nm)
AC自动机
关于AC自动机
AC自动机:Aho-Corasick automation ,该算法在1975年产生于贝尔实验 室,是著名的多模匹配算法之一。一个常见的例子就是给出 n个单词,再 给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过。 要搞懂AC自动机,先得有模式树(字典树)Trie和KMP模式匹配算法的基 础知识。AC自动机算法分为3步:构造一棵Trie树,构造失败指针和模式 匹配过程。 简单来说,AC自动机是用来进行多模式匹配(单个主串,多个模式串)的 高效算法。
Trie树
Trie树的结构
Trie树的入口称为root,root点不保存除引出字符外的任何信息。 其他节点保存的信息有: count:到此节点处截止的单词个数,如没有单词以该节点结尾,则count 值为-1 next[26]:记录下面的节点(26对应a-z,若大小写混合,next数组开到52 即可)
KMP算法
如何让模式匹配加速
s串:abcdddabcdddabcdddabcdddabcdddaa p串:abcdddabcdddabcdddaa 求p串在s串中第一次出现的位置 第一次匹配:
s : a b c d d d a b c d d d a b c d d d a b c d d d a b c d d d a a p:abcdddabcdddabcdddaa
所以我们在进行下一次匹配的时候直接将 "abcdddabcdddab"中的"b"与失配的那个 "b"继续对比即可,不再需要做无谓的重复计算,而如果失配的位置不在模式串尾部, 我们也可以通过当前位置之前字符串的头与尾的相同字符段位置计算出下一次比较 的位置。
而如何记录到每一个位置时之前相同的字符段的位置,或是说最大长度(因为必然
KMP算法 & AC自动机
By Cajon Pass
字符串匹配
字符串匹配中的几个概念
模式串:等待被在主串中匹配的串 主串:被模式串匹配的串 字符串匹配:在主串中查找模式串的过程
• 比如对于主串: aabbcc 与模式串:aa 来说,一般所 要进行的匹配是在主串中查找模式串第一次出现的 位置,比如模式串:aa 在主串:aabbcc 中第一次 出现的位置是1。
Trie树