后缀树构造方法讲义
后缀树
后缀树的构造
算法所用符号描述 S=需要构造后缀树的字符串 Si=从第i个字符开始的后缀 N(Si)=Si在后缀树中对应的叶节点 P(Si)=N(Si)的父节点 G(Si)=P(Si)的父节点,即N(Si)的祖父 SL(p)=p的后缀连接所指向的节点 W(p, q)=从p到q所经过的字符串 root=后缀树的根节点
后缀树的构造
算法流程:定义SL(root)=root,首先插入S,此时后缀树 中仅有两个节点。 设已经插入了Si,现要插入Si+1。分情况讨论: 1)P(Si)在插入Si之前已经存在。则P(Si)有后缀连接。令 u=SL(P(Si))。从u开始沿着树往下查找,在合适的地方插 入新的节点。 2)P(Si)是在插入Si的过程中产生的。此时G(Si)必定存在 并有后缀连接。令u=SL(G(Si),w=W(G(Si),P(Si))。从u 开始,对w进行快速定位找到节点v(注意,v可能需要通 过分割边来得到)。令SL(P(Si))指向v。从v开始沿着树往 下查找,在合适的地方插入新的节点。 不断重复以上过程,即可完成整棵后缀树的构造。
后缀树的应用1
举例:在banana中查找a一次T,必定对应着一个不同的后缀, 而这所有的后缀又都有着共同的前缀T。因 此这些后缀在S的后缀树中必定属于某一棵 子树。这棵子树的叶子数便等于T在S中出 现的次数。
后缀树的应用2
举例:统计banana中出现an的次数
感性认识后缀树
banana所对应的后缀树如下:
Trie
为了更好地理解后缀树,我们先来看一种 被称为Trie的数据结构。下图是一个典型的 Trie:
Trie的定义
Trie是一种搜索树,可用于存储并查找字符 串。Trie的每一条边都对应一个字符。在 Trie中查找字符串S时,只需依次枚举S的 每个字符,同时从Trie的根节点开始选择相 应的边往下走。如果枚举完的同时到达Trie 的叶子节点,说明S存在于Trie中。如果未 到达叶子节点或者枚举中途发现没有任何 对应的边,说明S没有被包含在Trie中。
后缀树的构造方法-Ukkonen详解
后缀树的构造方法-Ukkonen详解问题的来源字符串匹配问题是程序员经常要面对的问题. 字符串匹配算法的改进可以使许多工程受益良多, 比如数据压缩和DNA排列. 这篇文章讨论的是一种相对鲜为人知的数据结构 --- 后缀树, 并介绍它是如何通过自身的特性去解决一些复杂的匹配问题.你可以把自己想象成一名工作于DNA排列工程的程序员. 那些基因研究者们天天忙着分切病毒的基因材料, 制造出一段一段的核苷酸序列. 他们把这些序列发到你的服务器里, 指望你在基因数据库中定位. 要知道, 你的数据库里有数百种病毒的数据,而一个特定的病毒可以有成千上万的碱基. 你的程序必须像C/S工程那样实时向博士们反馈信息, 这需要一个很好的方案.很明显, 在这个问题上采取暴力算法是极其低效的. 这种方法需要你在基因数据库里对比每一个核苷酸, 测试一个较长的基因段基本会把你的C/S系统变成一台古老的批处理机.直觉上的解决方法由于基因数据库一般是不变的, 通过预处理来把搜索简化或许是个好主意. 一种预处理的方法是建立一棵Trie. 我们通过Trie引申出一种东西叫作后缀Trie. (后缀Trie离后缀树仅一步之遥.) 首先, Trie是一种n叉树, n为字母表大小, 每个节点表示从根节点到此节点所经过的所有字符组成的字符串. 而后缀Trie的 “后缀” 说明这棵Trie包含了所给字段的所有后缀 (也许正是一个病毒基因).图1BANANAS的后缀Trie图1展示了文本BANANAS的后缀Trie. 关于这棵Trie有两个地方需要注意. 第一, 从根节点开始, BANANAS的每一个后缀都插入到Trie中, 包括BANANAS, ANANAS, NANAS, ANAS, NAS, AS, S. 第二, 鉴于这种结构, 你可以通过从根节点往下匹配的方式搜索到单词的任何一个子串.这里所说的第二点正是我们认为后缀Trie优秀的原因. 如果你输入一个长度为N的文本并想在其中搜索一个长度为M的串, 传统的暴力匹配需要进行N*M次字符对比, 而一些改进过的匹配技术, 比如像Boyer-Moore算法, 可以在O(N+M)的时间开销内解决问题, 平均效率更是令人满意. 然而, 后缀Trie亮出了O(M)的牌子, 彻底鄙视了其他算法的成绩, 后缀Trie对比的次数仅仅相当于被搜索串的长度!这确实是可圈可点的威力, 这意味着你能通过仅仅7次对比便在莎士比亚所有作品中找出BANANAS. 但有一点我们可不能忘了, 构造后缀Trie也是需要时间的.后缀Trie之所以没有家喻户晓正是因为构造它需要O(n2)的时间和空间. 平方级的开销使它在最需要它的领域 --- 长串搜索中被拒之门外.横空出世直到1976年, Edward McCreigh发表了一篇论文, 咱们的后缀树问世了. 后缀Trie的困境被彻底打破.后缀树跟后缀Trie有着一样的布局, 但它把只有一个儿子的节点给剔除了. 这个过程被称为路径压缩, 这意味着树上的某些边将表示一个序列而不是单独的字符.图2BANANAS的后缀树图2是由图1的后缀Trie转化而来的后缀树. 你会发现这树基本还是那个形状, 只是节点变少了. 在剔除了只有一个儿子的节点之后, 总节点数由23降为11. 经过证明, 在最坏情况下, 后缀树的节点数也不会超过2N (N为文本的长度). 这使构造后缀树的线性时空开销成为可能.然而, McCreight最初的构造法是有些缺陷的, 原则上它要按逆序构造, 也就是说字符要从末端开始插入. 如此一来, 便不能作为在线算法, 它变得更加难以应用于实际问题, 如数据压缩.20年后, 来自赫尔辛基理工大学的Esko Ukkonen把原算法作了一些改动, 把它变成了从左往右. 本文接下来的所有描述和代码都是基于Esko Ukkonen的成果.对于所给的文本T, Esko Ukkonen的算法是由一棵空树开始, 逐步构造T的每个前缀的后缀树. 比如我们构造BANANAS的后缀树, 先由B开始, 接着是BA, 然后BAN, … . 不断更新直到构造出BANANAS的后缀树.图3逐步构造后缀树初窥门径加入一个新的前缀需要访问树中已有的后缀. 我们从最长的一个后缀开始(图3中的BAN), 一直访问到最短的后缀(空后缀). 每个后缀会在以下三种节点的其中一种结束.l 一个叶节点. 这个是常识了, 图4中标号为1, 2, 4, 5的就是叶节点.l 一个显式节点. 图4中标号为0, 3的是显式节点, 它表示该节点之后至少有两条边.l 一个隐式节点. 图4中, 前缀BO, BOO, 或者非前缀OO, 它们都在某条表示序列的边上结束, 这些位置就叫作隐式节点. 它表示后缀Trie中存在的由于路径压缩而剔除的节点. 在后缀树的构造过程中, 有时要把一些隐式节点转化为显式节点.图4加入BOOK之后的BOOKKEEPER(也就是BOOK的后缀树)如图4, 在加入BOOK之后, 树中有5个后缀(包括空后缀). 那么要构造下一个前缀BOOKK的后缀树的话, 只需要访问树中已存在的每一个后缀, 然后在它们的末尾加上K.前4个后缀BOOK, OOK, OK和K都在叶节点上结束. 由于我们要路径压缩, 只需要在通往叶节点的边上直接加一个字符, 而不需要创建一个新节点.在所有叶节点更新之后, 我们还需要在空后缀后面加上K. 这时候我们发现已经存在一条从0节点出发的边的首字符为K, 没必要画蛇添足了. 换句话说, 新加入的后缀K可以在0节点和2节点之间的隐式节点中找到. 最终形态见图5.图5加入BOOKK之后的BOOKKEEPER相比图4, 树的结构没有发生变化如果你是一位敏感的读者, 可能要发问了, 如果加入K我们什么都不做的话, 在查找的时候如何知道它到底是一个后缀呢还是某个后缀的一截? 如果你同时又是一位熟悉字符串算法的朋友, 心里可能马上就有答案了 --- 我们只需要在文本后面加个字母表以外的字符, 比如$或者#. 那我们查找到K$或K#的话就说明这是一个后缀了. 稍微麻烦一点的事情从图4到图5这个更新过程是相对简单的, 其中我们执行了两种更新: 一种是将某条边延长, 另一种是啥都不做. 但接下来往图5继续加入BOOKKE, 我们则会遇到另外两种更新:1. 创建一个新节点来割开某一隐式节点所处的边, 并在其后加一条新边.2. 在显式节点后加一条新边.图6先分割, 再添加当我们往图5的树中加入BOOKKE的时候, 我们是从已存在的最长后缀BOOKK开始, 一直操作到最短的后缀空后缀. 更新最长的后缀必然是更新叶节点, 之前提到了, 非常简单. 除此之外, 图5中结束在叶节点上的后缀还有OOKK, OKK, KK. 图6的第一棵树展示了这一类节点的更新.图5中首个不是结束在叶节点上的后缀是K. 这里我们先引入一个定义:在每次更新后缀树的过程中, 第一个非叶节点称为激活节点. 它有以下性质:1. 所有比激活节点长的后缀都在叶节点上结束.2. 所有在激活节点之后加入的后缀都不在叶节点上结束.后缀K在边KKE上的隐式节点结束. 在后缀树中我们要判断一个节点是不是非叶节点需要看它是否有跟待加入字符相同的儿子, 即本例中的E.一眼可以看出, KKE中的第一个K只有一个儿子: K. 所以它是非叶节点(这里同时也是激活节点), 我们要给他加一个儿子来表示E. 这个过程有两个步骤:1. 在第一个K和第二个K之间把边分割开, 于是第一个K(隐式节点)成了一个显式节点, 如图6第二棵树.2. 在刚刚变身而来的显式节点后加一个新节点表示E, 如图6第三棵树. 由此我们又多了一个叶节点.后缀K更新之后, 别忘了还有空后缀. 空后缀在根节点(节点0)结束, 显然此时根节点是一个显式节点. 我们看一下它后面有没有以E开头的边---没有, 那么加入一个新的叶节点(如果存在以E开头的边, 则不用任何操作). 最终如图7.图7归纳, 反思, 优化借助后缀树的特性, 我们可以做出一个相当有效的算法. 首先一个重要的特性是: 一朝为叶, 终生为叶. 一个叶节点自诞生以后绝不会有子孙. 更重要的是, 每当我们往树上加入一个新的前缀, 每一条通往叶节点的边都会延长一个字符(新前缀的最后一个字符). 这使得处理通往叶节点的边变得异常简单, 我们完全可以在创建叶节点的时候就把当前字符到文本末的所有字符一股脑塞进去. 是的, 我们不需要知道后面的字符是啥, 但我们知道它们最终都要被加进去. 因此, 一个叶节点诞生的时候, 也正是它可以被我们遗忘的时候. 你可能会担心通往叶节点的边被分割了怎么办, 那也不要紧, 分割之后只是起点变了, 尾部该怎么着还是怎么着.如此一来, 我们只需要关心显式节点和隐式节点上的更新.还要提到一个节约时间的方法. 当我们遍历所有后缀时, 如果某个后缀的某个儿子跟待加字符(新前缀最后一个字符)相同, 那么我们当前前缀的所有更新就可以停止了. 如果你理解了后缀树的本质, 你会知道一旦待加字符跟某个后缀的某个儿子相同, 那么更短的后缀必然也有这个儿子. 我们不妨把首个这样的节点定义为结束节点. 比结束节点长的后缀必然是叶节点, 这一点很好解释, 要么本来就是叶节点, 要么就是新创建的节点(新创建的必然是叶节点). 这意味着, 每一个前缀更新完之后, 当前的结束节点将成为下一轮更新的激活节点.好了, 现在我们可以把后缀树的更新限制在激活节点和结束节点之间, 效率有了很大的改善. 整理成伪代码如下:PLAIN TEXTC:1. Update( 新前缀 )2. {3. 当前后缀 = 激活节点4. 待加字符 = 新前缀最后一个字符5. done = false;6. while ( !done ) {7. if ( 当前后缀在显式节点结束 ) {8. if ( 当前节点后没有以待加字符开始的边 )9. 在当前节点后创建一个新的叶节点10. else11. done = true;12. } else {13. if ( 当前隐式节点的下一个字符不是待加字符 ) {14. 从隐式节点后分割此边15. 在分割处创建一个新的叶节点16. } else17. done = true;18. if ( 当前后缀是空后缀 )19. done = true;20. else21. 当前后缀 = 下一个更短的后缀22. }23. 激活节点 = 当前后缀24. }后缀指针上面的伪代码看上去很完美, 但它掩盖了一个问题. 注意到第21行, “下一个更短的后缀”, 如果呆板地沿着树枝去搜索我们想要的后缀, 那这种算法就不是线性的了. 要解决此问题, 我们得附加一种指针: 后缀指针. 后缀指针存在于每个结束在非叶节点的后缀上, 它指向“下一个更短的后缀”. 即, 如果一个后缀表示文本的第0到第N个字符, 那么它的后缀指针指向的节点表示文本的第1到第N个字符.图8是文本ABABABC的后缀树. 第一个后缀指针在表示ABAB的节点上. ABAB的后缀指针指向表示BAB的节点. 同样地, BAB也有它的后缀指针, 指向AB. 如此这般.图8加上后缀指针(虚线)的ABABABC的后缀树介绍一下如何创建后缀指针. 后缀指针的创建是跟后缀树的更新同步的. 随着我们从激活节点移动到结束节点, 我把每个新的叶节点的父亲的路径保存下来. 每当创建一条新边, 我同时也在上一个叶节点的父亲那儿创建一个后缀指针来指向当前新边开始的节点. (显然, 我们不能在第一条新边上做这样的操作, 但除此之外都可以这么做.)有了后缀指针, 就可以方便地一个后缀跳到另一个后缀. 这个关键性的附加品使得算法的时间上限成功降为O(N).参考文献E.M. McCreight. A space-economical suffix tree construction algorithm. Journal of the ACM, 23:262-272, 1976.E. Ukkonen. On-line construction of suffix trees. Algorithmica, 14(3):249-260, September 1995.。
一种有效的后缀树建立方法
一种有效的后缀树建立方法
一种有效的后缀树建立方法,是一种高效的字符串查询算法,它可以快速地检索出文本中的所有子串。
后缀树也被称之为“字符串树”或“Trie树”,是一种多叉树,其中的每个节点都表示一个字符,每条路径从根节点到某个叶节点表示一个单词或字符串。
建立后缀树的过程是:首先将字符串中的每个后缀以一个节点的形式插入到树中,然后对每个节点,建立它们之间的链接。
例如,如果一个字符串包含三个后缀:“ab”,“bc”和“cd”,那么就会有3个节点,每个节点都指向另一个节点,并且从根节点到叶节点的路径就是字符串的正确排列。
后缀树的建立过程非常有效,因为它可以在线性时间内完成,即O(n)的时间复杂度,其中n是字符串的长度。
它能够有效地解决字符串中的子串查找问题,而不用去浪费大量的时间。
后缀树也可以被用在很多其他的应用场景中,比如文本搜索、文本压缩、字符串匹配等。
由于它的高效性,它已经成为解决文本搜索问题的有力工具。
用一种有效的后缀树建立方法来构建一棵后缀树,要求字符串S的长度为n,首先从第一个字符开始,将S的每
个子串都插入到树中,同时也将S的每个前缀插入到树中,当每个子串插入完毕后,就能构建出一棵完整的后缀树,其中从根节点到叶节点的路径表示S的所有子串,而从根节点到叶节点的路径上每个字符表示S的每个前缀。
建立完一棵后缀树以后,对于任意一个子串都可以以O(m)的时间复杂度在树中找到,其中m是子串的长度。
因此,后缀树可以帮助用户快速地查找文本中的所有子串。
总的来说,一种有效的后缀树建立方法非常有效,它可以帮助用户快速地查找文本中的子串,而且其建立过程的时间复杂度也很低。
一种有效的后缀树建立方法
E l e c t r o n i c S c i . &T e c h . / O c t . 1 5.2 0 1 3
一
种 有效 的后 缀 树 建 立 方 法
黄 影
7 1 0 0 6 8 )
( 西 安文理学院 数学与计算机工程 学院 ,陕西 西安
出 了一种 后缀 树 建 立算 法 , 其 最 坏情 况 下 的 时 间复 杂 度为 O ( n l o g n ) 。文 献 [ 2 ] 提 出 过 一 种 时 间 复 杂 度 为
定义 2
是 由字 母 表 中的 字符 和特 殊 字 符 ¥组
成 的字 符 串 , 也 就是说 T= ¥。
可 以在线 性 时 间构 建后 缀 树 , 但 由于都 引入 了后 缀 链 的概 念 , 造 成 了“ 内存 瓶 颈 ” 问题 J 。本 文基 于前 人 的 理 论 思想 提 出一 种称 为分 步 建 立 后 缀 树 的方 法 , 这 种 建 立后 缀树 的方法 继承 了前 面提 到 的 自顶 向下建 立 后 缀 树 的思 想 , 无 需 借 助 后 缀 链 就 可 以在 线 性 时 间构 建 后 缀树 , 这 样就 可 以使 “ 内存 瓶 颈 ” 问题 在某 种 程 度 上
Ab s t r a c t A t o p・ d o wn me t h o d o f c o n s t r u c t i o n f o r s u f ix f t r e e s s t e p b y s t e p i s p r e s e n t e d. F i r s t l y, a l l t h e s u f ix f e s o f a s t r i n g a y e s o r t e d b y s o r t i n g a c c o r d i n g t o l e x i c o g r a p h i c a l o r d e r .S e c o n d l y, t h e l o n g e s t c o mmo n p r e ix f e s o f a l l p a i r s
后缀树与后缀数组
• 显然, LCP(Suffix(i+1), Suffix(j+1)) = max(h[k]-1,0);
i i+1
j j+1
• 设i+1在sa中位置为t,sa[t+1] = p 即h[t] = LCP(suffix(i+1),suffix(p)) • 由suffix(i) < suffix (j) => suffix(i+1) < suffix(j+1) • 而suffix(p) 在sa数组中的位置紧贴着suffix(i+1),所以有 suffix(i+1) < suffix(p) <= suffix(j+1) • 而LCP(suffix(i+1),suffix(j+1)) = max(h[k]-1,0) 下标:1 2 3 4 5 Sa数组
– 当i超过字符串的长度,可以认为s[i] = -oo。
• 后缀:指从某个位置i开始到整个串结束的一个 特殊子串。字符串S的从i个字符开始的后缀记为 Suffix(i)。
– 显然,Suffix(i) = S[i..len(S)],记为S(i)
• 字符串的大小比较:例如串S与串T,从小到大 枚举i,如果s[i] < t[i] => S < T, 如果s[i] > t[i] => S > T。 两个串完全匹配则S== T
• 名次数组:名次数组Rank[i]保存的是 Suffix(i) 在所有后缀中从小到大排 列的“名次”。 可以视为大小
– 简单来说,名次数组就是问“你排第几”
• 显然,两者只要知道一个,就可以推出另外 一个
下标:1
2
后缀树
一个后缀树
下图是序列S=xabxa$对应的后缀树
后缀树的标签
1.路径的标签:我们称一个路径对应的序 列叫路径的标签。 2.一个节点的标签:从根节点到这个节点 的路径对应的序列。 比如上图中路径Rw4对应的标签是 ‘xa$’,而节点w对应的标签是‘xa’
隐含后缀树
1.序列xabxa就没有后缀树因为后缀xa刚好 是后缀xabxa的前缀 2. 因此标签为序列xa的路径并不是叶节点, 此时xabxa没有后缀树 3. 为了解决这一问题,通常我们在序列末 尾加上一个$字符(不同于序列中出现的 任何字符)以解决这个问题
简单Ukkonon 算法
Ukkonon 算法的实现
对简单的UKKonon的算法经过改进,构造 算法可以达到线性
后缀树的用途
1.序列比对 2. 聚类分析 3. 建立索引
后缀树代码
/download/mast erluo/670335 /downloads144/ebo ok/detail627054.html
隐含后缀树(续)
序列S的隐含后缀树指的是,序列S$的后 缀树去掉那些有$的边上的$符号,然后将 空白的边去掉得Naï algorithm ve Weiner’s algorithm McCreight’s algorithm Ukkonon’s algorithm
什么是后缀
后缀树定义
一个长度为m的序列S的后缀树是一个有根定 向树,别且满足下面条件 1. 它刚好有m个叶节点。 2. 除了根节点之外的每一个内节点至少有两 个子节点,并且每条边都对应S的一个非 空子序列。 3. 任何从一个内节点出发的两条边对应的子 序列的第一个字符都不同。 4. 每一条从根节点出发到叶子节点的路径对 应序列S的一个后缀。
冬令营讲稿_刘汝佳partI
情况1
整棵树没有一点变化!
– 结构显然不变 – 边标号和扩展前完全一样:从k到当前字符
[?,-]
生长点(非结点) 生长点(结点) 普通结点
情况2(a)
[k,-]
生长点(非结点) 生长点(结点) 普通结点
情况2(b)
t [i,j] [k,-] [i,i+t-1] [i+t,j]
生长点(非结点) 生长点(结点) 普通结点
后缀Trie查找举例
4 c a 5 x r a b x b a b x a x P c a c 3 1 c 2 xabxac
c 6
边标记和终结符$
后缀Trie有很多局部链.其实对于查找来说 完全可以把局部链合并成一个结点,这样 既节省空间也缩短查找时间 规定叶子和后缀一一对应,但对于aaaaa...
�
后缀树的线性时间构造
字符串的集合: Trie 从后缀Trie到后缀树 Ukkonen算法: 思想和简单实现 三阶段定理 完整的Ukkonen算法
字符串的集合: Trie
下图是{he, she, his, hers}的Trie
h
e i
1
r s e 2
s
4
s h
3
Trie的构造和查找(1)
后缀树的构造
前缀树与后缀树了解前缀树和后缀树的应用与实现
前缀树与后缀树了解前缀树和后缀树的应用与实现前缀树与后缀树:了解前缀树和后缀树的应用与实现在计算机科学领域中,有两种重要的数据结构,即前缀树(Trie树)和后缀树,它们被广泛应用于字符串处理、搜索引擎和自然语言处理等领域。
本文将介绍前缀树和后缀树的定义、应用以及实现方式。
一、前缀树前缀树,又称为Trie树,是一种特殊的多叉树,用于存储和快速检索字符串数据集。
前缀树的每个节点代表一个字符,从根节点到叶节点的路径构成一个完整的字符串。
每个节点包含指向子节点的指针,并用于在树中快速确定特定字符串的存在。
前缀树的一个主要应用是前缀匹配,即根据前缀快速查找以该前缀开头的所有字符串。
这在自动补全、拼写检查和搜索引擎的关键字建议中起着重要作用。
前缀树的实现可以使用数组、链表或哈希表等不同的数据结构,根据实际情况选择最适合的方式。
二、后缀树后缀树是一种特殊的树型数据结构,用于处理字符串集合中的后缀匹配问题。
与前缀树不同的是,后缀树是输入字符串的后缀的一种压缩表示方式。
通过构建后缀树,可以快速地确定一个字符串在字符串集合中的出现次数、最长公共子串等信息。
后缀树的应用非常广泛,比如字符串匹配、模式搜索和基因组序列分析等。
其高效的存储和查询性能使得后缀树成为处理大规模文本的理想解决方案。
后缀树的构建算法较为复杂,主要有朴素算法和Ukkonen算法等。
通过合理选择算法和数据结构,可以在合理的时间和空间复杂度内构建高效的后缀树。
三、前缀树与后缀树的应用与实现1. 字符串搜索与匹配:前缀树和后缀树可以用于快速确定一个字符串是否存在于给定的字符串集合中,并且可以高效地进行模式匹配和搜索操作。
2. 自动补全和拼写检查:通过构建前缀树,可以实现自动补全和拼写纠错功能,提升用户体验。
例如,当用户输入部分关键字时,前缀树可以快速返回与该前缀相关的所有可能的完整词语。
3. 文本处理和搜索引擎:后缀树在搜索引擎中扮演着重要角色,能够快速检索出包含特定关键字的文档。
[算法]后缀树suffixtree
[算法]后缀树suffixtree⼀、后缀树其实是把⼀个单词所有的后缀都加上的⼀棵经过合并简化的字典树(trie tree)。
如"mississip",其实就是在字典树中插⼊了"mississip","ississip","ssissip",sissip","issip","ssip","sip","ip","p"。
这棵字典树已经可以完成后缀树的功能,只是它的空间复杂度极⾼。
⼆、后缀树就是把上⾯字典树中不同的分⽀合并成字符串三、如何在O(N)时间内建⽴suffix tree考虑字典树的建⽴⽅法,假设要插⼊的字符长度为n,如果每次插⼊后缀树都要遍历所有的n个后缀,复杂度是O(N^3)。
如需要插⼊“mississip”,则mmi,imis,is,smiss,iss,ss(本来还有⼀个s,但s已经包含在ss中了)…………如此类推,每次迭代插⼊单词的⼀个字符,如此字符的分⽀不存在则新开辟⼀个。
当要插⼊第五个i时,missi,issi,ssi,i。
问题就来了,因为上⾯忽略了⼀个s,所以其实这⾥就少了si这个分⽀。
如果需要解决这个漏分⽀的问题,直观的⽅法是每次插⼊⼀个字符都遍历它前⾯的所有后续,但这个效率太低。
解决⽅法是,如当前的后缀树有k个分⽀(叶⼦),则只需考虑最后n-k长的后缀即可。
原因是按照上⾯的算法每次插⼊⼀个字符,如已有3个分⽀,则单词的前3个后缀肯定存在,后⾯的就不确定了。
如此时miss,iss,ss这三个分⽀肯定存在。
例如现有3个分⽀,需要插⼊"missi"长为5的单词,现在需要插⼊i,则只需检查5-3=2最后2个的后续,就是si和i。
就是(1)在已有的3个分⽀中直接加上新的i,missi,issi,ssi(2)检查最后2个的后续,si不存在,i不存在,因此再加上这两个分⽀使⽤此⽅法,建⽴后缀树的复杂度为O(n)。
后缀数据结构
听说是后缀数组的经典题?!QAQ
Poj1743—最长不重叠重复子串 Poj3294—出现次数超过一半的最长子串 Poj3261—重复k次可重叠子串。 SPOJ694/705 本质不同的子串个数 最长回文子串 Poj2406—字符串最小循环节 Poj3693—连续重复次数最多的子串 Poj 2774 –两(任意多)个串的最长公共连续子串 Poj3415—长度不小于K的公共子串个数(*) Spoj220—每个字符串中至少出现两次且不重叠的最长子串 —出现或反转后出现在至少K个字符串中的最长子串 BZOJ3172: [Tjoi2013]单词 BZOJ3230: 相似子串 BZOJ3238: [Ahoi2013]差异
广义后缀树
对于字符串集合T={t1,t2…tn}的广义后缀树,是一个 压缩字典树(trie)其中包含了T中每一个字符串的所有的后 缀。 简而言之,就是一个将所有字符串的所有后缀插入Trie树 并进行路径压缩之后形成的树结构。
广义后缀树的附加记录信息
①包含后缀树的所有信息 ②通过记录每个后缀结点的属于哪个字符串可以对不同串分类统 计 ③广义后缀树中存在的字符串至少一个字符串的子串。 ④字符串出现了几次→广义后缀树中对应结点所在子树后缀结点 数
具有神奇性质的题
BZOJ1031: [JSOI2007]字符加密Cipher BZOJ1396: 识别子串 BZOJ2780: [Spoj]8093 Sevenk Love Oimaster BZOJ2806: [Ctsc2012]Cheat BZOJ3277: 串 BZOJ3473: 字符串 BZOJ3413: 匹配 BZOJ3676: [Apio2014]回文串 BZOJ2119: 股市的预测 Codeforces 316G3 Good Substrings BZOJ2555: SubString(LCT) 支持往后+个字符,询问一个串出现次数,回到第i个操作结束 的时候,必须在线.(总长度<=20w,操作数<=10w,时限 3s.)
后缀树的应用PPT课件
生物信息学概论讲义
.
17
后缀树的应用
❖ 遇难者身份识别问题 解决方案
(1) 构建包含数据库中所有字符串的广义后缀树 O(n) (2) 遍历建立的广义后缀树, 发现字符串Q的所有发生
位置 O(m+occ)
生物信息学概论讲义
.
18
后缀树的应用
❖ 最长公共前缀 问题定义
给定长度为n的字符串S, 对任意的位置i和j, 发现S中 Suffi和Suffj的最长公共前缀的长度
解决方案
(1) 构建字符串S的后缀树 O(n) (2) 输出Suffi和Suffj字符串深度最大的公共祖先 O(1)
生物信息学概论讲义
.
19
后缀树的应用
❖ 回文问题 生物应用
特殊位点识别(如: 限制性酶剪切位点)
问题定义
(1) 给定长度为n的字符串S, 发现S中所有最大的回文 (2) 给定长度为n的字符串S, 发现S中所有最大的互补
(3) 后缀树结构出现之前,算法的时间复杂度为O(n2) 利用后缀树之后,算法的时间复杂度变为O(n)
生物信息学概论讲义
.
6
后缀树的应用
❖ 最长重复子串(LRS) 例 给定S=acacag, 发现S中的最长重复子串
$ a
7 Q
1
5 2
3
生物信息学概论讲义
.
6 S中的最长重复子串为aca 4
7
后缀树的应用
问题定义
给定长度为n的字符串S, 对任意长度为m的查询Q, 要 求发现S中所有Q的发生位置
生物信息学概论讲义
.
2
后缀树的应用
❖ 精确字符匹配(ESM) 解决方案
预处理:构建字符串S的后缀树 O(n) 查询: (1) 自根向下, 根据路径标识向下匹配查询Q至节点x。
后缀树的设计与构造
2019年第6期信息与电脑China Computer & Communication算法语言后缀树的设计与构造赵美勇 史昊臻 朱珍珍(山东科技大学,山东 济南 266590)摘 要:后缀树是处理字符串的一个优秀算法。
利用图像化设计可使后缀树更加清晰。
按照递推的思路,建立前i 个字符对应的后缀树,通过插入第i+1个字符的方式,建立前i+1个字符对应的后缀树。
由于字符串的任意子串都可以表示为某个后缀的前缀,因此可以设定当前节点为根节点。
父节点取子节点中贡献最大的节点,同时,记录其对应的字符串。
关键词:后缀树;数据结构;时间复杂度中图分类号:TP399 文献标识码:A 文章编号:1003-9767(2019)06-052-02Design and Construction of Suffix TreesZhao Meiyong, Shi Haozhen, Zhu Zhenzhen(Shandong University of Science and Technology, Jinan Shandong 266590, China)Abstract: Suffix tree is an excellent algorithm for string processing. The suffix tree can be clearer by image design. According tothe recursive thinking, the suffix tree corresponding to the first I characters is established, and the suffix tree corresponding to the first I + 1 characters is established by inserting the first I + 1 characters. Since any substring of a string can be represented as a prefix of a suffix, the current node can be set as the root node. The parent node takes the node that contributes the most to the child node, and records its corresponding string.Key words: suffix tree; data structure; time complexity0 引言字符串处理是计算机中很重要的问题,尤其在自然语言处理中。
后缀树简介
后缀树一、字符串匹配1、字符串匹配问题的形式定义●文本(Text)是一个长度为n的数组T[1...n];●模式(Pattern)是一个长度为m且m≤n的数组P[1…m];●T和P中的元素都属于有限的字母表(alphabet);●如果0≤s≤n-m,并且T[s+1…S+m]=P[1…m],即对1≤j≤m,有T[s+j]=P[j],则说模式P在文本T中出现且位移为s,且称s是一个有效位移(validshift)。
如上图中,目标是找出所有在文本T=abcabaabcabac中模式P=abaa的所有出现。
该模式在此文中仅出现一次,即在位移s=3处,位移s=3是一个有效位移。
2、解决字符串匹配问题的常见算法●朴素的字符串匹配算法(NativeStringMatchingAlgorithm)●Knuth-Morris-Pratt字符串匹配算法(即KMP算法)●Boyer-Moore字符串匹配算法字符串匹配算法通常分为两个步骤:预处理(Preprocessing)和匹配(Matching)。
所以算法的总运行时间为预处理和匹配的时间的总和。
下面描述了常见字符串匹配算法的预处理和匹配时间。
上述字符串匹配算法均是通过对模式(Pattern)字符串进行预处理的方式来加快搜索速度。
对Pattern进行预处理的最优复杂度为O(m),其中m为Pattern字符串的长度。
而后缀树(SuffixTree)是一种对Text进行预处理的字符串匹配算法。
二、字典树(Trie)1、字典树定义字典树(Trie):是一种很特别的树状信息检索数据结构,如同其名,它的构成就像一本字典,可以让你快速的进行字符插入,字符搜索等。
字典树的核心思想是空间换时间,所以数据结构本身比较消耗空间。
但它利用了字符串的共同前缀(CommonPrefix)作为存储依据,以此来节省存储空间,并加速搜索时间。
Trie的字符串搜索时间复杂度为O(m),m 为最长字符串的长度,其查询性能与集合中的字符串的数量无关。
后缀树——精选推荐
后缀树后缀树内容提要本章主要介绍了后缀树的来源以及后缀树的应⽤背景,给出了后缀树的定义、性质、特征以及构造⽅法等理论基础,通过最长回⽂的查找、⼦串的查找等实例进⼀步说明了后缀树的特征及⽤途。
引⾔在计算机科学中,后缀树(也叫做PA T树,早期的形式是位置树)是⼀种数据结构,在某种程度上,它可以显⽰出⼀个给定字符串的后缀,且对于很多的字符串操作它能够⾮常快的实现。
字符串S的后缀树是这样⼀棵树,它的所有边都是⽤字符串来标⽰的,这样字符串S 的每⼀后缀都恰好的对应⼀条从根到叶⼦节点的路径。
这是以字符串S为后缀的基数树,更具体地说,这是⼀颗帕特⾥夏树。
为字符串S构造⼀颗这样的树耗费的时间和空间与字符串的长度呈线性关系。
这样的树⼀旦构造完成,⼏个操作能够被很快的执⾏,例如,在字符串S中定位⼀个字串,在允许⼀定数量的错误前提下定位⼀个字串,为⼀个标准表达式模式定位匹配的问题等等。
后缀树也为最⼤公共字串问题提供了⼀个第⼀线性时间的解决⽅案。
这种速度的提升带来了⼀定的开销:存储⼀个字符串的后缀树⽐存储字符串本⾝需要更⼤的空间。
历史在1973年,后缀树的概念是以位置树的形式被weiner⾸先提出来,随后Donald Knuth 称它为1973年的年度算法。
分别在1976年和1995年,McCreight和Ukkonen对它的结构进⾏了很⼤程度的简化。
Ukkonen提供了后缀树的第⼀个⽹络建设,即现在熟知的Ukkonen 算法,它是运⾏时间是最快的算法。
对于恒定⼤⼩的字母表来说,这些算法的运⾏时间都是线性的,并且⼀般情况下,它们的最坏的运⾏时间是O(n long n)。
在1997年Farach给出了第⼀个后缀树构造算法,对于所有的字母表,它都是最佳的。
特别的,对来⾃于⼀个多项式范围内的⼀个整数的字母表的字符串,这是第⼀个线性时间算法。
Farach算法成为了构造后缀树和后缀树组的新算法的基础,例如,在外部存储器中,它是压缩的和简洁的。
生物信息学-构建后缀树-文档
基本序列算法序列算法序列算法:为研究生物序列而开发出的计算复杂度尽可能低的算法。
生物序列:包括核酸序列,蛋白质序列或其他由生物问题转化而来的数字串或字符串。
比如:如何从序列中快速准确的找到重复序列构建后缀树序列S: SDSDFSDFG 后缀=S1≤i≤n,S i+1,S i+2,…,S n n=length(S)序列S: SDSDFSDFG$1: SDSDFSDFG$2: DSDFSDFG$3: SDFSDFG$ 4: DFSDFG$ 5: FSDFG$ 6: SDFG$ 7: DFG$8: FG$9: G$10: $后缀就是包含最后一个字符的子序列。
序列S: SDSDFSDFG 后缀=S1≤i≤n,S i+1,S i+2,…,S n n=length(S)序列S: SDSDFSDFG$1: SDSDFSDFG$2: DSDFSDFG$3: SDFSDFG$ 4: DFSDFG$ 5: FSDFG$ 6: SDFG$ 7: DFG$8: FG$9: G$10: $最后一个字符后面还要加上一个$,表示结尾。
序列S: SDSDFSDFG 后缀=S1≤i≤n,S i+1,S i+2,…,S n n=length(S)序列S: SDSDFSDFG$1: SDSDFSDFG$2: DSDFSDFG$3: SDFSDFG$ 4: DFSDFG$ 5: FSDFG$ 6: SDFG$ 7: DFG$8: FG$9: G$10: $序列本身就是自己的一个子序列。
序列S: SDSDFSDFG 后缀=S1≤i≤n,S i+1,S i+2,…,S n n=length(S)序列S: SDSDFSDFG$1: SDSDFSDFG$2: DSDFSDFG$3: SDFSDFG$ 4: DFSDFG$ 5: FSDFG$ 6: SDFG$ 7: DFG$8: FG$9: G$10: $后缀2=S2,S3,…,S10序列S: SDSDFSDFG 后缀=S1≤i≤n,S i+1,S i+2,…,S n n=length(S)序列S: SDSDFSDFG$1: SDSDFSDFG$2: DSDFSDFG$3: SDFSDFG$ 4: DFSDFG$ 5: FSDFG$ 6: SDFG$ 7: DFG$8: FG$9: G$10: $后缀3=S3,S4,…,S10序列S: SDSDFSDFG 后缀=S1≤i≤n,S i+1,S i+2,…,S n n=length(S)序列S: SDSDFSDFG$1: SDSDFSDFG$2: DSDFSDFG$3: SDFSDFG$ 4: DFSDFG$ 5: FSDFG$ 6: SDFG$ 7: DFG$8: FG$9: G$10: $后缀i=S i,S i+1,…,S10序列S: SDSDFSDFG 后缀=S1≤i≤n,S i+1,S i+2,…,S n n=length(S)序列S: SDSDFSDFG$1: SDSDFSDFG$2: DSDFSDFG$3: SDFSDFG$ 4: DFSDFG$ 5: FSDFG$ 6: SDFG$ 7: DFG$8: FG$9: G$10: $后缀$是序列S最短的一个后缀。
后缀树和后缀数组
后缀树和后缀数组基本概念子串:字符串S的子串S[i..j],i?j,表示S串中从i到j这一段,也就是顺次排列S[i],S[i+1],...,S[j]形成的字符串。
字符集:一个字符集Σ是一个建立了全序关系的集合,也就是说,Σ中的任意两个不同的元素α和β都可以比较大小,要么α<β,要么β<α(也就是α>β)。
字符集Σ中的元素称为字符。
字符串:一个字符串S是将n个字符顺次排列形成的数组,n称为S的长度,表示为len(S)。
S的第i个字符表示为S[i]。
子串:字符串S的子串S[i..j],i?j,表示S串中从i到j这一段,也就是顺次排列S[i],S[i+1],...,S[j]形成的字符串。
后缀:后缀是指从某个位置i开始到整个串末尾结束的一个特殊子串。
字符串S 的从i开头的后缀表示为Suffix(i),也就是Suffix(i)=S[i..len(S)] 例如S = mississippi,那么它的所有后缀为:Suffix(1) = mississippi = SSuffix(2) = ississippiSuffix(3) = ssissippiSuffix(4) = sissippiSuffix(5) = issippiSuffix(6) = ssippiSuffix(7) = sippiSuffix(8) = ippiSuffix(9) = ppiSuffix(10) = piSuffix(11) = iSuffix(12) = (empty)不难发现,S的任意一个子串一定是某一个后缀的前缀。
字符串的大小比较:指通常所说的“字典顺序”比较,也就是对于两个字符串u、v,令i从1开始顺次比较u[i]和v[i],如果u[i]=v[i]则令i加1,否则若u[i]<v[i]则认为u<v,u[i]>v[i]则认为u>v(也就是v<u),比较结束。
如果i>len(u)或者i>len(v)仍比较出结果,那么若len(u)<len(v)则认为u<v,若len(u)=len(v)则认为u=v,若len(u)>len(v)则u>v。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
后缀树讲义
1.基本定义
a. 后缀:一个长度为m 的序列m s s s s S .....321=,记m i i i s s s S .....1+=为S 的第i 个后缀,显然1S =S 。
b. 后缀树:一个长度为m 的序列S 的后缀树是一个有根定向树,别且满足下面条件
① 它刚好有m 个叶节点。
② 除了根节点之外的每一个内节点至少有两个子节点,并且每条边都对应S 的一个非空子序列。
③ 任何从一个内节点出发的两条边对应的子序列的第一个字符都不同。
④ 每一条从根节点出发到叶子节点的路径对应序列S 的一个后缀。
第四个条件是后缀树的主要特征。
图1:序列xabxa$对应的后缀树
c. 路径的标签:我们称一个路径对应的序列叫路径的标签。
d. 一个节点的标签:从根节点到这个节点的路径对应的序列。
注:并不是所有的序列都对应有后缀树,比如序列xabxa 就没有后缀树因为后缀xa 刚好是后缀xabxa 的前缀,因此标签为序列xa 的路径并不是叶节点,此时xabxa 没有后缀树,为
了解决这一问题,通常我们在序列末尾加上一个$字符(不同于序列中出现的任何字符)以解决这个问题,因为此时任何一个后缀都不可能是另外一个后缀的前缀。
e. 隐含后缀树:序列S 的隐含后缀树指的是,序列S$的后缀树去掉那些有$的边上的$符
号,然后将空白的边去掉得到的树。
图2:xabxa 的隐含后缀树。
2.后缀树的构造
后缀树的构造方法有很多种,其中Ukkonen ’s 算法是最容易理解的而且其时间和空间复杂度都是线性的,这里我们只讲这种算法。
该算法根据S 的前缀i s s s s .....321构建一个隐含后缀树i Γ,当I =m 的时候m Γ就是S 的后缀树,因此Ukkonen ’s 算法可以被分成m 个阶段,在第I+1个阶段,根据i Γ构建树1+Γi ,而每一个阶段又被分成I +1个扩展,其中的第j 个扩张确认S[j,j+1…I +1],11+≤≤i j ,即].....1[i S 序列的第j 个后缀在树中。
算法过程如下:
Ukkonen ‘s 后缀树构造算法
构建后缀树1Γ
I 从1到m
第I+1阶段开始
j从1到I+1
开始{第j个扩展}
在现在的已经构建好的树中找到从根节点出发的标签为S[j…i],如果需
要的话将S[I+1]加到这条路径后面确认S[j…I+1]在树中。
第j个扩展结束。
第I+1个阶段结束。
后缀扩展规则
令S[j…I]=β, β是S[1..i]的一个后缀,第j步扩展的主要任务是确保序列β,S[I+1]在树中
规则1路径β是以一个叶子节点结束的,此时直接将S[I+1]加到叶子节点上面即可。
规则2β后面没有路径以S[I+1]开始但是至少有一个路径是β的延续。
此时如果β在一个内节点终止,则我们需要重新建一个叶子节点作为这个内节点的子节点并且它对应的路径标签是S[I+1]。
当β是在一条边的中间的时候,此时除了建一个叶子节点之外还要建一个从根出发的标签为β的内节点。
规则3有某个从β末端出发的路径是以S[I+1]开始的,此时我们什么也不用做。
图3:axabxb的后缀树。
上面算法的时间复杂度分析:
一般情况下下,我们要花)(βO 的时间才能找到路径β,因此第I+1阶段的第j 个扩展消耗时间是O (I+1-j)因此1+Γi 可以经过O(2
i )的时间从i Γ扩展得到,因此构建m Γ的时间复杂度是O(3m )。
Ukknonen 的算法是在这个简单算法的基础上,经过改进实现线性时间的。
后缀链接:第一个加速技巧
后缀链接:令αx 为任意一个字符串,其中x 为任意一个字符,α为任意一个字符串(可以为空),对一个路径标签为αx 的内节点v ,如果有另外一个内节点s(v)的路径标签是α,那么一个从v 指向s(v)的指针被称为后缀链接。
命题1:如果一个新的路径标签αx 为内节点v 在第I +1个阶段的j 个扩展中被加进树中,那么要么路径标签为α的内节点已经在树中存在,要么在第j +1个扩展中会出现。
证明:内节点的出现只可能在扩展j 实现的是规则二的时候,也就是说,此时路径αx 后面有某个字符c 而不是S[I+1],因此在扩展j +1中肯定有一个路径的标签为α,但后面跟的是字符c 。
此时有两种情况,一种是α后面只有c 字符,另外一种情况是α后面跟着其它字符。
第二种情况s(v)节点肯定已经存在,第一种情况下,根据规则二,一个新的内节点s(v)将会被创建。
故定理得证。
推论:在Ukknonen 算法中任何一个刚被创建得节点v 到下一个扩展为止都将有一个后缀链接从它出发。
为将S[j..i]扩展到S[j …I +1],重复下面得做法,从后缀树中路径S[j-1..i]的末端出发,我们最多移动一个节点到树的根节点或者是有后缀链接的内节点。
令γ是那条边的标签,如果v 不是根节点,沿着后缀链接到S(v):然后沿着边的标签γ到路径S[j..i]的末尾,然后按照扩展规则完成由S[j..i]到S[j …I +1]的扩展。
单步扩展算法(single extension algorithm ):SEA 1. 查找与S[j-1..i]对应的节点,或者是在该子串末端之上的那个节点v ,要么节点有一个后
缀链接,要么就是根节点,这就最多需要指针挪动一个位置。
令γ为v 和S[j..i]的末端之间对应的路径。
2. 如果v 不是根节点,指针转移到v 的后缀链接S(v)上,然后沿着γ对应的路径。
如果v
是根节点,直接查找S[j..i]对应的路径。
3. 根据扩展规则,确保S[j..i]S[I+1]在树中。
4. 如果在扩展j -1中出现一个新的内节点w ,则根据定理必然有一个后缀链接从w 指向S
(w )。
后缀链接的使用并没有降低运算复杂度。
要降低复杂度,需要下面的技巧。
技巧1:跳边技巧
在第j +1个扩张中,沿着节点S (v )下一条标签为γ的路径,时间复杂度为γO . 但是根据后缀树的定义,一个节点出发的几条路径开始的字符不可能相同,因此γ的第一个字符必须是那条与γ对应的边的第一个字符。
令'g 为这条边上的字符个数,γ=g ,如果g g <',我们可以跳过这条边,令'g g g -=,1'+=g h 然后重复上面的过程,直到将γ路径完全遍历为止。
因此我们查找γ的时间复杂度跟γ的长度没有关系,而只和从这条路径上面的节点个数有关。
深度:一个节点u 的深度是从树根出发到这个节点的路径上面的所有节点的个数。
命题2:如果(v, s(v))为一个后缀链接,则v 的深度最多比S (v )的深度大1。
证明:(略),(根据后缀链接的定义)。
定理:使用跳边技巧,算法的每一个阶段的时间复杂度都是O (m ).
证明: 根据上面的算法实现过程,在单个扩展算法中,我们主要的操作就是从一个节点跳到另外一个节点,因此只要我们分析一下深度变化就可以了。
单步扩展算法中向上最多跳一个节点,深度最多减少1,当沿着后缀链接跳的时候深度也是作多减一。
因此在整个阶段当前节点的深度变化最多为2m 次,而没有一个节点的深度可以超过m ,故整个阶段的时间复杂度为O (m )。
推论:利用后缀链接,Ukkonen 算法的时间复杂度为O (2
m )。
后缀树的两个重要特征:
1. 如果一个节点是一个叶子节点,那么它将一直是一个叶子节点。
(没有任何操作将一个
叶子节点改为内节点的)
2. 规则3是一个停止规则。
(一旦规则三实施,没有必要再查找下去)
两个技巧:
1. 我们可以在常数时间内完成对叶子节点的扩张,用一个全局变量指向所有叶子节点的末
尾。
2. 一旦规则三被使用,则这个阶段就结束了。
单阶段算法(single phase algorithm ):SPA
1. 将e 加1
2. 用SEA 从1+i j 开始一直到*j (规则三实施,或者I +1阶段所有的扩展都已经完成)。
3. 令1*1-=+j j i 准备下一个阶段。
步骤3是因为原来序列的扩展总是在规则3被使用的时候结束的。
整个算法的时间复杂度分析(线性复杂度)。
显著扩展和模糊扩展。
该算法所有阶段的模糊扩展都在常数时间内完成。