后缀树的构造方法-Ukkonen详解
后缀树
后缀树的构造
算法所用符号描述 S=需要构造后缀树的字符串 Si=从第i个字符开始的后缀 N(Si)=Si在后缀树中对应的叶节点 P(Si)=N(Si)的父节点 G(Si)=P(Si)的父节点,即N(Si)的祖父 SL(p)=p的后缀连接所指向的节点 W(p, q)=从p到q所经过的字符串 root=后缀树的根节点
后缀树的构造
算法流程:定义SL(root)=root,首先插入S,此时后缀树 中仅有两个节点。 设已经插入了Si,现要插入Si+1。分情况讨论: 1)P(Si)在插入Si之前已经存在。则P(Si)有后缀连接。令 u=SL(P(Si))。从u开始沿着树往下查找,在合适的地方插 入新的节点。 2)P(Si)是在插入Si的过程中产生的。此时G(Si)必定存在 并有后缀连接。令u=SL(G(Si),w=W(G(Si),P(Si))。从u 开始,对w进行快速定位找到节点v(注意,v可能需要通 过分割边来得到)。令SL(P(Si))指向v。从v开始沿着树往 下查找,在合适的地方插入新的节点。 不断重复以上过程,即可完成整棵后缀树的构造。
后缀树的应用1
举例:在banana中查找a一次T,必定对应着一个不同的后缀, 而这所有的后缀又都有着共同的前缀T。因 此这些后缀在S的后缀树中必定属于某一棵 子树。这棵子树的叶子数便等于T在S中出 现的次数。
后缀树的应用2
举例:统计banana中出现an的次数
感性认识后缀树
banana所对应的后缀树如下:
Trie
为了更好地理解后缀树,我们先来看一种 被称为Trie的数据结构。下图是一个典型的 Trie:
Trie的定义
Trie是一种搜索树,可用于存储并查找字符 串。Trie的每一条边都对应一个字符。在 Trie中查找字符串S时,只需依次枚举S的 每个字符,同时从Trie的根节点开始选择相 应的边往下走。如果枚举完的同时到达Trie 的叶子节点,说明S存在于Trie中。如果未 到达叶子节点或者枚举中途发现没有任何 对应的边,说明S没有被包含在Trie中。
后缀树的构造方法-Ukkonen详解
后缀树的构造方法-Ukkonen详解问题的来源字符串匹配问题是程序员经常要面对的问题. 字符串匹配算法的改进可以使许多工程受益良多, 比如数据压缩和DNA排列. 这篇文章讨论的是一种相对鲜为人知的数据结构 --- 后缀树, 并介绍它是如何通过自身的特性去解决一些复杂的匹配问题.你可以把自己想象成一名工作于DNA排列工程的程序员. 那些基因研究者们天天忙着分切病毒的基因材料, 制造出一段一段的核苷酸序列. 他们把这些序列发到你的服务器里, 指望你在基因数据库中定位. 要知道, 你的数据库里有数百种病毒的数据,而一个特定的病毒可以有成千上万的碱基. 你的程序必须像C/S工程那样实时向博士们反馈信息, 这需要一个很好的方案.很明显, 在这个问题上采取暴力算法是极其低效的. 这种方法需要你在基因数据库里对比每一个核苷酸, 测试一个较长的基因段基本会把你的C/S系统变成一台古老的批处理机.直觉上的解决方法由于基因数据库一般是不变的, 通过预处理来把搜索简化或许是个好主意. 一种预处理的方法是建立一棵Trie. 我们通过Trie引申出一种东西叫作后缀Trie. (后缀Trie离后缀树仅一步之遥.) 首先, Trie是一种n叉树, n为字母表大小, 每个节点表示从根节点到此节点所经过的所有字符组成的字符串. 而后缀Trie的 “后缀” 说明这棵Trie包含了所给字段的所有后缀 (也许正是一个病毒基因).图1BANANAS的后缀Trie图1展示了文本BANANAS的后缀Trie. 关于这棵Trie有两个地方需要注意. 第一, 从根节点开始, BANANAS的每一个后缀都插入到Trie中, 包括BANANAS, ANANAS, NANAS, ANAS, NAS, AS, S. 第二, 鉴于这种结构, 你可以通过从根节点往下匹配的方式搜索到单词的任何一个子串.这里所说的第二点正是我们认为后缀Trie优秀的原因. 如果你输入一个长度为N的文本并想在其中搜索一个长度为M的串, 传统的暴力匹配需要进行N*M次字符对比, 而一些改进过的匹配技术, 比如像Boyer-Moore算法, 可以在O(N+M)的时间开销内解决问题, 平均效率更是令人满意. 然而, 后缀Trie亮出了O(M)的牌子, 彻底鄙视了其他算法的成绩, 后缀Trie对比的次数仅仅相当于被搜索串的长度!这确实是可圈可点的威力, 这意味着你能通过仅仅7次对比便在莎士比亚所有作品中找出BANANAS. 但有一点我们可不能忘了, 构造后缀Trie也是需要时间的.后缀Trie之所以没有家喻户晓正是因为构造它需要O(n2)的时间和空间. 平方级的开销使它在最需要它的领域 --- 长串搜索中被拒之门外.横空出世直到1976年, Edward McCreigh发表了一篇论文, 咱们的后缀树问世了. 后缀Trie的困境被彻底打破.后缀树跟后缀Trie有着一样的布局, 但它把只有一个儿子的节点给剔除了. 这个过程被称为路径压缩, 这意味着树上的某些边将表示一个序列而不是单独的字符.图2BANANAS的后缀树图2是由图1的后缀Trie转化而来的后缀树. 你会发现这树基本还是那个形状, 只是节点变少了. 在剔除了只有一个儿子的节点之后, 总节点数由23降为11. 经过证明, 在最坏情况下, 后缀树的节点数也不会超过2N (N为文本的长度). 这使构造后缀树的线性时空开销成为可能.然而, McCreight最初的构造法是有些缺陷的, 原则上它要按逆序构造, 也就是说字符要从末端开始插入. 如此一来, 便不能作为在线算法, 它变得更加难以应用于实际问题, 如数据压缩.20年后, 来自赫尔辛基理工大学的Esko Ukkonen把原算法作了一些改动, 把它变成了从左往右. 本文接下来的所有描述和代码都是基于Esko Ukkonen的成果.对于所给的文本T, Esko Ukkonen的算法是由一棵空树开始, 逐步构造T的每个前缀的后缀树. 比如我们构造BANANAS的后缀树, 先由B开始, 接着是BA, 然后BAN, … . 不断更新直到构造出BANANAS的后缀树.图3逐步构造后缀树初窥门径加入一个新的前缀需要访问树中已有的后缀. 我们从最长的一个后缀开始(图3中的BAN), 一直访问到最短的后缀(空后缀). 每个后缀会在以下三种节点的其中一种结束.l 一个叶节点. 这个是常识了, 图4中标号为1, 2, 4, 5的就是叶节点.l 一个显式节点. 图4中标号为0, 3的是显式节点, 它表示该节点之后至少有两条边.l 一个隐式节点. 图4中, 前缀BO, BOO, 或者非前缀OO, 它们都在某条表示序列的边上结束, 这些位置就叫作隐式节点. 它表示后缀Trie中存在的由于路径压缩而剔除的节点. 在后缀树的构造过程中, 有时要把一些隐式节点转化为显式节点.图4加入BOOK之后的BOOKKEEPER(也就是BOOK的后缀树)如图4, 在加入BOOK之后, 树中有5个后缀(包括空后缀). 那么要构造下一个前缀BOOKK的后缀树的话, 只需要访问树中已存在的每一个后缀, 然后在它们的末尾加上K.前4个后缀BOOK, OOK, OK和K都在叶节点上结束. 由于我们要路径压缩, 只需要在通往叶节点的边上直接加一个字符, 而不需要创建一个新节点.在所有叶节点更新之后, 我们还需要在空后缀后面加上K. 这时候我们发现已经存在一条从0节点出发的边的首字符为K, 没必要画蛇添足了. 换句话说, 新加入的后缀K可以在0节点和2节点之间的隐式节点中找到. 最终形态见图5.图5加入BOOKK之后的BOOKKEEPER相比图4, 树的结构没有发生变化如果你是一位敏感的读者, 可能要发问了, 如果加入K我们什么都不做的话, 在查找的时候如何知道它到底是一个后缀呢还是某个后缀的一截? 如果你同时又是一位熟悉字符串算法的朋友, 心里可能马上就有答案了 --- 我们只需要在文本后面加个字母表以外的字符, 比如$或者#. 那我们查找到K$或K#的话就说明这是一个后缀了. 稍微麻烦一点的事情从图4到图5这个更新过程是相对简单的, 其中我们执行了两种更新: 一种是将某条边延长, 另一种是啥都不做. 但接下来往图5继续加入BOOKKE, 我们则会遇到另外两种更新:1. 创建一个新节点来割开某一隐式节点所处的边, 并在其后加一条新边.2. 在显式节点后加一条新边.图6先分割, 再添加当我们往图5的树中加入BOOKKE的时候, 我们是从已存在的最长后缀BOOKK开始, 一直操作到最短的后缀空后缀. 更新最长的后缀必然是更新叶节点, 之前提到了, 非常简单. 除此之外, 图5中结束在叶节点上的后缀还有OOKK, OKK, KK. 图6的第一棵树展示了这一类节点的更新.图5中首个不是结束在叶节点上的后缀是K. 这里我们先引入一个定义:在每次更新后缀树的过程中, 第一个非叶节点称为激活节点. 它有以下性质:1. 所有比激活节点长的后缀都在叶节点上结束.2. 所有在激活节点之后加入的后缀都不在叶节点上结束.后缀K在边KKE上的隐式节点结束. 在后缀树中我们要判断一个节点是不是非叶节点需要看它是否有跟待加入字符相同的儿子, 即本例中的E.一眼可以看出, KKE中的第一个K只有一个儿子: K. 所以它是非叶节点(这里同时也是激活节点), 我们要给他加一个儿子来表示E. 这个过程有两个步骤:1. 在第一个K和第二个K之间把边分割开, 于是第一个K(隐式节点)成了一个显式节点, 如图6第二棵树.2. 在刚刚变身而来的显式节点后加一个新节点表示E, 如图6第三棵树. 由此我们又多了一个叶节点.后缀K更新之后, 别忘了还有空后缀. 空后缀在根节点(节点0)结束, 显然此时根节点是一个显式节点. 我们看一下它后面有没有以E开头的边---没有, 那么加入一个新的叶节点(如果存在以E开头的边, 则不用任何操作). 最终如图7.图7归纳, 反思, 优化借助后缀树的特性, 我们可以做出一个相当有效的算法. 首先一个重要的特性是: 一朝为叶, 终生为叶. 一个叶节点自诞生以后绝不会有子孙. 更重要的是, 每当我们往树上加入一个新的前缀, 每一条通往叶节点的边都会延长一个字符(新前缀的最后一个字符). 这使得处理通往叶节点的边变得异常简单, 我们完全可以在创建叶节点的时候就把当前字符到文本末的所有字符一股脑塞进去. 是的, 我们不需要知道后面的字符是啥, 但我们知道它们最终都要被加进去. 因此, 一个叶节点诞生的时候, 也正是它可以被我们遗忘的时候. 你可能会担心通往叶节点的边被分割了怎么办, 那也不要紧, 分割之后只是起点变了, 尾部该怎么着还是怎么着.如此一来, 我们只需要关心显式节点和隐式节点上的更新.还要提到一个节约时间的方法. 当我们遍历所有后缀时, 如果某个后缀的某个儿子跟待加字符(新前缀最后一个字符)相同, 那么我们当前前缀的所有更新就可以停止了. 如果你理解了后缀树的本质, 你会知道一旦待加字符跟某个后缀的某个儿子相同, 那么更短的后缀必然也有这个儿子. 我们不妨把首个这样的节点定义为结束节点. 比结束节点长的后缀必然是叶节点, 这一点很好解释, 要么本来就是叶节点, 要么就是新创建的节点(新创建的必然是叶节点). 这意味着, 每一个前缀更新完之后, 当前的结束节点将成为下一轮更新的激活节点.好了, 现在我们可以把后缀树的更新限制在激活节点和结束节点之间, 效率有了很大的改善. 整理成伪代码如下:PLAIN TEXTC:1. Update( 新前缀 )2. {3. 当前后缀 = 激活节点4. 待加字符 = 新前缀最后一个字符5. done = false;6. while ( !done ) {7. if ( 当前后缀在显式节点结束 ) {8. if ( 当前节点后没有以待加字符开始的边 )9. 在当前节点后创建一个新的叶节点10. else11. done = true;12. } else {13. if ( 当前隐式节点的下一个字符不是待加字符 ) {14. 从隐式节点后分割此边15. 在分割处创建一个新的叶节点16. } else17. done = true;18. if ( 当前后缀是空后缀 )19. done = true;20. else21. 当前后缀 = 下一个更短的后缀22. }23. 激活节点 = 当前后缀24. }后缀指针上面的伪代码看上去很完美, 但它掩盖了一个问题. 注意到第21行, “下一个更短的后缀”, 如果呆板地沿着树枝去搜索我们想要的后缀, 那这种算法就不是线性的了. 要解决此问题, 我们得附加一种指针: 后缀指针. 后缀指针存在于每个结束在非叶节点的后缀上, 它指向“下一个更短的后缀”. 即, 如果一个后缀表示文本的第0到第N个字符, 那么它的后缀指针指向的节点表示文本的第1到第N个字符.图8是文本ABABABC的后缀树. 第一个后缀指针在表示ABAB的节点上. ABAB的后缀指针指向表示BAB的节点. 同样地, BAB也有它的后缀指针, 指向AB. 如此这般.图8加上后缀指针(虚线)的ABABABC的后缀树介绍一下如何创建后缀指针. 后缀指针的创建是跟后缀树的更新同步的. 随着我们从激活节点移动到结束节点, 我把每个新的叶节点的父亲的路径保存下来. 每当创建一条新边, 我同时也在上一个叶节点的父亲那儿创建一个后缀指针来指向当前新边开始的节点. (显然, 我们不能在第一条新边上做这样的操作, 但除此之外都可以这么做.)有了后缀指针, 就可以方便地一个后缀跳到另一个后缀. 这个关键性的附加品使得算法的时间上限成功降为O(N).参考文献E.M. McCreight. A space-economical suffix tree construction algorithm. Journal of the ACM, 23:262-272, 1976.E. Ukkonen. On-line construction of suffix trees. Algorithmica, 14(3):249-260, September 1995.。
Python入门篇-数据结构树(tree)篇
Python⼊门篇-数据结构树(tree)篇 Python⼊门篇-数据结构树(tree)篇 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任。
⼀.树概述1>.树的概念⾮线性结构,每个元素可以有多个前躯和后继树是n(n>=0)个元素的集合:n = 0时,称为空树树只有⼀个特殊的没有前驱的元素,称为树的根root树中除了根结点外,其余元素只能有⼀个前驱,可以有零个或者多个后继递归定义:数T是n(n>=0)个元素的集合。
n=0时,称为空树有且只有⼀个特殊元素根,剩余元素都可以被划分为m个互不相交的集合T1,T2,T3,...,Tm,⽽每⼀个集合都是树,称为T的⼦树subtree⼦树也有⾃⼰的根2>.数的相关术语结点: 树中的数据元素。
结点的度degree: 结点拥有的⼦树的数⽬称为度,记作d(v)。
叶⼦结点: 结点的度为0,称为叶⼦结点leaf,终端结点,末端结点。
分⽀结点: 结点的度不为0,称为⾮终端结点或分⽀结点。
分⽀: 结点之间的关系。
内部结点: 除根结点外的分⽀结点,当然也不包括叶⼦结点。
如下图所⽰,数的度是树内各结点的度的最⼤值。
D结点度最⼤为3,树的度数就是3. 孩⼦结点(⼉⼦Child)结点: 结点的⼦树的根结点称为该结点的孩⼦。
双亲(⽗Parent)结点: ⼀个结点是它各⼦树的根结点的双亲。
兄弟(Sibling)结点: 具有相同双亲结点的节点。
祖先节点: 从根结点到该结点所有分⽀上所有的节点,如上图所⽰:A,B,D都是G的祖先结点。
⼦孙结点: 结点的所有⼦树上的结点称为该结点的⼦孙。
B的⼦孙是D,G,H,I结点的层次(Level): 根节点为第⼀层,根的孩⼦为第⼆层,以此类推,记作L(v)。
树的深度(⾼度Depth): 树的层次的最⼤值。
上图的树深度为4.堂兄弟: 双亲在同⼀层的结点。
有序树: 结点的⼦树是有顺序的(兄弟有⼤⼩,有先后次序),不能交换。
一种有效的后缀树建立方法
一种有效的后缀树建立方法
一种有效的后缀树建立方法,是一种高效的字符串查询算法,它可以快速地检索出文本中的所有子串。
后缀树也被称之为“字符串树”或“Trie树”,是一种多叉树,其中的每个节点都表示一个字符,每条路径从根节点到某个叶节点表示一个单词或字符串。
建立后缀树的过程是:首先将字符串中的每个后缀以一个节点的形式插入到树中,然后对每个节点,建立它们之间的链接。
例如,如果一个字符串包含三个后缀:“ab”,“bc”和“cd”,那么就会有3个节点,每个节点都指向另一个节点,并且从根节点到叶节点的路径就是字符串的正确排列。
后缀树的建立过程非常有效,因为它可以在线性时间内完成,即O(n)的时间复杂度,其中n是字符串的长度。
它能够有效地解决字符串中的子串查找问题,而不用去浪费大量的时间。
后缀树也可以被用在很多其他的应用场景中,比如文本搜索、文本压缩、字符串匹配等。
由于它的高效性,它已经成为解决文本搜索问题的有力工具。
用一种有效的后缀树建立方法来构建一棵后缀树,要求字符串S的长度为n,首先从第一个字符开始,将S的每
个子串都插入到树中,同时也将S的每个前缀插入到树中,当每个子串插入完毕后,就能构建出一棵完整的后缀树,其中从根节点到叶节点的路径表示S的所有子串,而从根节点到叶节点的路径上每个字符表示S的每个前缀。
建立完一棵后缀树以后,对于任意一个子串都可以以O(m)的时间复杂度在树中找到,其中m是子串的长度。
因此,后缀树可以帮助用户快速地查找文本中的所有子串。
总的来说,一种有效的后缀树建立方法非常有效,它可以帮助用户快速地查找文本中的子串,而且其建立过程的时间复杂度也很低。
后缀树简介
该讲稿耗时约1.5小时。
1. 后缀树Gusfield : 关于字符串,树和序列的算法Weiner 73“线性模式匹配算法”IEEE 自动控制及转换会议McCreight 76 “一种节约空间的后缀树构造算法”JACM23(2) 1976Chen 和 Seifras 85“高级高效的后缀树构造”Apostolico/Galil 《关于单词的组合算法》 其它的用于字符串的“查找”结构基本问题:“模式”(长度为)到“文本”(长度为)匹配m n z 目标:判断给定的字符串(“模式”)是否是文本的子串z 可能以连接短字符串的形式产生,比如报纸z 在IR 方面的应用,还有在计算生物学方面的应用(DNA 序列)z 如果模式比文本可靠,可以构造DFA ,其运行时间与文本长度成线性关系z 如果文本比模式可靠,可以构造后缀树,其运行时间与模式长度成线性关系 z 在计算生物学中的应用第一种想法:基于字符串的二叉树。
因为对模式进行多次重复操作故而效率低下。
z 分散层叠?z 意识到每个节点只需要一个字符!Tries:z 类似桶堆的办法:用有限字母表∑。
z以前的方法:字符串字典 z树中的孩子均通过“字母表”索引 z搜索与要查找的字符串长度相等的字符串所需要的时间 z重复插入 z最优化,因为哈希需要时间。
z但是没有“哈希函数”,所以需要更好的算法 z 空间是个问题– 采用数组会增加大小为∑的存储消耗– 采用基于字母表的二叉树会增加log ∑的搜索时间– 对于“常字母表”可行– 如果真的很繁琐,可以在每个节点用哈希表z 最差情况下的大小:单词长度的总和(漂亮地解决了“字典”问题)但是子串呢?z 想法:包含所有的个子字符串的trie2n z 等价于包含所有个后缀的trien z 在末尾添上“记号”,所以其它子串没有后缀(否则,某些后缀可以是一个内部节点,被其它后缀段“隐藏”)z 意味着每个后缀一个叶子z 原始创建方法:插入每个后缀z 基本算法:– 文本1...n a a– 定义...i i s a a =n |– for =1 toi n – 插入i s z 时间,空间()O n 更好的构造方法:z 注意到trie 的大小可以变得更小:.aaaaaaa z 时间复杂度为的算法()O n z 想法:避免“存储”带来的重复操作z 还可以采用少量指针搜索树的办法——使用引用定位z 假设只插入aw z 接着插入饿是w z 的大前缀可能已经存在于trie 中w z 避免遍历:跳到前缀的末尾后缀连接:z Trie 中的任何一个节点对应字符串z 将代表的节点指向代表x 的节点ax z 假设只要插入aw z 上溯树直到找到后缀连接z 跟随后缀连接(将你带到代表的路径上)w z 沿着树向下走(增加节点)插入的剩余部分w 存储:(保存你的工作)z 可以为我们走过的所有节点增加后缀连接z (因为走完串的时候,正好走到w )aw z 实施计划:上溯一个节点以创建后缀链接z 向上遍历也适用于(相同长度的)向下遍历z 一旦节点有了后缀链接,不会再次经过z 因此,所有用于向上/下遍历所花费的时间等于后缀链接的数目z 每个节点一个后缀链接,因此时间为(||)O T 至此演讲进行了半个小时。
后缀树与后缀数组
• 显然, LCP(Suffix(i+1), Suffix(j+1)) = max(h[k]-1,0);
i i+1
j j+1
• 设i+1在sa中位置为t,sa[t+1] = p 即h[t] = LCP(suffix(i+1),suffix(p)) • 由suffix(i) < suffix (j) => suffix(i+1) < suffix(j+1) • 而suffix(p) 在sa数组中的位置紧贴着suffix(i+1),所以有 suffix(i+1) < suffix(p) <= suffix(j+1) • 而LCP(suffix(i+1),suffix(j+1)) = max(h[k]-1,0) 下标:1 2 3 4 5 Sa数组
– 当i超过字符串的长度,可以认为s[i] = -oo。
• 后缀:指从某个位置i开始到整个串结束的一个 特殊子串。字符串S的从i个字符开始的后缀记为 Suffix(i)。
– 显然,Suffix(i) = S[i..len(S)],记为S(i)
• 字符串的大小比较:例如串S与串T,从小到大 枚举i,如果s[i] < t[i] => S < T, 如果s[i] > t[i] => S > T。 两个串完全匹配则S== T
• 名次数组:名次数组Rank[i]保存的是 Suffix(i) 在所有后缀中从小到大排 列的“名次”。 可以视为大小
– 简单来说,名次数组就是问“你排第几”
• 显然,两者只要知道一个,就可以推出另外 一个
下标:1
2
后缀树构造方法讲义
后缀树讲义1.基本定义a. 后缀:一个长度为m 的序列m s s s s S .....321=,记m i i i s s s S .....1+=为S 的第i 个后缀,显然1S =S 。
b. 后缀树:一个长度为m 的序列S 的后缀树是一个有根定向树,别且满足下面条件① 它刚好有m 个叶节点。
② 除了根节点之外的每一个内节点至少有两个子节点,并且每条边都对应S 的一个非空子序列。
③ 任何从一个内节点出发的两条边对应的子序列的第一个字符都不同。
④ 每一条从根节点出发到叶子节点的路径对应序列S 的一个后缀。
第四个条件是后缀树的主要特征。
图1:序列xabxa$对应的后缀树c. 路径的标签:我们称一个路径对应的序列叫路径的标签。
d. 一个节点的标签:从根节点到这个节点的路径对应的序列。
注:并不是所有的序列都对应有后缀树,比如序列xabxa 就没有后缀树因为后缀xa 刚好是后缀xabxa 的前缀,因此标签为序列xa 的路径并不是叶节点,此时xabxa 没有后缀树,为了解决这一问题,通常我们在序列末尾加上一个$字符(不同于序列中出现的任何字符)以解决这个问题,因为此时任何一个后缀都不可能是另外一个后缀的前缀。
e. 隐含后缀树:序列S 的隐含后缀树指的是,序列S$的后缀树去掉那些有$的边上的$符号,然后将空白的边去掉得到的树。
图2:xabxa 的隐含后缀树。
2.后缀树的构造后缀树的构造方法有很多种,其中Ukkonen ’s 算法是最容易理解的而且其时间和空间复杂度都是线性的,这里我们只讲这种算法。
该算法根据S 的前缀i s s s s .....321构建一个隐含后缀树i Γ,当I =m 的时候m Γ就是S 的后缀树,因此Ukkonen ’s 算法可以被分成m 个阶段,在第I+1个阶段,根据i Γ构建树1+Γi ,而每一个阶段又被分成I +1个扩展,其中的第j 个扩张确认S[j,j+1…I +1],11+≤≤i j ,即].....1[i S 序列的第j 个后缀在树中。
DNA序列中基于适应性后缀树的重复体识别算法
DNA序列中基于适应性后缀树的重复体识别算法霍红卫;王小武【期刊名称】《计算机学报》【年(卷),期】2010(033)004【摘要】现有的在DNA序列中识别重复体的算法多数是基于比对的,对识别速度和吞吐量有很大的限制.针对这个问题文中根据一个平衡重复体的长度和频率的定义,提出了一种基于Ukkonen后缀树的快速识别重复体的RepSeeker算法.算法采用最低限制频率,最大程度地扩展了重复体的长度,同时为了进一步地提高RepSeeker算法的效率,对Ukkonen的后缀树构造算法进行了适应性改进,在构造时加入RepSeeker算法所需的结点信息并将叶子结点和分支结点加以区分,从而使得RepSeeker算法能通过直接读取结点信息来求得子串频率和子串位置.这种改进较大地提高了RepSeeker算法的性能,而且空间开销不大.实验中使用了NCBI中的9条典型DNA序列作为测试数据,并对后缀树改进前后的重复体识别算法做了比较分析.结果表明,RepSeeker在没有损失精度的情况下缩短了算法的运行时间.实验结果与理论上的分析一致.【总页数】8页(P747-754)【作者】霍红卫;王小武【作者单位】西安电子科技大学计算机学院,西安,710071;西安电子科技大学计算机学院,西安,710071【正文语种】中文【中图分类】TP18【相关文献】1.基于后缀树的中文新闻重复网页识别算法 [J], 钱爱兵;江岚2.基于后缀树的重复文档检测 [J], 冯金波3.人类重复DNA序列多态性:在21三体不分离遗传学研究中的应用 [J], 连小华4.基于后缀树的重复文档检测 [J], 冯金波5.基于广义后缀树的最长重复子模式算法 [J], 柳渤;李建中因版权原因,仅展示原文概要,查看原文内容请购买。
冬令营讲稿_刘汝佳partI
情况1
整棵树没有一点变化!
– 结构显然不变 – 边标号和扩展前完全一样:从k到当前字符
[?,-]
生长点(非结点) 生长点(结点) 普通结点
情况2(a)
[k,-]
生长点(非结点) 生长点(结点) 普通结点
情况2(b)
t [i,j] [k,-] [i,i+t-1] [i+t,j]
生长点(非结点) 生长点(结点) 普通结点
后缀Trie查找举例
4 c a 5 x r a b x b a b x a x P c a c 3 1 c 2 xabxac
c 6
边标记和终结符$
后缀Trie有很多局部链.其实对于查找来说 完全可以把局部链合并成一个结点,这样 既节省空间也缩短查找时间 规定叶子和后缀一一对应,但对于aaaaa...
�
后缀树的线性时间构造
字符串的集合: Trie 从后缀Trie到后缀树 Ukkonen算法: 思想和简单实现 三阶段定理 完整的Ukkonen算法
字符串的集合: Trie
下图是{he, she, his, hers}的Trie
h
e i
1
r s e 2
s
4
s h
3
Trie的构造和查找(1)
后缀树的构造
前缀树与后缀树了解前缀树和后缀树的应用与实现
前缀树与后缀树了解前缀树和后缀树的应用与实现前缀树与后缀树:了解前缀树和后缀树的应用与实现在计算机科学领域中,有两种重要的数据结构,即前缀树(Trie树)和后缀树,它们被广泛应用于字符串处理、搜索引擎和自然语言处理等领域。
本文将介绍前缀树和后缀树的定义、应用以及实现方式。
一、前缀树前缀树,又称为Trie树,是一种特殊的多叉树,用于存储和快速检索字符串数据集。
前缀树的每个节点代表一个字符,从根节点到叶节点的路径构成一个完整的字符串。
每个节点包含指向子节点的指针,并用于在树中快速确定特定字符串的存在。
前缀树的一个主要应用是前缀匹配,即根据前缀快速查找以该前缀开头的所有字符串。
这在自动补全、拼写检查和搜索引擎的关键字建议中起着重要作用。
前缀树的实现可以使用数组、链表或哈希表等不同的数据结构,根据实际情况选择最适合的方式。
二、后缀树后缀树是一种特殊的树型数据结构,用于处理字符串集合中的后缀匹配问题。
与前缀树不同的是,后缀树是输入字符串的后缀的一种压缩表示方式。
通过构建后缀树,可以快速地确定一个字符串在字符串集合中的出现次数、最长公共子串等信息。
后缀树的应用非常广泛,比如字符串匹配、模式搜索和基因组序列分析等。
其高效的存储和查询性能使得后缀树成为处理大规模文本的理想解决方案。
后缀树的构建算法较为复杂,主要有朴素算法和Ukkonen算法等。
通过合理选择算法和数据结构,可以在合理的时间和空间复杂度内构建高效的后缀树。
三、前缀树与后缀树的应用与实现1. 字符串搜索与匹配:前缀树和后缀树可以用于快速确定一个字符串是否存在于给定的字符串集合中,并且可以高效地进行模式匹配和搜索操作。
2. 自动补全和拼写检查:通过构建前缀树,可以实现自动补全和拼写纠错功能,提升用户体验。
例如,当用户输入部分关键字时,前缀树可以快速返回与该前缀相关的所有可能的完整词语。
3. 文本处理和搜索引擎:后缀树在搜索引擎中扮演着重要角色,能够快速检索出包含特定关键字的文档。
后缀数组及其应用
O(nlogn)
O(n)。
1、double_algorithm构造后缀数组;。。。。。O(nlogn) 2、线性计算出h[]数组,再逐个推出height[i];。。。O(n) 3、ST算法对height[]做预处理;。。。。。。。O(nlogn) 4、查询LCP(I,J)只需查询height[i…j]中的最小值 O(1)
关于RMQ问题(Range Minimum Query)
线段树等高级数据结构维护,O(nlogn)构造,O(logn) 查询,ST算法O(nlogn)构造,O(1)的查询。RMQ标准算法 O(n)构造,0(1)查询。
在信息竞赛中,均衡利弊还是ST实现简单,效率较高, 性价比高。 这样一来,我们可以在O(1)的时间内查询任意两个后缀的 最长公共前缀。这也是后缀数组最强大的功能之一。 貌似问题得到了解决,回顾刚才的过程,我们漏掉了一 个重要的过程——预处理排名相邻后缀 暴力枚举后缀再比较。时间显然超过了O(n)。我们希 望能在O(n)时间内解决这一问题
后缀数组的两种主流构造方法
倍增算法(Double Algorithm) O(nlogn)
三分算法(Difference Cover modulo 3 ) O(N)
倍增算法(Double Algorithm)
总体来说,倍增算法的思想与ST的思想差不多。将后缀 长度依次分为1,2,4,8,。。。,2^k进行排序。进行当 前排序时利用到上次的排序结果。
S=“BANANAS”。
BANANAS 的后缀树
BANANAS 的Trie
后缀树在处理字符串问题上有着得天独厚的空间优势和速 度优势,在最坏情况下, 后缀树的节点数也不会超过2N。主 流的构造方法是由Esko Ukkonen 于1995年发明的一种线 性构造法,理论时间复杂度为O(N)。非常优秀。
[算法]后缀树suffixtree
[算法]后缀树suffixtree⼀、后缀树其实是把⼀个单词所有的后缀都加上的⼀棵经过合并简化的字典树(trie tree)。
如"mississip",其实就是在字典树中插⼊了"mississip","ississip","ssissip",sissip","issip","ssip","sip","ip","p"。
这棵字典树已经可以完成后缀树的功能,只是它的空间复杂度极⾼。
⼆、后缀树就是把上⾯字典树中不同的分⽀合并成字符串三、如何在O(N)时间内建⽴suffix tree考虑字典树的建⽴⽅法,假设要插⼊的字符长度为n,如果每次插⼊后缀树都要遍历所有的n个后缀,复杂度是O(N^3)。
如需要插⼊“mississip”,则mmi,imis,is,smiss,iss,ss(本来还有⼀个s,但s已经包含在ss中了)…………如此类推,每次迭代插⼊单词的⼀个字符,如此字符的分⽀不存在则新开辟⼀个。
当要插⼊第五个i时,missi,issi,ssi,i。
问题就来了,因为上⾯忽略了⼀个s,所以其实这⾥就少了si这个分⽀。
如果需要解决这个漏分⽀的问题,直观的⽅法是每次插⼊⼀个字符都遍历它前⾯的所有后续,但这个效率太低。
解决⽅法是,如当前的后缀树有k个分⽀(叶⼦),则只需考虑最后n-k长的后缀即可。
原因是按照上⾯的算法每次插⼊⼀个字符,如已有3个分⽀,则单词的前3个后缀肯定存在,后⾯的就不确定了。
如此时miss,iss,ss这三个分⽀肯定存在。
例如现有3个分⽀,需要插⼊"missi"长为5的单词,现在需要插⼊i,则只需检查5-3=2最后2个的后续,就是si和i。
就是(1)在已有的3个分⽀中直接加上新的i,missi,issi,ssi(2)检查最后2个的后续,si不存在,i不存在,因此再加上这两个分⽀使⽤此⽅法,建⽴后缀树的复杂度为O(n)。
后缀数据结构
听说是后缀数组的经典题?!QAQ
Poj1743—最长不重叠重复子串 Poj3294—出现次数超过一半的最长子串 Poj3261—重复k次可重叠子串。 SPOJ694/705 本质不同的子串个数 最长回文子串 Poj2406—字符串最小循环节 Poj3693—连续重复次数最多的子串 Poj 2774 –两(任意多)个串的最长公共连续子串 Poj3415—长度不小于K的公共子串个数(*) Spoj220—每个字符串中至少出现两次且不重叠的最长子串 —出现或反转后出现在至少K个字符串中的最长子串 BZOJ3172: [Tjoi2013]单词 BZOJ3230: 相似子串 BZOJ3238: [Ahoi2013]差异
广义后缀树
对于字符串集合T={t1,t2…tn}的广义后缀树,是一个 压缩字典树(trie)其中包含了T中每一个字符串的所有的后 缀。 简而言之,就是一个将所有字符串的所有后缀插入Trie树 并进行路径压缩之后形成的树结构。
广义后缀树的附加记录信息
①包含后缀树的所有信息 ②通过记录每个后缀结点的属于哪个字符串可以对不同串分类统 计 ③广义后缀树中存在的字符串至少一个字符串的子串。 ④字符串出现了几次→广义后缀树中对应结点所在子树后缀结点 数
具有神奇性质的题
BZOJ1031: [JSOI2007]字符加密Cipher BZOJ1396: 识别子串 BZOJ2780: [Spoj]8093 Sevenk Love Oimaster BZOJ2806: [Ctsc2012]Cheat BZOJ3277: 串 BZOJ3473: 字符串 BZOJ3413: 匹配 BZOJ3676: [Apio2014]回文串 BZOJ2119: 股市的预测 Codeforces 316G3 Good Substrings BZOJ2555: SubString(LCT) 支持往后+个字符,询问一个串出现次数,回到第i个操作结束 的时候,必须在线.(总长度<=20w,操作数<=10w,时限 3s.)
后缀树的应用PPT课件
生物信息学概论讲义
.
17
后缀树的应用
❖ 遇难者身份识别问题 解决方案
(1) 构建包含数据库中所有字符串的广义后缀树 O(n) (2) 遍历建立的广义后缀树, 发现字符串Q的所有发生
位置 O(m+occ)
生物信息学概论讲义
.
18
后缀树的应用
❖ 最长公共前缀 问题定义
给定长度为n的字符串S, 对任意的位置i和j, 发现S中 Suffi和Suffj的最长公共前缀的长度
解决方案
(1) 构建字符串S的后缀树 O(n) (2) 输出Suffi和Suffj字符串深度最大的公共祖先 O(1)
生物信息学概论讲义
.
19
后缀树的应用
❖ 回文问题 生物应用
特殊位点识别(如: 限制性酶剪切位点)
问题定义
(1) 给定长度为n的字符串S, 发现S中所有最大的回文 (2) 给定长度为n的字符串S, 发现S中所有最大的互补
(3) 后缀树结构出现之前,算法的时间复杂度为O(n2) 利用后缀树之后,算法的时间复杂度变为O(n)
生物信息学概论讲义
.
6
后缀树的应用
❖ 最长重复子串(LRS) 例 给定S=acacag, 发现S中的最长重复子串
$ a
7 Q
1
5 2
3
生物信息学概论讲义
.
6 S中的最长重复子串为aca 4
7
后缀树的应用
问题定义
给定长度为n的字符串S, 对任意长度为m的查询Q, 要 求发现S中所有Q的发生位置
生物信息学概论讲义
.
2
后缀树的应用
❖ 精确字符匹配(ESM) 解决方案
预处理:构建字符串S的后缀树 O(n) 查询: (1) 自根向下, 根据路径标识向下匹配查询Q至节点x。
后缀树的设计与构造
2019年第6期信息与电脑China Computer & Communication算法语言后缀树的设计与构造赵美勇 史昊臻 朱珍珍(山东科技大学,山东 济南 266590)摘 要:后缀树是处理字符串的一个优秀算法。
利用图像化设计可使后缀树更加清晰。
按照递推的思路,建立前i 个字符对应的后缀树,通过插入第i+1个字符的方式,建立前i+1个字符对应的后缀树。
由于字符串的任意子串都可以表示为某个后缀的前缀,因此可以设定当前节点为根节点。
父节点取子节点中贡献最大的节点,同时,记录其对应的字符串。
关键词:后缀树;数据结构;时间复杂度中图分类号:TP399 文献标识码:A 文章编号:1003-9767(2019)06-052-02Design and Construction of Suffix TreesZhao Meiyong, Shi Haozhen, Zhu Zhenzhen(Shandong University of Science and Technology, Jinan Shandong 266590, China)Abstract: Suffix tree is an excellent algorithm for string processing. The suffix tree can be clearer by image design. According tothe recursive thinking, the suffix tree corresponding to the first I characters is established, and the suffix tree corresponding to the first I + 1 characters is established by inserting the first I + 1 characters. Since any substring of a string can be represented as a prefix of a suffix, the current node can be set as the root node. The parent node takes the node that contributes the most to the child node, and records its corresponding string.Key words: suffix tree; data structure; time complexity0 引言字符串处理是计算机中很重要的问题,尤其在自然语言处理中。
后缀树简介
后缀树一、字符串匹配1、字符串匹配问题的形式定义●文本(Text)是一个长度为n的数组T[1...n];●模式(Pattern)是一个长度为m且m≤n的数组P[1…m];●T和P中的元素都属于有限的字母表(alphabet);●如果0≤s≤n-m,并且T[s+1…S+m]=P[1…m],即对1≤j≤m,有T[s+j]=P[j],则说模式P在文本T中出现且位移为s,且称s是一个有效位移(validshift)。
如上图中,目标是找出所有在文本T=abcabaabcabac中模式P=abaa的所有出现。
该模式在此文中仅出现一次,即在位移s=3处,位移s=3是一个有效位移。
2、解决字符串匹配问题的常见算法●朴素的字符串匹配算法(NativeStringMatchingAlgorithm)●Knuth-Morris-Pratt字符串匹配算法(即KMP算法)●Boyer-Moore字符串匹配算法字符串匹配算法通常分为两个步骤:预处理(Preprocessing)和匹配(Matching)。
所以算法的总运行时间为预处理和匹配的时间的总和。
下面描述了常见字符串匹配算法的预处理和匹配时间。
上述字符串匹配算法均是通过对模式(Pattern)字符串进行预处理的方式来加快搜索速度。
对Pattern进行预处理的最优复杂度为O(m),其中m为Pattern字符串的长度。
而后缀树(SuffixTree)是一种对Text进行预处理的字符串匹配算法。
二、字典树(Trie)1、字典树定义字典树(Trie):是一种很特别的树状信息检索数据结构,如同其名,它的构成就像一本字典,可以让你快速的进行字符插入,字符搜索等。
字典树的核心思想是空间换时间,所以数据结构本身比较消耗空间。
但它利用了字符串的共同前缀(CommonPrefix)作为存储依据,以此来节省存储空间,并加速搜索时间。
Trie的字符串搜索时间复杂度为O(m),m 为最长字符串的长度,其查询性能与集合中的字符串的数量无关。
字符串匹配——字典树(Trie树)、后缀树(suffix
字符串匹配——字典树(Trie树)、后缀树(suffix tree)字典树(Trie树):它的优点是:利⽤字符串的公共前缀来减少查询时间,最⼤限度地减少⽆谓的字符串⽐较,查询效率⽐哈希表⾼。
字典树的特点:根节点不包含字符,除根节点外每⼀个节点都只包含⼀个字符;从根节点到某⼀节点,路径上经过的字符连接起来,为该节点对应的字符串;每个节点的所有⼦节点包含的字符都不相同。
字典树的创建1. 从根节点开始⼀次搜索2. 取得要查找关键词的第⼀个字母,并根据该字母选择对应的⼦树并转到该⼦树继续进⾏检索3. 在相应的⼦树上,取得要查找关键词的第⼆个字母,并进⼀步选择对应的⼦树进⾏检索4. 迭代过程...5. 在某个节点处,关键词的所有字母已被取出,则读取附在该节点上的信息,即完成查找字典树的应⽤1、字典树在串的快速检索中的应⽤#define MAX 26 //字符集⼤⼩typedef struct TrieNode {int nCount;struct TrieNode *next[MAX]; //每个节点⽤⼀个数组存储⼦节点}TrieNode;TrieNode Memory[1000000];int allocp =0;TrieNode *CreateTrieNode() {int i;TrieNode *p;p = &Memory[allocp++];p->nCount = 1;for(i =0 ; i < MAX ; i++) {p->next[i] = NULL;}return p;}void InsertTrie(TrieNode * &pRoot , char*s) { //插⼊ & 建树int i, k;TrieNode *p;if(!(p = pRoot)) {p = pRoot = CreateTrieNode();}i = 0;while(s[i]) {k = s[i++] - 'a';if(p->next[k])p->next[k]->nCount++;elsep->next[k] = CreateTrieNode();p = p->next[k];}}int SearchTrie(TrieNode * &pRoot , char*s) { //查询单词的出现次数TrieNode *p;int i , k;if(!(p = pRoot)) {return 0;}i = 0;while(s[i]) {k = s[i++] -'a';if(p->next[k] == NULL) return 0;p = p->next[k];}return p->nCount;}2. 字典树在“串”排序⽅⾯的应⽤给定N个互不相同的仅由⼀个单词构成的英⽂名,让你将他们按字典序从⼩到⼤输出⽤字典树进⾏排序,采⽤数组的⽅式创建字典树,这棵树的每个结点的所有⼉⼦很显然地按照其字母⼤⼩排序。
后缀树——精选推荐
后缀树后缀树内容提要本章主要介绍了后缀树的来源以及后缀树的应⽤背景,给出了后缀树的定义、性质、特征以及构造⽅法等理论基础,通过最长回⽂的查找、⼦串的查找等实例进⼀步说明了后缀树的特征及⽤途。
引⾔在计算机科学中,后缀树(也叫做PA T树,早期的形式是位置树)是⼀种数据结构,在某种程度上,它可以显⽰出⼀个给定字符串的后缀,且对于很多的字符串操作它能够⾮常快的实现。
字符串S的后缀树是这样⼀棵树,它的所有边都是⽤字符串来标⽰的,这样字符串S 的每⼀后缀都恰好的对应⼀条从根到叶⼦节点的路径。
这是以字符串S为后缀的基数树,更具体地说,这是⼀颗帕特⾥夏树。
为字符串S构造⼀颗这样的树耗费的时间和空间与字符串的长度呈线性关系。
这样的树⼀旦构造完成,⼏个操作能够被很快的执⾏,例如,在字符串S中定位⼀个字串,在允许⼀定数量的错误前提下定位⼀个字串,为⼀个标准表达式模式定位匹配的问题等等。
后缀树也为最⼤公共字串问题提供了⼀个第⼀线性时间的解决⽅案。
这种速度的提升带来了⼀定的开销:存储⼀个字符串的后缀树⽐存储字符串本⾝需要更⼤的空间。
历史在1973年,后缀树的概念是以位置树的形式被weiner⾸先提出来,随后Donald Knuth 称它为1973年的年度算法。
分别在1976年和1995年,McCreight和Ukkonen对它的结构进⾏了很⼤程度的简化。
Ukkonen提供了后缀树的第⼀个⽹络建设,即现在熟知的Ukkonen 算法,它是运⾏时间是最快的算法。
对于恒定⼤⼩的字母表来说,这些算法的运⾏时间都是线性的,并且⼀般情况下,它们的最坏的运⾏时间是O(n long n)。
在1997年Farach给出了第⼀个后缀树构造算法,对于所有的字母表,它都是最佳的。
特别的,对来⾃于⼀个多项式范围内的⼀个整数的字母表的字符串,这是第⼀个线性时间算法。
Farach算法成为了构造后缀树和后缀树组的新算法的基础,例如,在外部存储器中,它是压缩的和简洁的。
后缀树和后缀数组
后缀树和后缀数组基本概念子串:字符串S的子串S[i..j],i?j,表示S串中从i到j这一段,也就是顺次排列S[i],S[i+1],...,S[j]形成的字符串。
字符集:一个字符集Σ是一个建立了全序关系的集合,也就是说,Σ中的任意两个不同的元素α和β都可以比较大小,要么α<β,要么β<α(也就是α>β)。
字符集Σ中的元素称为字符。
字符串:一个字符串S是将n个字符顺次排列形成的数组,n称为S的长度,表示为len(S)。
S的第i个字符表示为S[i]。
子串:字符串S的子串S[i..j],i?j,表示S串中从i到j这一段,也就是顺次排列S[i],S[i+1],...,S[j]形成的字符串。
后缀:后缀是指从某个位置i开始到整个串末尾结束的一个特殊子串。
字符串S 的从i开头的后缀表示为Suffix(i),也就是Suffix(i)=S[i..len(S)] 例如S = mississippi,那么它的所有后缀为:Suffix(1) = mississippi = SSuffix(2) = ississippiSuffix(3) = ssissippiSuffix(4) = sissippiSuffix(5) = issippiSuffix(6) = ssippiSuffix(7) = sippiSuffix(8) = ippiSuffix(9) = ppiSuffix(10) = piSuffix(11) = iSuffix(12) = (empty)不难发现,S的任意一个子串一定是某一个后缀的前缀。
字符串的大小比较:指通常所说的“字典顺序”比较,也就是对于两个字符串u、v,令i从1开始顺次比较u[i]和v[i],如果u[i]=v[i]则令i加1,否则若u[i]<v[i]则认为u<v,u[i]>v[i]则认为u>v(也就是v<u),比较结束。
如果i>len(u)或者i>len(v)仍比较出结果,那么若len(u)<len(v)则认为u<v,若len(u)=len(v)则认为u=v,若len(u)>len(v)则u>v。
末端反向重复序列名词解释
末端反向重复序列名词解释末端反向重复序列是指字符串中的一个子序列,在相同的字符串中以相同的方式出现两次,且第二次出现的位置在第一次出现位置的前面。
假设字符串为S,末端反向重复序列是指存在某个子序列X,使得S中两次出现的X分别为X1和X2,并且满足X1的结束位置在X2的开始位置之前。
即S可以表示为:S = A + X1 + B + X2 + C,其中A、B、C为字符串,X1和X2为子序列。
末端反向重复序列具有以下特点:1. 末端重复性:序列X在S中以相同的方式出现两次。
即X1与X2是相同的子序列,或者是X1的反向子序列。
2. 反向性:X1的结束位置在X2的开始位置之前。
3. 参差性:序列A、B、C可以为空,也可以包含其他字符。
末端反向重复序列在生物信息学、字符串处理等领域具有重要应用。
例如,在DNA序列中,重复序列的出现可能表明基因重复、基因家族、基因分割、染色体结构等方面的信息。
有助于深入研究生物的进化、功能与组织。
本文将以生物信息学中的DNA序列分析为例,介绍末端反向重复序列的应用。
首先,末端反向重复序列在DNA序列中的发现是通过序列比对和模式匹配来实现的。
具体步骤如下:1. 选取合适的序列比对算法,如Smith-Waterman算法、Needleman-Wunsch算法等,用于在DNA序列中寻找与自身相似的区域。
2. 针对候选区域,使用模式匹配算法,如Aho-Corasick算法、Boyer-Moore算法等,对序列进行进一步筛选,以找到末端反向重复序列。
其次,末端反向重复序列的分析方法包括以下几个方面:1. 序列比对:将候选序列与已知数据库中的序列进行比对,以发现与已知序列相似的区域,从而进行结构功能预测和基因注释。
2. 序列聚类:根据序列相似性进行聚类,识别生物信息学数据库中的同源序列,为进一步研究基因家族、进化关系等提供依据。
3. 序列重复性分析:通过计算序列中的重复次数和重复长度等指标,分析序列的结构特点,如短串重复、长串重复等,并探索其在进化、表达调控等方面的功能。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最近在学习后缀树的构造,在网上找了好久发觉国内详解它的构造的文章胜少,在苦苦寻觅了许久,终于发现了一个网友翻译的一篇文章,很好,于是我转帖出来,希望能有更多的人受益,也希望国内多一些英文高手多翻译一些国外的技术文章,好让我们这些英文很烂的人受益,呵呵!后缀树Fast String Searching With Suffix Trees原著Mark Nelson. Fast string searching with suffix trees. 1996.构造法E. Ukkonen. On-line construction of suffix trees. 1995.翻译3xian / 三鲜in GDUT三鲜序原来是打算翻译SartajSahni的Suffix tree, 并专注地进行了一周, 连复习备考的时间也不惜占去. 我希望给国产的同好者提供更通俗易懂的资料, 在翻译的同时对原文进行了删改, 并加入了许多自己的心得. 然而后来发现了Mark Nelson的这篇文章, 相比之下更有亲和力, 于是老实地尽弃前功来翻译这篇. 更重要一个原因是, Mark Nelson介绍的是Ukkonen的构造法O(n), 它比SartajSahni的构造法O(nr), r为字母表大小在时间上更有优势. 但我们不能说SartajSahni的算法慢, 因为r往往会很小, 因此实际效率也接近线性, 两种构造法在思想上均有可取之处.本文偏重于阐述后缀树的构造过程, 而并没有直接介绍后缀树除了匹配以外还能做什么. 其实后缀树是一种功能非常强大的数据结构, 你可以去搜索引擎了解一下它还有多少功能, 当然我最希望的是你在阅读本文之后已经足以体会后缀树的妙处, 日后遇到诸多问题的时候都能随心随意地用上.最后唠叨一句. 我所见过的各种介绍后缀树的论文都难免使初学者陷入混乱, 本文估计也好不到哪里去. 这在一定程度上说明了后缀树的原理是不太浅显的, 理解它需要在整体上把握, 建议希望读者先不要纠结于细节, 思路不清则反复阅读.问题的来源字符串匹配问题是程序员经常要面对的问题. 字符串匹配算法的改进可以使许多工程受益良多, 比如数据压缩和DNA排列. 这篇文章讨论的是一种相对鲜为人知的数据结构--- 后缀树, 并介绍它是如何通过自身的特性去解决一些复杂的匹配问题.你可以把自己想象成一名工作于DNA排列工程的程序员. 那些基因研究者们天天忙着分切病毒的基因材料, 制造出一段一段的核苷酸序列. 他们把这些序列发到你的服务器里, 指望你在基因数据库中定位. 要知道, 你的数据库里有数百种病毒的数据, 而一个特定的病毒可以有成千上万的碱基. 你的程序必须像C/S工程那样实时向博士们反馈信息, 这需要一个很好的方案.很明显, 在这个问题上采取暴力算法是极其低效的. 这种方法需要你在基因数据库里对比每一个核苷酸, 测试一个较长的基因段基本会把你的C/S系统变成一台古老的批处理机.直觉上的解决方法由于基因数据库一般是不变的, 通过预处理来把搜索简化或许是个好主意. 一种预处理的方法是建立一棵Trie. 我们通过Trie引申出一种东西叫作后缀Trie. (后缀Trie离后缀树仅一步之遥.) 首先, Trie是一种n叉树, n为字母表大小, 每个节点表示从根节点到此节点所经过的所有字符组成的字符串. 而后缀Trie的“后缀” 说明这棵Trie包含了所给字段的所有后缀(也许正是一个病毒基因).图1BANANAS的后缀Trie图1展示了文本BANANAS的后缀Trie. 关于这棵Trie有两个地方需要注意. 第一, 从根节点开始, BANANAS的每一个后缀都插入到Trie中, 包括BANANAS, ANANAS, NANAS, ANAS, NAS, AS, S. 第二, 鉴于这种结构, 你可以通过从根节点往下匹配的方式搜索到单词的任何一个子串.这里所说的第二点正是我们认为后缀Trie优秀的原因. 如果你输入一个长度为N的文本并想在其中搜索一个长度为M的串, 传统的暴力匹配需要进行N*M次字符对比, 而一些改进过的匹配技术, 比如像Boyer-Moore算法, 可以在O(N+M)的时间开销内解决问题, 平均效率更是令人满意. 然而, 后缀Trie亮出了O(M)的牌子, 彻底鄙视了其他算法的成绩, 后缀Trie对比的次数仅仅相当于被搜索串的长度!这确实是可圈可点的威力, 这意味着你能通过仅仅7次对比便在莎士比亚所有作品中找出BANANAS. 但有一点我们可不能忘了, 构造后缀Trie也是需要时间的.后缀Trie之所以没有家喻户晓正是因为构造它需要O(n2)的时间和空间. 平方级的开销使它在最需要它的领域--- 长串搜索中被拒之门外.横空出世直到1976年, Edward McCreigh发表了一篇论文, 咱们的后缀树问世了. 后缀Trie的困境被彻底打破.后缀树跟后缀Trie有着一样的布局, 但它把只有一个儿子的节点给剔除了. 这个过程被称为路径压缩, 这意味着树上的某些边将表示一个序列而不是单独的字符.图2BANANAS的后缀树图2是由图1的后缀Trie转化而来的后缀树. 你会发现这树基本还是那个形状, 只是节点变少了. 在剔除了只有一个儿子的节点之后, 总节点数由23降为11. 经过证明, 在最坏情况下, 后缀树的节点数也不会超过2N (N为文本的长度). 这使构造后缀树的线性时空开销成为可能.然而, McCreight最初的构造法是有些缺陷的, 原则上它要按逆序构造, 也就是说字符要从末端开始插入. 如此一来,便不能作为在线算法, 它变得更加难以应用于实际问题, 如数据压缩.20年后, 来自赫尔辛基理工大学的EskoUkkonen把原算法作了一些改动, 把它变成了从左往右. 本文接下来的所有描述和代码都是基于EskoUkkonen的成果.对于所给的文本T, EskoUkkonen的算法是由一棵空树开始, 逐步构造T的每个前缀的后缀树. 比如我们构造BANANAS的后缀树, 先由B开始, 接着是BA, 然后BAN, … . 不断更新直到构造出BANANAS的后缀树.图3逐步构造后缀树初窥门径加入一个新的前缀需要访问树中已有的后缀. 我们从最长的一个后缀开始(图3中的BAN), 一直访问到最短的后缀(空后缀). 每个后缀会在以下三种节点的其中一种结束.l 一个叶节点. 这个是常识了, 图4中标号为1, 2, 4, 5的就是叶节点.l 一个显式节点. 图4中标号为0, 3的是显式节点, 它表示该节点之后至少有两条边.l 一个隐式节点. 图4中, 前缀BO, BOO, 或者非前缀OO, 它们都在某条表示序列的边上结束, 这些位置就叫作隐式节点. 它表示后缀Trie中存在的由于路径压缩而剔除的节点. 在后缀树的构造过程中, 有时要把一些隐式节点转化为显式节点.图4加入BOOK之后的BOOKKEEPER(也就是BOOK的后缀树)如图4, 在加入BOOK之后, 树中有5个后缀(包括空后缀). 那么要构造下一个前缀BOOKK的后缀树的话, 只需要访问树中已存在的每一个后缀, 然后在它们的末尾加上K.前4个后缀BOOK, OOK, OK和K都在叶节点上结束. 由于我们要路径压缩, 只需要在通往叶节点的边上直接加一个字符, 而不需要创建一个新节点.在所有叶节点更新之后, 我们还需要在空后缀后面加上K. 这时候我们发现已经存在一条从0节点出发的边的首字符为K, 没必要画蛇添足了. 换句话说, 新加入的后缀K可以在0节点和2节点之间的隐式节点中找到. 最终形态见图5.图5加入BOOKK之后的BOOKKEEPER相比图4, 树的结构没有发生变化如果你是一位敏感的读者, 可能要发问了, 如果加入K我们什么都不做的话, 在查找的时候如何知道它到底是一个后缀呢还是某个后缀的一截? 如果你同时又是一位熟悉字符串算法的朋友, 心里可能马上就有答案了--- 我们只需要在文本后面加个字母表以外的字符, 比如$或者#. 那我们查找到K$或K#的话就说明这是一个后缀了.稍微麻烦一点的事情从图4到图5这个更新过程是相对简单的, 其中我们执行了两种更新: 一种是将某条边延长, 另一种是啥都不做. 但接下来往图5继续加入BOOKKE, 我们则会遇到另外两种更新:1. 创建一个新节点来割开某一隐式节点所处的边, 并在其后加一条新边.2. 在显式节点后加一条新边.图6先分割, 再添加当我们往图5的树中加入BOOKKE的时候, 我们是从已存在的最长后缀BOOKK开始, 一直操作到最短的后缀空后缀. 更新最长的后缀必然是更新叶节点, 之前提到了, 非常简单. 除此之外, 图5中结束在叶节点上的后缀还有OOKK, OKK, KK. 图6的第一棵树展示了这一类节点的更新.图5中首个不是结束在叶节点上的后缀是K. 这里我们先引入一个定义:在每次更新后缀树的过程中, 第一个非叶节点称为激活节点. 它有以下性质:1. 所有比激活节点长的后缀都在叶节点上结束.2. 所有在激活节点之后加入的后缀都不在叶节点上结束.后缀K在边KKE上的隐式节点结束. 在后缀树中我们要判断一个节点是不是非叶节点需要看它是否有跟待加入字符相同的儿子, 即本例中的E.一眼可以看出, KKE中的第一个K只有一个儿子: K. 所以它是非叶节点(这里同时也是激活节点), 我们要给他加一个儿子来表示E. 这个过程有两个步骤:1. 在第一个K和第二个K之间把边分割开, 于是第一个K(隐式节点)成了一个显式节点, 如图6第二棵树.2. 在刚刚变身而来的显式节点后加一个新节点表示E, 如图6第三棵树. 由此我们又多了一个叶节点.后缀K更新之后, 别忘了还有空后缀. 空后缀在根节点(节点0)结束, 显然此时根节点是一个显式节点. 我们看一下它后面有没有以E开头的边---没有, 那么加入一个新的叶节点(如果存在以E开头的边, 则不用任何操作). 最终如图7.图7归纳, 反思, 优化借助后缀树的特性, 我们可以做出一个相当有效的算法. 首先一个重要的特性是: 一朝为叶, 终生为叶. 一个叶节点自诞生以后绝不会有子孙. 更重要的是, 每当我们往树上加入一个新的前缀, 每一条通往叶节点的边都会延长一个字符(新前缀的最后一个字符). 这使得处理通往叶节点的边变得异常简单, 我们完全可以在创建叶节点的时候就把当前字符到文本末的所有字符一股脑塞进去. 是的, 我们不需要知道后面的字符是啥, 但我们知道它们最终都要被加进去. 因此, 一个叶节点诞生的时候, 也正是它可以被我们遗忘的时候. 你可能会担心通往叶节点的边被分割了怎么办, 那也不要紧, 分割之后只是起点变了, 尾部该怎么着还是怎么着.如此一来,我们只需要关心显式节点和隐式节点上的更新.还要提到一个节约时间的方法. 当我们遍历所有后缀时, 如果某个后缀的某个儿子跟待加字符(新前缀最后一个字符)相同, 那么我们当前前缀的所有更新就可以停止了. 如果你理解了后缀树的本质, 你会知道一旦待加字符跟某个后缀的某个儿子相同, 那么更短的后缀必然也有这个儿子. 我们不妨把首个这样的节点定义为结束节点. 比结束节点长的后缀必然是叶节点, 这一点很好解释, 要么本来就是叶节点, 要么就是新创建的节点(新创建的必然是叶节点). 这意味着, 每一个前缀更新完之后, 当前的结束节点将成为下一轮更新的激活节点.好了, 现在我们可以把后缀树的更新限制在激活节点和结束节点之间, 效率有了很大的改善. 整理成伪代码如下:PLAIN TEXTC:1. Update( 新前缀)2. {3. 当前后缀= 激活节点4. 待加字符= 新前缀最后一个字符5. done = false;6. while ( !done ) {7. if ( 当前后缀在显式节点结束) {8. if ( 当前节点后没有以待加字符开始的边)9. 在当前节点后创建一个新的叶节点10. else11. done = true;12. } else {13. if ( 当前隐式节点的下一个字符不是待加字符) {14. 从隐式节点后分割此边15. 在分割处创建一个新的叶节点16. } else17. done = true;18. if ( 当前后缀是空后缀)19. done = true;20. else21. 当前后缀= 下一个更短的后缀22. }23. 激活节点= 当前后缀24. }后缀指针上面的伪代码看上去很完美, 但它掩盖了一个问题. 注意到第21行, “下一个更短的后缀”, 如果呆板地沿着树枝去搜索我们想要的后缀, 那这种算法就不是线性的了. 要解决此问题, 我们得附加一种指针: 后缀指针. 后缀指针存在于每个结束在非叶节点的后缀上, 它指向“下一个更短的后缀”. 即, 如果一个后缀表示文本的第0到第N个字符, 那么它的后缀指针指向的节点表示文本的第1到第N个字符.图8是文本ABABABC的后缀树. 第一个后缀指针在表示ABAB的节点上. ABAB的后缀指针指向表示BAB的节点. 同样地, BAB也有它的后缀指针, 指向AB. 如此这般.图8加上后缀指针(虚线)的ABABABC的后缀树介绍一下如何创建后缀指针. 后缀指针的创建是跟后缀树的更新同步的. 随着我们从激活节点移动到结束节点, 我把每个新的叶节点的父亲的路径保存下来. 每当创建一条新边, 我同时也在上一个叶节点的父亲那儿创建一个后缀指针来指向当前新边开始的节点. (显然, 我们不能在第一条新边上做这样的操作, 但除此之外都可以这么做.)有了后缀指针, 就可以方便地一个后缀跳到另一个后缀. 这个关键性的附加品使得算法的时间上限成功降为O(N).参考文献E.M. McCreight. A space-economical suffix tree construction algorithm. Journal of the ACM, 23:262-272, 1976.E. Ukkonen. On-line construction of suffix trees.Algorithmica, 14(3):249-260, September 1995.来源:/lazy_p/blog/static/13510721620108139476816/。