第五章计算机在分子生物学中的应用
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章 计算机在分子生物学中的应用
DNA双链模型
5.1 计算机在分子生物学中应用的 简介
分子生物学研究的对象往往是大规模的实验数 据,利用手工计算来处理这些数据显然是力 不从心. 例如越来越多的物种的基因组将基本上完全地 测定。那种倾毕生精力研究一个基因、一条 代谢途径、一种生理周期的时代已经过去.
A A T G C 5 -4 -4 -4
T -4 5 -4 -4 BLAST矩阵
G -4 -4 5 -4
C -4 -4 -4 5
Байду номын сангаас
2)蛋白质打分矩阵 (i)等价矩阵: 假设蛋白质的字符表如教材上表5.1所示,则可 以构建如下的等价矩阵(如教材上表5-6所 示)。它的规则是当组成蛋白质的两种氨基 酸相匹配时,打分为“1”,反之,均为“0”。
genbank数据增长示意图
那种倾毕生精力研究一个基因、一条代谢途径、 一种生理周期的时代已经过去。人们正在阐 明细胞内的全部互相耦合的调控网络和代谢 网络,细胞间的全部信号传导过程,从受精 卵到成体的全部生理和病理的基因表达的变 化等等。这一切都超出手工分析的可能性, 数据的产生、搜集和分析,都必须依靠计算 机和网络,都必须发展数据库、算法和程序。
基因片段1的序列为:ATTTTGCCCTTA,基因 片段2的序列是:AGCT,基因片段3的序列 是:TTGC。则片段2是片段1的子序列,但2 不是1的子串,片段3是片段1的子串。 如果有两个生物分子序列分别为t和s,则当t为s 的子串时,称s是t 的超串。如果t是s 的子串, 也称t是s的连续子序列。
进行序列比较最简单的方法就是利用点标法 (Fitch,1969)来实现。这种比较方法的原理是: 将两条待比较的序列分别放在二维作标的X轴上(序 列的方向是自左向右)和Y轴上(序列的方向是自 下而上)。当对应的行与列的字符匹配时,则在作 标轴上给出相应的记号,逐个比较所有的字符对, 最终形成若干个匹配子串。 如下所示:
(ii)疏水矩阵 蛋白质由于它的氨基酸残基上的电荷不同,可以分 成极性氨基酸、带电氨基酸和疏水氨基酸三大类。 所谓的疏水指的是氨基酸与水的亲和力的很小,这 主要是因为疏水性强的氨基酸中的原子间仅靠非极 性共价键相连,所以,这类氨基酸分子缺少与水分 子共同作用的基础。而与疏水性氨基酸相对应的是 亲水性氨基酸,这些氨基酸中的原子存在极性的共 价键,从而可以与水互相溶解。
(a,a) 1 (a, b) 0 (a b) (a,-) (-,b) 1
分别对应于得分、无分和失分的情况。
在两条序列s和 t进行比对时的得分等于将s转 化为t所用的编辑操作的得分总和;它们间 的最优比对是可能的比对中得分最高的一 个比对;s和t的真实的编辑距离应当是在打 分函数ψ值最大时的距离。 这样,进行序列比对的目的就是寻找一个打分 函数ψ值最大的比对。
对于生物序列,有两种方法可以用来定量的表示 两条序列的相似程度: 一种方法是利用相似度函数来说明,相似度越 大,说明两条序列相似的程度越大; 另一种方法就是利用两个序列间的距离来说明, 距离越大,说明两个序列的相似程序越小。 一般说来,相似度较为灵活,所以应用的较多
两个序列间的距离,可以用海明距离表示。 但对于不同长度的序列用海明距离表示起 来不是很精确。而且在实际的实验中,一 些生物功能分子如DNA往往会发生像删除 或插入一个碱基这样的错误,这时如果用 海明距离来表示时,就会产生较大的误差。 为了克服海明距离的缺陷,引入了编辑距 离的概念,所谓编辑距离(edit distance), 指的是:一个字符串变到另一个字符串时 插入、删除和替换的最少的字符个数。
核酸打分矩阵 (i)等价矩阵 给出了一种最简单的核酸打分矩阵(等价矩 阵),它的设计的原理是,只有相同核苷酸 匹配的情况下打分为“1”,其它的情况下, 打分均为“0”。这种矩阵过于简单,在实际 的应用中很少用到。
A
T
G
C
A T
1 0
0 1
0 0
0 0
G
C
0
0
0
0
核酸的等价矩阵
1
0
0
1
(ii)转换-颠换矩阵 众所周知,核酸的碱基可以分成两大类:一类 是嘌呤,一类是嘧啶。嘌呤的碱基有两个环 状结构,而嘧啶的碱基只有一个环。根据这 个特点,如果DNA碱基的变化保持环数不变, 则称为转换(transition),如G变成A,如果环 数发生变化,则称为颠换(transversion),如 A转成C。
2.编辑距离 对于两条DNA序列,有时很难看出它们有相似的地方, 但是只要对其中的一条序列进行了一些简单的操作, 就会发现它们之间有很多的相似之处。例如,有以 下两个英文单词“tomorrow”和“sorrow”,我们可 以很清楚的看到,只要将sorry错移3个位置,并对 起来,就可以发现它们的相似性。 tomorrow tomorrow sorrow ----sorrow 移位前 移位后
如有两个序列s,t,序列分别为: s: ATCG t:ATGC
4.序列比对的数学方法 (1)打分矩阵 打分矩阵被广泛的用于评价序列比对的质量, 通常采用得分(+)、无分(0)和罚分(-) 来进行综合的评价。可以定义一个打分函数ψ, 用它来表示在序列比对中不同类型的编辑操 作所需要的代价。
假定有一字符表ξ,字符a,b满足:a∈ξ, b∈ξ;则有如下 定义:
相似性(similarity)和同源性(homology)是两个 完全不同的概念。 相似性概念的含义比较广泛,除了上面提到的 两个序列之间相同碱基或残基所占比例外, 在蛋白质序列比对中,有时也指两个残基是 否具有相似的特性,如侧链基团的大小、电 荷性、亲疏水性等。
序列比较的基本操作是比对(align),它是一种 关于序列相似性的定性描述,反映的主要是 在什么部位两条序列相似或差异。如果一个 比对方法能够揭示两条序列的最大相似程度 或根本差异,就称这个比对是最优比对。
GCM矩阵的设计思想是:计算一个氨基酸残基转变 成另一个氨基酸残基所需的密码子变化的次数, 将变化的次数作为对应矩阵的元素的值。如果一 个氨基酸的残基只要有一个碱基发生变化,那么 这两个氨基酸的替换代价即为1;如果是发生了两 个碱基的变化,则为2,其它依此类推。
iv)Dayhoff突变数据矩阵(PAM矩阵)
利用编辑距离来表示两个序列的比对时,一般说来有 如下的字符编辑操作: 设有两个序列s和t,用-代表空位(或空缺,space) 则有如下的操作: Match(a,a)----------字符匹配; Delete(a,-)----------从s序列中删除一个字符或在t序 列中插入一个空位; Replace(a,b)------以t中的字符b替换s中的字符a, a≠b; Insert(-,b)-------在s序列中插入空位字符,或在t序列 中删除一个字符b。
5.2.1序列比较中的计算机技术 从生物学的角度而言,一个普遍的规律是: 序列决定结构,结构决定功能。序列的比 较一般不考虑空间结构或功能的相似性。 研究序列的相似性的另一个目的是通过序 列的相似性,判别序列间的同源性,推测 序列间的进化关系。 序列比较的作用是:发现生物序列中的功 能、结构和进化的信息,从而发现其中的 相似性,找出序列间的共同区域,同时辨 别序列之间的差异
生物功能分子的序列测序与功能预测是从序列中发 现基因的两个层次。测序的大致步骤如下: 取DNA目标序列 ; 查找开放阅读框架(ORF)并将目标序列翻译成蛋 白质序列; 据库中进行序列搜索; 进行目标序列与搜索得到的相似序列的整体列 线(global alignment) ; 查找基因家族 查找目标序列中的特定模序 预测目标序列结构 获取相关蛋白质的功能信息把目标序列输入 “提醒”服务器
5.2.1.1、序列的相似性 台戏在计算机内部,不管是DNA、RNA还是 蛋白质,都是用特定的字符集来表示的。 对于一种未知功能的生物分子,则可以通 过将它的序列与已知功能的分子的序列进 行比较来推断。序列的相似性可以用定性 的方法来描述,也可以用定量的方法表示。
在讨论到序列相似性的关系时,经常会遇到同 源(homology)和相似(similarity)两个概念。 所谓同源序列,简单地说,是指从某一共同祖 先经趋异进化而形成的不同序列。
根据氨基酸的亲水或疏水,也可以生成一个矩 阵,称为疏水矩阵,它的设计思想是:如果 一个氨基酸残基取代另一个氨基酸残基后, 疏水性没有发生太大的变化,就打分高些; 反之,如果替换后,疏水性发生了较大的变 化,打分就低些。如下图所示:
蛋白质疏水矩阵示意图
(iii)GCM矩阵 生命是不断进化的,在研究分子水平的进化时,常 常用到GCM矩阵,它可以方便地描述分子的进化 距离,并可以用来绘制进化树。但在蛋白质比对 中较少直接用到。
生物功能分子中的序列比对根据比较的范围 不同可以分成全局比较和局部比较两种。 全局比较指的是比较两条完整的序列,而 局部比较指的是找出最大相似的子序列。 对于两条序列的比对,根据不同的应用场 合,常常将序列比较分成以下几种基本操 作:
(1)判断一个序列是不是另一个序列的子序列; (2)寻找两个序列中的最大相似子序列; (3)寻找两个相似序列中的细微差别; (4)判断一个序列的特定部份(如前缀或后缀) 与另一个序列的特定部份是否相同。 其中,(1)和(3)是全局比较,(2)和(4) 是局部比较。
计算机科学的发展及其在生物学领域的应用, 已经成为生物学发展和进步过程中不可替代 的重要力量。计算机在分子生物学发展中的 作用是无可替代的。
在分子生物学中,DNA、RNA和蛋白质都是表 现为特定的序列。不同生物的DNA或蛋白质 的相似性是多方面的,可能是核酸或氨基酸 序列的相似性,也有可能是结构的相似性。
一个PAM的进化距离定义为每100个氨基酸中发 生一个点突变的概率。 在这个矩阵中,大于0的值表明发生的突变的可 能性较大,等于0是中性的(随机突变),小于0 的则表示发生突变的可能性较小。 一个PAM就是一个进化的变异单位,即1%的氨 基酸发生改变,但实际上并不可能说经过100次 变化,每个氨基酸都会发生变化。 PAM有一系列的的替换矩阵,每个矩阵用于特定 的进化距离的序列。但是一般说来,只有当置换 速率通过至少具有85%一致性的序列对位排列才 能获取。
(2)核酸打分矩阵与蛋白质打分矩阵: 核酸与蛋白质都是常见的生物功能分子,在分子生 物学研究中,经常遇到要对它们的序列进行比对的 场合。前面所说的打分矩阵方法过于简单,不能考 虑到字符替换后实际的生物意义。 特别对于蛋白质序列,有些氨基酸的取代是很容易 产生而且不会对蛋白质的特性造成太大的影响。也 就是说,不同情况下的替代是不等效的。所以,为 了区分不同情况下替代对生物功能分子所起的作用, 人们提出了核酸与蛋白质的打分矩阵。
根据这个特性,当两个碱基的替换发生颠换时, 它的打分是-5分;当发生转换时,它的打分 是-1分;发生匹配时为1分。从而,也可以得 到一个矩阵,通常称它为转换-颠换矩阵。
A
T
G
C
A T
1 -5
-5 1
-5 -1
-1 -5
G
C
-5
-1
-1
-5 转移-颠换矩阵
1
-5
-5
1
(iii)BLAST矩阵 BLAST(basic local alignment search tool) 是一种基本的局部对位排列搜索工具,这里 也提供了一个相似性记分矩阵。这个矩阵也 相对简单,如果等比较的两个核酸序列是相 同的,则打5分,反之,得分为-4分。
1.字符表和序列: 在计算机中处理生物功能分子的序列比对时, 将其序列抽象为字符串,这些字符串从一个 特定的字符集合中抽取,这个字符集合称为: 字符表。 如教材中的表5.1和表5.2
在分子生物学研究的一些场合,常常要用到 子序列,如:分析功能基因或是保守序列, 重复序列。生物序列中的子序列在形式上看 起来同计算机数据结构中的子串的概念很相 近,但实际上子序列和子串还是有些不同的: 子序列的范围包含了子串,所有的子串都是 子序列,但子序列不一定是子串。子序列可 以通过对序列进行选择,删除等操作或取。 例如:
DNA双链模型
5.1 计算机在分子生物学中应用的 简介
分子生物学研究的对象往往是大规模的实验数 据,利用手工计算来处理这些数据显然是力 不从心. 例如越来越多的物种的基因组将基本上完全地 测定。那种倾毕生精力研究一个基因、一条 代谢途径、一种生理周期的时代已经过去.
A A T G C 5 -4 -4 -4
T -4 5 -4 -4 BLAST矩阵
G -4 -4 5 -4
C -4 -4 -4 5
Байду номын сангаас
2)蛋白质打分矩阵 (i)等价矩阵: 假设蛋白质的字符表如教材上表5.1所示,则可 以构建如下的等价矩阵(如教材上表5-6所 示)。它的规则是当组成蛋白质的两种氨基 酸相匹配时,打分为“1”,反之,均为“0”。
genbank数据增长示意图
那种倾毕生精力研究一个基因、一条代谢途径、 一种生理周期的时代已经过去。人们正在阐 明细胞内的全部互相耦合的调控网络和代谢 网络,细胞间的全部信号传导过程,从受精 卵到成体的全部生理和病理的基因表达的变 化等等。这一切都超出手工分析的可能性, 数据的产生、搜集和分析,都必须依靠计算 机和网络,都必须发展数据库、算法和程序。
基因片段1的序列为:ATTTTGCCCTTA,基因 片段2的序列是:AGCT,基因片段3的序列 是:TTGC。则片段2是片段1的子序列,但2 不是1的子串,片段3是片段1的子串。 如果有两个生物分子序列分别为t和s,则当t为s 的子串时,称s是t 的超串。如果t是s 的子串, 也称t是s的连续子序列。
进行序列比较最简单的方法就是利用点标法 (Fitch,1969)来实现。这种比较方法的原理是: 将两条待比较的序列分别放在二维作标的X轴上(序 列的方向是自左向右)和Y轴上(序列的方向是自 下而上)。当对应的行与列的字符匹配时,则在作 标轴上给出相应的记号,逐个比较所有的字符对, 最终形成若干个匹配子串。 如下所示:
(ii)疏水矩阵 蛋白质由于它的氨基酸残基上的电荷不同,可以分 成极性氨基酸、带电氨基酸和疏水氨基酸三大类。 所谓的疏水指的是氨基酸与水的亲和力的很小,这 主要是因为疏水性强的氨基酸中的原子间仅靠非极 性共价键相连,所以,这类氨基酸分子缺少与水分 子共同作用的基础。而与疏水性氨基酸相对应的是 亲水性氨基酸,这些氨基酸中的原子存在极性的共 价键,从而可以与水互相溶解。
(a,a) 1 (a, b) 0 (a b) (a,-) (-,b) 1
分别对应于得分、无分和失分的情况。
在两条序列s和 t进行比对时的得分等于将s转 化为t所用的编辑操作的得分总和;它们间 的最优比对是可能的比对中得分最高的一 个比对;s和t的真实的编辑距离应当是在打 分函数ψ值最大时的距离。 这样,进行序列比对的目的就是寻找一个打分 函数ψ值最大的比对。
对于生物序列,有两种方法可以用来定量的表示 两条序列的相似程度: 一种方法是利用相似度函数来说明,相似度越 大,说明两条序列相似的程度越大; 另一种方法就是利用两个序列间的距离来说明, 距离越大,说明两个序列的相似程序越小。 一般说来,相似度较为灵活,所以应用的较多
两个序列间的距离,可以用海明距离表示。 但对于不同长度的序列用海明距离表示起 来不是很精确。而且在实际的实验中,一 些生物功能分子如DNA往往会发生像删除 或插入一个碱基这样的错误,这时如果用 海明距离来表示时,就会产生较大的误差。 为了克服海明距离的缺陷,引入了编辑距 离的概念,所谓编辑距离(edit distance), 指的是:一个字符串变到另一个字符串时 插入、删除和替换的最少的字符个数。
核酸打分矩阵 (i)等价矩阵 给出了一种最简单的核酸打分矩阵(等价矩 阵),它的设计的原理是,只有相同核苷酸 匹配的情况下打分为“1”,其它的情况下, 打分均为“0”。这种矩阵过于简单,在实际 的应用中很少用到。
A
T
G
C
A T
1 0
0 1
0 0
0 0
G
C
0
0
0
0
核酸的等价矩阵
1
0
0
1
(ii)转换-颠换矩阵 众所周知,核酸的碱基可以分成两大类:一类 是嘌呤,一类是嘧啶。嘌呤的碱基有两个环 状结构,而嘧啶的碱基只有一个环。根据这 个特点,如果DNA碱基的变化保持环数不变, 则称为转换(transition),如G变成A,如果环 数发生变化,则称为颠换(transversion),如 A转成C。
2.编辑距离 对于两条DNA序列,有时很难看出它们有相似的地方, 但是只要对其中的一条序列进行了一些简单的操作, 就会发现它们之间有很多的相似之处。例如,有以 下两个英文单词“tomorrow”和“sorrow”,我们可 以很清楚的看到,只要将sorry错移3个位置,并对 起来,就可以发现它们的相似性。 tomorrow tomorrow sorrow ----sorrow 移位前 移位后
如有两个序列s,t,序列分别为: s: ATCG t:ATGC
4.序列比对的数学方法 (1)打分矩阵 打分矩阵被广泛的用于评价序列比对的质量, 通常采用得分(+)、无分(0)和罚分(-) 来进行综合的评价。可以定义一个打分函数ψ, 用它来表示在序列比对中不同类型的编辑操 作所需要的代价。
假定有一字符表ξ,字符a,b满足:a∈ξ, b∈ξ;则有如下 定义:
相似性(similarity)和同源性(homology)是两个 完全不同的概念。 相似性概念的含义比较广泛,除了上面提到的 两个序列之间相同碱基或残基所占比例外, 在蛋白质序列比对中,有时也指两个残基是 否具有相似的特性,如侧链基团的大小、电 荷性、亲疏水性等。
序列比较的基本操作是比对(align),它是一种 关于序列相似性的定性描述,反映的主要是 在什么部位两条序列相似或差异。如果一个 比对方法能够揭示两条序列的最大相似程度 或根本差异,就称这个比对是最优比对。
GCM矩阵的设计思想是:计算一个氨基酸残基转变 成另一个氨基酸残基所需的密码子变化的次数, 将变化的次数作为对应矩阵的元素的值。如果一 个氨基酸的残基只要有一个碱基发生变化,那么 这两个氨基酸的替换代价即为1;如果是发生了两 个碱基的变化,则为2,其它依此类推。
iv)Dayhoff突变数据矩阵(PAM矩阵)
利用编辑距离来表示两个序列的比对时,一般说来有 如下的字符编辑操作: 设有两个序列s和t,用-代表空位(或空缺,space) 则有如下的操作: Match(a,a)----------字符匹配; Delete(a,-)----------从s序列中删除一个字符或在t序 列中插入一个空位; Replace(a,b)------以t中的字符b替换s中的字符a, a≠b; Insert(-,b)-------在s序列中插入空位字符,或在t序列 中删除一个字符b。
5.2.1序列比较中的计算机技术 从生物学的角度而言,一个普遍的规律是: 序列决定结构,结构决定功能。序列的比 较一般不考虑空间结构或功能的相似性。 研究序列的相似性的另一个目的是通过序 列的相似性,判别序列间的同源性,推测 序列间的进化关系。 序列比较的作用是:发现生物序列中的功 能、结构和进化的信息,从而发现其中的 相似性,找出序列间的共同区域,同时辨 别序列之间的差异
生物功能分子的序列测序与功能预测是从序列中发 现基因的两个层次。测序的大致步骤如下: 取DNA目标序列 ; 查找开放阅读框架(ORF)并将目标序列翻译成蛋 白质序列; 据库中进行序列搜索; 进行目标序列与搜索得到的相似序列的整体列 线(global alignment) ; 查找基因家族 查找目标序列中的特定模序 预测目标序列结构 获取相关蛋白质的功能信息把目标序列输入 “提醒”服务器
5.2.1.1、序列的相似性 台戏在计算机内部,不管是DNA、RNA还是 蛋白质,都是用特定的字符集来表示的。 对于一种未知功能的生物分子,则可以通 过将它的序列与已知功能的分子的序列进 行比较来推断。序列的相似性可以用定性 的方法来描述,也可以用定量的方法表示。
在讨论到序列相似性的关系时,经常会遇到同 源(homology)和相似(similarity)两个概念。 所谓同源序列,简单地说,是指从某一共同祖 先经趋异进化而形成的不同序列。
根据氨基酸的亲水或疏水,也可以生成一个矩 阵,称为疏水矩阵,它的设计思想是:如果 一个氨基酸残基取代另一个氨基酸残基后, 疏水性没有发生太大的变化,就打分高些; 反之,如果替换后,疏水性发生了较大的变 化,打分就低些。如下图所示:
蛋白质疏水矩阵示意图
(iii)GCM矩阵 生命是不断进化的,在研究分子水平的进化时,常 常用到GCM矩阵,它可以方便地描述分子的进化 距离,并可以用来绘制进化树。但在蛋白质比对 中较少直接用到。
生物功能分子中的序列比对根据比较的范围 不同可以分成全局比较和局部比较两种。 全局比较指的是比较两条完整的序列,而 局部比较指的是找出最大相似的子序列。 对于两条序列的比对,根据不同的应用场 合,常常将序列比较分成以下几种基本操 作:
(1)判断一个序列是不是另一个序列的子序列; (2)寻找两个序列中的最大相似子序列; (3)寻找两个相似序列中的细微差别; (4)判断一个序列的特定部份(如前缀或后缀) 与另一个序列的特定部份是否相同。 其中,(1)和(3)是全局比较,(2)和(4) 是局部比较。
计算机科学的发展及其在生物学领域的应用, 已经成为生物学发展和进步过程中不可替代 的重要力量。计算机在分子生物学发展中的 作用是无可替代的。
在分子生物学中,DNA、RNA和蛋白质都是表 现为特定的序列。不同生物的DNA或蛋白质 的相似性是多方面的,可能是核酸或氨基酸 序列的相似性,也有可能是结构的相似性。
一个PAM的进化距离定义为每100个氨基酸中发 生一个点突变的概率。 在这个矩阵中,大于0的值表明发生的突变的可 能性较大,等于0是中性的(随机突变),小于0 的则表示发生突变的可能性较小。 一个PAM就是一个进化的变异单位,即1%的氨 基酸发生改变,但实际上并不可能说经过100次 变化,每个氨基酸都会发生变化。 PAM有一系列的的替换矩阵,每个矩阵用于特定 的进化距离的序列。但是一般说来,只有当置换 速率通过至少具有85%一致性的序列对位排列才 能获取。
(2)核酸打分矩阵与蛋白质打分矩阵: 核酸与蛋白质都是常见的生物功能分子,在分子生 物学研究中,经常遇到要对它们的序列进行比对的 场合。前面所说的打分矩阵方法过于简单,不能考 虑到字符替换后实际的生物意义。 特别对于蛋白质序列,有些氨基酸的取代是很容易 产生而且不会对蛋白质的特性造成太大的影响。也 就是说,不同情况下的替代是不等效的。所以,为 了区分不同情况下替代对生物功能分子所起的作用, 人们提出了核酸与蛋白质的打分矩阵。
根据这个特性,当两个碱基的替换发生颠换时, 它的打分是-5分;当发生转换时,它的打分 是-1分;发生匹配时为1分。从而,也可以得 到一个矩阵,通常称它为转换-颠换矩阵。
A
T
G
C
A T
1 -5
-5 1
-5 -1
-1 -5
G
C
-5
-1
-1
-5 转移-颠换矩阵
1
-5
-5
1
(iii)BLAST矩阵 BLAST(basic local alignment search tool) 是一种基本的局部对位排列搜索工具,这里 也提供了一个相似性记分矩阵。这个矩阵也 相对简单,如果等比较的两个核酸序列是相 同的,则打5分,反之,得分为-4分。
1.字符表和序列: 在计算机中处理生物功能分子的序列比对时, 将其序列抽象为字符串,这些字符串从一个 特定的字符集合中抽取,这个字符集合称为: 字符表。 如教材中的表5.1和表5.2
在分子生物学研究的一些场合,常常要用到 子序列,如:分析功能基因或是保守序列, 重复序列。生物序列中的子序列在形式上看 起来同计算机数据结构中的子串的概念很相 近,但实际上子序列和子串还是有些不同的: 子序列的范围包含了子串,所有的子串都是 子序列,但子序列不一定是子串。子序列可 以通过对序列进行选择,删除等操作或取。 例如: