如何进行序列分析PPT演示文稿
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3
表1 九种完整DNA序列的碱基组成
4
表2 人类胎儿球蛋白基因不同区段的碱基组成
5
二.碱基相邻频率
分析DNA序列的主要困难之一是碱基相邻的频率 不是独立的。碱基相邻的频率一般不等于单个碱基 频率的乘积
例: 鸡血红蛋白β链的mRNA编码区的438个碱基
6
图1 鸡β球蛋白基因编码区的DNA序列 (GenBank:CHKHBBM,记录号J00860)
表4还清楚地表明,由于密码子第3位置上碱基的改变 常常不会改变氨基酸的类型,因而对第3位置上碱基的约 束要比第 2位碱基小得多。
9
表4 64种可能的碱基三联体密码子及相应的氨基酸数(据图1序列)
10
相邻碱基之间的关联将导致更远碱基 之间的关联,这些关联延伸距离的估计 可以从马尔科夫链(Markov chain)理论 得到(Javare和Giddings,1989)
预测方法中,最早是通过序列核苷酸频率、密码子等特性进行预 测(如最长ORF法等),随着各类数据库的建立和完善,通过相似 性列线比对也可以预测可能的基因。同时,一批新方法也被提了 出来,如隐马尔可夫模型(Hidden Markov Model,HMM)、动 态规划法(dynamic programming)、法则系统(ruled-based system)、语言学wk.baidu.comlinguistic)方法、线性判别分析(Linear Discriminant Analysis,LDA)、决策树(decision tree)、拼接列 线(spliced alingment)、博利叶分析(Fourier analysis)等。 下表列出了claverie(1997)对部分程序预测基因区域能力的比较 结果,表中同时列出了相应算法和程序的网址。
11
三.同向重复序列分析
除了分析整个序列碱基关联程度的特征外,我们常对寻找 同向重复序列(direct repeats)之类的问题感兴趣。Karlin等 (1983)给出了完成这一分析的有效算法。该法采用由特定的几 组碱基字母组成的不同亚序列或称为字码(word)。只需要对整 个序列搜索一次。给一碱基赋以值α,例如A、C、G、T的值为 0、1、2、3。由X1、X2、…、Xk 共k个字母组成的每一种不同 的字码按:
15
五、从序列中寻找基因
1.基因及基因区域预测
基因按其功能可分为结构基因和调控基因:结构基因可
被转录形成mRNA,并进而转译成多肽链;调控基因是
指某些可调节控制结构基因表达的基因。在DNA链上,
由蛋白质合成的起始密码开始,到终止密码子为止的一
个连续编码序列称为一个开放阅读框(Open Reading
序列分析
1
一、碱基组成
DNA序列一个显而易见的特征是四种碱基类 型的分布。尽管四种碱基的频率相等时对数学 模型的建立可能是方便的,但几乎所有的研究 都证明碱基是以不同频率分布的。
2
表1包含了9个完整DNA分子序列的资料,表2 的数据来自两个胎儿球蛋白基因(Gr和Ar),每个 基因具有三个外显子和两个内含子(shen等1981)。 这两个例子说明序列内和序列间碱基具有不同的 频率。在基因每一侧的500 个任意碱基区域被称 为“侧翼”,基因间区域是指两个基因间的其余 序列。
不过目前基因区域的预测已从单纯外显子预 测发展到整个基因结构的预测。这些预测综合 各种外显子预测的算法和人们对基因结构信号 (如TATA盒等)的认识,预测出可能的完整基因
18
基因区域的预测是一个活跃的研究领域,先 后有一大批预测算法和相应程序被提出和应用, 其中有的方法对编码序列的预测准确率高达 90%以上,而且在敏感性和特异性之间取得了 很好的平衡
计算字码值。这些值的取值范围为1到4k
12
例如:5字码TGACC的值为
1+3×44+2×43+0×42+1×41+1×40=459。可先从低k值的字码 开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k 字码长度重复的那些位置考虑进行长度大于k的字码搜索。
序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2) 的初始位置和字码值。对于完全重复、长度大于2的同向重 复或亚序列的搜索可只限于2字码重复的初始位置。
在本例中只有4个重复的2碱基重复序列。例如,在位置4、 5、8、9、10和15均发现了字码值为1的碱基重复序列。
从有重复的2碱基为起点的3字码值中发现字码值为1、45 和49的序列有重复;以每一重复的3碱基为起点的4字码搜 索未能发现更长的重复序列。
13
表5 序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin, 1983)
14
四、RNA二级结构预测
尽管现有一些RNA折叠程序可以预测RNA二级结构,但这类分析 仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区, 但对给定的RNA分子来说,这一结果的生物学意义究竟有多大,还 是一个未知数。即使有此局限性,二级结构的预测还是有助于找出 mRNA控制区以及RNA分子中可能形成稳定折叠结构的区段。
Frame,ORF)。结构基因多含有插入序列,除了细菌和病
毒的DNA中ORF是连续的,包括人类在内的真核生物的
大部分结构基因为断裂基因,即其编码序列在DNA分子
上是不连续的,或被插入序列隔开。断裂基因被转录成
前体mRNA,经过剪切过程,切除其中非编码序列(即内
含子),再将编码序列(即外显子)连接形成成熟mRNA,
7
表3 图1鸡β球蛋白基因序列的相邻碱基分布
8
在编码区,存在某种约束来限制DNA序列编码氨基酸。 在密码子水平上,这一约束与碱基相邻频率有关。
表4列出了遗传密码和图1序列中各密码子数量。尽管 数目很小,难以作出有力的统计结论,但编码同一氨基 酸的不同密码子(同义密码子)好像不是等同存在的。这 种密码子偏倚必定与两碱基相邻频率水平有关。
并翻译成蛋白质。假基因是与功能性基因密切相关的
DNA序列,但由于缺失、插入和无义突变失去阅读框而
不能编码蛋白质产物。
16
一种典型的真核蛋白质编码基因的结构示意图。其编码序列(外显子)是 不连续的,被非编码区(内含子)隔断。
17
所谓基因区域预测,一般是指预测DNA序列 中编码蛋白质的部分,即外显子部分。
表1 九种完整DNA序列的碱基组成
4
表2 人类胎儿球蛋白基因不同区段的碱基组成
5
二.碱基相邻频率
分析DNA序列的主要困难之一是碱基相邻的频率 不是独立的。碱基相邻的频率一般不等于单个碱基 频率的乘积
例: 鸡血红蛋白β链的mRNA编码区的438个碱基
6
图1 鸡β球蛋白基因编码区的DNA序列 (GenBank:CHKHBBM,记录号J00860)
表4还清楚地表明,由于密码子第3位置上碱基的改变 常常不会改变氨基酸的类型,因而对第3位置上碱基的约 束要比第 2位碱基小得多。
9
表4 64种可能的碱基三联体密码子及相应的氨基酸数(据图1序列)
10
相邻碱基之间的关联将导致更远碱基 之间的关联,这些关联延伸距离的估计 可以从马尔科夫链(Markov chain)理论 得到(Javare和Giddings,1989)
预测方法中,最早是通过序列核苷酸频率、密码子等特性进行预 测(如最长ORF法等),随着各类数据库的建立和完善,通过相似 性列线比对也可以预测可能的基因。同时,一批新方法也被提了 出来,如隐马尔可夫模型(Hidden Markov Model,HMM)、动 态规划法(dynamic programming)、法则系统(ruled-based system)、语言学wk.baidu.comlinguistic)方法、线性判别分析(Linear Discriminant Analysis,LDA)、决策树(decision tree)、拼接列 线(spliced alingment)、博利叶分析(Fourier analysis)等。 下表列出了claverie(1997)对部分程序预测基因区域能力的比较 结果,表中同时列出了相应算法和程序的网址。
11
三.同向重复序列分析
除了分析整个序列碱基关联程度的特征外,我们常对寻找 同向重复序列(direct repeats)之类的问题感兴趣。Karlin等 (1983)给出了完成这一分析的有效算法。该法采用由特定的几 组碱基字母组成的不同亚序列或称为字码(word)。只需要对整 个序列搜索一次。给一碱基赋以值α,例如A、C、G、T的值为 0、1、2、3。由X1、X2、…、Xk 共k个字母组成的每一种不同 的字码按:
15
五、从序列中寻找基因
1.基因及基因区域预测
基因按其功能可分为结构基因和调控基因:结构基因可
被转录形成mRNA,并进而转译成多肽链;调控基因是
指某些可调节控制结构基因表达的基因。在DNA链上,
由蛋白质合成的起始密码开始,到终止密码子为止的一
个连续编码序列称为一个开放阅读框(Open Reading
序列分析
1
一、碱基组成
DNA序列一个显而易见的特征是四种碱基类 型的分布。尽管四种碱基的频率相等时对数学 模型的建立可能是方便的,但几乎所有的研究 都证明碱基是以不同频率分布的。
2
表1包含了9个完整DNA分子序列的资料,表2 的数据来自两个胎儿球蛋白基因(Gr和Ar),每个 基因具有三个外显子和两个内含子(shen等1981)。 这两个例子说明序列内和序列间碱基具有不同的 频率。在基因每一侧的500 个任意碱基区域被称 为“侧翼”,基因间区域是指两个基因间的其余 序列。
不过目前基因区域的预测已从单纯外显子预 测发展到整个基因结构的预测。这些预测综合 各种外显子预测的算法和人们对基因结构信号 (如TATA盒等)的认识,预测出可能的完整基因
18
基因区域的预测是一个活跃的研究领域,先 后有一大批预测算法和相应程序被提出和应用, 其中有的方法对编码序列的预测准确率高达 90%以上,而且在敏感性和特异性之间取得了 很好的平衡
计算字码值。这些值的取值范围为1到4k
12
例如:5字码TGACC的值为
1+3×44+2×43+0×42+1×41+1×40=459。可先从低k值的字码 开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k 字码长度重复的那些位置考虑进行长度大于k的字码搜索。
序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2) 的初始位置和字码值。对于完全重复、长度大于2的同向重 复或亚序列的搜索可只限于2字码重复的初始位置。
在本例中只有4个重复的2碱基重复序列。例如,在位置4、 5、8、9、10和15均发现了字码值为1的碱基重复序列。
从有重复的2碱基为起点的3字码值中发现字码值为1、45 和49的序列有重复;以每一重复的3碱基为起点的4字码搜 索未能发现更长的重复序列。
13
表5 序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin, 1983)
14
四、RNA二级结构预测
尽管现有一些RNA折叠程序可以预测RNA二级结构,但这类分析 仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区, 但对给定的RNA分子来说,这一结果的生物学意义究竟有多大,还 是一个未知数。即使有此局限性,二级结构的预测还是有助于找出 mRNA控制区以及RNA分子中可能形成稳定折叠结构的区段。
Frame,ORF)。结构基因多含有插入序列,除了细菌和病
毒的DNA中ORF是连续的,包括人类在内的真核生物的
大部分结构基因为断裂基因,即其编码序列在DNA分子
上是不连续的,或被插入序列隔开。断裂基因被转录成
前体mRNA,经过剪切过程,切除其中非编码序列(即内
含子),再将编码序列(即外显子)连接形成成熟mRNA,
7
表3 图1鸡β球蛋白基因序列的相邻碱基分布
8
在编码区,存在某种约束来限制DNA序列编码氨基酸。 在密码子水平上,这一约束与碱基相邻频率有关。
表4列出了遗传密码和图1序列中各密码子数量。尽管 数目很小,难以作出有力的统计结论,但编码同一氨基 酸的不同密码子(同义密码子)好像不是等同存在的。这 种密码子偏倚必定与两碱基相邻频率水平有关。
并翻译成蛋白质。假基因是与功能性基因密切相关的
DNA序列,但由于缺失、插入和无义突变失去阅读框而
不能编码蛋白质产物。
16
一种典型的真核蛋白质编码基因的结构示意图。其编码序列(外显子)是 不连续的,被非编码区(内含子)隔断。
17
所谓基因区域预测,一般是指预测DNA序列 中编码蛋白质的部分,即外显子部分。