生物信息学9序列分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
PPT文档演模板
生物信息学9序列分析
•三.同向重复序列分析
• 除了分析整个序列碱基关联程度的特征外,我们常对寻 找同向重复序列(direct repeats)之类的问题感兴趣。Karlin等 (1983)给出了完成这一分析的有效算法。该法采用由特定的几 组碱基字母组成的不同亚序列或称为字码(word)。只需要对整 个序列搜索一次。给一碱基赋以值α,例如A、C、G、T的值为 0、1、2、3。由X1、X2、…、Xk 共k个字母组成的每一种不同 的字码按:
•例: •鸡血红蛋白β链的mRNA编码区的438个碱基
PPT文档演模板
生物信息学9序列分析
•图1 鸡β球蛋白基因编码区的DNA序列 •(GenBank:CHKHBBM,记录号J00860)
PPT文档演模板
生物信息学9序列分析
•表3 图1鸡β球蛋白基因序列的相邻碱基分布
PPT文档演模板
生物信息学9序列分析
PPT文档演模板
•计算字码值。这些值的取值范围为1到4k
生物信息学9序列分析
• 例如:5字码TGACC的值为
1+3×44+2×43+0×42+1×41+1×40=459。可先从低k值的字码 开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k 字码长度重复的那些位置考虑进行长度大于k的字码搜索。
生物信息学9序列分析
•一种典型的真核蛋白质编码基因的结构示意图。其编码序列(外显子)是 不连续的,被非编码区(内含子)隔断。
PPT文档演模板
生物信息学9序列分析
• 所谓基因区域预测,一般是指预测DNA序列 中编码蛋白质的部分,即外显子部分。 • 不过目前基因区域的预测已从单纯外显子预 测发展到整个基因结构的预测。这些预测综合 各种外显子预测的算法和人们对基因结构信号 (如TATA盒等)的认识,预测出可能的完整基因
• 在编码区,存在某种约束来限制DNA序列编码氨基酸。 在密码子水平上,这一约束与碱基相邻频率有关。
• 表4列出了遗传密码和图1序列中各密码子数量。尽管 数目很小,难以作出有力的统计结论,但编码同一氨基 酸的不同密码子(同义密码子)好像不是等同存在的。这 种密码子偏倚必定与两碱基相邻频率水平有关。
PPT文档演模板
生物信息学9序列分析
•表5 序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin, 1983)
பைடு நூலகம்
PPT文档演模板
生物信息学9序列分析
•四、RNA二级结构预测
• 尽管现有一些RNA折叠程序可以预测RNA二级结构,但这类分析 仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区, 但对给定的RNA分子来说,这一结果的生物学意义究竟有多大,还 是一个未知数。即使有此局限性,二级结构的预测还是有助于找出 mRNA控制区以及RNA分子中可能形成稳定折叠结构的区段。
生物信息学9序列分析
PPT文档演模板
2020/11/26
生物信息学9序列分析
•一、碱基组成
• DNA序列一个显而易见的特征是四种碱基 类型的分布。尽管四种碱基的频率相等时对数 学模型的建立可能是方便的,但几乎所有的研 究都证明碱基是以不同频率分布的。
PPT文档演模板
生物信息学9序列分析
• 表1包含了9个完整DNA分子序列的资料,表2 的数据来自两个胎儿球蛋白基因(Gr和Ar),每个 基因具有三个外显子和两个内含子(shen等1981)。 这两个例子说明序列内和序列间碱基具有不同的 频率。在基因每一侧的500 个任意碱基区域被称 为“侧翼”,基因间区域是指两个基因间的其余 序列。
PPT文档演模板
生物信息学9序列分析
拟南芥phyA 部份RNA
PPT文档演模板
生物信息学9序列分析
PPT文档演模板
生物信息学9序列分析
•五、从序列中寻找基因
•1.基因及基因区域预测
PPT文档演模板
• 基因按其功能可分为结构基因和调控基因:结构基因 可被转录形成mRNA,并进而转译成多肽链;调控基因 是指某些可调节控制结构基因表达的基因。在DNA链上, 由蛋白质合成的起始密码开始,到终止密码子为止的一 个连续编码序列称为一个开放阅读框(Open Reading Frame,ORF)。结构基因多含有插入序列,除了细菌和病 毒的DNA中ORF是连续的,包括人类在内的真核生物的 大部分结构基因为断裂基因,即其编码序列在DNA分子 上是不连续的,或被插入序列隔开。断裂基因被转录成 前体mRNA,经过剪切过程,切除其中非编码序列(即内 含子),再将编码序列(即外显子)连接形成成熟mRNA, 并翻译成蛋白质。假基因是与功能性基因密切相关的 DNA序列,但由于缺失、插入和无义突变失去阅读框而 不能编码蛋白质产物。
PPT文档演模板
生物信息学9序列分析
•表1 九种完整DNA序列的碱基组成
PPT文档演模板
生物信息学9序列分析
•表2 人类胎儿球蛋白基因不同区段的碱基组成
PPT文档演模板
生物信息学9序列分析
•二.碱基相邻频率
• 分析DNA序列的主要困难之一是碱基相邻的频率 不是独立的。碱基相邻的频率一般不等于单个碱基 频率的乘积
• 表4还清楚地表明,由于密码子第3位置上碱基的改变 常常不会改变氨基酸的类型,因而对第3位置上碱基的约 束要比第 2位碱基小得多。
PPT文档演模板
生物信息学9序列分析
•表4 64种可能的碱基三联体密码子及相应的氨基酸数(据图1序列)
PPT文档演模板
生物信息学9序列分析
• 相邻碱基之间的关联将导致更远碱基 之间的关联,这些关联延伸距离的估计 可以从马尔科夫链(Markov chain)理论 得到(Javare和Giddings,1989)
• 序列TGGAAATAAAACGTAAGTAG中所有碱基2字码 (k=2)的初始位置和字码值。对于完全重复、长度大于2的同 向重复或亚序列的搜索可只限于2字码重复的初始位置。 • 在本例中只有4个重复的2碱基重复序列。例如,在位置4、 5、8、9、10和15均发现了字码值为1的碱基重复序列。 • 从有重复的2碱基为起点的3字码值中发现字码值为1、45 和49的序列有重复;以每一重复的3碱基为起点的4字码搜 索未能发现更长的重复序列。