生物信息学序列分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 如图
• 结果如下:
• 同样,可计算出密码子适应指数:
• Sequence: AY047586.1 CAI: 0.109
• 用chips计算出有效密码字数: • # CHIPS codon usage statistics Nc = 48.082
• 密码子适应指数( Codon adaption index , CAI ) • 该指数以一组具高表达水平的基因为参考, 测量某一个基因的密码子偏 好情况和这些高表达基因密码子偏好情况的接近程度, 如果一个基因完 全使用高表达基因中所用的密码子, 则其 C AI 值为 1。目前这个指数已 被广泛用来预测基 因 的表达水平。 • 有效密码子数 ( Effective Number of Codon ,Nc) • C AI 测量的是某个基因所用的密码子与高表达基因所用密码子的接近程 度 。 和 C AI 不同 ,Nc测量的是某个基因的密码子偏好程度 , 如果一个 基因平均使用每一个密码子 ,则其 Nc 为 61 ,如果一个基因只使用每组同 义密码子中的一个 ,则其 Nc 为 20 。理论上讲 ,一个具有低 C AI 的基 因也可以同时具有低 Nc 值 ,换句话说 , 该基因具有较强的密码子偏好性 ,只不过其偏向的并不是高表达基因所用的密码子 。
计算字码值。这些值的取值范围为1到4k
例如:5字码TGACC的值为
1+3×44+2×43+0×42+1×41+1×40=459。可先从低k值的字码 开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k 字码长度重复的那些位置考虑进行长度大于k的字码搜索。
序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2) 的初始位置和字码值。对于完全重复、长度大于2的同向重 复或亚序列的搜索可只限于2字码重复的初始位置。 在本例中只有4个重复的2碱基重复序列。例如,在位置4、 5、8、9、10和15均发现了字码值为1的碱基重复序列。 从有重复的2碱基为起点的3字码值中发现字码值为1、45 和49的序列有重复;以每一重复的3碱基为起点的4字码搜 索未能发现更长的重复序列。
• 计算同义密码子相对使用度(Relative synonymous codon usage, RSCU) • 在genebank中取出序列后,用codonw进行在线分析
•
同义密码子相对使用度(Relative synonymous codon usage, RSCU):它是指对于某一特定的密码子,在编码对应氨基酸的 同义密码子间的相对概率,去除了氨基酸组成对密码子使用的影 响。该值的计算方法为某一密码子所使用的频率与其在无偏使用 时预期频率之间的比值,如果密码子的使用没有偏好性,该密码 子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该 密码子为使用相对较多的密码子,反之亦然 。
一种典型的真核蛋白质编码基因的结构示意图。其编码序列(外显子)是 不连续的,被非编码区(内含子)隔断。
所谓基因区域预测,一般是指预测DNA序列 中编码蛋白质的部分,即外显子部分。 不过目前基因区域的预测已从单纯外显子预 测发展到整个基因结构的预测。这些预测综合 各种外显子预测的算法和人们对基因结构信号 (如TATA盒等)的认识,预测出可能的完整基因
离线软件有 RNAstructure
五、从序列中寻找基因 1.基因及基因区域预测
基因按其功能可分为结构基因和调控基因:结构基因可 被转录形成mRNA,并进而转译成多肽链;调控基因是 指某些可调节控制结构基因表达的基因。在DNA链上, 由蛋白质合成的起始密码开始,到终止密码子为止的一 个连续编码序列称为一个开放阅读框(Open Reading Frame,ORF)。结构基因多含有插入序列,除了细菌和病 毒的DNA中ORF是连续的,包括人类在内的真核生物的 大部分结构基因为断裂基因,即其编码序列在DNA分子 上是不连续的,或被插入序列隔开。断裂基因被转录成 前体mRNA,经过剪切过程,切除其中非编码序列(即内 含子),再将编码序列(即外显子)连接形成成熟mRNA, 并翻译成蛋白质。假基因是与功能性基因密切相关的 DNA序列,但由于缺失、插入和无义突变失去阅读框而 不能编码蛋白质产物。
表4 64种可能的碱基三联体密码子及相应的氨基酸数(据图1序列)
相邻碱基之间的关联将导致更远碱基 之间的关联,这些关联延伸距离的估计 可以从马尔科夫链(Markov chain)理论 得到(Javare和Giddings,1989)
什么是HMM? Hidden Markov Models (HMMs, 隐马尔可夫模型) 最早是在上个世纪60年代末70年代初提出来的一种 概率论模型。进入80年代以后,逐渐被利用在各个领 域。主要的应用领域: 语音识别系统。 生物学中的DNA/protein序列的分析。 机器人的控制。 文本文件的信息提取。
表5 序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin, 1983)
四、RNA二级结构预测
尽管现有一些RNA折叠程序可以预测RNA二级结构,但这类分析 仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区, 但对给定的RNA分子来说,这一结果的生物学意义究竟有多大,还 是一个未知数。即使有此局限性,二级结构的预测还是有助于找出 mRNA控制区以及RNA分子中可能形成稳定折叠结构的区段。 在线的有: mfold http://mfold.rna.albany.edu/?q=mfold RNAfold http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi SFold http://sfold.wadsworth.org/cgi-bin/index.pl
第7章 序列分析
一、初级序列分析
序列的组成/分子量/等电点分析
2
碱基组成
DNA序列一个显而易见的特征是四种碱基类 型的分布。尽管四种碱基的频率相等时对数学 模型的建立可能是方便的,但几乎所有的研究 都证明碱基是以不同频率分布的。
表1包含了9个完整DNA分子序列的资料,表2 的数据来自两个胎儿球蛋白基因(Gr和Ar),每个 基因具有三个外显子和两个内含子(shen等1981)。 这两个例子说明序列内和序列间碱基具有不同的 频率。在基因每一侧的500 个任意碱基区域被称 为“侧翼”,基因间区域是指两个基因间的其余 序列。
三.同向重复序列分析
除了分析整个序列碱基关联程度的特征外,我们常对寻找 同向重复序列(direct repeats)之类的问题感兴趣。Karlin等 (1983)给出了完成这一分析的有效算法。该法采用由特定的几 组碱基字母组成的不同亚序列或称为字码(word)。只需要对整 个序列搜索一次。给一碱基赋以值α,例如A、C、G、T的值为 0、1、2、3。由X1、X2、…、Xk 共k个字母组成的每一种不同 的字码按:
• 同义密码子(Synonymous Codons):编码同一氨基酸 的密码子。
• 在蛋白质编码过程中, 某一物种或某一基因通常倾向 于使用一种或几种特定的同义密码子, 这种现象称为 同义密码子的使用偏性(Synony mous Codon Usage Bias) • 研究密码子使用偏性的意义: • (一)作为预测真核生物核糖体在细胞内定位的一种 手段 ,通过比较核基因编码的核糖体蛋白和线粒体基 因编码的核糖体蛋白上密码子使用模式的差异来预测 未知蛋白的基因所在基因组位置。
图1 鸡β球蛋白基因编码区的DNA序列 (GenBank:CHKHBBM,记录号J00860)
表3 图1鸡β球蛋白基因序列的相邻碱基分布
在编码区,存在某种约束来限制DNA序列编码氨基酸。 在密码子水平上,这一约束与碱基相邻频率有关。 表4列出了遗传密码和图1序列中各密码子数量。尽管 数目很小,难以作出有力的统计结论,但编码同一氨基 酸的不同密码子(同义密码子)好像不是等同存在的。这 种密码子偏倚必定与两碱基相邻频率水平有关。 表4还清楚地表明,由于密码子第3位置上碱基的改变 常常不会改变氨基酸的类型,因而对第3位置上碱基的约 束要比第 2位碱基小得多。
SacI Hind III Xba I
Sac I Cloning site Plasmid vector Hind III XbaI
18
19
20
二.碱基相邻频率
分析DNA序列的主要困难之一是碱 基相邻的频率不是独立的。碱基相 邻的频率一般不等于单个碱基频率 的乘积
例: 鸡血红蛋白β链的mRNA编码区的438个碱基
• •
其中,n表示这个密码子所代表的氨基酸的同义密码子种类数目(1<n) x代表第i个密码子的出现次数。RSCU是衡量密码子偏性较直观的一个 参数。
• 结果如下:
• 利用rscu计算密码子Franction和Frequency。 • Franction:各个密码子在编码该氨基酸的密码子中所占的比例。 • Frequency:该密码子在编码总基因密码子中出现的频率。
• GC 和 GC3s
• G C 测量的是基因中 G 和 C 的含量 。G C 3s 则计算密码子第三个碱基 中出现 G 或 C 的频率 。一般认为这两个因素对基因的密码子选择有重 要影响。 • GC content – 不同物种GC含量变化很大 – 识别基因水平转移,判断外源基因 GC skew – (G-C)/(G+C)% – 预测细菌或古细菌复制起点
• (二)通过密码子使用偏好性的研究,可以判定一些最优
密码子,针对这些密码子设计基因工程表达载体可以提高目 的基因的表达量 。 • (三)利用密码子使用偏好性和某种功能的关联程度对某些 未知功能基因进行预测,利用已知的密码子偏好知识对未知 表达水平的基因进行判定,初步判断该基因的表达水平高或 低。 • (四)利用编码区和非编码区的基因组特征差异进行全基因 组扫描,发现新基因。
表1 九种完整DNA序列的碱基组成
表2 人类胎儿球蛋白基因不同区段的碱基组成
7
序列组成分析
8
A/G/C/T的组成,尤其是G+C含量的预测(进化?探针设计?)
9
10
序列组成分析
11
序列组成分析
12
蛋白分子量和等电点
13
蛋白分子量和等电点
14
蛋白分子量和等电点
15
蛋白质分子量/等电点预测 online Compute pI/MW
27
什么是HMM? 对于给定的核苷酸序列,我们在位置p处出现的概率依赖于其 后的核苷酸序列。即任何一个核苷酸的出现并不是完全独立的。 大家只要知道HMM是目前生物信息学中应用非常广泛的概率 论模型,广泛应用于基因识别,其基本原理基于任何一个序 列的出现都不是独立的。
28
密码子偏好性分 析
• 密码子是核酸携带信息和蛋白质携带信息间 对应的基本原则, 是生物体内信息传递的基本 环节。在生物的遗传密码中, 除色氨酸和甲硫 氨酸只有一个密码子外, 其余氨基酸都有一个 以上的简并密码子。对同一物种, 不同蛋白编 码密码子在基因中出现的频率不同; 就同一种 氨基酸而言, 编码该氨基酸的不同密码子的比 率在不同的蛋白中也有差异, 因此生物体基因 对简并密码子的选择具有一定的偏爱性。
http://us.expasy.org/tools/pi_tool.html
16
酶切源自文库点分析
只要进行基因工程利用必须用到各种限制性内切酶
如 GGATCC
BamHI
17
进行酶切位点分析的时候,对于构建载体,我们需要知 道的信息是你的序列中有/没有某个酶的位点? 为什么?
如果答案是“有”,是什么情况?“没有”又是什么情 况?
• 由于密码子偏性的研究近年来一直是一个热点,因此 研究的指标也出现得很多,如可以衡量特定基因偏性 大小的密码子偏爱指CBI(Morton1993)和最优密码子 使用频率FOp(Lavnerand Kotlar2005) 等。多种多样 的技术和方法促进了密码子偏性的研究,但是也产生 了一些的研究结果之间存在了的不一致,特别是有些 方法仅仅能运用于局限的物种或某些特定的基因中。 因此在使用这些新开发的方法时,必须了解每一种方 法背后的假设和推论,才能确保结果的正确性。