生物信息学考试笔记
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学的应用
生物信息蕴藏的巨大的经济价值, 大量的生物信息公司应运而生
生物信息在基因组分析中的应用
序列片断的拼接;可能基因的寻找;基因功能的预测,特别是多基因;结构的分析与预测(三级结构与功能);功能基因组和蛋白质组;代谢过程;分子进化
3.新药开发
Bioinformatics Features
1. Biological molecule,生物大分子的生物学
2. Molecular information研究生物大分子的分子信息
3. Informatics techniques需要利用计算机科学辅助
4. Organize生物信息学的研究是建立在对这些相关的信息组织归纳
5. Large-scale 建立在大量的大规模的生物大分子信息积累基础上
主要研究内容:
1、碱基序列比对(Alignment)。是生物信息学的基础问题。
2、蛋白分子结构预测与比对。包括2级和3级结构
基因信息与非编码区分析和DNA信息研究,是最重要的课题之一。
6、分子进化和比较基因组学,其他。序列重叠群(Contigs)装配。遗传密码的起源。基于结构的药物设计。如基因表达浦分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,
PAM:为了得到氨基酸的打分矩阵,最常用的办法是统计自然界中各种氨基酸残基的相互替换率。PAM是基于通过统计相似序列比对中的替换发生率来得到的,打分矩阵,亦称point accepted mutation matrix.替换频繁,打分优惠;反之罚分。
PAM-1: 1% divergence in a protein (one amino acid replacement per hundred
PAM250: (250 substitutions per hundred residues) only one amino acid in five remains unchanged and the percent divergence has increased to roughly 80%.
PAM1000: 1000 substitutions per hundred residues
相对突变率(relative mutability):一个氨基酸被其他氨基酸替换的概率。
相对替换率:一个氨基酸被其他氨基酸替换的概率。某种氨基酸被其他氨基酸替换的次数;如Aij: Acm:甲硫氨酸被半胱氨酸替换的次数。
分子时钟 (molecular clock)
在长期的进化过程中,有着相似的功能约束的位点的分子进化速率几乎完全一致,蛋白质同系物的替换率过了千百万年也能保持恒定,因此可将氨基酸的变异积累比作分子时钟。
自然选择会减少导致生物体生存和繁衍能力下降的基因变化。相对重要的基因在进化过程中,自然选择压力大,趋向于非常缓慢地积累变化。这个现象称为功能约束。
其中,改变核苷酸编码序列但不影响蛋白质的氨基酸序列,这样的变化称为同义替换。而碱基的变化则会改变蛋白质的氨基酸序列,因而成为异义替换。
受到功能约束的影响。同义(伪基因)的替换率(Ks),通常被认为能较好的反应出基因组突变的实际速率,因为它们没有,或有较少的自然选择压力。而异义替换速率(Ka)收到自然选择的压力,相比同义(伪基因)的替换率(Ks)较低。
假设其n年一代,4*1000*n
课后练习2.7
JuKes-Cantor
在替换经常出现的地方,某些位点就可能会发生多次替换,JuKes-Cantor模型能为计算单个位点可能出现多次替换时每个位点的实际替换数目(K)提供有用的依据。
模型最开始时认为任何的碱基之间的突变都可以用α表示。后来模型进一步改进,碱基的每一种变化都有不同的概率。
简述三种常见比对方法的优缺点。
Chou-Fasman模型
Chou-Fasman方法是一个直接利用统计方法来预测二级结构的方法,其基本思想是在序列中寻找规则二级结构的成核位点和终止位
点。每种氨基酸都有其特征参数来表示a螺旋,b转角,b转角,及b转角每一个位置的频率,表示其形成个个结构的偏向性。
在Chou-Fasman模型之下,每一种二级结构都有其具体的预测规则。
在具体预测二级结构的过程中,首先扫描待预测的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列片段,然后对于成核区域进行扩展,不断扩大成核区域,直到二级结构类型可能发生变化为止,最后得到的就是一段具有特定二级结构的连续区域
GOR方法是一种基于长度为17的残基,通过对已知二级结构进行搜集整理,计算出中心残基二级结构预测的方法。
简述UPGMA距离矩阵法建立系统发生数的基本原理和基本过程
非加权组平均法(UPGMA) 最早的距离矩阵法,用于系统发生树的重建。其假定的前提条件是:在进化过程中,核苷酸或氨基酸的替换速率是均等且恒定的,在每一次分歧发生后,从共同祖节点到两个分类单元间的分支长度一样。
先将两个距离最近的物种合成一个复合物种,更新距离距阵;
d(AB)C=1/2(dAC+dBC); d(AB)D=1/2(dAD+dBD)
将新的距离距阵中最小的两个物种再次合成复合物种;反复聚类;如用分支长度表示物种之间的进化距离,则分支点位于原来两个物种之间距离的一半处.
表型分析的缺点:趋同进化(convergent evolution):表型相似,但物种的确不一样;有时无法进行表型比较:如,细菌,蠕虫等,Advantage with molecular data
高效;特征确切;易定量
系统发生树有时也称为系统树图,由一系列节点和分支组成的,其中每一个节点代表一个分类单元。分支末端的节点对应一