生物信息学
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。
狭义:应用信息科学的理论、方法和技术管理、分析和利用生物分子数据。
通过收集、组织、管理生物分子数据,使研究人员能够迅速地获得和方便地使用相关信息;通过处理、分析、挖掘生物分子数据,得到深层次的生物学知识,加深对生物世界的认识
生物系统树把物种按亲缘关系远近用图形表达而成的树状系统
模式生物的基因组结构相对于人类基因组来说,比较简单,在基因组测序时可以为人类基因组计划提供借鉴,更重要的是对这些模式生物体的功能基因的认识可以为认识人类基因组的功能提供更多的帮助。
四大“模式生物”:酵母、线虫、果蝇、小鼠
模式生物的特点
1)生理特征能够代表生物界的某一大类群;
2)容易获得并易于在实验室内饲养繁殖;
3)容易进行实验操作,特别是遗传学分析.
酵母:真菌界的单细胞真核生物
1)是单细胞生物,可在基本培养基上生长,可通过改变物理或化学环境完全控制其生长
2)在单倍体和二倍体的状态下均可生长,并可在实验条件下控制单倍体和二倍体之间的相互转换,这对其基因功能的研究十分有利
3)有将近31%编码蛋白质的基因或ORF与哺乳动物编码蛋白质的基因有高度的同源性
拟南芥:十字花科草本,生活周期为6周,是理想的模式植物
[斑马鱼]和[非洲爪蟾]
是目前最常用的两种模式低等脊椎动物
斑马鱼特点:1)产卵多,繁殖迅速
2)胚胎通体透明,是进行胚胎发育机理和基因组研究的好材料
非洲爪蟾特点:1)卵母细胞体积大,数量多,易于显微操作,还可制成具有生物活性的无细胞体系,易于生化分析,在卵母细胞减数分裂机理研究中有重要作用
蛋白质的空间结构
一级结构(primary structure)
多肽链中氨基酸数目、种类和线性排列顺序
二级结构(secondary structure)
-螺旋(-helix)
-折叠(-sheet)
三级结构(tertiary structure)
肽链进一步沿多方向盘绕成紧密的近似球状结构
四级结构(quaternary structure)
具有特定构象的肽链进一步结合,并在空间相互作用
重要的生物信息学问题
从氨基酸序列预测蛋白质的结构与功能
蛋白质Fold的分类与预测
结构域(domain)分析与预测Motif分析与预测(如信号肽)
二级结构预测-螺旋(-helix)-折叠(-sheet)
高级的预测
核酸的特殊意义:存储大量被压缩的生物信息
生物信息学的主要研究内容
生物学数据的收集、存储、管理与提供
基因组序列信息的提取和分析功能基因组相关信息分析
生物大分子结构模拟和药物设计生物信息分析的技术与方法研究应用与发展研究
计算生物学/生物信息学的主要理论方法
基于数据挖掘(知识发现)的方法基于模拟分析的方法
1.核酸和蛋白质序列分析研究
2. 生物分子相互作用的复杂系统模拟
I型内含子的特征
1.边界顺序为5′U……G 3′;
2.具有中部核心结构(Central core structure);
3.内部引导顺序(Internal guide seguence IGS);
4.剪接通过转酯反应(Transesterification).
内含子的拼接比较
从内含子的剪接机制来看,I型内含子、II型内含子和核pre-mRNA剪接的III型内含子是相似的,只有tRNA的IV型内含子剪接机制完全不同。
I型内含子剪接与核Pre-mRNA剪接体切除内含子的主要区别是,剪接体内含子使用内含子自身的一个核苷酸,而I型内含子的剪接反应使用外源核苷酸,即鸟苷酸或鸟苷,因此在剪接过程中不能形成套索结构。
III型内含子的剪接体内snRNA的整体形态和II型内含子自我剪接时的形态类似,特别是剪接体的snRNA和II型内含子的催化部位之间的结构和功能十分相似。
可以认为,这些snRNA可能来自早期自我剪接系统的II型内含子
I型内含子与II型内含子都能够完成自我剪接,不像III型内含子那样需要结构复杂的剪接体。
正因为如此,I型内含子与II型内含子剪接的效率和调控远远比不上III型内含子。
I 型内含子的剪接反应使用外源鸟苷酸或鸟苷,II型内含子的转酯反应无需游离鸟苷酸或鸟苷的启动,由内含子内部的腺苷酸引起,也许II型内含子剪接的效率和精确度比I型内含子更好一些。
核酶的活性部位是暴露在分子表面的一段保守核苷酸区域,无论RNA分子形成的是二级或三级结构,都使得这个区域保持一种特定的分子环境,能使自身RNA分子断裂,或者使另一底物分子的磷酸二酯键断裂,或在切割一个磷酸二酯键的同时,形成另一个新的磷酸二酯键。
核酶RNA与底物RNA之间的相互作用依赖于碱基配对,形成一种催化环境。
Nucleotide 数据库分为三个子数据库
EST :表达序列标记数据库
GSS :基因组测序序列数据库
CoreNucleotide :包含所有未被以上两个子数据库收录的核苷酸序列
检索限定词:1、基因名称的检索限定词:[GENE] or [GENE NAME]
2、生物体名称的检索限定词:[ORGN] or [ORGANISM]
3、作者姓名的检索限定词:[AUTH] or [AUTHOR]
点击send选择file,格式为FASTA
PRIMER PREMIER 该软件主要由以下四个主要功能板块组成
GeneTank 序列编辑;Primer 引物设计;Align 序列比较;Enzyme 酶切分析;Motif 基序分析
“Premier”进行自动搜索,“Oligo”进行分析评价
引物设计应注意的要点
1. 引物的长度一般为15-30 bp,常用的是18-27 bp,但不应大于38,因为过长会导致其延
伸温度大于74℃,不适于Taq DNA聚合酶进行反应。
2. 引物序列在模板内应当没有相似性较高,尤其是3’端相似性较高的序列,否则容易导致错配。
引物3’端出现3个以上的连续碱基,如GGG或CCC,也会使错误引发机率增加。
3. 引物3’端的末位碱基对Taq酶的DNA合成效率有较大的影响。
不同的末位碱基在错配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3’端使用碱基A。
另外,引物二聚体或发夹结构也可能导致PCR反应失败。
5’端序列对PCR影响不太大,因此常用来引进修饰位点或标记物。
4. 引物序列的GC含量一般为40-60%,过高或过低都不利于引发反应。
上下游引物的GC 含量不能相差太大。
5. 引物所对应模板位置序列的Tm值在72℃左右可使复性条件最佳。
Tm值的计算有多种方法,如按公式Tm=4(G+C)+2(A+T),在Oligo软件中使用的是最邻近法(the nearest neighbor method) 。
6. ΔG值是指DNA双链形成所需的自由能,该值反映了双链结构内部碱基对的相对稳定性。
应当选用3’端ΔG值较低(绝对值不超过9),而5’端和中间ΔG值相对较高的引物。
引物的3’端的ΔG值过高,容易在错配位点形成双链结构并引发DNA聚合反应。
7. 引物二聚体及发夹结构的能值过高(超过4.5kcal/mol)易导致产生引物二聚体带,并且降低引物有效浓度而使PCR反应不能正常进行。
8. 对引物的修饰一般是在5’端增加酶切位点,应根据下一步实验中要插入PCR产物的载体的相应序列而确定
在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。
一个普遍的规律是序列决定结构,结构决定功能研究序列相似性的另一个目的是:通过序列的相似性,判别序列之间的同源性,推测序列之间的进化关系。
序列比较的根本任务是:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的差异。
在生物学种系发生理论中,若两个或多个结构具有相同的祖先,则称它们同源(Homology)。
这里相同的祖先既可以指进化论意义上的祖先.同源这一概念需与相似区分开来。
这些相似的结构由不同的渠道演化而来,这种演化过程叫做趋同演化
直向同源(orthologous)序列是来自于不同的种属同源序列,而共生同源(paralogous)序列则是来自于同一种属的序列,它是由进化过程中的序列复制而产生的。
序列比较的基本操作
序列比较的基本操作是比对(align)。
两条序列的比对(alignment)是指这两条序列中各个字符的一种一一对应关系,或字符对比排列。
序列的比对是一种关于序列相似性的定性描述,它反映在什么部位两条序列相似,在什么部位两条序列存在差别。
最优比对揭示两条序列的最大相似程度,指出序列之间的根本差异。
序列比较的具体任务和应用
最简单的距离就是海明(Hamming)距离。
对于两条长度相等的序列,海明距离等于对应位置字符不同的个数.
编辑操作
为了解决字符插入和删除问题,引入字符“编辑操作”(Edit Operation)的概念,通过编辑操作将一个序列转化为一个新序列。
用一个新的字符“-”代表空位(或空缺,Space),并定义下述字符编辑操作:
Match(a,a)—字符匹配;
Delete(a,-)—从第一条序列删除一个字符,或在第二条序列相应的位置插入空白字符;
Replace(a,b)—以第二条序列中的字符b替换第一条序列中的字符a,a¹b;
Insert(-,b)—在第一条序列插入空位字符,或删除第二条序列中的对应字符b。
在比较两条序列s和t时,在s中的一个删除操作等价于在t中对应位置上的一个插入操作,反之亦然。
需要注意的是,两个空位字符不能匹配,因为这样的操作没有意义。
引入上述编辑操作后,重新计算两条序列的距离,就成为编辑距离。
Ortholog (直系同源物):两个基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。
Paralog (旁系同源物):两个基因在同一物种中,通过至少一次基因复制的事件而产生。
常常具有不同功能。
Xenolog (异系同源物):由某一个基因水平转移事件而得到的同源序列。
水平转移的基因功能主要根据在前后宿主中变化而确定,然而功能却常常相似。
相对同义密码子使用度(relative synonymous codon usage, RSCU)
定义:观测到的某一同一密码子的使用次数,除以“期望”的该密码子出现次数
分子系统发育分析
1. 系统发育树:分子进化树/分子进化分析
2. 通过进化树的构建,分析分子之间的起源关系,预测分子的功能。
建树方法:
A. 最大简约法(Maximum Parsimony)
B. 距离法(distance-based methods)
C. 最大似然性法(Maximum Likelihood)
D. 贝叶斯(Bayesian)推断
1. 最大简约法(maximum parsimony, MP)
适用序列有很高相似性时
2. 距离法(distance)
适用序列有较高相似性时
3. 最大似然法(maximum likelihood, ML)
可用于任何相关序列集合
计算速度:
距离法>最大简约法>最大似然法
构建进化树的一般原则
1. 可靠的待分析数据
2. 准确的多序列比对
3. 选择合适的建树方法:
A. 序列相似程度高,MP首先
B. 序列相似程度较低,ML首先
C. 序列相似程度太低,无意义
4.一般采用两种及以上方法构建进化树,无显著区别可接受
常见的编码区统计特性分析工具将多种统计分析技术组合起来,给出对编码区的综合判别。
著名的程序有GRAIL和GenMark等,GRAIL提供了基于Web的服务。
启动子分析内含子/外显子剪接位点内含子/外显子剪接位点
PolyA和翻译终止信号不象起始信号那么重要,但也可以辅助划分基因的范围。
1.从氨基酸组成辨识蛋白质
ExPASy AACompIdent 根据氨基酸组成辨识蛋白质。
这个程序需要的信息包括:氨基酸组成、蛋白质的名称(在结果中有用)、pI和Mw(如果已知)以及它们的估算误差、所属物种或物种种类或“全部(ALL)”、标准蛋白的氨基酸组成、标准蛋白的SWISS-PROT编号、用户的Email 地址等,其中一些信息可以没有。
这个程序在SWISS-PROT和(或)TrEMBL数据库中搜索组成相似蛋白。
除了ExPASy中的工具外,PROPSEARCH也提供基于氨基酸组成的蛋白质辨识功能。
程序作者用144种不同的物化性质来分析蛋白质,包括分子量、巨大残基的含量、平均疏水性、平均电荷等,把查询序列的这些属性构成的“查询向量”与SWISS-PROT和PIR中预先计算好的各个已知蛋白质的属性向量进行比较。
这个工具能有效的发现同一蛋白质家族的成员。
可以通过Web使用这个工具,用户只需输入查询序列本身
2.预测蛋白质的物理性质
从蛋白质序列出发,可以预测出蛋白质的许多物理性质,包括等电点、分子量、酶切特性、疏水性、电荷分布等。
相关工具有:
Compute pI/MW:是ExPASy工具包中的程序,计算蛋白质的等电点和分子量。
对于碱性蛋白质,计算出的等电点可能不准确。
PeptideMass:是ExPASy工具包中的程序,分析蛋白质在各种蛋白酶和化学试剂处理后的内切产物。
蛋白酶和化学试剂包括胰蛋白酶、糜蛋白酶、LysC、溴化氰、ArgC、AspN和GluC 等。
TGREASE:是FASTA工具包中的程序,分析蛋白质序列的疏水性。
这个程序延序列计算每个残基位点的移动平均疏水性,并给出疏水性-序列曲线,用这个程序可以发现膜蛋白的跨膜区和高疏水性区的明显相关性。
SAPS:蛋白质序列统计分析,对提交的序列给出大量全面的分析数据,包括氨基酸组成统计、电荷分布分析、电荷聚集区域、高度疏水区域、跨膜区段等等。
PredictProtein:提供了序列搜索和结构预测服务。
它先在SWISS-PROT中搜索相似序列,用MaxHom算法构建多序列比对的profile,再在数据库中搜索相似的profile,然后用一套PHD程序来预测相应的结构特征,包括二级结构。
返回的结果包含大量预测过程中产生的信息,还包含每个残基位点的预测可信度。
这个方法的平均预测准确率达到72%。
、
SignalP:预测蛋白质序列中信号肽的剪切位点。
三维建模但也有了一些有一定作用的三维结构预测方法。
最常见的是“同源模建”和“Threading”方法。
前者先在蛋白质结构数据库中寻找未知结构蛋白的同源伙伴,再利用一定计算方法把同源蛋白的结构优化构建出预测的结果。
后者将序列“穿”入已知的各种蛋白质的折叠子骨架内,计算出未知结构序列折叠成各种已知折叠子的可能性,由此为预测序列分配最合适的折叠子结构。
除了“Threading”方法之外,用PSI-BLAST方法也可以把查询序列分配到合适的蛋白质折叠家族,实际应用中发现这个方法的效果也不错。
SWISS-MODEL:自动蛋白质同源模建服务器,有两个工作模式:第一步模式(First Approach mode)和优化模式(Optimise mode)。
程序先把提交的序列在ExPdb晶体图像数据库中搜索相似性足够高的同源序列,建立最初的原子模型,再对这个模型进行优化产生预测的结构模型。
CPHmodels:也是利用神经网络进行同源模建预测蛋白质结构的方法。
MEGA BLAST采用了贪婪算法(greedy algorithm),它连接了多个查询序列进行一次搜索比对,这样节省了很多搜索数据库的时间。
主要针对核酸序列。
是blast经过优化后,适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较,比一般的相似性搜索程序要快10倍,可以很快的完成两组大数据的比对。
分子进化的模式
DNA突变的模式:替代,插入,缺失,倒位;
核苷酸替代:转换(Transition) & 颠换(Transversion)
基因复制:多基因家族的产生以及伪基因的产生
A. 单个基因复制–重组或者逆转录
B. 染色体片断复制
C. 基因组复制
分子进化研究的目的
物种分类及关系:从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系——tree of life
大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析;功能预测
进化速率分析:例如,HIV的高突变性;哪些位点易发生突变?。