生物信息学总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章生物信息学导论
1、什么是生物信息学?学习生物信息学一般需要哪几个方面的基础?研究对象?研究内容?
答:生物信息学(Bioinformatics) 是一门交叉学科,它综合运用数理科学和信息科学中的理论和方法,以计算机为工具对生物学实验数据进行收集、加工、储存、传播、检索和分析,以揭示数据所蕴含的生物学意义。
基础:数学、信息学、计算机科学
研究对象:核酸、蛋白质等生物大分子数据库。
研究内容:开发数据库和工具来存储、管理、使用生物学数据,开发算法、软件来对生物学数据进行分析和解释,出版生物信息学文献、书籍、资料
第二章生物信息学数据库
1、数据库分类,一级数据库,二级数据库
答:数据库的分类:一级数据库:数据库中的数据直接来源于实验获得的原始数据,
只经过简单的归类整理和注释1、核酸序列数据库2、蛋白质序列数据库3、生物大分子结
构数据库4、基因组数据库
二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理
论分析的基础上针对特定的应用目标而建立的
三大核酸序列数据库:美国生物技术信息中心的GenBank ,欧洲生物信息学研究所的EMBL ,日本国立遗传研究所的DDBJ
2、Entrez检索系统,常用的数据库有哪些,有什么用途?
Entrez是NCBI开发的综合数据库检索工具
GenBank: 核酸序列数据
RefSeq:Reference Sequence (参考序列数据)
Genome:基因组数据
Gene: 为每个基因建立一个文本描述条目
UniGene: 归纳每一个基因的EST, mRNA, 蛋白质序列
GEO: 基因表达数据
SNP: SNP位点数据库
Structure: 记录大分子三维结构数据
第三章Blast与数据库搜索
1、序列similarity和序列homology有何区别和联系?
(1)相似性(similarity):是一种数量关系,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80%,或者4/5。
(2)同源性(homology):这是质的判断,指从一些数据中推断出的两个基因或蛋白质序列是否具有共同的祖先。
序列相似性比较:
❒将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性
❒常用的程序包有BLAST、FASTA等
序列同源性分析:
❒将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。
2、什么是Blast,BLAST的基本原理是什么?,有哪几种Blast,其查询和比对的序列是什么?
BLAST: Basic Local Alignment Search Tool是一种基于局部双序列比对的数据库相似性搜索工具
BLAST的算法:BLAST先找出某些“种子”,即探测序列和数据库序列间非常短的匹配的片段对,它们的比对得分至少是T,然后向两端不带空格地扩展这些种子,并使用替换矩阵计算得分,直到达到最大可能得分。程序并不持续地对种子进行扩展,当得分低于某个既定的阈值时便停止。
程序名探测序列数据库类型方法
Blastp 蛋白质蛋白质用蛋白质探测序列搜索蛋白质序列数据库Blastn 核酸核酸用核酸探测序列搜索核酸序列数据库Blastx 核酸蛋白质用核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库
tBlastn 蛋白质核酸用蛋白质探测序列搜索核酸序列数据库,核酸序列按6条链翻译成蛋白质
tBlastx 核酸核酸将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列的数据库
3、序列相似度聚类的含义?
序列相似度聚类定义:设P为包含n条序列的序列数据集(核酸或蛋白质),序列相似度聚类是指寻找P上的划分P1, P2,⋯, P k,使属于同一划分的序列间的相似性尽量大,而属于不同划分的符号序列间相似性尽量小。
第四章多序列比对
1.什么是多序列比对? ClustalX的基本原理步骤?Muscle基本原理和步骤?多序列比对结果编辑软件CINEMA
多序列比对(Multiple Sequence Alignment, MSA)可表示为一张表,表中每一行代表一个序列,每一列代表一个残基(或碱基)的位置,序列排列满足下列规则:
每一条序列所有字符的相对位置保持不变
同一列上的字符尽可能的相同或相似
Clustal X的步骤:1.使用动态规划法构造每个序列的配对比对,包括Clustal W 在内的许多比对算法在这一步使用距离矩阵而不是相似性矩阵来描述序列间的关联性;第二,由距离矩阵构造一颗指导树,树的两个主要特征是拓扑结构和分支长度,它一般并不当作是种系树,只反映了参与比对的多个序列如何相关联,用来确定向正在进行的多序列比对中加入新序列的次序;第三,以计分最高的配对比对作为多序列比对的种子,根据指导树逐渐向多序列比对中加入序列。MUSCLE的三个步骤:首先,使用渐进多序列比对产生一个初始结果,其中含有根据每对序列的相似性计分构造的一颗指导树;其次,重新计算相似性计分,据此改进指导树并再用渐进多序列比对产生一个更新的结果,这一过程迭代地进行;再次,算法根据新计算的SP计分值是否增加而决定是接受还是拒绝新产生的比对结果。
CINEMA(Color Interactive Editor for Multiple Alignments):一种多序列比对结果编辑软件
❒特点:拖放式编辑,多motif的选择与操作,显示蛋白质结构
第五章分子进化与系统发育分析
1.何谓分子钟?有何实际应用意义?
答:分子钟指DNA或蛋白质序列的进化速率随时间或进化谱系保持恒定。
实际意义:进化时间的估计。
2.直系同源和旁系同源的含义?
答:Ortholog (直系同源物):两个基因通过物种形成的事件而产生,或者两个物种中的同一基因,一般具有相同的功能
Paralog (旁系同源物):两个基因在同一物种中,通过至少一次基因复制的事件而产生
3.分子进化有哪两层含义?
答:1.分子进化是对不同生命进化树的分支的基因和蛋白质的变化来进行研究。
2.从分子水平上说,进化是对突变进行选择的过程。
4.何谓分子进化的中性理论?
答:1. 分子进化速率的恒定性。
2. 分子进化的保守性。
3. 进化过程中,对分子功能不损害或损害轻的突变较之损害严重的突变容易发生。
4. 具有新功能的基因一般起源于基因重复。
5. 在分子水平上所看到大部分进化是对自然选择既非有利也非不利的中性突变,且由
于随机漂变使之在群体中固定。
5.分子进化中性学说的中心论点: