生物信息学复习重点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学是一门交叉学科, 包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面, 它综合运用数学、计算机科学和生物学等的各种工具来阐明和理解大量数据所包含的生物学意义。
生物信息学宗旨在揭示基因组信息结构的复杂性及遗传语言的根本规律。从生物分子获得和挖掘深层次生物学知识。人类基因组计划(HGP:获得遗传图、物理图、序列图、转录图;终极目标:阐明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。其中我国承担了人类3 号染色体短臂。
记录:一个数据库记录一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释。
冗余:在一个数据库存在着多个相同的项,如两个或者更多的记录中有一个相同序列
Fasta 格式开始于一个标识符:">" ,然后是一行描述。
GenBank格式:每个基因描述可有多个描述行,包含一行以LOUCU开头描述行,基因序列以ORIGN开头,以/结尾。
EMBL入口标识符ID,序列开始标识符SQ结束是/。
数据库的特点:①数据库是可以检索的,即具有检索功能;②数据库应该是定时更新的,即不断有新版内容发布;③数据库是交叉引用的,特别是在互联网时代,数据库应该通过超链接与其他数据库相连。
EST序列:表达序列标签对cDNA文库测序得到的,是转录的DNA序列。
STS序列:序列标签位点染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,(200bp —500bp)。 STS序列标签位点是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作的短的、单拷贝DNA序列,用于产生作图位点。
GSS序列:基因组概览测序基因组DNA克隆的一次性部分测序得到的序列。
HTG序列:高通量基因组序列
三大数据库:
NCBI(GenBank):美国生物技术中心,建立了一系列生物信息数据和各种服务。
EMBL欧洲分子生物学实验室。
DDBJ日本遗传研究所。
同源性基因系指起源于同一祖先但序列已经发生变异的基因成员。基因同源性只有“是”和“非”的区别,是一种质的判断。
直系同源基因:分布在不同物种间的同源基因又称直系同源基因。
旁系同源基因:同一物种的同源基因则称旁系同源基因 (水平基因:, 水平基因由重复后趋异产生。
一致性:序列中同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员的百分比。
相似性:序列中同一位置相同或相似序列的百分比。如同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员,它们之间的代换不影响蛋白质(或酶)的生物学功能。
相似性和同源性关系:一般来说序列间的相似性越高的话,是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。
序列比对:确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。任务:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的根本差异。
相似性:可能是核酸/氨基酸序列的相似、可能是结构的相似、可能是功能的相似
主要的blast程序:
Score :使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大。
E value :在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score 值的可能性越低。
分子钟:某一蛋白在不同物种间的取代数与所研究物种间的分歧时间接近正线性关系,进而将分子水平的这种恒速变异称为“分子钟”。
中性学说:突变大多数是中性的,中性突变通过随机的遗传漂变在群体里固定下
来,分子进化是遗传漂变的结果,在分子进化上自然选择不起作用。
分子进化/系统发育树的研究目的:①物种分类及关系:从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系②大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析和功能预测③进化速率分析:例如,HIV的高突变性,哪些位点易发生突变
末端节点:代表最终分类,可以是物种,群体或者蛋白质、DNA RNA分子等。
系统发育树是由一系列节点和分支组成,其中每个节点代表一个分类单元(物种或序列),而节点之间的连线代表物种之间的进化关系。
树的节点又分为外部节点和内部节点。外部节点代表实际观察到的分类单元。内部节点又称为分支点,代表分类单元进化历程中的祖先。一个DNA序列在物种形成或基因复制时,分裂成两个子序列,因此系统发育树一般是二叉树。
有根树:从最早共同祖先,即根开始,随着时间的连续分支事件引起的一组相关物种的分歧。
无根树:表示分类单元之间的进化关系,但不鉴别最早的共同祖先。
距离:对一个有根树来说,沿着每个分支的进化方向是确定的。反之,对无根树来说,并不清楚内部分支的祖先物种是从哪里进化而来相关序列间的差异称为距离。不同物种的两条同源序列的度量被称为遗传距离或进化距离。
外群/外围枝:与当前研究的主要物种或基因相对较远的一组序列,可以辅助定位树根,选择条件:序列必须与剩余序列关系较近,但外围支序列与其他序列间的差异必须比其他序列之间的差异更显著
系统发育树构建步骤:多序列比对;建立取代模型(建树方法);建立进化树;进化树评估。
进化树的可信度检验自展法(统计方法):从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;重复上面的过程,得到多组新的序列;对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的