生物信息学名词解释
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学现象,这些中断的位点称为空位。
P29
是引入时间概念的支序图。
18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种10.科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影中的同源序列,具有相似或不同的功能。
(书:在缺乏任何基因复数学模型响,序列中的空位的引入不代表真正的进化事件,所以要对其进行; 利用计算机为工具对实验所得大量生物学数据进行储制证据的情况下,具有共同祖先和相同功能的同源基因。
)罚分,空位罚分的多少直接影响对比的结果。
存、检索、处理及分析,并以生物学知识对结果进行解释。
P37
19.值:11.E衡量序列之间相似性是否显著的期望值。
E2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对值大小说明了旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。
(可以找到与查询序列(特定目标衍生而来,是对生物学知识和信息的进一步的整理。
query)相匹配的随机或无关序列的概率,E书:由于基因重复事件产生的相似序列。
值越小意味着序列的序列格式:是将DNA或者蛋白质序列表示为一个带有一)
值越接近零,越不可能找到其他匹配序列,E3.FASTA20.相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意外类群:)表示一个新文件些标记的核苷酸或者氨基酸字符串,大于号(>是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。
义。
P95
的开始,其他无特殊要求。
21.有根树:能够确定所有分析物种的共同祖先的进化树。
BLAST12.低复杂度区域:搜索的过滤选项。
指序列中包含的重复序列格式:4.genbank是GenBank 数据库的基本信息单位,是最为22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找(度高的区域,如polyA广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部)。
到距离最近的两类将其归为一类,定义为一个节点,重复这个过轴是一条序)dot matrix分:第一部分包含整个记录的信息(描述符);第二部分包含注:构建一个二维矩阵,其X13.点矩阵(程,直到所有的聚类被加入,最终产生树根。
释;第三部分是引文区,提供了这个记录的科学依据;第四部分是个序列相同碱基的对应位置轴是另一个序列,然后在列,Y223.邻接法(neighbor-joining method)核苷酸序列本身,以“//”结尾。
:是一种不仅仅计算两两比y(x,)加点,如果两条序列完全相同则会形成一条主对角线,如对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行开发的核心检索系统,集成了NCBI果两条序列相似则会出现一条或者几条直线;如果完全没有相似性NCBI检索系统:5.Entrez是限制,能够克服的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索UPGMA算法要求进化速率保持恒定的缺陷。
则不能连成直线。
24.最大简约法(MP):在一系列能够解释序列差异的的进化树中引等特点。
多序列比对:14.通过序列的相似性检索得到许多相似性序列,将找到具有最少核酸或氨基酸替换的进化树。
6.BLAST:这些序列做一个总体的比对,以观察它们在结构上的异同,来回答基本局部比对搜索工具,用于相似性搜索的工具,对需25. P94 要进行检索的序列与数据库中的每个序列做相似性比较。
大量的生物学问题。
最大似然法(ML):它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。
最大似然法允许采用分子钟::也称被检索序列,用来在数据库sequencequery 查询序列(7.)15.认为分子进化速率是恒定的或者几乎恒定的假说,从不同的进化模型对变异进行分析评估,并在此基础上构建系统发育P98
中检索并进行相似性比较的序列。
而可以通过分子进化推断出物种起源的时间。
树。
):scoring matrix打分矩阵(8.在相似性检索中对序列两两比对的系统发育分析:16.通过一组相关的基因或者蛋白质的多序列比对
26.一致树(或其他性状,可以研究推断不同物种或基因之间的进化关系。
质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似consensus tree):在同一算法中产生多个最优树,合并这些最优树得到的树即一致树。
进化树的二歧分叉结构:17.P29
PAM性)和实际进化距离(如)两类方法。
指在进化树上任何一个分支节点,一
27.个父分支都只能被分成两个子分支。
自举法检验(在序列比对时,由于序列长度不同,需要插入一):gap空位(9.Bootstrap):放回式抽样统计法。
通过对数据集
系统发育图:个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断用枝长表示进化时间的系统树称为系统发育图,多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。
1 / 8
28.开放阅读框(ORF):开放阅读框是基因序列的一部分,包含37.PSI-BLAST:位点特异性迭代比对。
是一种专门化的的比对,包括下述信息:到PDB的连接,序列,参考文献,结构的图像一段可以编码蛋白的碱基序列。
等。
可以按结构和进化关系对蛋白质分类,分类结果是一个具有层)探测远缘相关的蛋白。
通过调节序列打分矩阵(scoring matrix次结构的树,其主要的层次依次是类(class38.RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳)、折叠子(fold)、氨基酸的同义密码子的使用频率):29.密码子偏好性(codon bias超家族(super family定、最被人承认的Genbank序列。
)、家族(family)、单个PDB蛋白结构记的水平相一致,大多数高效表达的基因仅使用tRNA与相应的同功录。
PDB中收录了大量通过实验(X):39.PDB(Protein Data Bank所对应的密码子,这种效应称为密码子偏tRNA那些含量高的同功45.PROSITE)测定的生物大分子的三维结构,:是蛋白质家族和结构域数据库,包含具有生物学意射线晶体衍射,核磁共振NMR 好性。
义的位点、模式、可帮助识别蛋白质家族的统计特征。
记录有原子坐标、配基的化学结构和晶体结构的描述等。
PROSITEPDB数据依据综合利用基因的特征,如剪接位基因预测的从头分析:30.中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子4HHB),同时支持库的访问号由一个数字和三个字母组成(如,点,内含子与外显子边界,调控区,预测基因组序列中包含的基结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区关键词搜索,还可以FASTA程序进行搜索。
因。
域等;序列翻译得到的蛋白质序PROSITE还包括根据多序列比对而构建的序列统计特征,40.GenPept:是由GenBank中的DNA保守的结构单元,包含独特的二级结构):domain31.结构域(能更敏感地发现一个序列是否具有相应的特征。
列。
数据量很大,且随核酸序列数据库的更新而更新,但它们均是
组合和疏水内核,可能单独存在,也可能与其他结构域组合。
46.Gene Ontology 协会:由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。
编辑一组动态的、可控的基因产物不同相同功能的同源结构域具有序列的相似性。
方面性质的字汇的协会。
从Fold41.折叠子():在两个或更多的蛋白质中具有相似二级结构3个方面描述基因产物的性质,即,32.超家族:进化上相关,功能可能不同的一类蛋白质。
分子功能,生物过程,细胞区室。
的大区域,这些大区域具有特定的空间取向。
短的保守的多肽段,含有相同模体的蛋白质motif33.模体():47.表谱(SWISS-PROT42.TrEMBL:是与相关的一个数据库。
包含从EMBL PSSM):指一张基于多序列比对的打分表,表示一个个残基。
10-20不一定是同源的,一般蛋白质家族,可以用来搜索序列数据库。
核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且:是一种特殊位点或模体序列,在多)序列表谱(34.profile48.这些序列尚未集成到SWISS-PROT比较基因组学:是在基因组图谱和测序的基础上,利用某个基数据库中。
序列比较的基础上,氨基酸的权值和空位罚分的表格。
因组研究获得的信息推测其他原核生物、真核生物类群中的基因数NCBI)所开发的是(43.MMDB(Molecular Modeling Database):指可接受突变百分率。
一个氨基酸在进化35.PAM矩阵:PAM目、位置、功能、表达机制和物种进化的学科。
生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白49.简约信息位点:指基于DNA相比,对于数据库中的自于实验的生物大分子结构数据。
与PDB或蛋白质序列,利用最大简约法单位是PAM质之间的相似性,并产生蛋白质之间的比对。
一个构建系统发育树时,如果每个位点的状态至少存在两种,每种MMDB每一个生物大分子结构,具有许多附加的信息,如分子的蛋白质序列平均发生1%的替代量需要的进化时间。
状态至少出现,还提供生物生物学功能、产生功能的机制、分子的进化历史等两次的位点。
其它位点为都是非简约性信息位模块替代矩阵。
矩阵中的每个位点的分值来自矩阵:36.BLOSUM点。
大分子三维结构模型显示、结构分析和结构比较工具。
蛋白比对的局部块中的替代频率的观察。
每个矩阵适合特定的进化提供关于已知结构的蛋白质之间结构和进化关系44.SCOP数据库:62%矩阵中,比对的分值来自不超过BLOSUM62距离。
例如,在1的详细描述,包括蛋白质结构数据库PDB、生物信息学:生物分子信息的获取、存贮、分析和利用;以数数中的所有条目。
SCOP 一致率的一组序列。
据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还学科的据数学物生究研,术技机算计用应,础基为学2 / 8
2、相似性(similarity):两个序列(核酸、蛋白质)间的相关4. 一致序列:这些序列是指把多序列联配的信息压缩至单条序16. 微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光分子的样品进行杂交,通过扫描仪扫描对荧光信号的强度进行。
性列,主要的缺点是除了在特定位置最常见的残基之外,它们不检测,从而迅速得出所要的信息。
能表示任何概率信息。
homology):生物进化过程中源于同一祖先的分支之
3、同源性(17. 虚拟消化:是基于已知蛋白序列和切断酶的特异性的情况下进间的关系。
5. HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配行的理论酶切(课件定义)。
是在已知蛋白质序列和蛋白外切和间隔的所有可能的组合来生
成一组序列排列。
(课件定义)4、同一性(identity):两个序列(核酸、蛋白质)间未发生变酶之类切断试剂的已知特异性的基础上,。
是蛋白质结构域家族序列的一种严格的统计模型,包括序列的由计算机进行的一异序列的关系种理论上的蛋白裂解反应。
5、序列比对(alignment):为确定两个或多个序列之间的相似性匹配,插入和缺失状态,并根据每种状态的概率分布和状态间18. 质谱(MS)是一种准确测定真空中离子的分子质量/ 排照一定的规律列。
的相互转换来生成蛋白质序列。
电荷比(m/z)们,于以至同源性而将它按的方法,从而使分子质量的准确确定成为可能。
(6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区database query,数据库查询):对序列、6、生物数据库检索质谱分析的两个工具结构以及各种二次数据库中的注释信息进行关键词匹配查找。
分开的位点。
19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。
7. 非信息位点:对于最大简约法来说没有意义的点。
database search)7、生物数据库搜索(:通过特定序列相似性比20. 虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反 8. 对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度标度树:分支长度与相邻节点对的差异程度成正比的树。
应和物质流的集合体。
列似相性的序。
非标度树:只表示亲缘关系无差异程度信息。
9.
21. 先导化合物:是指具有一定药理活性的、可通过结构改造来优10. 有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯化其药理特性而可能导致药物发现的特殊化合物。
就是利用计生物信息学:一的路径历经进化到达其他任何节点。
1.
算机在含有大量化合物三维结构的数据库中,搜索能与生物大1无根树:只表明节点间的关系,无进化发生方向的信息,通过)生物信息学包含了生物信息的获取、处理、分析、和解释11.
分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合等在内的一门交叉学科;引入外群或外部参考物种,可以在无根树中指派根节点。
物,又称原型物,简称先导物,是通过各种途径或方法得到的)它综合运用了数学、计算机学和生物学的各种工具来进行212. 注释:指从原始序列数据中获得有用的生物学信息。
这主要是具有生物活性的化学结构研究;中寻找基因和其他功能元件(结构注释),并指在基因组DNA22. 给出这些序列的功能(功能注释)。
)目的在于阐明大量生物学数据所包含的生物学意义。
3权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配中每个位点的氨基酸都有分值,并且特定位置插入或缺失的)13. 聚类分析:一种通过将相似的数据划分到特定的组中以简化大Basic Local Alignment Search Tool2. BLAST(可能性均有一定的衡量方法(课件定义)。
基础上针对特定的规模数据集的方法。
:基本局部排比搜索工具直译
应用目标而建立的数据库。
:基于局部序列排比的常用数据库搜索工具意译无监督分析法:这种方法没有内建的分类标准,组的数目和类14.
23. 型只决定于所使用的算法和数据本身的分析方法。
系统发育学(含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库 phylogenetic ):确定生物体间进化关系的科学分支。
是一种迭代的搜索方法,可以提高:. PSI-BLAST3FASTA和BLAST有监督分析法:这种方法引入某些形式的分类系统,从而将表15.
):是研究一个生物系统中所的相似序列发现率。
达模式分配到一个或多个预定义的类目中。
systems biology系统生物学(24.
3 / 8
有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件每条已知序列都将同所查序列作一对一地核酸序列比对。
法,在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,只能采用从头预测方法,即(直是蛋白序列到蛋白库中的一种查询。
库中存在的BLASTp:6.下这些组分间的相互关系,并分析生物系统在一定时间内的动
接)仅仅根据序列本身来预测其结构。
每条已知序列将逐一地同每条所查序列作一对一的序列比力学过程
13.proteome25. 蛋白质组():是指一个基因组、一种生物或一个细molecular phylogenetic tree:对。
分子进化树,精确地反映物种间或群体间在进化过程中发生的极微细的遗传变异,而且借版:是CLUSTAL多重序列比对程序的Windows胞/组织的基因组所表达的全套蛋白质。
7.Clustsl X助化石提供的大分子类群的分化年代能定量地估计出物种间本,是用来对核酸与蛋白序列进行多序列比较的程序,也26. ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显或群体间的分化年代。
降解的质谱技术。
可以对来自不同物种的功能或结构相似的序列进行比对和14.聚类,通过重建系统发生树判断亲缘关系,并对序列在生gene tree:基因树,表示一组基因或一组DNA顺序进化关系的系统发生树。
物进化过程中的保守性进行估计。
一、名词解释
15.neighbor—joining method1.GenBank:是美国全国卫生研究所维护的基因序列数据库,:邻接法,基于最小进化原理经常主持的一个数据库检索系统,它包括Entrez8.:是由NCBI被使用的一种算法,它不检验所有可能的拓扑结构,能同时Medline文摘数据库,在这三个数据库中核酸,蛋白以及汇集并注释了所有公开的核酸序列,与日本的DNA数据库给出拓扑结构和分支长度。
在重建系统发生树时,认为在进建立了非常完善的联系。
因此,可以从一个EMBL一起,都DNA序列查询以及欧洲分子实验室核酸序列数据库DDBJ化分子上,发生趋异的次数可以不同,它是最有效的的基于是国际核苷酸序列数据库合作的成员。
到蛋白产物以及相关文献,而且,每个条目均有一个类邻距离数据重建系统树的方法之一。
欧洲分子生物学实验室,实验室:2.EMBL EMBL—EMBL数(neighboring)信息,给出与查询条目接近的信息。
16.maximum parsimony method:最大简约法基于进化过程中所:retrieval EMBL—据库是非盈利性学术组织建立的综合性数据库,9.SRS(sequence system)序列查询系统,是EBI提供需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正类似的功能外,还提EMBL核酸数据库是欧洲最重要的核酸序列数据库,它定期的多数据库查询工具之一。
有与Entrez确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构地与美国的GenBank 数据库中的数据进行交DDBJ、日本的供了一系列的序列分析工具,可以直接进行在线序列分析处作为最优系统树。
换,并同步更新。
理。
17.是目前最著名的蛋白质三级结构预测服务MODESWLSS10.—:MEGA(Molecular Evolutionary Genetics Analysis)DNADNA日本:3.DDBJ数据库,主要向研究者收集序列信:是一款免费的构树软件,它提供了序列比对、格式转换、数据修订、器,建立在已知生物大分子结构基础上,利用同源建模的方息并赋予其数据存取号,信息来源主要是日本的研究机构,距离计算、系统树重建和可信度评估等全套功能,能对法对未知序列的蛋白质三级结构进行预测。
也接受其他国家呈递的序列。
DNA:homology 11.modeling是目前最为成功且实用的蛋白质结构预、mRNA基本局部比对搜索工具的缩写,是一种序列类似性:4.BLAST氨基酸序列及遗传距离进行系统发生分析以及基因分化年代的分析。
测方法,它的前提是已知一个或多个同源蛋白质的结构。
当采用统计学几分系统,同时采用局部比对检索工具。
BLAST
18. BioEdit BLAST算法,程序能迅速与公开数据库进行相似性序列比,一般情况下认为他们的35%两个蛋白质的序列同源性高于:BioEdit是一个序列编辑器与分析工具软件。
功能包括:序列编辑、外挂分析程序、结果中的得分是对一种对相似性的统计说明。
BLAST较。
三维结构基本相同。
RNA分析、寻找特征序列、个序列的多序列文件、基本序列处理功能、12.:是核酸序列到核酸库中的一种查询。
库中存在的BLASTn5.:蛋白质三级结构预测方法predictioninitio Ab 从头预测—20000支持超过4 / 8
质粒图绘制等等。
和三级结构之间的可以明显区分但又相对独立的折叠单元,RNA,它缺乏开放阅读框,常由编码蛋白质的基因反转录而来。
每个结构域自身形成紧实的三维结构,可以独立存在或折EST:表达序列标签—是从一个随机选择的cDNA 克隆,19.
35.miRNA:5'端和3'端单一次测序挑选出来获得的短的cDNA 是一类小的非编码单链RNA,由19~25个核苷酸构叠,但结构域与结构域之间关系较为松散。
进行成,广泛存在于动植物中,调节着基因表达。
28.motif:部分序列,代表一个完整基因的一小部分又称模体,实序列中局部的保守区域,或者是一组序
Silicon cloning:利用公共数据库信息, 2、基因组勘测序列,是基因组GSS:DNA克隆的一次性部3个二级结构单位组借助计算机软件分析, 推测列中共有的一小段序列模式。
通常由20.目的基因的编码区序列, 、的的分测序得到序列。
包括随机基因组勘测序列辅助全长motif成,一般为α螺旋、β折叠和环。
作为结构域中的亚单cDNA克隆的方法
BLAST:Exon trapped获得基因即基本局域联配搜索工具,位,表现结构域的各种生物学功能。
Basic Local Alignment Search cosmid/BAC/YAC末端序列、通过Tool system PCR组序列、通过Alu 获得的序列、以及转座子标记(序29.linux operating :linux操作系统,Linux是一类Unix,是一个局部比对搜索工具,用来确定一条查询序列和一个数据库的比对,最早的版本不引入间隙,但现在所用的版本已经允许Linux计算机操作系统的统称。
列等。
操作系统也是自由软件和开放比对中引入间隙。
核酸序列的开放阅读框,一个21.ORF:ORF就是一个潜在的蛋源代码发展中最著名的例子。
Entrez :是由NCBI 是30.BioPerl:Perl语言专门用于生物信息学、基因组学及其他主持的一个数据库检索系统,它包括核酸,白质编码区。
蛋白以及聚合酶识别、结合并开始转录所生命科学领域的工具与函数模块集。
Medline 文摘数据库,在这三个数据库中建立了非常完善RNA:22.promoter 启动子,是的联系。
因此,:31.PubMed是一个免费的生物医学文摘数据库,提供部分可以从一个DNA 必需的一段DNA序列。
序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻论文的摘要及指向全文的链接。
作为Entrez 非翻译区的缩写,真核生物的转录终止信号是在UTR3':3' (neighboring)资讯检索系统信息,给出与查询23.条目接近的信息。
polyA'3非翻译区的。
的一部分。
Entrez 中的数据库包括:Entrez 中核酸数据
库为:GenBank, EMBL, 是目前最主要的收集生物大:,两者以磷酸上的一个区域,富含是island24.CpG :DNAGC32.PDB(Protein Data Bank)PDB DDBJ 蛋白质数据库为:Swiss-Prot, PIR, PFR,
PDB
三维结构的数据库,允许用户用)不等,常出现在管家基因或(分子蛋白质、核酸和糖bp酯键相连,长度约几百到几千PSI-BLAST和、各种方式以及布尔逻辑组合(ANDORNOT)岛具有阻频繁表达的基因的启动子附近,在这些部位,CpG:是一种迭代的搜索方法,可以提高BLAST 进行检和FASTA
的相似序列发现率。
止序列甲基化的作用。
索。
ORF:开放阅读框(ORF)是基因序列的一部分,包含一段可以编年由1990;人类基因组计划,genome 2~7coil25.coiled :卷曲螺旋,是蛋白质中由条α螺旋链相互缠33.HGP(human project)码蛋白的碱基序列,不能绕形成类似麻花状结构的总称。
卷曲螺旋是控制蛋白质寡聚(NIH)(DOE)美国能源部和国立健康研究院资助的一个研究计被终止子打断。
编码一个蛋白质的外显子连接成为一个连续的化的元件,在机体内执行着分子识别、代谢调控、细胞分ORF。
当一个新基因被识别,确定构成人类基其DNA 序列鉴定出人类的所有基因;②划。
目的是:①被解读,人们仍旧无法搞清相应的蛋白序列是什么。
这是因为在没将上述信息储存于专门的化、肌肉收缩、膜通道等生物学功能。
30因组的约亿个碱基对的序列;③有其它信息研究由此而产生的数据库中,并开发出相应的分析工具;④的前提下,DNA :七肽重复区是典型的卷曲螺旋结构类型之heptad 26.repeat序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码伦理、法律和社会问题并提出相应对策。
一,由多个七肽单元连接而成的重复序列。
子)ORF 识别包括检测这六structure 27.:ncRNA34.。
结构域,是在蛋白质三级结构中介于二级domain:,是指没有编码蛋白质功能的所有RNA非编码DNA 个阅读框架并决定哪一个包含以启动子和终止子为界限的5 / 8
序列而其内部不包含启动子或终止子,符合这些条件的序列有可到的序:cosmid/BAC/YAC 末端序列、通过Exon 列。
包括随机的白质的全部功能。
EMBL:EMBL 实验室—欧洲分子生物学实验室,EMBL 数据库基因组勘测序列、trapped 获得基因组序列、通过Alu PCR 获得的能对应一个真正的单一的基因产物。
ORF 的识别是证明一个新的—是非盈利DNA :性学术组织EMBL 建立的综合性数据库,序列、以及转座子标记(序列等。
EMBL 序列为特定的蛋白质编码基因的部分或全部的先决条件。
核酸数据库是欧洲最重要的'核酸序列数据库,它定期地与美国的EST:表达序列标签—是从一个随机选择的cDNA )相似性(similarity/(identify):相似性是指序列比对过程中用克隆,进行5GenBank、日本的DDBJ 数据库中的数据进行交换,并同步更新。
部分序列碱基或氨基酸残基顺序DNA 端和3'端单一次测序挑选出来获得的短的cDNA ,代表来描述检测序列和目标序列之间相同BLAST 所占比例的高低。
:Basic Local Alignment Search Tool,基本的基于局部对准一个完整基因的一小部分.。
的搜索工具;一种快速查找与给定序列(database 生物数据库检索query,数据库查询):具有连续相同片断的序列MEGA(Molecular Evolutionary Genetics Analysis):是一款免费的对序列,结构以及各种的技术。
它提供了序列比对、格式转换、数据修订、距离计构树软件,二次数据库中的注释信息进行关键词匹配查找.
:
SRS(sequence retrieval system):序列查询系统,是,:(database 生物数据库搜索search)通过特定序列相似性比对算法找算、系统树重建和可信度mRNA 氨基酸序列及遗传距离进行系统EBI 提供的多数据库查询、质序列数据库中与待检序列具有一定程度相似性的出核酸或蛋白发生分评估等全套功能,能对DNA 析以及基因分化年代的分:工具之一。
有与Entrez 类似的功能外,还提供了一系列的序列分析工具,可.
序列以直接进行在线序列分析处理。
析。
dynamic E programming:动态规划程序;它将一个问题合理分解成:parsimony maximum method S E 值:对某个已识别出的相似度值S,值是分值大于等于的期最大简约法基于进化过程中所需核一些小的子问题,然后利用部氨基酸)替代数目最少的假说,对所有可能正确的拓扑分计算解得到最终答案。
值的分S 理解为期望随机得到等于望频率,改值可以被或大于S 苷酸(或Match score maximum likelihood approach methylation microarray 出所需替代数最小的拓扑结构作为最优系统值数目。
结构进行计算并挑选microsatellite MIAME(the minimum information about a 为确定两个或多个序列之间的相似性以至于(alignment)序列比对:树。
microarray experiment) minisatellite mismatch score molecular 邻接法,基于最小进化原理经常被使neighbor—method.
,同源性而将它们按照一定的规律排列:joining
clock匹配得分最大似然法:序列比较算法对相同字符匹配设置的法,它不检验所有可能的拓扑结构,能同时给出拓扑用的一种算生物进化过程中源于同一祖先的分支之间的关系(homology)同源性:.
得分。
指在一系列的序列比对中,考虑每一个字符被替代的概率建系统发生树时,认为在进化分子上,发)提供了具有生物意NCBI美国国家生物信息技术中心(Refseq:结构和分支长度。
在重的一种系统发生学方法;也是一种基于纯统计的系统发生重建方效的的基于距离数据重建系统生趋异的次数可以不同,它是最有RefSeq义上的非冗余的基因和蛋白质序列的参考序列数据库。
法。
一个甲基( —CH 3 ) 附着在一个核苷酸的树的方法之一。
'3'非翻译区的缩写,真核生物的转录终止信号是在:'3UTR3 含氮碱基或者蛋白质上。
:treephylogenetic molecular 分子进化树,精确地反映物种间或群在一个固体基片上的已知位置固定了DNA 探针的有序阵。
polyA:非翻译区的
列。
,两者以磷酸酯键相GC上的一个区域,富含是:CpG island DNA 化过程中发生的极微细的遗传变异,而且借助化石提:体间在进在基因组中很多非常短的核酸序列出现的区域,例如串接出现:连,长度 5 ‘-CA-3‘不等,常出现在管家基因或频繁表达bp 约几百到几千年代能定量地估计出物种间或群体间的分供的大分子类群的分化的重复序列;通常在个体间变化很大。
PAM 在这些部位,的基因的启动子附近,unit:PAM 化年代。
单位是一种进化单位;特别地,指被观察的对象岛具有阻止序列甲基化CpG
中每100 个残基发生一功能域。
蛋白质中具有某种特定功能的部分,它在序列的作用。
:Domain 个替换所需要的平均进化时间。
对两条序:GSS基因组勘测序列,是基因组克隆的一次性部分测序得DNA 上未必是连续的。
某蛋白质中所有功能域组合其起来决定着该蛋列进行编辑操作,通过字符匹配和替换,或者插入和删除。
6 / 8
PubMed:是一个免费的生物医学文摘数据库,提供部分论文的摘验室的比的常用数据库搜索工具。
二级数据库:对于原始生物分子进行整理、分类的结果。
是在一级资讯检索系统的一部分。
基因图谱和测序数据进行定位和定向时非常有用,并且STS在人要及指:向全文的链接。
作为Entrez
数据库、实验数据和理论分析的基础上针对特定的应用目标而建立签中也具有界标的作用。
表达的序列标的物类基因组motif:又称模体,实序列中局部的保守区域,或者是一组序列中理图谱的(存放从初级数据库派生而来的序列信息的数据库)cDNAs的STSs。
(段序列模式。
通常由2、个二级结构单位组成,3 ESTs)就是那些得自共有的一小:分子(染色体或质粒)中基:基因作图。
对DNA Gene mapping权重矩阵:一般为α螺旋、β折叠和环。
motif 作为结构域中的亚单位,表现基础上针对特定的应用目标而建立的数据库。
标度树(因的相对位置和距离进行确定的过程。
scaled tree):分支长度与相邻节点对的差异程度成正结构域的各种生物学功能。
比的树。
tructure domain Physical map :物理图谱。
不考虑遗传,:结构域,是在蛋白质三级结构中介于二级和三级DNA 中可识别的界标rooted tree有根树:含有一个被认为是公共祖先的节点、结构之间:的可以明显区分但又相对独立的折叠单元,每个结构并且该节(如限制性酶切位点和基因等)的位置图。
界标之间的距离用碱点到其他节点只存在唯一路径的一棵系统发生树。
结构,可以独立存在或折叠,但结构域与域自身形成紧实的三维基对度量。
对人类基因组而言,最低分辨率的物理图谱是染色体上无根树(unrooted tree分辨率的物理图谱是染色体中完整的核苷酸序):只表明节点间的关系,无进化发生方的条带图谱;最高结构域之间关系较为松散。
向的信息,通过引用外群或外部参照物种,可以在无根树中指派跟2~7 卷曲螺旋,是蛋白质中由条α螺旋链相互缠绕形列。
coil coiled :节点。
(一种系统发育树,所有在树中的种系的最后共同祖先不显状结构的总称。
卷曲螺旋是控制蛋白质寡聚化的元成类似麻花该数 UniGene :美国国家生物技术信息中心提供的公用数据库,示。
) GenBank 中属于同一条基因的所有件,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收片断拼接成完整的基因据库将信息位点:由位点产生的突变数目把其中的一颗树与其他树区分开Junk进行收录。
非蛋白质编码区缩、膜通道等生物学功能。
:非蛋白质编码区(“”DNA)占的位点。
在这个位点上至少有两种不同的核苷酸,且这些核苷酸至生美NCBI :国国立物生命过程据了人类基因组的大部分,研究表明“Junk Center (信技术息中心National for ”是许多对少出现两次。
DNA 的复合体,它们至少包括以下类型的美国国家医学图书年设立,为),Biotechnology Information1988 富有活力的不同类型的HMM RNA (隐式马尔科夫模型):一种统计模型,它考虑有关匹配,错)、卫星成分:内含子(intron成份或由其表达的DNA NIHNLM馆()和国家健康协会()下属部门之一。
提供生物医学配和间隔的所有可能的组合来产生一组序列排列。
①星DNASatellite()、小卫(星GenBank 如世界三大核酸数据库之一的领域的信息学服务,数据、微卫 DNAminisatellite)距离法、:首先通过各个物种之间的比较,根据一定的假设医学文献检索数据库等。
库,PubMed hmRNA RNA DNAmicrosatellite()、非均一核()短散置元(进化距离模型)推导得出分类群之间的进化距离,构建一个进化元、(long 置长)elementsinterspersed (short 散保守序列。
演化过程中基本上不变的:Conserved sequence DNA
距离矩阵。
其次基于这个矩阵中的进化距离关系构建进化树。
interspersed elements))等。
除此之中的碱基序列或蛋白质中的氨基酸序列。
pseudogenes 、伪基因(串联重复序列。
染色体上同一碱基Tandem repeat sequences:近邻外,顺式调控元件,如启动子、增强子等也属于非编码序列。
:任意一颗无根树中仅被一个内部节点分隔的一对物种。
PAM序列的多拷贝重复,在物理作图中用作标记物。
指的是氨基酸置换矩阵,属于打分矩阵,用序列。