生物信息学名词解释
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P29
9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P29
10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
P37值:衡量序列之间相似性是否显着的期望
值。
E值大小说明了可以找到与查询序列
(query)相匹配的随机或无关序列的概
率,E值越接近零,越不可能找到其他匹
配序列,E值越小意味着序列的相似性偶
然发生的机会越小,也即相似性越能反映
真实的生物学意义。
P95
12.低复杂度区域:BLAST搜索的过滤选
项。
指序列中包含的重复度高的区域,如
poly(A)。
13.点矩阵(dot matrix):构建一个二
维矩阵,其X轴是一条序列,Y轴是另一
个序列,然后在2个序列相同碱基的对应
位置(x,y)加点,如果两条序列完全相
同则会形成一条主对角线,如果两条序列
相似则会出现一条或者几条直线;如果完
全没有相似性则不能连成直线。
14.多序列比对:通过序列的相似性检索得
到许多相似性序列,将这些序列做一个总
体的比对,以观察它们在结构上的异同,
来回答大量的生物学问题。
15.分子钟:认为分子进化速率是恒定的或
者几乎恒定的假说,从而可以通过分子进
化推断出物种起源的时间。
16.系统发育分析:通过一组相关的基因或
者蛋白质的多序列比对或其他性状,可以
研究推断不同物种或基因之间的进化关
系。
17.进化树的二歧分叉结构:指在进化树
上任何一个分支节点,一个父分支都只能
被分成两个子分支。
系统发育图:用枝长表示进化时间的系
统树称为系统发育图,是引入时间概念的
支序图。
18.直系同源:指由于物种形成事件来自一
个共同祖先的不同物种中的同源序列,具
有相似或不同的功能。
(书:在缺乏任何
基因复制证据的情况下,具有共同祖先和
相同功能的同源基因。
)
19.旁系(并系)同源:指同一个物种中
具有共同祖先,通过基因重复产生的一组
基因,这些基因在功能上可能发生了改变。
(书:由于基因重复事件产生的相似序列。
)
20.外类群:是进化树中处于一组被分析物
种之外的,具有相近亲缘关系的物种。
21.有根树:能够确定所有分析物种的共同
祖先的进化树。
22.除权配对算法(UPGMA):最初,每个
序列归为一类,然后找到距离最近的两类
将其归为一类,定义为一个节点,重复这
个过程,直到所有的聚类被加入,最终产
生树根。
23.邻接法(neighbor-joining method):
是一种不仅仅计算两两比对距离,还对整
个树的长度进行最小化,从而对树的拓扑
结构进行限制,能够克服UPGMA算法要求
进化速率保持恒定的缺陷。
24.最大简约法(MP):在一系列能够解
释序列差异的的进化树中找到具有最少核
酸或氨基酸替换的进化树。
25.最大似然法(ML):它对每个可能的
进化位点分配一个概率,然后综合所有位
点,找到概率最大的进化树。
最大似然法
允许采用不同的进化模型对变异进行分析
评估,并在此基础上构建系统发育树。
26.一致树(consensus tree):在同一
算法中产生多个最优树,合并这些最优树
得到的树即一致树。
27.自举法检验(Bootstrap):放回式抽
样统计法。
通过对数据集多次重复取样,
构建多个进化树,用来检查给定树的分枝
可信度。
28.开放阅读框(ORF):开放阅读框是基
因序列的一部分,包含一段可以编码蛋白
的碱基序列。
29.密码子偏好性(codon bias):氨基
酸的同义密码子的使用频率与相应的同功
tRNA的水平相一致,大多数高效表达的基
因仅使用那些含量高的同功tRNA所对应
的密码子,这种效应称为密码子偏好性。
30.基因预测的从头分析:依据综合利用基
因的特征,如剪接位点,内含子与外显子
边界,调控区,预测基因组序列中包含的
基因。
31.结构域(domain):保守的结构单元,
包含独特的二级结构组合和疏水内
核,可能单独存在,也可能与其他结
构域组合。
相同功能的同源结构域具
有序列的相似性。
32.超家族:进化上相关,功能可能不同的一类蛋白质。
33.模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。
34.序列表谱(profile):是一种特殊位点或模体序列,在多序列比较的基础上,氨基酸的权值和空位罚分的表格。
矩阵:PAM指可接受突变百分率。
一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。
一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。
矩阵:模块替代矩阵。
矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。
每个矩阵适合特定的进化距离。
例如,在BLOSUM62矩阵中,比对的分值来自不超过62%一致率的一组序列。
:位点特异性迭代比对。
是一种专门化的的比对,通过调节序列打分矩阵(scoring matrix)探测远缘相关的蛋白。
:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。
(Protein Data Bank):PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。
PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。
:是由GenBank中的DNA序列翻译得到的蛋白质序列。
数据量很大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。
41.折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。
:是与SWISS-PROT相关的一个数据库。
包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库
中。
(Molecular Modeling Database):是
(NCBI)所开发的生物信息数据库集成系
统Entrez的一个部分,数据库的内容包
括来自于实验的生物大分子结构数据。
与
PDB相比,对于数据库中的每一个生物大
分子结构,MMDB具有许多附加的信息,如
分子的生物学功能、产生功能的机制、分
子的进化历史等,还提供生物大分子三维
结构模型显示、结构分析和结构比较工具。
数据库:提供关于已知结构的蛋白质之间
结构和进化关系的详细描述,包括蛋白质
结构数据库PDB中的所有条目。
SCOP数据
库除了提供蛋白质结构和进化关系信息
外,对于每一个蛋白质还包括下述信息:
到PDB的连接,序列,参考文献,结构的
图像等。
可以按结构和进化关系对蛋白质
分类,分类结果是一个具有层次结构的树,
其主要的层次依次是类(class)、折叠子
(fold)、超家族(super family)、家
族(family)、单个PDB蛋白结构记录。
:是蛋白质家族和结构域数据库,包含具
有生物学意义的位点、模式、可帮助识别
蛋白质家族的统计特征。
PROSITE中涉及
的序列模式包括酶的催化位点、配体结合
位点、与金属离子结合的残基、二硫键的
半胱氨酸、与小分子或其它蛋白质结合的
区域等;PROSITE还包括根据多序列比对
而构建的序列统计特征,能更敏感地发现
一个序列是否具有相应的特征。
Ontology 协会:编辑一组动态的、可控
的基因产物不同方面性质的字汇的协会。
从3个方面描述基因产物的性质,即,分
子功能,生物过程,细胞区室。
47.表谱(PSSM):指一张基于多序列比
对的打分表,表示一个蛋白质家族,可以
用来搜索序列数据库。
48.比较基因组学:
是在基因组图谱和测序的基础上,利用某
个基因组研究获得的信息推测其他原核生
物、真核生物类群中的基因数目、位置、
功能、表达机制和物种进化的学科。
49.简约信息位点:指基于DNA或蛋白质
序列,利用最大简约法构建系统发育
树时,如果每个位点的状态至少存在
两种,每种状态至少出现两次的位点。
其它位点为都是非简约性信息位点。
1、生物信息学:生物分子信息的获取、存
贮、分析和利用;以数学为基础,应用计
算机技术,研究生物学数据的科学。
2、2、相似性(similarity):两个序列
(核酸、蛋白质)间的相关性。
3、3、同源性(homology):生物进化过
程中源于同一祖先的分支之间的关系。
4、4、同一性(identity):两个序列(核
酸、蛋白质)间未发生变异序列的关系。
5、5、序列比对(alignment):为确定
两个或多个序列之间的相似性以至于同源
性,而将它们按照一定的规律排列。
6、6、生物数据库检索(database query,
数据库查询):对序列、结构以及各种二
次数据库中的注释信息进行关键词匹配查
找。
7、7、生物数据库搜索(database
search):通过特定序列相似性比对算
法,找出核酸或蛋白质序列数据库中与待
检序列具有一定程度相似性的序列。
8、
1. 生物信息学:
1)生物信息学包含了生物信息的获
取、处理、分析、和解释
等在内的一门交叉学科;
2)它综合运用了数学、计算机学和生
物学的各种工具来进行
研究;
3)目的在于阐明大量生物学数据所包
含的生物学意义。
2. BLAST(Basic Local Alignment Search
Tool)
直译:基本局部排比搜索工具
意译:基于局部序列排比的常用数据库
搜索工具
含义:蛋白质和核酸序列数据库搜索软
件系统及相关数据库
3. PSI-BLAST:是一种迭代的搜索方法,
可以提高BLAST和FASTA的相似序列发现
率。
4.一致序列:这些序列是指把多序列联配
的信息压缩至单条序列,主要的缺点是
除了在特定位置最常见的残基之外,它
们不能表示任何概率信息。
5. HMM 隐马尔可夫模型:一种统计模型,
它考虑有关匹配、错配和间隔的所有可
能的组合来生成一组序列排列。
(课件
定义)是蛋白质结构域家族序列的一种
严格的统计模型,包括序列的匹配,插
入和缺失状态,并根据每种状态的概率
分布和状态间的相互转换来生成蛋白
质序列。
6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。
7. 非信息位点:对于最大简约法来说没有意义的点。
8. 标度树:分支长度与相邻节点对的差异程度成正比的树。
9. 非标度树:只表示亲缘关系无差异程度信息。
10. 有根树:单一的节点能指派为共同的
祖先,从祖先节点只有唯一的路径历
经进化到达其他任何节点。
11. 无根树:只表明节点间的关系,无进
化发生方向的信息,通过引入外群或
外部参考物种,可以在无根树中指派
根节点。
12. 注释:指从原始序列数据中获得有用
的生物学信息。
这主要是指在基因组
DNA中寻找基因和其他功能元件(结
构注释),并给出这些序列的功能(功
能注释)。
13. 聚类分析:一种通过将相似的数据划
分到特定的组中以简化大规模数据集
的方法。
14. 无监督分析法:这种方法没有内建的
分类标准,组的数目和类型只决定于
所使用的算法和数据本身的分析方
法。
15. 有监督分析法:这种方法引入某些形
式的分类系统,从而将表达模式分配
到一个或多个预定义的类目中。
16. 微阵列芯片:将探针有规律地排列固
定于载体上,与标记荧光分子的样品
进行杂交,通过扫描仪扫描对荧光信
号的强度进行检测,从而迅速得出所
要的信息。
17. 虚拟消化:是基于已知蛋白序列和切
断酶的特异性的情况下进行的理论酶
切(课件定义)。
是在已知蛋白质序列
和蛋白外切酶之类切断试剂的已知特
异性的基础上,由计算机进行的一
种理论上的蛋白裂解反应。
18. 质谱(MS)是一种准确测定真空中离子
的分子质量/电荷比(m/z)的方法,从
而使分子质量的准确确定成为可能。
质谱分析的两个工具
19. 分子途径是指一组连续起作用以达到
共同目标的蛋白质。
20. 虚拟细胞:一种建模手段,把细胞定
义为许多结构,分子,反应和物质流
的集合体。
21. 先导化合物:是指具有一定药理活性
的、可通过结构改造来优化其药理特
性而可能导致药物发现的特殊化合
物。
就是利用计算机在含有大量化合
物三维结构的数据库中,搜索能与生
物大分子靶点匹配的化合物,或者搜
索能与结合药效团相符的化合物,又
称原型物,简称先导物,是通过各种
途径或方法得到的具有生物活性的化
学结构
22. 权重矩阵(序列轮廓):它们表示完
全结构域序列,多序列联配中每个位
点的氨基酸都有分值,并且特定位置
插入或缺失的可能性均有一定的衡量
方法(课件定义)。
基础上针对特定
的应用目标而建立的数据库。
23. 系统发育学(phylogenetic):确定
生物体间进化关系的科学分支。
24. 系统生物学(systems biology):是
研究一个生物系统中所有组分成分
(基因、mRNA、蛋白质等)的构成以
及在特定条件下这些组分间的相互关
系,并分析生物系统在一定时间内的
动力学过程
25. 蛋白质组(proteome):是指一个基
因组、一种生物或一个细胞/组织的基
因组所表达的全套蛋白质。
26. ESI电喷雾离子化:一种适合大分子
如蛋白质离子化没有明显降解的质谱
技术。
一、名词解释
1.GenBank:是美国全国卫生研究所维
护的基因序列数据库,汇集并注释了
所有公开的核酸序列,与日本的DNA
数据库DDBJ以及欧洲分子实验室核
酸序列数据库EMBL一起,都是国际
核苷酸序列数据库合作的成员。
2.EMBL:EMBL实验室—欧洲分子生物
学实验室,EMBL数据库—是非盈利
性学术组织EMBL建立的综合性数据
库,EMBL核酸数据库是欧洲最重要
的核酸序列数据库,它定期地与美国
的GenBank、日本的DDBJ数据库中
的数据进行交换,并同步更新。
3.DDBJ:日本DNA数据库,主要向研究
者收集DNA序列信息并赋予其数据
存取号,信息来源主要是日本的研究
机构,也接受其他国家呈递的序列。
4.BLAST:基本局部比对搜索工具的缩
写,是一种序列类似性检索工具。
BLAST采用统计学几分系统,同时采
用局部比对算法, BLAST程序能迅
速与公开数据库进行相似性序列
比较。
BLAST结果中的得分是对
一种对相似性的统计说明。
5.BLASTn:是核酸序列到核酸库中
的一种查询。
库中存在的每条已
知序列都将同所查序列作一对一
地核酸序列比对。
6.BLASTp:是蛋白序列到蛋白库中
的一种查询。
库中存在的每条已
知序列将逐一地同每条所查序列
作一对一的。
7.Clustsl X:是CLUSTAL多重序列
比对程序的Windows版本,是用
来对核酸与蛋白序列进行多序列
比较的程序,也可以对来自不同
物种的功能或结构相似的序列进
行比对和聚类,通过重建系统发
生树判断亲缘关系,并对序列在
生物进化过程中的保守性进行估
计。
8.Entrez:是由NCBI主持的一个数
据库检索系统,它包括核酸,蛋
白以及Medline文摘数据库,在
这三个数据库中建立了非常完善
的联系。
因此,可以从一个DNA
序列查询到蛋白产物以及相关文
献,而且,每个条目均有一个类
邻(neighboring)信息,给出与查
询条目接近的信息。
9.SRS(sequence retrieval system):
序列查询系统,是EBI提供的多数
据库查询工具之一。
有与Entrez类
似的功能外,还提供了一系列的序
列分析工具,可以直接进行在线序
列分析处理。
10.SWLSS—MODE:是目前最着名的蛋白
质三级结构预测服务器,建立在已知
生物大分子结构基础上,利用同源建
模的方法对未知序列的蛋白质三级
结构进行预测。
11.homology modeling:是目前最为成
功且实用的蛋白质结构预测方法,它
的前提是已知一个或多个同源蛋白
质的结构。
当两个蛋白质的序列同源
性高于35%,一般情况下认为他们的
三维结构基本相同。
12.Ab initio prediction:蛋白质三级
结构预测方法—从头预测法,在既没
有已知结构的同源蛋白质、也没有已
知结构的远程同源蛋白质的情况下,
只能采用从头预测方法,即(直接)
仅仅根据序列本身来预测其结构。
13.molecular phylogenetic tree:分
子进化树,精确地反映物种间或群
体间在进化过程中发生的极微细的
遗传变异,而且借助化石提供的大
分子类群的分化年代能定量地估计
出物种间或群体间的分化年代。
14.gene tree:基因树,表示一组基因
或一组DNA顺序进化关系的系统发
生树。
15.neighbor—joining method:邻接
法,基于最小进化原理经常被使用的
一种算法,它不检验所有可能的拓扑
结构,能同时给出拓扑结构和分支长
度。
在重建系统发生树时,认为在进
化分子上,发生趋异的次数可以不
同,它是最有效的的基于距离数据重
建系统树的方法之一。
16.maximum parsimony method:最大简
约法基于进化过程中所需核苷酸(或
氨基酸)替代数目最少的假说,对所
有可能正确的拓扑结构进行计算并
挑选出所需替代数最小的拓扑结构
作为最优系统树。
17.MEGA(Molecular Evolutionary
Genetics Analysis):是一款免费
的构树软件,它提供了序列比对、
格式转换、数据修订、距离计算、
系统树重建和可信度评估等全套功
能,能对DNA、mRNA氨基酸序列及
遗传距离进行系统发生分析以及基
因分化年代的分析。
18.BioEdit:BioEdit是一个序列编辑
器与分析工具。
功能包括:序列编辑、
外挂分析程序、RNA分析、寻找特征
序列、支持超过20000个序列的多序
列文件、基本序列处理功能、质粒图
绘制等等。
19.EST:—是从一个随机选择的cDNA
克隆,进行5’端和3’端单一次
测序挑选出来获得的短的cDNA
部分序列,代表一个完整基因的
一小部分
20.GSS:基因组勘测序列,是基因组
DNA克隆的一次性部分测序得到
的序列。
包括随机的基因组勘测
序列、cosmid/BAC/YAC末端序列、
通过Exon trapped获得基因组序
列、通过Alu PCR获得的序列、
以及转座子标记(序列等。
21.ORF:核酸序列的开放阅读框,一个
ORF就是一个潜在的蛋白质编码区。
22.promoter:启动子,是RNA聚合酶识
别、结合并开始转录所必需的一段
DNA序列。
23.3’UTR:3’非翻译区的缩写,真核
生物的转录终止信号是在3’非翻译
区的polyA。
24.CpG island:是DNA上的一个区域,
富含GC,两者以磷酸酯键相连,长
度约几百到几千bp不等,常出现在
管家基因或频繁表达的基因的启动
子附近,在这些部位,CpG岛具有阻
止序列甲基化的作用。
25.coiled coil:卷曲螺旋,是蛋白质
中由2~7条α螺旋链相互缠绕形成
类似麻花状结构的总称。
卷曲螺旋是
控制蛋白质寡聚化的元件,在机体内
执行着分子识别、代谢调控、细胞分
化、肌肉收缩、膜通道等生物学功能。
26.heptad repeat:七肽重复区是典型
的卷曲螺旋结构类型之一,由多个七
肽单元连接而成的重复序列。
27.structure domain:结构域,是在蛋
白质三级结构中介于二级和三级结
构之间的可以明显区分但又相对独
立的折叠单元,每个结构域自身形成
紧实的三维结构,可以独立存在或折
叠,但结构域与结构域之间关系较为
松散。
28.motif:又称模体,实序列中局部的
保守区域,或者是一组序列中共有的
一小段序列模式。
通常由2、3个二
级结构单位组成,一般为α螺旋、β
折叠和环。
motif作为结构域中的亚
单位,表现结构域的各种生物学功
能。
29.linux operating system:linux操
作系统,Linux是一类Unix计算机
操作系统的统称。
Linux操作系统也
是自由软件和开放源代码发展中最
着名的例子。
30.BioPerl:是Perl语言专门用于生物
信息学、基因组学及其他生命科学领
域的工具与函数模块集。
31.PubMed:是一个免费的生物医学
文摘数据库,提供部分论文的摘
要及指向全文的链接。
作为
Entrez 资讯检索系统的一部分。
32.PDB(Protein Data Bank):PDB是
目前最主要的收集生物大分子
(蛋白质、核酸和糖)三维结构的
数据库,允许用户用各种方式以
及布尔逻辑组合(AND、OR和NOT)
进行检索。
33.HGP(human genome project);人类
基因组计划,1990年由美国能源部
(DOE)和国立健康研究院(NIH)资助
的一个研究计划。
目的是:①鉴定
出人类的所有基因;②确定构成人
类基因组的约30亿个碱基对的序
列;③将上述信息储存于专门的数
据库中,并开发出相应的分析工具;
④研究由此而产生的伦理、法律和
社会问题并提出相应对策。
34.ncRNA:非编码RNA,是指没有编码
蛋白质功能的所有RNA,它缺乏开放
阅读框,常由编码蛋白质的基因反转
录而来。
35.miRNA:是一类小的非编码单链RNA,
由19~25个核苷酸构成,广泛存在于
动植物中,调节着基因表达。
Silicon cloning:利用公共数据库信息, 借助计算机软件分析, 推测目的基因的编码区序列, 辅助全长cDNA克隆的方法BLAST:即基本局域联配搜索工具,Basic Local Alignment Search Tool,是一个局部比对搜索工具,用来确定一条查询序列和一个数据库的比对,最早的版本不引入间隙,但现在所用的版本已经允许比对中引入间隙。
Entrez :是由 NCBI 主持的一个数据库检索系统,它包括核酸,蛋白以及 Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。
因此,可以从一个 DNA 序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻 (neighboring)信息,给出与查询条目接近的信息。
Entrez 中的数据库包括: Entrez 中核酸数据库为:GenBank, EMBL, DDBJ 蛋白质数据库为:Swiss-Prot, PIR, PFR, PDB
PSI-BLAST:是一种迭代的搜索方法,可以提高 BLAST 和 FASTA 的相似序列发现率。
ORF:开放阅读框(ORF)是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。
编码一个蛋白质的外显子连接成为一个连续的 ORF。
当一个新基因被识别,其 DNA 序列被解读,人们仍旧无法搞清相应的蛋白序列是什么。
这是因为在没有其它信息的前提下,DNA 序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码子)ORF 识别包括检测这六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA 。
序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。
ORF 的识别是证明一个新的 DNA 序列为特定的蛋白质编码基
因的部分或全部的先决条件。
相似性(similarity)/(identify):
相似性是指序列比对过程中用来描述检测
序列和目标序列之间相同DNA碱基或氨基
酸残基顺序所占比例的高低。
生物数据库检索(database query,数据库
查询):对序列,结构以及各种二次数据库
中的注释信息进行关键词匹配查找.
生物数据库搜索(database search):通过
特定序列相似性比对算法,找出核酸或蛋
白质序列数据库中与待检序列具有一定
程度相似性的序列.
E 值:对某个已识别出的相似度值 S,E
值是分值大于等于 S 的期望频率,改值
可以被理解为期望随机得到等于 S 或大
于 S 值的分值数目。
序列比对(alignment):为确定两个或多
个序列之间的相似性以至于同源性,而将
它们按照一定的规律排列.
同源性(homology):生物进化过程中源于
同一祖先的分支之间的关系.
Refseq:美国国家生物信息技术中心
(NCBI)提供了具有生物意义上的非冗余
的基因和蛋白质序列的RefSeq参考序列
数据库。
3’UTR:3’非翻译区的缩写,真核生物的
转录终止信号是在 3’非翻译区的:
polyA。
CpG island:是 DNA 上的一个区域,富
含 GC,两者以磷酸酯键相连,长度:约
几百到几千 bp 不等,常出现在管家基因
或频繁表达的基因的启动子附近,在这些
部位,CpG 岛具有阻止序列甲基化的作用。
GSS:基因组勘测序列,是基因组 DNA 克
隆的一次性部分测序得到的序:
cosmid/BAC/YAC 末端序列、通过 Exon
列。
包括随机的基因组勘测序列、
trapped 获得基因组序列、通过 Alu
PCR 获得的序列、以及转座子标记(序列
等。
EST:表达序列标签—是从一个随机选择的
cDNA 克隆,进行 5’端和 3’端单一次
测序挑选出来获得的短的 cDNA 部分序列,
代表一个完整基因的一小部分.。
MEGA(Molecular Evolutionary Genetics
Analysis):是一款免费的构树软件,:
它提供了序列比对、格式转换、数据修
订、距离计算、系统树重建和可信度
mRNA 氨基酸序列及遗传距离进行系统发
生分评估等全套功能,能对 DNA、析
以及基因分化年代的分析。
maximum parsimony method:最大简约法
基于进化过程中所需核苷酸(或氨基酸)
替代数目最少的假说,对所有可能正确的
拓扑结构进行计算并挑选出所需替代数
最小的拓扑结构作为最优系统树。
neighbor—joining method:邻接法,基
于最小进化原理经常被使用的一种算
法,它不检验所有可能的拓扑结构,能同
时给出拓扑结构和分支长度。
在重建系
统发生树时,认为在进化分子上,发生趋
异的次数可以不同,它是最有效的的基于
距离数据重建系统树的方法之一。
molecular phylogenetic tree:分子进
化树,精确地反映物种间或群体间在
进:化过程中发生的极微细的遗传变
异,而且借助化石提供的大分子类群的分
化年代能定量地估计出物种间或群体间
的分化年代。
Domain :功能域。
蛋白质中具有某种特
定功能的部分,它在序列上未必是连续
的。
某蛋白质中所有功能域组合其起来
决定着该蛋白质的全部功能。
EMBL:EMBL 实验室—欧洲分子生物学实
验室,EMBL 数据库—是非盈利:性学术
组织 EMBL 建立的综合性数据库,EMBL 核
酸数据库是欧洲最重要的核酸序列数据
库,它定期地与美国的 GenBank、日本的
DDBJ 数据库中的数据进行交换,并同步
更新。
BLAST :Basic Local Alignment Search
Tool,基本的基于局部对准的搜索工具;
一种快速查找与给定序列具有连续相同
片断的序列的技术。
SRS(sequence retrieval system):序列
查询系统,是 EBI 提供的多数据库查
询:工具之一。
有与 Entrez 类似的功
能外,还提供了一系列的序列分析工具,
可以直接进行在线序列分析处理。