生物信息学名词解释(原创)
生物信息-名词解释
逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划)。
全基因组鸟枪法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装。
单核苷酸多态性(SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。
遗传图谱又称连锁图谱,它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。
遗传图谱的建立为基因识别和完成基因定位创造了条件。
物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。
绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。
转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。
比较基因组学:全基因组核苷酸序列的整体比较的研究。
特点是在整个基因组的层次上比较基因组的大小及基因数目、位置、顺序、特定基因的缺失等。
环境基因组学:研究基因多态性与环境之间的关系,建立环境反应基因多态性的目录,确定引起人类疾病的环境因素的科学。
宏基因组是特定环境全部生物遗传物质总和,决定生物群体生命现象。
转录组即一个活细胞所能转录出来的所有mRNA。
研究转录组的一个重要方法就是利用DNA芯片技术检测有机体基因组中基因的表达。
而研究生物细胞中转录组的发生和变化规律的科学就称为转录组学。
蛋白质组学:研究不同时相细胞内蛋白质的变化,揭示正常和疾病状态下,蛋白质表达的规律,从而研究疾病发生机理并发现新药。
蛋白组:基因组表达的全部蛋白质,是一个动态的概念,指的是某种细胞或组织中,基因组表达的所有蛋白质。
代谢组是指是指某个时间点上一个细胞所有代谢物的集合,尤其指在不同代谢过程中充当底物和产物的小分子物质,如脂质,糖,氨基酸等,可以揭示取样时该细胞的生理状态。
生物信息学名词解释(0001)
生物信息学名词解释1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学名词解释
1.计算生物信息学(Computational Bioinformatics)是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科,以生物数据作为研究对象,研究理论模型和计算方法,开发分析工具,进而达到揭示这些数据蕴含的生物学意义的目的。
2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。
3.双碱基编码技术:在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。
代表测序方法:solid 测序。
4.焦磷酸测序法:焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。
焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。
在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。
例如:454测序仪:用蛋白质序列查找核苷酸序列。
:STS是序列标记位点(sequence-tagged site)的缩写,是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,一般长200bp -500bp。
它可用PCR方法加以验证。
将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。
在基因组作图和测序研究时,当各个实验室发表其DNA测序数据或构建成的物理图时,可用STS来加以鉴定和验证,并确定这些测序的DNA片段在染色体上的位置;还有利于汇集分析各实验室发表的数据和资料,保证作图和测序的准确性。
:表达序列标签技术(EST,Expressed Sequence Tags)EST技术直接起源于人类基因组计划。
生物信息学常用名词解释(一)
生物信息学常用名词解释(一)在生物信息中会出现很多的特殊名词,从这次内容开始,我们将逐渐推送一些生物信息相关的一些名词解释。
生物信息学(bioinformatics):综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。
包括生物学数据的研究、存档、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
基因组(genome):是指一个物种的单倍体的染色体数目,又称染色体组。
它包含了该物种自身的所有基因。
基因(gene):是遗传信息的物理和功能单位,包含产生一条多肽链或功能RNA所必需的全部核苷酸序列。
基因组学(genomics):是指对所有基因进行基因组作图(包括遗传图谱、物理图谱、转录图谱)、核酸序列测定、基因定位和基因功能分析的科学。
基因组学包括结构基因组学(structural genomics)、功能基因组学(functional genomics)、比较基因组学(Comparative genomics)。
蛋白质组学(proteomics):阐明生物体各种生物基因组在细胞中表达的全部蛋白质的表达模式及功能模式的学科。
包括鉴定蛋白质的表达、存在方式(修饰形式)、结构、功能和相互作用等。
高通量测序:高通量测序技术(High-throughputsequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。
下一代测序:英文名为Next Generation Sequencing,简称为NGS。
也叫做二代测序或者高通量测序。
生物信息学 名词解释
生物信息学名词解释
嘿,你知道啥是生物信息学不?这可不是一般的玩意儿啊!生物信
息学就像是一个超级厉害的解密大师,专门破解生命的密码!比如说吧,基因就像是一串串神秘的代码,而生物信息学呢,就是那个能读
懂这些代码含义的高手。
想象一下,细胞就像一个个忙碌的小工厂,里面进行着各种复杂的
化学反应和活动。
而生物信息学要做的,就是搞清楚这些小工厂是怎
么运作的,它们的指令是什么。
这难道不神奇吗?
再打个比方,生物信息学如同一个智慧的导航员,在生命的海洋中
指引着我们前进。
它能帮助我们分析海量的生物数据,从那些看似杂
乱无章的信息中找出规律和意义。
比如说,通过对大量基因序列的分析,我们可以了解到不同物种之间的亲缘关系,这就像是在拼凑一幅
巨大的生命拼图啊!
它涉及到好多方面呢,像数据分析、算法设计、模型建立等等。
这
不就像是一个大厨,要准备各种食材,运用各种技巧,才能做出一道
美味佳肴嘛!
咱就说,要是没有生物信息学,我们对生命的理解能有这么深刻吗?它就像一把神奇的钥匙,打开了生命奥秘的大门,让我们能更深入地
探索和了解生命的本质。
所以啊,生物信息学可太重要啦,绝对是现
代生物学不可或缺的一部分!这就是我对生物信息学的理解,你觉得呢?。
生物信息学名词解释
什么是高通量测序?高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。
什么是Sanger法测序(一代测序)Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。
直到掺入一种链终止核苷酸为止。
每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。
由于ddNTP 缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。
终止点由反应中相应的双脱氧而定。
每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。
它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。
什么是基因组重测序(GenomeRe-sequencing)全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。
随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。
通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。
什么是de novo测序de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息(bioinformation)学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。
生物信息学名词解释
名词解释:Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。
1、FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
2、Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。
3、genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
4、模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。
5、查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
6、打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
7、空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
8、PDB:PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。
PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。
9、Prosite:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。
生物信息学名词解释
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
P37值:衡量序列之间相似性是否显著的期望值。
E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。
P9512.低复杂度区域:BLAST搜索的过滤选项。
指序列中包含的重复度高的区域,如poly(A)。
生物信息学名词解释
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学现象,这些中断的位点称为空位。
P29是引入时间概念的支序图。
18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种10.科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影中的同源序列,具有相似或不同的功能。
(书:在缺乏任何基因复数学模型响,序列中的空位的引入不代表真正的进化事件,所以要对其进行; 利用计算机为工具对实验所得大量生物学数据进行储制证据的情况下,具有共同祖先和相同功能的同源基因。
)罚分,空位罚分的多少直接影响对比的结果。
存、检索、处理及分析,并以生物学知识对结果进行解释。
P3719.值:11.E衡量序列之间相似性是否显著的期望值。
E2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对值大小说明了旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。
(可以找到与查询序列(特定目标衍生而来,是对生物学知识和信息的进一步的整理。
query)相匹配的随机或无关序列的概率,E书:由于基因重复事件产生的相似序列。
值越小意味着序列的序列格式:是将DNA或者蛋白质序列表示为一个带有一)值越接近零,越不可能找到其他匹配序列,E3.FASTA20.相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意外类群:)表示一个新文件些标记的核苷酸或者氨基酸字符串,大于号(>是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。
义。
P95的开始,其他无特殊要求。
21.有根树:能够确定所有分析物种的共同祖先的进化树。
BLAST12.低复杂度区域:搜索的过滤选项。
指序列中包含的重复序列格式:4.genbank是GenBank 数据库的基本信息单位,是最为22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找(度高的区域,如polyA广泛的生物信息学序列格式之一。
生物信息学复习资料
生物信息学复习资料一、名词解释(31个)1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。
狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。
2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
3.多序列比对:研究的是多个序列的共性。
序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。
4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。
5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。
指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。
(来自百度)6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。
用来描述在同一物种内由于基因复制而分离的同源基因。
(来自百度)7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。
8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。
(来自百度)9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折叠得较为紧密,各行其功能,称为结构域。
10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。
(来自百度)11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的3’或5’端序列。
生信名词解释
Read:高通量测序平台产生的序列标签就称为 reads。
SNP:single nucleotide polymorphism,单核苷酸多态性,个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性;不同物种个体基因组 DNA 序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。SNP 在CG序列上出现最为频繁,而且多是C转换为T,原因是CG中的C 常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP 是指变异频率大于1 %的单核苷酸变异,主要用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。
转录组:Transcriptome,是指特定生长阶段某组织或细胞内所有转录产物的集合;狭义上指所有mRNA的集合。
转录组测序:对某组织在某一功能状态下所能转录出来的所有RNA进行测序,获得特定状态下的该物种的几乎所有转录本序列信息。通常转录组测序是指对mRNA进行测序获得相关序列的过程。其根据所研究物种是否有参考基因组序列分为转录组de novo测序(无参考基因组序列)和转录组重测序(有参考基因组序列)。
Contig N50:Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3……Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。
生物信息学名词解释(个人整理)
一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学名词解释 (2)
1.生物信息学(bioinformatics):是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法,以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。
2.Genom基因组:某一物种的一套完整染色体组中的所有遗传物质。
其大小一般以其碱基对总数表示的表格。
3.数据库查询(database query):是指对序列、结构以及各种二次数据中的注释信息进行关键词匹配查找检索。
4.数据库搜索(database search):在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。
Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
5.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
6.Alignment:比对,从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。
7.表达序列标签(EST):某个基因cDNA克隆测序所得的部分序列片段,长度约为200-600bp。
EST可以定位出基因在genome上的位置。
8.开放阅读框(ORF):开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。
In Silico Cloning电子克隆:利用种子序列从EST及UniGene数据库中搜索相似性序列,进行拼装、检索、分析等,以此获得目标基因的全称cDNA,在此基础上也能够实现基因作图定位。
9.Contig:即重叠群,把含有STS序列标签位点的基因片段分别测序后,重叠分析就可以得到完整的染色体基因组序列。
10.Homology modeling同源建模:是目前最为成功且实用的蛋白质结构预测方法,它的前提是已知一个或多个同源蛋白质的结构。
生物信息学名词解释cj
名词解释(红色考过)1.生物信息学:生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。
/生物信息学(bioinformatics):是一门结合生物技术和信息技术从而揭示生物学中新原理的科学。
3.同一性:P42是指两序列在同一位点核苷酸或氨基酸残基完全相同的序列比例。
4.相似性:P42是指两序列间直接的数量关系,如部分相同、相似的百分比或其他一些合适的度量。
5.同源性:是指从某个祖先经趋异进化而形成的不同序列,也就是从一些数据中推断出的两个基因在进化上具有共同祖先的结论,它是质的判断。
6.序列比对(alignment):将两个或多个序列排在一起,以达到最大一致性的过程(对于氨基酸序列是比较他们的保守性),这样评估序列间的相似性和同源性。
7.多序列比对(multiple sequence alignment):三个或多个序列之间的比对,如果序列在同一列有相同结构位置的残基和(或)祖传的残基,则会在该位置插入空位。
8.算法(algorithm):在计算机程序中包含的一种固定过程。
9.空位(gap):在两条序列比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除。
10.直系同源(Orthologous)指不同种类的同源序列,他们是在物种的形成事件中从一个祖先序列独立进化而成的,可能有相似功能,也可能没有。
11.旁系同源(paralogous)是通过类似基因复制的机制产生的同源序列。
12.模块替换矩阵(BLUSUM)在替换矩阵中,每个位置的打分是在相关蛋白局部比对模块中观察到的替换的频率而获得的,每个矩阵被修改成一个特殊的进化距离。
(教材P46)13.可接受点突变(PAM)一个用于衡量蛋白质序列的进化突变程度的单位。
(教材P45)14.BLAST:基本局部相似性比对搜索工具。
生物信息学题库--精校+整理
生物信息学题库一、名词解释1.生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础, 应用计算机技术, 研究生物学数据的科学。
2.相似性(similarity):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA 碱基或氨基酸残基顺序所占比例的高低。
3.同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。
4.BLAST(Basic Local Alignment Search Tool):基本局部比对搜索工具, 用于相似性搜索的工具, 对需要进行检索的序列与数据库中的每个序列做相似性比较。
5.HMM隐马尔可夫模型:是蛋白质结构域家族序列的一种严格的统计模型, 包括序列的匹配, 插入和缺失状态, 并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6.一级数据库:一级数据库中的数据直接来源于实验获得的原始数据, 只经过简单的归类整理和注释(投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中)7、二级数据库:对原始生物分子数据进行整理、分类的结果, 是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
8、GenBank: 是具有目录和生物学注释的核酸序列综合公共数据库, 由NCBI构建和维护。
9、EMBL: EMBL 实验室: 欧洲分子生物学实验室。
EMBL 数据库: 是非盈利性学术组织 EMBL 建立的综合性数据库, EMBL 核酸数据库是欧洲最重要的核酸序列数据库, 它定期地与美国的GenBank、日本的 DDBJ 数据库中的数据进行交换, 并同步更新。
10、DDBJ: 日本核酸序列数据库, 是亚洲唯一的核酸序列数据库。
11.Entrez:是由 NCBI 主持的一个数据库检索系统, 它包括核酸, 蛋白以及 Medline 文摘数据库, 在这三个数据库中建立了非常完善的联系。
12.SRS(sequence retrieval system):序列查询系统, 是 EBI 提供的多数据库查询工具之一。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
名词解释(笔者承认偷了点懒,只是把能在网上找到的都整合在一张上面了,此整理仅适合开卷考试)基因表达(gene expression):基因通过转录和翻译,产生蛋白质产物和直接转录RNA参与生物功能的过程。
基因调控:涉及基因的启动关闭、活性的增加或减弱,发生在转录阶段、转录后加工阶段和翻译阶段。
负调控(Negative control):阻遏蛋白(repressor protein)结合在受控基因上时不表达,不结合时就表达的形式。
正调控(Positive control):基因表达的活化物( activators )结合在受控基因上时,激活基因表达,不结合时就不表达的形式。
一次数据库:记录实验的结果和一些初步的解释。
二次数据库:对一次数据库的数据进行分析和提炼加工后形成的、便于使用的数据库。
空位罚分 (gap penalty ):序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。
Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。
FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。
genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。
查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
PDB:PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。
PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。
Prosite:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。
PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。
PIR:是一个集成了关于蛋白质功能预测数据的公共资源的数据库,其目的是支持基因组蛋白质研究。
SWLSS—MODE:是目前最著名的蛋白质三级结构预测服务器,建立在已知生物大分子结构基础上,利用同源建模的方法对未知序列的蛋白质三级结构进行预测。
E值:衡量序列之间相似性是否显著的期望值。
E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。
点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。
多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。
MEGA:是一款免费的构树软件,它提供了序列比对、格式转换、数据修订、距离计算、系统树重建和可信度评估等全套功能,能对DNA、mRNA氨基酸序列及遗传距离进行系统发生分析以及基因分化年代的分析。
BioEdit:BioEdit是一个序列编辑器与分析工具软件。
功能包括:序列编辑、外挂分析程序、RNA分析、寻找特征序列、支持超过20000个序列的多序列文件、基本序列处理功能、质粒图绘制等等。
GSS:基因组勘测序列,是基因组DNA克隆的一次性部分测序得到的序列。
包括随机的基因组勘测序列、cosmid/BAC/YAC末端序列、通过Exon trapped获得基因组序列、通过Alu PCR获得的序列、以及转座子标记序列等。
coiled coil:卷曲螺旋,是蛋白质中由2~7条α螺旋链相互缠绕形成类似麻花状结构的总称。
卷曲螺旋是控制蛋白质寡聚化的元件,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。
密码子偏好性(codon bias):氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性。
基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中包含的基因。
31.结构域(domain):保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。
相同功能的同源结构域具有序列的相似性。
一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。
超家族:进化上相关,功能可能不同的一类蛋白质。
33.模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。
GenPept:是由GenBank中的DNA序列翻译得到的蛋白质序列。
数据量很大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。
41.折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。
TrEMBL:是与SWISS-PROT相关的一个数据库。
包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。
43.MMDB(Molecular Modeling Database):是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。
与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。
SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。
SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。
可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(super family)、家族(family)、单个PDB蛋白结构记录。
表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。
比较基因组学:是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。
49.简约信息位点:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。
其它位点为都是非简约性信息位点。
DDBJ:日本DNA数据库,主要向研究者收集DNA序列信息并赋予其数据存取号,信息来源主要是日本的研究机构,也接受其他国家呈递的序列。
4. BLAST:基本局部比对搜索工具的缩写,是一种序列类似性检索工具。
BLAST采用统计学几分系统,同时采用局部比对算法, BLAST程序能迅速与公开数据库进行相似性序列比较。
BLAST结果中的得分是对一种对相似性的统计说明。
BLASTn:是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
BLASTp:是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
Clustsl X:是CLUSTAL多重序列比对程序的Windows版本,是用来对核酸与蛋白序列进行多序列比较的程序,也可以对来自不同物种的功能或结构相似的序列进行比对和聚类,通过重建系统发生树判断亲缘关系,并对序列在生物进化过程中的保守性进行估计。
SRS:序列查询系统,是EBI提供的多数据库查询工具之一。
有与Entrez类似的功能外,还提供了一系列的序列分析工具,可以直接进行在线序列分析处理。
Ab initio prediction:蛋白质三级结构预测方法—从头预测法,在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,只能采用从头预测方法,即(直接)仅仅根据序列本身来预测其结构。
分子进化树:精确地反映物种间或群体间在进化过程中发生的极微细的遗传变异,而且借助化石提供的大分子类群的分化年代能定量地估计出物种间或群体间的分化年代。
gene tree:基因树,表示一组基因或一组DNA顺序进化关系的系统发生树。
MP:最大简约法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树。
heptad repeat:七肽重复区是典型的卷曲螺旋结构类型之一,由多个七肽单元连接而成的重复序列。
structure domain:结构域,是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。
PubMed:是一个免费的生物医学文摘数据库,提供部分论文的摘要及指向全文的链接。
作为 Entrez 资讯检索系统的一部分。
PSI-BLAST:位点特异性迭代比对。