生物信息学名词解释
生物信息学名词解释(原创)
名词解释(笔者承认偷了点懒,只是把能在网上找到的都整合在一张上面了,此整理仅适合开卷考试)基因表达(gene expression):基因通过转录和翻译,产生蛋白质产物和直接转录RNA参与生物功能的过程。
基因调控:涉及基因的启动关闭、活性的增加或减弱,发生在转录阶段、转录后加工阶段和翻译阶段。
负调控(Negative control):阻遏蛋白(repressor protein)结合在受控基因上时不表达,不结合时就表达的形式。
正调控(Positive control):基因表达的活化物( activators )结合在受控基因上时,激活基因表达,不结合时就不表达的形式。
一次数据库:记录实验的结果和一些初步的解释。
二次数据库:对一次数据库的数据进行分析和提炼加工后形成的、便于使用的数据库。
空位罚分 (gap penalty ):序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。
Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。
FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。
genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。
生物信息学名词解释(0001)
生物信息学名词解释1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学 名词解释
生物信息学名词解释
嘿,你知道啥是生物信息学不?这可不是一般的玩意儿啊!生物信
息学就像是一个超级厉害的解密大师,专门破解生命的密码!比如说吧,基因就像是一串串神秘的代码,而生物信息学呢,就是那个能读
懂这些代码含义的高手。
想象一下,细胞就像一个个忙碌的小工厂,里面进行着各种复杂的
化学反应和活动。
而生物信息学要做的,就是搞清楚这些小工厂是怎
么运作的,它们的指令是什么。
这难道不神奇吗?
再打个比方,生物信息学如同一个智慧的导航员,在生命的海洋中
指引着我们前进。
它能帮助我们分析海量的生物数据,从那些看似杂
乱无章的信息中找出规律和意义。
比如说,通过对大量基因序列的分析,我们可以了解到不同物种之间的亲缘关系,这就像是在拼凑一幅
巨大的生命拼图啊!
它涉及到好多方面呢,像数据分析、算法设计、模型建立等等。
这
不就像是一个大厨,要准备各种食材,运用各种技巧,才能做出一道
美味佳肴嘛!
咱就说,要是没有生物信息学,我们对生命的理解能有这么深刻吗?它就像一把神奇的钥匙,打开了生命奥秘的大门,让我们能更深入地
探索和了解生命的本质。
所以啊,生物信息学可太重要啦,绝对是现
代生物学不可或缺的一部分!这就是我对生物信息学的理解,你觉得呢?。
生物信息名词解释
逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划)。
全基因组鸟枪法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装。
单核苷酸多态性(SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。
遗传图谱又称连锁图谱,它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。
遗传图谱的建立为基因识别和完成基因定位创造了条件。
物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。
绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。
转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。
比较基因组学:全基因组核苷酸序列的整体比较的研究。
特点是在整个基因组的层次上比较基因组的大小及基因数目、位置、顺序、特定基因的缺失等。
环境基因组学:研究基因多态性与环境之间的关系,建立环境反应基因多态性的目录,确定引起人类疾病的环境因素的科学。
宏基因组是特定环境全部生物遗传物质总和,决定生物群体生命现象。
转录组即一个活细胞所能转录出来的所有mRNA。
研究转录组的一个重要方法就是利用DNA芯片技术检测有机体基因组中基因的表达。
而研究生物细胞中转录组的发生和变化规律的科学就称为转录组学。
蛋白质组学:研究不同时相细胞内蛋白质的变化,揭示正常和疾病状态下,蛋白质表达的规律,从而研究疾病发生机理并发现新药。
蛋白组:基因组表达的全部蛋白质,是一个动态的概念,指的是某种细胞或组织中,基因组表达的所有蛋白质。
代谢组是指是指某个时间点上一个细胞所有代谢物的集合,尤其指在不同代谢过程中充当底物和产物的小分子物质,如脂质,糖,氨基酸等,可以揭示取样时该细胞的生理状态。
生物信息学名词解释
什么是高通量测序?高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。
什么是Sanger法测序(一代测序)Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。
直到掺入一种链终止核苷酸为止。
每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。
由于ddNTP 缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。
终止点由反应中相应的双脱氧而定。
每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。
它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。
什么是基因组重测序(GenomeRe-sequencing)全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。
随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。
通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。
什么是de novo测序de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息(bioinformation)学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。
生物信息学名词解释
名词解释:Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。
1、FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
2、Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。
3、genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
4、模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。
5、查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
6、打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
7、空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
8、PDB:PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。
PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。
9、Prosite:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。
生物信息学名词解释
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
P37值:衡量序列之间相似性是否显著的期望值。
E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。
P9512.低复杂度区域:BLAST搜索的过滤选项。
指序列中包含的重复度高的区域,如poly(A)。
生物信息学名词解释
生物信息学名词解释
嘿,你知道啥是生物信息学不?生物信息学啊,就好比是生物世界里的神奇密码解读员!比如说,基因就像是一本神秘的大书(例子:基因就如同一个装满了无数秘密的巨大宝库),生物信息学就是要去读懂这本书里的内容。
它要处理和分析海量的生物数据,找出其中隐藏的规律和奥秘。
再比如说蛋白质,那可是生物体内超级重要的角色(例子:蛋白质就好像是机器里的关键零部件)。
生物信息学要研究蛋白质的结构、功能,搞清楚它们是怎么工作的。
还有测序技术,这简直就是打开生物奥秘大门的钥匙(例子:测序技术如同照亮黑暗洞穴的那束光)!通过它,我们能知道生物的遗传信息。
生物信息学可不是简单的事儿,它需要好多厉害的工具和方法呢!它就像是一个勇敢的探险家,在生物的海洋里不断探索(例子:生物信息学如同无畏的航海家在广阔的知识海洋中奋勇前行)。
总之,生物信息学超级重要,它能帮助我们更好地理解生命的奥秘呀!
我的观点结论就是:生物信息学真的太神奇、太重要啦!。
生物信息学名词解释
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学现象,这些中断的位点称为空位。
P29是引入时间概念的支序图。
18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种10.科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影中的同源序列,具有相似或不同的功能。
(书:在缺乏任何基因复数学模型响,序列中的空位的引入不代表真正的进化事件,所以要对其进行; 利用计算机为工具对实验所得大量生物学数据进行储制证据的情况下,具有共同祖先和相同功能的同源基因。
)罚分,空位罚分的多少直接影响对比的结果。
存、检索、处理及分析,并以生物学知识对结果进行解释。
P3719.值:11.E衡量序列之间相似性是否显著的期望值。
E2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对值大小说明了旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。
(可以找到与查询序列(特定目标衍生而来,是对生物学知识和信息的进一步的整理。
query)相匹配的随机或无关序列的概率,E书:由于基因重复事件产生的相似序列。
值越小意味着序列的序列格式:是将DNA或者蛋白质序列表示为一个带有一)值越接近零,越不可能找到其他匹配序列,E3.FASTA20.相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意外类群:)表示一个新文件些标记的核苷酸或者氨基酸字符串,大于号(>是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。
义。
P95的开始,其他无特殊要求。
21.有根树:能够确定所有分析物种的共同祖先的进化树。
BLAST12.低复杂度区域:搜索的过滤选项。
指序列中包含的重复序列格式:4.genbank是GenBank 数据库的基本信息单位,是最为22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找(度高的区域,如polyA广泛的生物信息学序列格式之一。
生物信息学复习资料
生物信息学复习资料一、名词解释(31个)1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。
狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。
2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
3.多序列比对:研究的是多个序列的共性。
序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。
4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。
5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。
指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。
(来自百度)6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。
用来描述在同一物种内由于基因复制而分离的同源基因。
(来自百度)7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。
8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。
(来自百度)9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折叠得较为紧密,各行其功能,称为结构域。
10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。
(来自百度)11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的3’或5’端序列。
生物信息学名词解释(个人整理)
一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学名词解释 (2)
1.生物信息学(bioinformatics):是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法,以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。
2.Genom基因组:某一物种的一套完整染色体组中的所有遗传物质。
其大小一般以其碱基对总数表示的表格。
3.数据库查询(database query):是指对序列、结构以及各种二次数据中的注释信息进行关键词匹配查找检索。
4.数据库搜索(database search):在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。
Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
5.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
6.Alignment:比对,从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。
7.表达序列标签(EST):某个基因cDNA克隆测序所得的部分序列片段,长度约为200-600bp。
EST可以定位出基因在genome上的位置。
8.开放阅读框(ORF):开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。
In Silico Cloning电子克隆:利用种子序列从EST及UniGene数据库中搜索相似性序列,进行拼装、检索、分析等,以此获得目标基因的全称cDNA,在此基础上也能够实现基因作图定位。
9.Contig:即重叠群,把含有STS序列标签位点的基因片段分别测序后,重叠分析就可以得到完整的染色体基因组序列。
10.Homology modeling同源建模:是目前最为成功且实用的蛋白质结构预测方法,它的前提是已知一个或多个同源蛋白质的结构。
(完整word版)生物信息学_复习题及答案(打印)
一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学名词解释cj
名词解释(红色考过)1.生物信息学:生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。
/生物信息学(bioinformatics):是一门结合生物技术和信息技术从而揭示生物学中新原理的科学。
3.同一性:P42是指两序列在同一位点核苷酸或氨基酸残基完全相同的序列比例。
4.相似性:P42是指两序列间直接的数量关系,如部分相同、相似的百分比或其他一些合适的度量。
5.同源性:是指从某个祖先经趋异进化而形成的不同序列,也就是从一些数据中推断出的两个基因在进化上具有共同祖先的结论,它是质的判断。
6.序列比对(alignment):将两个或多个序列排在一起,以达到最大一致性的过程(对于氨基酸序列是比较他们的保守性),这样评估序列间的相似性和同源性。
7.多序列比对(multiple sequence alignment):三个或多个序列之间的比对,如果序列在同一列有相同结构位置的残基和(或)祖传的残基,则会在该位置插入空位。
8.算法(algorithm):在计算机程序中包含的一种固定过程。
9.空位(gap):在两条序列比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除。
10.直系同源(Orthologous)指不同种类的同源序列,他们是在物种的形成事件中从一个祖先序列独立进化而成的,可能有相似功能,也可能没有。
11.旁系同源(paralogous)是通过类似基因复制的机制产生的同源序列。
12.模块替换矩阵(BLUSUM)在替换矩阵中,每个位置的打分是在相关蛋白局部比对模块中观察到的替换的频率而获得的,每个矩阵被修改成一个特殊的进化距离。
(教材P46)13.可接受点突变(PAM)一个用于衡量蛋白质序列的进化突变程度的单位。
(教材P45)14.BLAST:基本局部相似性比对搜索工具。
生物信息学题库--精校+整理
生物信息学题库一、名词解释1.生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础, 应用计算机技术, 研究生物学数据的科学。
2.相似性(similarity):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA 碱基或氨基酸残基顺序所占比例的高低。
3.同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。
4.BLAST(Basic Local Alignment Search Tool):基本局部比对搜索工具, 用于相似性搜索的工具, 对需要进行检索的序列与数据库中的每个序列做相似性比较。
5.HMM隐马尔可夫模型:是蛋白质结构域家族序列的一种严格的统计模型, 包括序列的匹配, 插入和缺失状态, 并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6.一级数据库:一级数据库中的数据直接来源于实验获得的原始数据, 只经过简单的归类整理和注释(投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中)7、二级数据库:对原始生物分子数据进行整理、分类的结果, 是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
8、GenBank: 是具有目录和生物学注释的核酸序列综合公共数据库, 由NCBI构建和维护。
9、EMBL: EMBL 实验室: 欧洲分子生物学实验室。
EMBL 数据库: 是非盈利性学术组织 EMBL 建立的综合性数据库, EMBL 核酸数据库是欧洲最重要的核酸序列数据库, 它定期地与美国的GenBank、日本的 DDBJ 数据库中的数据进行交换, 并同步更新。
10、DDBJ: 日本核酸序列数据库, 是亚洲唯一的核酸序列数据库。
11.Entrez:是由 NCBI 主持的一个数据库检索系统, 它包括核酸, 蛋白以及 Medline 文摘数据库, 在这三个数据库中建立了非常完善的联系。
12.SRS(sequence retrieval system):序列查询系统, 是 EBI 提供的多数据库查询工具之一。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.计算生物信息学(Computational Bioinformatics)是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科,以生物数据作为研究对象,研究理论模型和计算方法,开发分析工具,进而达到揭示这些数据蕴含的生物学意义的目的。
2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。
3.双碱基编码技术:在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。
代表测序方法:solid 测序。
4.焦磷酸测序法:焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。
焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。
在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。
例如:454测序仪:用蛋白质序列查找核苷酸序列。
:STS是序列标记位点(sequence-tagged site)的缩写,是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,一般长200bp -500bp。
它可用PCR方法加以验证。
将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。
在基因组作图和测序研究时,当各个实验室发表其DNA测序数据或构建成的物理图时,可用STS来加以鉴定和验证,并确定这些测序的DNA片段在染色体上的位置;还有利于汇集分析各实验室发表的数据和资料,保证作图和测序的准确性。
:表达序列标签技术(EST,Expressed Sequence Tags)EST技术直接起源于人类基因组计划。
:生物信息学数据库。
UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的转录图谱。
UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因。
:开放阅读框(ORF,open reading frame )是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。
编码一个蛋白质的外显子连接成为一个连续的ORF。
10.分子钟检验:只有分子钟的,没听过分子钟检验。
一种关于分子进化的假说,认为两个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系(一家之言,仅供参考)1) 什么是生物信息学所谓的基本数据库,你所知的核酸、蛋白质、结构基本数据库有哪些答:生物信息学中的数据是指生物分子的信息,具体表现为DNA序列数据、蛋白质序列数据、生物分子结构数据、生物分子功能数据(包括蛋白质功能的定性描述、蛋白质之间的相互作用描述、基因表达数据、代谢路径、调控网络等)。
所有类型的数据中,序列与结构是基本的数据,储存这些数据的数据库,就是生物信息学中的基本数据库。
核酸序列数据库:EBI的EMBL数据库、NCBI的GenBank数据库、日本国立遗传学研究所的DDBJ数据。
这三者间数据共享,每天更新。
蛋白质数据库:SWISS-PROT蛋白质序列数据库、PDB生物大分子结构数据库、HSSP蛋白质二级结构数据库。
以上这些数据库是全世界分子生物学和医学研究人员获取生物分子的序列、结构和其他信息的基本来源,而且是发表自己序列或结构测定结果的重要媒体。
围绕这三大核心数据库还有众多面向各种特定应用的衍生数据库和分析软件,这些数据库分别从不同角度、以不同方式对各类生物信息学数据进行归纳、总结和注释,而各种分析软件为挖掘这些数据提供了有力的工具。
2)什么是生物信息学所谓的二次数据库,你所知的核酸、蛋白质、结构二次数据库有哪些答:根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释而构建的具有特殊生物学意义和专门用途的数据库就是生物信息学中的二次数据库。
二次数据库种类繁多,以核酸数据库为基础构建的二次数据库有基因调控转录因子数据库TransFac,真核生物启动子数据库EPD,克隆载体数据库Vector,密码子使用表数据库CUTG等。
以蛋白质序列数据库为基础构建的二次数据库有蛋白质功能位点数据库Prosite,蛋白质功能位点序列片段数据库Prints,同源蛋白家族数据库Pfam,同源蛋白结构域数据库Blocks。
以具有特殊功能的蛋白为基础构建的二次数据库有免疫球蛋白数据库Kabat,蛋白激酶数据库PKinase等。
以三维结构原子坐标为基础构建的数据库如蛋白质二级结构构象参数数据库DSSP,已知空间结构的蛋白质家族数据库FSSP,已知空间结构的蛋白质及其同源蛋白数据库HSSP等。
3)什么是生物信息学所谓的演绎数据库或知识库,你所知道的著名演绎数据库或知识库有哪些,分别解决那些生物学问题答:生物信息学中的演绎数据库(Deductive Database)或知识库(Knowledgebase)是指能对已有的生物大分子基本信息进行数据挖掘的数据库,它建立在基本数据库的数据基础之上。
比较著名的演绎数据库(系统)有:KEGG(京都基因与基因组百科全书),里面包括代谢途径、生物系统功能等级、生物大分子互作等等信息,它可以从基因组及相关分子的信息预测细胞代谢过程与生物行为。
Swiss-Prot,它是一个蛋白质序列数据库,在整合其他数据库信息的基础上以较低的冗余度实现对蛋白质的评注功能,如功能描述、结构域、翻译后修饰、变体等等。
4)什么是生物信息学所谓的文献数据库,你所知道的著名的文献数据库是什么,如何运用文献数据库查找生物科学文献答:生物信息学中的文献数据库(bibliographic database)含有大量的生命科学领域的文献资料,其来源为各种的杂志及期刊,是生命科学研究者的重要资料库。
其中一个著名的文献数据库是PubMed,其主要信息来源于Medline。
PubMed是美国国立医学图书馆中生物医学及生命科学杂志文献的电子文档库,可在NCBI或PMC上通过用关键字及关键字间的各种逻辑组合(与/或/非)根据标题、作者、杂志名称及日期等检索相关的文献资料摘要及全文。
5)EMBOSS的全称是什么,它包含那几组生物信息功能,目前的版本有多少个程序可供选择运用答:EMBOSS全称European Molecular Biology Open Software Suite 。
EMBOSS是一个开放源代码的序列分析软件包,支持所有UNIX操作系统,是为分子生物学研究的特别需要而发展起来的。
EMBOSS包括了大量蛋白质和核酸的分析工具,包括翻译、蛋白质结构域搜索、获取序列、比对、引物设计、限制性酶切谱分析等多种功能的。
它整合了一些公共数据库,能够自动识别处理以不同格式存储的数据,甚至可以通过互联网提取数据,并且,因为该软件包同时提供了一个扩展库,它也是允许其他科学家依据自由软件精神编制、发布软件的一个平台。
它同时将现在可以得到的一系列序列分析工具整合成一个无缝的整体。
EMBOSS套装包括约100个序列分析程序、一套核心软件库,还整合了其他可用的软件包,它们涵盖了如下领域:序列比对、序列特征的快速数据库搜索、蛋白基序识别(包括结构域分析)、EST分析、核酸序列特征分析(比如识别CpG岛)、简单的物种特异性重复的识别、小基因组的密码子使用频率分析、大范围的序列特征快速识别以及其他的工具。
(SCUT_Jason整理)6)BLAST的全称是什么,NCBI的BLAST包含几个程序,分别在什么情况下使用答:BLAST全称Basic Local Alignment Search Tool 即“局部相似性基本查询工具”, 是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序。
NCBI的BLAST包含以下几个程序:程序名查询序列数据库搜索方法Blastn 核酸核酸核酸序列搜索核酸数据库中的序列Blastp 蛋白质蛋白质蛋白质序列搜索蛋白质数据库中的序列Blastx 核酸蛋白质核酸序列翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。
Tblastn 蛋白质核酸蛋白质序列和核酸数据库中的核酸序列翻译后的蛋白质序列逐一比对。
TBlastx 核酸核酸核酸序列翻译成蛋白质序列,再和核酸数据库中的核酸序列翻译成的蛋白质序列逐一进行比对。
7)全局比对和局部比对在算法语言、程序选择和用途上有什么区别他们有什么共同点答:全局比对:可使用Needleman-Wunsch动态规划算法。
局部比对:使用Smith-Waterman算法二者可使用FASTA程序包中的LALIGN程序进行。
当你想比较两条序列整体相似性时,可以对序列进行全局比对;而局部比对则可以找出两条序列间相似度最高的片段。
许多蛋白质在全局范围内并不具有相似性,但却似乎是由众多的模块结构域搭建而成。
由于全局比对建立时,基因的外显子/内含子结构还没有被发现,因此全程比对并没有顾及到上述现象的重要性是可以理解的。
在大多数情况下,使用局部比对是较为合理的,这种比对方法可能会揭示一些匹配的序列段,如果不恰当地使用了全程比对,这些序列段很可能会被一些完全不相关联的残基所淹没。
二者的共同之处在于他们的基本思想都是找出序列的相似性。
(SCUT_Jason整理)(仅供参考)8)BLAST中,E值和P值分别是什么,它们有什么意义答:BLAST中使用的统计值有概率p值和期望e值。
E期望值(E-value)这个数值表示你仅仅因为随机性造成获得这一比对结果的可能次数。
这一数值越接近零,发生这一事件的可能性越小。
从搜索的角度看,E值越小,比对结果越显著。
默认值为10,表示比对结果中将有10个匹配序列是由随机产生,如果比对的统计显著性值(E值)小于该值(10),则该比对结果将被检出,换句话说,比较低的E值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。
p值表示比对结果得到的分数值的可信度。
一般说来,p值越接近于零,则比对结果的可信度越大;相反,p值越大,则比对结果来自随机匹配的可能性越大。
9)什么是序列比对中使用的PAM矩阵和BLOSUM矩阵,它们的作用是什么,一般BLAST选择使用的矩阵是什么答:PAM矩阵和BLOSUM矩阵都是用于序列相似性的记分矩阵(scoring matrix)。
记分矩阵中含有对齐时具体使用的数值。
一般FASTA和BLAST都提供BLOSUM或PAM系列矩阵供选择,若要进行突变性质的进化分析时可以使用PAM,FASTA缺省推荐BLOSUM50矩阵。