生物信息学常见名词
生物信息学名词解释(原创)
名词解释(笔者承认偷了点懒,只是把能在网上找到的都整合在一张上面了,此整理仅适合开卷考试)基因表达(gene expression):基因通过转录和翻译,产生蛋白质产物和直接转录RNA参与生物功能的过程。
基因调控:涉及基因的启动关闭、活性的增加或减弱,发生在转录阶段、转录后加工阶段和翻译阶段。
负调控(Negative control):阻遏蛋白(repressor protein)结合在受控基因上时不表达,不结合时就表达的形式。
正调控(Positive control):基因表达的活化物( activators )结合在受控基因上时,激活基因表达,不结合时就不表达的形式。
一次数据库:记录实验的结果和一些初步的解释。
二次数据库:对一次数据库的数据进行分析和提炼加工后形成的、便于使用的数据库。
空位罚分 (gap penalty ):序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。
Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。
FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。
genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。
生物信息学名词解释(个人整理)
一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学名词解释
1.计算生物信息学(Computational Bioinformatics)是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科,以生物数据作为研究对象,研究理论模型和计算方法,开发分析工具,进而达到揭示这些数据蕴含的生物学意义的目的。
2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。
3.双碱基编码技术:在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。
代表测序方法:solid 测序。
4.焦磷酸测序法:焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。
焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。
在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。
例如:454测序仪:用蛋白质序列查找核苷酸序列。
:STS是序列标记位点(sequence-tagged site)的缩写,是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,一般长200bp -500bp。
它可用PCR方法加以验证。
将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。
在基因组作图和测序研究时,当各个实验室发表其DNA测序数据或构建成的物理图时,可用STS来加以鉴定和验证,并确定这些测序的DNA片段在染色体上的位置;还有利于汇集分析各实验室发表的数据和资料,保证作图和测序的准确性。
:表达序列标签技术(EST,Expressed Sequence Tags)EST技术直接起源于人类基因组计划。
生物学名词解释
生物学名词解释1. 组织(Tissue):由相同类型、特定功能的细胞组成的结构,比如肌肉组织、神经组织等。
2. 器官(Organ):组织的结合形式,由多种不同类型的组织组成,具有独立的功能,比如心脏、肺等。
3. 系统(System):多个相互合作的器官组合而成的功能单位,如循环系统、呼吸系统、消化系统等。
4. 基因(Gene):生物遗传信息的基本单位,由DNA分子编码。
5. 突变(Mutation):基因发生的变异,可以是某个基因座上的碱基序列发生改变,或整个基因的结构发生变化。
6. 有丝分裂(Mitosis):细胞分裂的一种方式,分为前期、中期、后期和末期,通过产生两个基因组完全相同的子细胞。
7. 减数分裂(Meiosis):生殖细胞分裂的一种方式,通过两轮分裂,产生具有半数染色体数目的四个非完全相同的子细胞。
8. 显性遗传(Dominant inheritance):指一个个体只需要拥有一个显性基因就能表现出相应的性状。
9. 隐性遗传(Recessive inheritance):指一个个体需要拥有两个隐性基因才能表现出相应的性状。
10. 自然选择(Natural selection):达尔文进化论的核心理论,指环境选择有利于某些个体生存和繁殖,从而导致基因频率的变化。
11. 进化(Evolution):在物种几代繁殖过程中遗传信息的累积和改变。
12. 基因型(Genotype):个体基因的全部信息,通常用字母代表不同的等位基因。
13. 表型(Phenotype):基因型与环境互作的结果,指个体的形态、生理特征。
14. 基因突变(Gene mutation):指基因的永久遗传性改变,可能由于DNA序列突变引起。
15. 表达型(Expression):指基因在表型上产生的效应。
16. 基因组(Genome):一个个体的全部基因信息,包括DNA分子中的全部基因。
17. 纯合子(Homozygote):染色体上的两个等位基因相同。
生物信息学常见名词
BlastBasic Local Alignment Search Tool,基本的基于局部对准的搜索工具;一种快速查找与给定序列具有连续相同片断的序列的技术。
在BLAST2.0,2.05新版中启用了gapped BLAST、PSI-BLAST 和PHI-BLAST。
gapped BLAST是比原BLAST更灵敏更快的局部相似联配(俗称局部同源)搜索法;PSI- BLAST用迭代型的剖面打分算法,每次迭代所费时间与前者相同,它可检索弱同源的目标;PHI-BLAST 98年刚出台,是模体(Motif )构造与搜索软件,是更灵敏的同源搜索软件。
例如线虫的CED4是apoptosis 的调控蛋白,含有涉及磷酸结合的P 环模体,在各种ATP 酶和GTP 酶中可发现。
在用gapped BLAST搜索NR数据库时,CED4仅跟人凋亡调控蛋白Apaf-1显著同源或相似(其中含有P-loop保守区)。
但PHI-BLAST搜索,另有一个显著同源(E=0.038 )目标,是植物抗病蛋白Arabidopsis thaliana T7N9.18,证实此动物与植物蛋白确实在apoptosis 中有相似的功能。
另有,按PHI-BLAST搜索在MutL DNA修复蛋白中的ATP 酶域,II型拓扑异构酶,组氨酸激酶和HS90家族蛋白,发现一个新的真核蛋白族,共有HS90型ATP 酶域。
再有在古核tRNA核苷酸转移酶中发现核苷酸转移酶域,在细菌DNA 引物酶的古核同源体中发现螺旋酶超家族II的模体VI。
用以往的搜索法这些是得不到的。
Entrez美国国家生物技术信息中心所提供的在线资源检索器。
该资源将GenBank序列与其原始文献出处链接在一起。
NCBI美国国立生物技术信息中心(National Center for Biotechnology Information),1988年设立,为美国国家医学图书馆(National Library of Medicine, NLM)和国家健康协会(ational Institutes of Health, NIH)下属部门之一。
生物信息学名词解释 重点
名词解释算法:是对解决问题的方法的一种精确描述。
聚类分析:就是将数据分成若干簇(cluster),簇内最大程度相似,簇间最大程度相异。
某一状态的出现概率仅取决于其前驱的k个状态,k阶马尔可夫模型数据结构:被计算机加工的数据彼此间存在着某些逻辑上的联系,这些联系需要在对数据进行存储和加工时反映出来。
程序:是对所要解决问题的各个对象和处理规则的描述,或者说是数据结构和算法的描述。
序列的比对:是一种关于序列相似性的定性描述:在什么区域相似,在什么区域存在差别。
最优比对:揭示两条序列的最大相似程度。
(又叫序列联配,其意义在于从核酸、氨基酸的层次分析序列的相似性,推测其结构功能及进化上的联系,是基因识别、分子进化、生命起源研究的基础。
)相似性(similarity):是可以量化的参数,是一种直接的数量关系,是量的判断,可多可少,如百分之几。
同源性(homology) :是指从一些数据库中推断出序列在进化上曾具有共同的祖先的结论,属于质的判断。
直系同源(orthology):(1)在进化上起源于一个始祖基因并垂直传递(vertical descent)的同源基因;(2)分布于两种或两种以上物种的基因组;(3)功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换;(4)结构相似;(5)组织特异性与亚细胞分布相似。
旁系同源(paralogy)同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向(horizontal)产生的几个同源基因。
马尔可夫特性(无后效性):若已知现在的状态,将来与过去无关。
即根据当前的状态即可完全确定将来的状态。
马尔可夫链: 具有马尔可夫特性的离散状态随机过程。
顺式调控元件:位于起始点上游(基因5‘端)控制转录的DNA序列, 靠近它所调控的编码序列; 其结构是模块化的,即DNA序列能被分成各个单元。
反式调控元件:远离所调控的编码序列,通常位于不同的染色体上。
单基因回路:蛋白质与DNA启动子和增强子的相互作用。
生物信息学名词解释
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学名词解释
名词解释:Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。
1、FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
2、Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。
3、genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
4、模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。
5、查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
6、打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
7、空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
8、PDB:PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。
PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。
9、Prosite:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。
生物信息学名词解释
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
P37值:衡量序列之间相似性是否显著的期望值。
E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。
P9512.低复杂度区域:BLAST搜索的过滤选项。
指序列中包含的重复度高的区域,如poly(A)。
生物学名词(附英文名称)解读
生物学名词(附英文名称)解读一、细胞(Cell)细胞是生物体的基本单位,是生命活动的场所。
细胞具有细胞膜、细胞质和细胞核等结构,负责执行生命活动的各种功能。
二、DNA(DNA)DNA是脱氧核糖核酸的缩写,是生物体内存储遗传信息的分子。
DNA分子由四种碱基组成,通过碱基对排列形成双螺旋结构,负责传递遗传信息。
三、蛋白质(Protein)蛋白质是生物体内的重要分子,具有多种功能,如催化反应、运输物质、调节细胞活动等。
蛋白质由氨基酸组成,通过肽键连接形成长链。
四、酶(Enzyme)酶是一种特殊的蛋白质,具有催化化学反应的功能。
酶能够降低化学反应的活化能,提高反应速率,从而加速生命活动。
五、光合作用(Photosynthesis)光合作用是植物、藻类和某些细菌利用光能将二氧化碳和水转化为有机物和氧气的过程。
光合作用是地球上生物能量循环的基础。
六、呼吸作用(Respiration)呼吸作用是生物体内分解有机物,释放能量的过程。
呼吸作用包括有氧呼吸和无氧呼吸两种形式,有氧呼吸需要氧气,无氧呼吸不需要氧气。
七、有丝分裂(Mitosis)有丝分裂是生物体内细胞分裂的一种方式,通过有丝分裂,一个细胞分裂成两个细胞,保证了遗传信息的传递。
八、减数分裂(Meiosis)减数分裂是生物体内细胞分裂的一种方式,通过减数分裂,一个细胞分裂成四个细胞,每个细胞只含有一套染色体,保证了生殖细胞的形成。
九、基因(Gene)基因是生物体内控制遗传特征的基本单位,位于染色体上。
基因通过编码蛋白质,决定了生物体的遗传特征。
十、生态系统(Ecosystem)生态系统是由生物体和非生物环境组成的相互作用的整体。
生态系统中的生物体之间存在着食物链和食物网,通过能量流动和物质循环维持生态平衡。
十一、生物多样性(Biodiversity)生物多样性是指地球上生物种类、遗传差异和生态系统的多样性。
它包括物种多样性、遗传多样性和生态系统多样性。
十二、进化(Evolution)进化是指生物种群在长期演化过程中,通过自然选择、基因突变和基因重组等机制,逐渐适应环境变化的过程。
生物信息分析常用名词解释
生物信息分析常用名词解释生物信息学(bioinformatics):综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。
包括生物学数据的研究、存档、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
基因组(genome):是指一个物种的单倍体的染色体数目,又称染色体组。
它包含了该物种自身的所有基因。
基因(gene):是遗传信息的物理和功能单位,包含产生一条多肽链或功能RNA所必需的全部核苷酸序列。
基因组学:(genomics)是指对所有基因进行基因组作图(包括遗传图谱、物理图谱、转录图谱)、核酸序列测定、基因定位和基因功能分析的科学。
基因组学包括结构基因组学(structural genomics)、功能基因组学(functional genomics)、比较基因组学(Comparative genomics)宏基因组学:宏基因组是基因组学一个新兴的科学研究方向。
宏基因组学(又称元基因组学,环境基因组学,生态基因组学等),是研究直接从环境样本中提取的基因组遗传物质的学科。
传统的微生物研究依赖于实验室培养,元基因组的兴起填补了无法在传统实验室中培养的微生物研究的空白。
蛋白质组学(proteomics):阐明生物体各种生物基因组在细胞中表达的全部蛋白质的表达模式及功能模式的学科。
包括鉴定蛋白质的表达、存在方式(修饰形式)、结构、功能和相互作用等。
遗传图谱:指通过遗传重组所得到的基因线性排列图。
物理图谱:是利用限制性内切酶将染色体切成片段,再根据重叠序列把片段连接称染色体,确定遗传标记之间的物理距离的图谱。
转录图谱:是利用EST作为标记所构建的分子遗传图谱。
基因文库:用重组DNA技术将某种生物细胞的总DNA 或染色体DNA的所有片断随机地连接到基因载体上,然后转移到适当的宿主细胞中,通过细胞增殖而构成各个片段的无性繁殖系(克隆),在制备的克隆数目多到可以把某种生物的全部基因都包含在内的情况下,这一组克隆的总体就被称为某种生物的基因文库。
生物信息学名词解释
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学名词解释
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学现象,这些中断的位点称为空位。
P29是引入时间概念的支序图。
18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种10.科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影中的同源序列,具有相似或不同的功能。
(书:在缺乏任何基因复数学模型响,序列中的空位的引入不代表真正的进化事件,所以要对其进行; 利用计算机为工具对实验所得大量生物学数据进行储制证据的情况下,具有共同祖先和相同功能的同源基因。
)罚分,空位罚分的多少直接影响对比的结果。
存、检索、处理及分析,并以生物学知识对结果进行解释。
P3719.值:11.E衡量序列之间相似性是否显著的期望值。
E2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对值大小说明了旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。
(可以找到与查询序列(特定目标衍生而来,是对生物学知识和信息的进一步的整理。
query)相匹配的随机或无关序列的概率,E书:由于基因重复事件产生的相似序列。
值越小意味着序列的序列格式:是将DNA或者蛋白质序列表示为一个带有一)值越接近零,越不可能找到其他匹配序列,E3.FASTA20.相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意外类群:)表示一个新文件些标记的核苷酸或者氨基酸字符串,大于号(>是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。
义。
P95的开始,其他无特殊要求。
21.有根树:能够确定所有分析物种的共同祖先的进化树。
BLAST12.低复杂度区域:搜索的过滤选项。
指序列中包含的重复序列格式:4.genbank是GenBank 数据库的基本信息单位,是最为22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找(度高的区域,如polyA广泛的生物信息学序列格式之一。
生物信息学名词解释(个人整理)
一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学名词解释cj
名词解释(红色考过)1.生物信息学:生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。
/生物信息学(bioinformatics):是一门结合生物技术和信息技术从而揭示生物学中新原理的科学。
3.同一性:P42是指两序列在同一位点核苷酸或氨基酸残基完全相同的序列比例。
4.相似性:P42是指两序列间直接的数量关系,如部分相同、相似的百分比或其他一些合适的度量。
5.同源性:是指从某个祖先经趋异进化而形成的不同序列,也就是从一些数据中推断出的两个基因在进化上具有共同祖先的结论,它是质的判断。
6.序列比对(alignment):将两个或多个序列排在一起,以达到最大一致性的过程(对于氨基酸序列是比较他们的保守性),这样评估序列间的相似性和同源性。
7.多序列比对(multiple sequence alignment):三个或多个序列之间的比对,如果序列在同一列有相同结构位置的残基和(或)祖传的残基,则会在该位置插入空位。
8.算法(algorithm):在计算机程序中包含的一种固定过程。
9.空位(gap):在两条序列比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除。
10.直系同源(Orthologous)指不同种类的同源序列,他们是在物种的形成事件中从一个祖先序列独立进化而成的,可能有相似功能,也可能没有。
11.旁系同源(paralogous)是通过类似基因复制的机制产生的同源序列。
12.模块替换矩阵(BLUSUM)在替换矩阵中,每个位置的打分是在相关蛋白局部比对模块中观察到的替换的频率而获得的,每个矩阵被修改成一个特殊的进化距离。
(教材P46)13.可接受点突变(PAM)一个用于衡量蛋白质序列的进化突变程度的单位。
(教材P45)14.BLAST:基本局部相似性比对搜索工具。
生物信息学名词解释
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学名词解释
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
BlastBasic Local Alignment Search Tool,基本的基于局部对准的搜索工具;一种快速查找与给定序列具有连续相同片断的序列的技术。
在BLAST2.0,2.05新版中启用了gapped BLAST、PSI-BLAST 和PHI-BLAST。
gapped BLAST是比原BLAST更灵敏更快的局部相似联配(俗称局部同源)搜索法;PSI- BLAST用迭代型的剖面打分算法,每次迭代所费时间与前者相同,它可检索弱同源的目标;PHI-BLAST 98年刚出台,是模体(Motif )构造与搜索软件,是更灵敏的同源搜索软件。
例如线虫的CED4是apoptosis 的调控蛋白,含有涉及磷酸结合的P 环模体,在各种ATP 酶和GTP 酶中可发现。
在用gapped BLAST搜索NR数据库时,CED4仅跟人凋亡调控蛋白Apaf-1显著同源或相似(其中含有P-loop保守区)。
但PHI-BLAST搜索,另有一个显著同源(E=0.038 )目标,是植物抗病蛋白Arabidopsis thaliana T7N9.18,证实此动物与植物蛋白确实在apoptosis 中有相似的功能。
另有,按PHI-BLAST搜索在MutL DNA修复蛋白中的ATP 酶域,II型拓扑异构酶,组氨酸激酶和HS90家族蛋白,发现一个新的真核蛋白族,共有HS90型ATP 酶域。
再有在古核tRNA核苷酸转移酶中发现核苷酸转移酶域,在细菌DNA 引物酶的古核同源体中发现螺旋酶超家族II的模体VI。
用以往的搜索法这些是得不到的。
Entrez美国国家生物技术信息中心所提供的在线资源检索器。
该资源将GenBank序列与其原始文献出处链接在一起。
NCBI美国国立生物技术信息中心(National Center for Biotechnology Information),1988年设立,为美国国家医学图书馆(National Library of Medicine, NLM)和国家健康协会(ational Institutes of Health, NIH)下属部门之一。
提供生物医学领域的信息学服务,如世界三大核酸数据库之一的GenBank数据库,PubMed医学文献检索数据库等。
Conserved sequence保守序列。
演化过程中基本上不变的DNA中的碱基序列或蛋白质中的氨基酸序列。
Domain功能域。
蛋白质中具有某种特定功能的部分,它在序列上未必是连续的。
某蛋白质中所有功能域组合其起来决定着该蛋白质的全部功能。
EBI欧洲生物信息学研究所(European Bioinformatics Institute)。
EMBL欧洲分子生物学实验室(uropean Molecular Biology Laboratory)。
GenBank由美国国家生物技术信息中心提供的核酸序列数据库。
Gene基因。
遗传的基本的物理和功能单位。
一个基因就是位于某条染色体的某个位置上的核苷酸序列,其中蕴含着某种特定功能产物(如蛋白质或RNA分子)的编码。
Gene expression基因表达。
基因中的编码信息被转换成行使特定功能的结构产物的过程。
Gene family基因家族。
一组密切相关的编码相似产物的基因。
Gene mapping基因作图。
对DNA分子(染色体或质粒)中基因的相对位置和距离进行确定的过程。
Genetic code遗传密码。
以三联体密码子的形式编码于mRNA中的核苷酸序列,决定着所合成蛋白质中的氨基酸序列。
Genome基因组。
某一物种的一套完整染色体组中的所有遗传物质。
其大小一般以其碱基对总数表示。
Genomics基因组学。
从事基因组的序列测定和表征描述,以及基因活性与细胞功能关系的研究。
HGMP英国剑桥的人类基因组绘图计划(Human Genome Mapping Project)。
Informatics信息学。
研究计算机和统计学技术在信息处理中的应用的学科。
在基因组计划中,信息学的内容包括快速搜索数据库方法的开发、DNA序列信息分析方法的开发和从DNA序列数据中预测蛋白质序列和结构方法的开发。
Physical map物理图谱。
不考虑遗传,DNA中可识别的界标(如限制性酶切位点和基因等)的位置图。
界标之间的距离用碱基对度量。
对人类基因组而言,最低分辨率的物理图谱是染色体上的条带图谱;最高分辨率的物理图谱是染色体中完整的核苷酸序列。
Promoter启动子。
DNA中被RNA聚合酶结合并从此起始转录的位点。
Proteome蛋白质组。
一个基因组的全部蛋白产物及其表达情况。
Regulatory region or sequence调控区或调控序列。
控制基因表达的DNA碱基序列。
Ribosomal RNA核糖体RNA。
简写为rRNA。
是一组存在于核糖体中的RNA分子。
Sequence tagged site序列标签位点,简写为STS。
在人类基因组中只出现一次的位置和序列已知的长约200到500bp的短DNA序列片断。
由于可以通过PCR检测到,STS在将来源于许多不同实验室的基因图谱和测序数据进行定位和定向时非常有用,并且STS在人类基因组的物理图谱中也具有界标的作用。
表达的序列标签(ESTs)就是那些得自cDNAs的STSs。
Single-gene disorder单基因病。
由单个基因的等位基因的突变所导致的遗传病(如杜兴肌营养不良和成视网膜细胞瘤等)。
UniGene美国国家生物技术信息中心提供的公用数据库,该数据库将GenBank中属于同一条基因的所有片断拼接成完整的基因进行收录。
非蛋白质编码区非蛋白质编码区(“Junk”DNA)占据了人类基因组的大部分,研究表明“Junk”是许多对生命过程富有活力的不同类型的DNA的复合体,它们至少包括以下类型的DNA成份或由其表达的RNA成分:内含子(intron)、卫星(Satellite)DNA、小卫星(minisatellite)DNA、微卫星(microsatellite)DNA、非均一核RNA(hmRNA)、短散置元(short interspersed elements)、长散置元(long interspersed elements)、伪基因(pseudogenes)等。
除此之外,顺式调控元件,如启动子、增强子等也属于非编码序列。
双重序列对比两序列间的对比分析。
最常见的方法为Needle-Wunsch方法。
能够利用的软件如BLAST、FASTA等。
Autosome常染色体。
与性别决定无关的染色体,人双倍体染色体组含有46条染色体,其中22对常染色体,一对与性别决定有关的性染色体(X和Y染色体)。
sex chromosome包括序列(核酸与蛋白)搜索,结构比较,结构预测,蛋白质域,模体(Motif ),测序,发育与进化分析,双向电泳成像分析,质谱蛋白质鉴定,三维蛋白结构模建与成像,基因组图谱比较,基因预测,非编码区功能位点识别,基因组重叠群集装,后基因组功能分析,结构基因组学以及药物基因组学等等。
深层事项后基因组时期的主要任务:Data mining ,即从完全测序的基因组中预测功能。
1.序列、结构和功能自分子生物学产生以来,均相信序列决定结构,结构决定功能。
随着基因组学的发展,对此理解已有长足的深化。
同源序列(具有共同祖先)未必具有相同的功能;相同功能未必源自同源序列。
相异序列可能有相似的结构;序列与结构不相似的蛋白可能会有相似的功能。
现在发现存在不相似(在序列与结构水平上)酶催化相同的生化反应。
当然亦存在甚至结构水平上很相似的酶催化不同的生化反应。
例如人与鼠的3?- 羟甾类脱氢酶,1AHH和1RAL;前者是Rossmann折叠,而后者是TIM-桶。
肯定,这些相似酶不是共同祖先趋异的结果,而是不同祖先趋同的结果。
如结构决定功能还是合理的,那么至少在功能活性位点具有相似结构特征(即3D- 功能模体)。
属于今后研究的课题,对了解酶催化机制与功能蛋白的小分子模拟具有很大价值。
何谓功能?功能有层次的:表型的,细胞的和分子的。
目前开始高层功能预测,分子相互作用、代谢途径和调控网络。
目前,已从结构基因组学,功能基因组学和蛋白质组学多种角度研究基因组功能。
2.结构基因组学中的生物信息学希望大通量地测定和模建完全测序基因组的全部蛋白三维结构。
生物信息学可以发挥作用,一方面规划好测定的对象,另一方面可靠地模建结构。
3.功能基因组学中的生物信息学美国HGP 已编制1998-2003 的新五年计划。
提出八项目标:其中目标7 特指生物信息学和计算生物学,其实几乎每项目标都要生物信息学,例如目标4 功能基因组学中的非编码区功能位点预测,基因表达分析(如DNA Chip)以及蛋白质全局分析(如蛋白质组学)。
蛋白质组学(Proteomics)1.蛋白质组学研究的目的和任务20世纪中期以来,随着DNA双螺旋结构的提出和蛋白质空间结构的X射线解析,开始了分子生物学时代,对遗传信息载体DNA和生命功能的主要体现者蛋白质的研究,成为生命科学研究的主要内容。
90年代初期,美国生物学家提出并实施了人类基因组计划,预计用15年的时间,30亿美元的资助,对人类基因组的全部DNA序列进行测定,希望在分子水平上破译人类所有的遗传信息,即测定大约30亿碱基对的DNA序列和识别其中所有的基因(基因组中转录表达的功能单位)。
经过各国科学家8年多的努力,人类基因组计划已经取得了巨大的成绩,一些低等生物的DNA全序列已被阐明,人类3%左右DNA的序列也已测定,迄今已测定的表达序列标志(EST)已大体涵盖人类的所有基因。
在这样的形势下,科学家们认为,生命科学已经入了后基因组时代。
在后基因组时代,生物学家们的研究重心已经从解释生命的所有遗传信息转移到在整体水平上对生物功能的研究。
这种转向的第一个标志就是产生了一门成为功能基因组学(Functional Genomics)的新学科。
它采用一些新的技术,如SAGE、DNA芯片,对成千上万的基因表达进行分析和比较,力图从基因组整体水平上对基因的活动规律进行阐述。
但是,由于生物功能的主要体现者是蛋白质,而蛋白质有其自身特有的活动规律,仅仅从基因的角度来研究是远远不够的。
例如蛋白质的修饰加工、转运定位、结构变化、蛋白质与蛋白质的相互作用、蛋白质与其它生物分子的相互作用等活动,均无法在基因组水平上获知。
正是因为基因组学(Genomics)有这样的局限性,于90年代中期,在人类基因组计划研究发展及功能基因组学的基础上,国际上萌发产生了一门在整体水平上研究细胞内蛋白质的组成及其活动规律的新兴学科——蛋白质组学(Proteomics),它以蛋白质组(Proteome)为研究对象。