生物信息学复习重点
生物信息学考试复习
——古A.名词解释1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。
狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。
2. 基因芯片:将大量已知或未知序列的DNA 片段点在固相载体上,通过物理吸附达到固定化(cDNA 芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。
再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。
可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。
3. NCBI :National Center for Biotechnology Information. 是隶属于美国国立医学图书馆(NLM )的综合性数据库,提供生物信息学方面的研究和服务。
4. EMBL :European Molecular Biology Laboratory.EBI 为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。
5. 简并引物:PCR 引物的某一碱基位置有多种可能的多种引物的混合体。
6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。
7. BLAST :Basic Local Alignment Search Tool. 是通过比对(alignment) 在数据库中寻找和查询序列(query) 相似度很高的序列的工具。
8. ORF :Open Reading Frame. 由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6 个ORF 。
9. 启动子:是RNA 聚合酶识别、结合并开始转录所必须的一段DNA 序列。
原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35 区( Sextama box ) TTGACA ,-10 区 (Pribnow Box ) TATAAT ,以及+1 区。
生物信息学重点
⽣物信息学重点⼀、名解1.⽣物信息学:(狭义)专指应⽤信息技术储存和分析基因组测序所产⽣的分⼦序列及其相关数据的学科;(⼴义)指⽣命科学与数学、计算机科学和信息科学等交汇融合所形成的⼀门交叉学科。
2.⼈类基因组测序计划:3基因组学:以基因组分析为⼿段,研究基因组的结构组成、时序表达模式和功能,并提供有关⽣物物种及其细胞功能的进化信息。
p1504基因组:是指⼀个⽣物体、细胞器或病毒的整套基因。
p1505.⽐较基因组学:是指基因组学与⽣物信息学的⼀个重要分⽀。
通过模式⽣物基因组之间或模式⽣物基因组与⼈类基因组之间的⽐较与鉴别,可以为研究⽣物进化和分离⼈类遗传病的候选基因以及预测新的基因功能提供依据。
p1666功能基因组:表达⼀定功能的全部基因所组成的DNA序列,包括编码基因和调控基因。
功能基因组学:利⽤结构基因组学研究所得的各种来源的信息,建⽴与发展各种技术和实验模型来测定基因及基因组⾮编码序列的⽣物学功能。
7蛋⽩质组:是指⼀个基因组中各个基因编码产⽣的蛋⽩质的总体,即⼀个基因组的全部蛋⽩产物及其表达情况。
p1798蛋⽩质组学:指应⽤各种技术⼿段来研究蛋⽩质组的⼀门新兴科学,其⽬的是从整体的⾓度分析细胞内动态变化的蛋⽩质组成成分、表达⽔平与修饰状态,了解蛋⽩质之间的相互作⽤与联系,揭⽰蛋⽩质功能与细胞⽣命活动规律。
9功能蛋⽩质组学:(功能蛋⽩质组,即细胞在⼀定阶段或与某⼀⽣理现象相关的所有蛋⽩)。
10序列对位排列:通过插⼊间隔的⽅法使不同长度的序列对齐,达到长度⼀致。
11 基因组作图:是确定界标或基因在构成基因组的每条染⾊体上的位置,以及同条染⾊体上各个界标或基因之间的相对距离。
p15512 后基因组时代:其标志是⼤规模基因组分析、蛋⽩质组分析以及各种数据的⽐较和整合。
p3⼆填空题1⽣物信息学的发展⼤致经历了3个阶段,分别为前基因组时代、基因组时代、后基因组时代。
p22后基因组时代的标志性⼯作是(基因组分析)(蛋⽩质组分析)以及(各种数据的⽐较和整合)p33前基因组时代的标志性⼯作是⽣物数据库的建⽴、检索⼯具的开发以及DNA和蛋⽩质的序列分析p2 4基因组时代的标志性⼯作是(基因寻找和识别)(⽹络数据库系统的建⽴)以及(交互界⾯的开发)p2 5 ⼈类基因组计划的⽬标是完成四张图,分别是(遗传图谱)(物理图谱)(序列图谱)和(基因图谱)5 HGP由六个国家完成,我国完成了HGP的(1%,即3号染⾊体上3000万个碱基)的测序⼯作。
生物信息学复习资料(信息管理与信息系统)
1.什么是生物信息学?生信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。
2.生物信息学的主要研究任务是什么,目前生物信息学的主要研究内容是什么?任务:收集和管理生物分子数据;数据分析和挖掘;开放分析工具和实用软件;生物分子序列比较工具、基因识别工具、生物分子结构预测工具、表达数据分析工具。
内容:(1)序列比对;(2)基因预测;(3)药物设计;(4)蛋白质结构预测;(5)基因调控网络的预测;(6)蛋白质相互作用预测;(7)分子进化分析3.常用核酸、蛋白、蛋白质结构、相互作用、信号通路数据库核酸数据库:NCBI、ENA、DDBJ蛋白质数据库:Expasy、Uniprot蛋白质结构数据库:SOPMA、prosite、Pfam、myhit、SWISS-MODEL、RasMol蛋白质相互作用数据库:GO 、David、String、InAct蛋白质信号通路数据库:KEGG、BioCarta Pathway、Reactome pathway4.三大核酸数据库都包括哪些?Gene bank EMBL DDBJ5.三大生物大分子核心数据库包括哪些?GenBank核酸序列数据库;UniPROT蛋白质序列数据库;PDB生物大分子结构数据库;6.Genbank格式与FASTA格式Genbank序列以10个为一组,在序列上标注碱基或者氨基酸残基数,查找和检索方便FASTA格式序列文件的第一行是由大于符号(>)打头的任意文字说明,主要为标记序列用。
从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号。
通常核苷酸符号大小写均可,而氨基酸一般用大写字母,文件中和每一行都不要超过80个字符(通常60个字符)7.BLAST的主要功能Blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。
Blastn:核酸序列对核酸库的对比,直接比较核酸序列的同源性。
生物信息学复习资料
生物信息学复习资料第一章1、什么是生物信息学?生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义2、BIOINFORMATICS这个词是谁提出的?林华安3、生物信息学的发展经过了哪些阶段?前基因组时代、基因组时代、后基因组时代4、HGP是什么意思?什么时候开始?什么时候全部结束?人类基因组计划、1990.10、20035、生物信息学的研究对象是什么?6、生物信息学的研究内容有哪些?获取人和各种生物的完整基因组、新基因的发现、SNP分析(单核苷酸多态性:single nucleotide polymorphism,SNP)、非编码区信息结构与分析、生物进化;全基因组的比较研究、蛋白质组学研究、基因功能预测、新药设计、遗传疾病的研究以及关键基因鉴定、生物芯片7、学习生物信息学的目的是什么?阐明和理解大量数据所包含的生物学意义第二章1、生物信息数据库有哪些要求?时间性、注释、支撑数据、数据质量、集成性2、生物信息数据库分为哪几级,每一级是如何让定义的,每一级各包含哪些数据库?一级数据库二级数据库;一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的一级数据库:包括基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库二级数据库:根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库3、请列出至少三个国际知名生物信息中心网站、至少三个核酸数据库、至少三个蛋白数据库。
网站:NCBI、EBI、SIB、HGMP、CMBI、ANGIS、NIG、BIC核酸数据库:EMBL、DDBJ、GenBank蛋白质序列数据库:PIR(Protein Information Resource)、SWISS-PROT、TrEMBL、UniProt、NCBI生物大分子数据库:PDB(Protein Data Bank)蛋白质结构分类数据库SCOP、蛋白质二级结构数据库DSSP、蛋白质同源序列比对数据库HSSP4、NCBI和EBI使用的搜索引擎分别是什么?NCBI提取工具:Entrez EBI提取工具:SRS65、GENBANK使用的基本信息单位是什么,包括哪几个部分,最后以什么字符结尾?基本信息单位:GBFF(GenBank flatfile, GenBank平面文件)格式:GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一哪几个部分:头部包含整个记录的信息(描述符)、第二部分包含了注释这一记录的特性、第三部分是核苷酸序列本身最后字符:所有序列数据库记录都在最后一行以“//”结尾6、什么是Refseq?The Reference Sequence database 参考序列数据库RefSeq数据库,即RefSeq参考序列数据库,美国国家生物信息技术中心(NCBI)提供的具有生物意义上的非冗余的基因和蛋白质序列7、FASTA格式有哪些部分组成,以什么字符开始?8.NCBI的在线和离线序列提交软件是什么?在线提交软件:Bankit 离线提交软件:Sequin第三章1、什么是同源、直系同源、旁系同源?同源性和相似性有什么区别?同源性:两条序列有一个共同的进化祖先,那么它们是同源的相似性:序列间相似性的量度同源性和相似性的区别:同源性是序列同源或者不同源的一种论断,而相似性或者一致性是一个序列相关性的量化,是两个不同的概念直系同源(orthology):不同物种内的同源序列旁系同源(paralogy):同一物种内的同源序列2、什么是序列比对、全局比对、局部比对?序列比对的关键问题是什么?序列比对:根据特定的计分规则,将两个或多个符号序列按位置比较排列后,得到最具相似性的排列的过程。
生物信息学期末考试重点总结
第一章DNA、RNA和蛋白质序列信息资源生物信息学的概念:专指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据,也称分子生物信息学。
三大核酸序列数据库GenBank(NCBI)美国国家生物技术信息中心,EMBL欧洲分子生物学实验,DDBJ日本DNA序列资料库序列信息通常用FASTA和GenBank两种格式显示第二章双序列比对数据库查询:指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配。
数据库搜索:通过特定相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。
区别:数据库搜索专门针对核酸和蛋白质序列数据库而言,其搜索对象不是数据库的注释信息,而是序列信息。
检测序列:新测定的,希望通过数据库搜索确定其性质或功能的序列目标序列:通过数据库搜索得到的和检测序列具有一定相似性的序列同源性的意义:具有共同祖先。
两个物种中有两个性状满足下列任一条件,就可称为同源性状:(1)它们与这些物种的祖先类群中所发现的某个性状相同(2)(2)它们是具有祖先一后裔的不同性状同源(homology)-具有共同的祖先同源序列:共同祖先趋异进化形成垂直同源(ortholog)种系形成过程中起源于一个共同祖先的不同种系中的DNA或蛋白质序列水平同源(paralog)由序列复制事件产生的相似(similarity)用来描述检测和目标序列之间相同DNA/蛋白质序列占比高低。
同源序列一般是相似的,但相似序列不一定是同源的。
相似性:大于50%可认为是同源性序列,小于20%无法确定同源性目的:通过数据库搜索,推测该未知序列可能属于哪个基因家族,具有哪些生物学功能。
可能找到已知三维结构的同源蛋白质而推测其可能的空间结构。
在序列数据库中对查询序列进行同源性比对.整体比对:从全长序列出发(分子系统学)局部比对:序列部分区域相似性(分子结构与功能性研究)数据库搜索的基础是序列的相似性比对,即双序列比对(pairwise alignment)。
生物信息学重点
1.生物信息学?答:(大致地)计算机对生物信息的处理(多数人认为,面窄)计算分子生物学(computational molecular biology)(宽松地)甚至包括医疗成像、图像分析、遗传算法、人工智能、神经网络…(经典)用计算机储存、比较、提取、分析、预言、模拟生物分子的组成与结构。
主要应用(core)是序列分析(新)比较基因组学、功能基因组学、蛋白质组学、结构基因组学。
2. 生命科学发展到什么阶段,起什么作用?答:大量实验数据积累阶段;为生物领域热点课题的研究(如:脑科学和神经科学研究、基因组与细胞的研究、生物大分子的结构与功能研究等)提供理论和数据支持!3. 生物信息学的发展阶段,研究方法,在什么方面应用?答:前基因组时代、基因组时代、后基因组时代;建立生物数据库→搜索数据库→序列分析→统计分析,运用算法、构建数学模型或使用多学科算法;基因组层次分析:如序列 功能、蛋白质、进化研究。
基因芯片:如DNA 芯片(DNA chip),蛋白质芯片的动态数据分析。
药物开发:如寻找药靶、药物分子结构、系统药物开发。
经济价值:生物风险公司。
药物、生物制品、相关试剂、器材。
4. 计算机基础、Linux特点、几种语言特点。
答:包括基础知识、程序语言、算法、数据库、计算机网络;Linux特点:免费,安全,高速,核心小;C/C++/C#:程序员使用得最多的语言,强大、高速(适于作核心程序编写)、库函数极为丰富、操作灵活、无所不能、历史悠久,BLAST等许多著名的生物信息学程序是C编码,难学、难用,编译型语言(产生二进制代码;直接执行产生的二进制代码)。
Perl:字符串操作功能强大、容错型好、可与C语言联合使用、易使用、易开发网络应用,不易图形化,解释型语言(解释器直接执行代码),本身由C编写。
Python:在生物信息学中广泛应用、扩展性好(可与C、Java等混合使用)、数据类型丰富、极易使用、可充分体验高速编程的快感、多平台,速度较慢、适于作外围程序编写,解释型语言,本身由C编写。
生物信息学重点tg
《生物信息学》复习要点红色表示为重点内容, 考试的比重较大.第一章生物信息学引论生物信息学;生物信息指哪些?contig;大规模测序的基本策略;功能基因组学;生物信息学的应用有哪些?什么事件大大促进了生物信息学的发展?(HGP);生物信息学中最重要的贡献是什么(序列比对算法)?基因组测序完成的主要物种(如人,水稻,大肠杆菌,酵母,拟南芥,果蝇等);我国自主产权的基因组测序有哪些?人类基因组计划的主要任务.第二章生物信息学的生物学基础碱性氨基酸和酸性氨基酸的种类;蛋白质二级结构有哪些?核苷酸序列中N表示什么?遗传密码的基本特征是什么?真核生物基因的一般结构?转录本;启动子(promoter);EST;cDNA;内含子;外显子;UTR;TATA-box;ORF;起始密码子;终止密码子; poly(A)加尾信号;TSS;中心法则;真核生物基因表达的调控水平有哪些?*第三章生物数据库资源及其应用三大核酸数据库有哪些?蛋白质序列数据库有哪些?蛋白质结构数据库有哪些?掌握文献的PubMED检索规则;掌握核酸/蛋白质记录的检索规则;UniGene;GEO;创建最早使用最广泛的蛋白质数据库是什么?(SWISSPROT和PIR);*第四章序列分析相似性;一致性;保守突变;同源性;序列比较的基本操作是什么?序列比较的方法有哪些?序列比较的矩阵作图法;最长公共子序列;空位罚分;打分矩阵;BLAST的全称;BLAST比对结果中图形颜色的意义以及score和E-value的含义;FASTA格式;BLAST几种工具的含义及其用途;nr数据库;EST数据库;检索某个基因序列的方法;如何通过生物信息学方法确定TSS?判断1个基因(EST)表达部位或特性的生物信息学方法有哪些?*第五章系统发生分析系统发生树;趋同进化;无根树;有根树;直系同源与旁系同源;系统发生树的构建方法种类;非加权组平均法原理;最大简约法原理;信息位点;Bootstrap;掌握非加权组平均法的构建方法;用ClustalX和MEGA软件构建进化树的流程是什么?第六章基因表达数据分析基因芯片聚类分析图中红色和绿色代表的含义*第八章电子克隆技术电子克隆(in silico cloning);电子克隆的基本思路;电子克隆的操作步骤;电子克隆的条件是什么?判断1个基因5'端是否完整的方法; Kozak规则是什么?内含子的剪切规则?(GU..AG)其他:1)要了解BLAST的一般步骤和意义;2)了解序列分析的基本内容和意义;3)上机操作中涉及的重要网站和程序名称等(不需要记得网址)。
生物信息学复习要点
一、名词解释(每小题3分,共30分)1.生物信息学2.数据库技术3.数据仓库4.EST5.概念性翻译6.同源性7.单系类群8.全局排列9.基因作图10.直系同源体簇二、填空题(每空1分,共10分)1.生物信息学主要研究的两种信息载体是和。
2.国际上的三大核苷酸序列数据库分别是、和。
3.数据挖掘的三大技术支柱是、和。
4.相同类型核苷酸的替换称为,不同类型核苷酸的替换称为。
三、单项选择题(每小题1分,共10分)1.在对模式生物进行全基因组的测定中,作为真菌模式生物的是。
A、大肠杆菌B、青霉菌C、酵母菌D、线虫2.NCBI成立于。
A、1988年B、1989年C、1990年D、1992年3.根据数据库管理系统所支持的基本数据模型的不同,可以将数据库分为五类,其中第二代数据库是。
A、层次数据库B、网状数据库C、关系数据库D、分布式数据库4.在向GenBank投送序列的工具中,是标准的序列投送工具。
A、Cn3DB、tb12asnC、BankItD、Sequin5. 目前最为常用和注释最全的蛋白质序列数据库是。
A、IdentifyB、OWLC、PIRD、SWISS-PROT6. 下列选项中根据蛋白质三维折叠模式和进化关系划分的结构分类数据库是。
A、PDBsumB、GDBC、SCOPD、CATH7. 构建系统发生树的方法很多,其中耗时最短的是。
A、进化简约法B、最大简约法C、最大似然法D、距离矩阵法8. 下列数据库选项中不属于蛋白质序列二次数据库的是。
A、PROSITEB、PRINTSC、BLOCKSD、PDB9. 在系统发生树的检验中,较为常用的方法是。
A、MP法B、重复取样法C、NJ法D、ML法10. 下列工具中用于发现开放阅读框的软件是。
A、Translate ToolB、ORF FinderC、Gene WiseD、E-PCR四、多项选择题(每小题2分,共20分)1.生物大分子携带的三种信息是。
A、遗传信息B、功能信息C、调控信息D、进化信息2. 为实现3个抽象级别间的数据转换,DBMS提供的两层映射是。
生物信息学复习重点
生物信息学就是一门交叉学科, 包含了生物信息得获取、加工、存储、分配、分析、解释等在内得所有方面, 它综合运用数学、计算机科学与生物学等得各种工具来阐明与理解大量数据所包含得生物学意义。
生物信息学宗旨在揭示基因组信息结构得复杂性及遗传语言得根本规律。
从生物分子获得与挖掘深层次生物学知识。
人类基因组计划(HGP):获得遗传图、物理图、序列图、转录图;终极目标:阐明人类基因组全部DNA序列;识别基因;建立储存这些信息得数据库;开发数据分析工具;研究HGP实施所带来得伦理、法律与社会问题。
其中我国承担了人类3号染色体短臂。
记录:一个数据库记录一般由两部分组成:原始序列数据与描述这些数据生物学信息得注释。
冗余:在一个数据库存在着多个相同得项,如两个或者更多得记录中有一个相同序列Fasta格式开始于一个标识符:">",然后就是一行描述。
GenBank格式:每个基因描述可有多个描述行,包含一行以LOUCUS开头描述行,基因序列以ORIGN开头,以//结尾。
EMBL:入口标识符ID,序列开始标识符SQ,结束就是//。
数据库得特点:①数据库就是可以检索得,即具有检索功能;②数据库应该就是定时更新得,即不断有新版内容发布;③数据库就是交叉引用得,特别就是在互联网时代,数据库应该通过超链接与其她数据库相连。
EST序列:表达序列标签对cDNA文库测序得到得,就是转录得DNA序列。
STS序列:序列标签位点染色体上位置已定得、核苷酸序列已知得、且在基因组中只有一份拷贝得DNA短片断,(200bp-500bp)。
STS序列标签位点就是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作得短得、单拷贝DNA 序列,用于产生作图位点。
GSS序列:基因组概览测序基因组DNA克隆得一次性部分测序得到得序列。
HTG序列:高通量基因组序列三大数据库:NCBI(GenBank):美国生物技术中心,建立了一系列生物信息数据与各种服务。
生物信息学考试重点
1.生物信息学:生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科;它综合运用了数学、计算机学和生物学的各种工具来进行研究;目的在于阐明大量生物学数据所包含的生物学意义。
2.BLAST 直译:基本局部排比搜索工具意译:基于局部序列排比的常用数据库搜索工具含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库3.PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。
4.一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。
5.HMM隐马尔可夫模型:是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6.信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。
7.非信息位点:对于最大简约法来说没有意义的点。
8.标度树:分支长度与相邻节点对的差异程度成正比的树。
9.非标度树:只表示亲缘关系无差异程度信息。
10.有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其他任何节点。
11.无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点。
12.注释:指从原始序列数据中获得有用的生物学信息。
这主要是指在基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。
13.聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。
14.ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。
样品溶解后从高电压控制下的细针中喷出,形成的带电荷微小液滴从一个小孔直接进入质谱仪的真空室中,在其钟被一股惰性气体干燥形成气态离子,这些气态离子从分析仪向探测器加速(飞行)。
15.机制辅助的激光解析/离子化(MAIDI):这一技术通过质谱产生离子,这适合于没有降解的大蛋白质的分析。
生物信息学复习资料
生物信息学复习资料生物信息学是一门融合了生物学、计算机科学、数学和统计学等多个学科的交叉领域。
它的出现和发展为我们理解生命的奥秘提供了强大的工具和方法。
以下是对生物信息学的一些关键知识点的复习。
一、生物信息学的定义和范畴生物信息学主要是研究如何获取、处理、存储、分析和解释生物数据的学科。
这些数据包括但不限于基因组序列、蛋白质结构、基因表达数据等。
它的应用范围广泛,涵盖了从基础生物学研究到临床诊断和药物研发等多个领域。
二、生物数据的获取(一)测序技术现代测序技术的发展使得我们能够快速而准确地获取大量的生物序列信息。
第一代测序技术如 Sanger 测序法,虽然准确性高,但成本较高、通量较低。
而新一代测序技术如 Illumina 测序、Ion Torrent 测序等,则大大提高了测序的通量和速度,降低了成本,但在准确性上可能略有不足。
(二)基因芯片技术基因芯片可以同时检测成千上万个基因的表达水平,为研究基因表达模式和调控机制提供了重要的数据。
(三)蛋白质组学技术质谱技术是蛋白质组学研究中的重要手段,能够鉴定蛋白质的种类和修饰状态。
三、生物数据的存储和管理面对海量的生物数据,高效的数据存储和管理至关重要。
常用的数据库包括 GenBank、UniProt、PDB 等。
这些数据库采用了特定的数据格式和管理系统,以确保数据的完整性、准确性和可访问性。
四、生物数据的分析方法(一)序列比对序列比对是生物信息学中最基本的分析方法之一,用于比较两个或多个生物序列的相似性。
常见的比对算法包括全局比对(如NeedlemanWunsch 算法)和局部比对(如 SmithWaterman 算法)。
(二)基因预测通过对基因组序列的分析来预测基因的位置和结构。
常用的方法有基于同源性的预测、基于信号特征的预测等。
(三)蛋白质结构预测包括从头预测法和基于同源建模的方法。
从头预测法基于物理化学原理来构建蛋白质的三维结构,而同源建模法则利用已知结构的同源蛋白质来推测目标蛋白质的结构。
生物信息学重点
名词解释:1、基因组:生物有机体的单倍体细胞中所有DNA,包括核中的染色体DNA和线粒体、叶绿体等亚细胞器中的DNA。
2、蛋白质组:指一个基因组所表达的全部蛋白质。
3、信号肽:新合成多肽链中用于指导蛋白质的跨膜转移(定位)的N-末端的氨基酸序列(有时不一定在N端)。
4、启动子:一段特定的直接与RNA聚合酶及其转录因子相结合,决定基因转录起始与否的DNA序列。
同源序列一般是相似的,相似序列不一定是同源的5、引物:(primer)指一段较短的单链RNA或DNA,它能与DNA的一条链配对提供游离的3’-OH末端以作为DNA聚合酶合成脱氧核苷酸链的起始点。
6、直向同源、垂直同源:(Orthologous )描述在不同物种中来自于共同祖先的基因。
Orthologous基因可能有相同的功能,也可能没有。
7、GenBank:是美国国家生物技术信息中心管理的核酸序列数据库,汇集并注释了所有公开的核酸序列。
8、ORF:一组连续的含有三联密码子的能够被翻译成为多肽链的DNA序列。
它由起始密码子开始,到终止密码子结束。
9、CDS:是编码一段蛋白产物的序列。
10、BLAST:是一个基于局部比对的序列相似性搜索工具。
11、EST:(表达序列标签)就是cDNA的一个片段,即一个基因编码序列的一小段。
12、PDB:(蛋白质结构数据库)是美国国家实验室创建并管理的收录生物大分子晶体结构的数据库。
13、Homology:(同源性)14、Similarity:(相似性)15、Orthologous:(直向同源、垂直同源)描述在不同物种中来自于共同祖先的基因。
Orthologous基因可能有相同的功能,也可能没有。
16、Entrez:是NCBI网站的数据库查询系统,它集成了文献数据库、核酸序列数据库、结构数据库、基因图谱数据库,是有效利用NCBI数据库资源的工具。
17、EMBL:是欧洲分子生物学实验室创建的核酸序列数据库。
18、DDBJ:日本国立遗传研究所创建的核酸序列数据库。
生物信息复习资料
生物信息名词解释1、相似性:描述序列相关性的量,同源蛋白质总在三维结构上有显著的相似性。
2、一致性:描述序列相关性的量,两序列同源时,他们的氨基酸或者核苷酸里通常具有显著的一致性。
3、生物信息学:20世纪分子生物学与计算机学交叉产生的新学科,用计算机数据库和计算机算法来分析蛋白质、基因和构成生物体的全部脱氧核糖核酸(基因组)。
4、蛋白质组学:对高通量蛋白质数据库进行分析的生物信息学工具与方法。
能够大范围的为蛋白质制定功能,确定蛋白质在哪个特殊生理条件下会出现,确定蛋白质之间的作用。
5、比较基因学:利用生物在进化上的亲缘关系,给予基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达家里和物种进化,来比较他们与人类之间的相似与相异,即比较基因组学。
6、同源(直系/旁系):两条序列之间有一个共同的祖先,那么他们就是同源的,直系同源序列是不同物种内的同源序列,来自物种形成的共同祖先基因;旁系同源基因是通过类似基因复制的机制产生的同源序列。
7、Blast:基本局部比对搜索工具,NCBI用来将一个蛋白质或DNA序列和各种数据库中其他序列进行比对的主要工具,是研究一个蛋白质或基因的最基本方法之一。
8、家族(family):一组金华市相关的共享一个或多个结构域/重复域的蛋白为一个家族。
9、结构域(模块)/domain(module):蛋白质中能折叠成特定三维结构的一段区域。
10、模体(指纹)/motif(fingerprint):蛋白质序列中较短的保守区域,通常指按一定模式排列的氨基酸残基,通常决定一个家族。
11、重复:重复区并不但年度折叠成一个球状的结构域,还包括一些短的重复模体序列。
12、PBD数据库:蛋白质和其他大分子结构的仓库,复制搜集蛋白质的结构信息,收录大量蛋白质三维结构文件,记录有原始结构数据,包括院子坐标,配基的化学结构和晶体结构的描述,通过评估模型质量和它们与实验数据的吻合程度来证实结构,目前拥有超过20000个结构记录。
生物信息学重点
生物信息学一、定义生物信息学(bioinformatics) 是美国学者林华安博士(H.A.Lim)在1987年首创。
广义的生物信息学:两层含义:1、海量数据的收集、整理与服务即管理好这些数据。
2、从这些数据中发现新规律。
狭义的生物信息学:最初分析基因组DNA序列信息数据,以期获得丰富的生物学知识,从而更深层次认识未知的生物世界。
发展分析微整列、基因本体(gene ontology ,GO)注释、分子图谱、结构数据等数据,阐明细胞、器官和个体的发生、发育、病变、衰亡的基本规律的方法。
从而更深层次认识未知的生物世界。
生物分子信息特征①生物分子信息数据量大②生物分子信息复杂③生物分子信息之间存在着密切的联系研究内容①生物信息的收集、存储、管理与提供(基础内容)②基因组序列信息的提取和分析③功能基因组分析④生物分析设计⑤药物设计⑥生物信息分析的技术与方法研究⑦应用与发展研究⑧系统生物学研究一二级数据库一级核酸数据库:核酸数据库:GenBank、EMBL和DDBJ等。
蛋白质序列数据库:Swiss-Prot。
结构数据库:X射线衍射和核磁共振结构测定。
PIR(Protein Information Resouce, PIR)、PDR(Protein Data Bank)等二级核酸数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来的。
生物信息学研究意义(了解)生物信息学研究意义生物信息学将是21世纪生物学的核心认识生物本质了解生物分子信息的组织和结构,破译基组信息,阐明生物信息之间的关系改变生物学的研究方式改变传统研究方式,引进现代信息学方法,在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据二、数据库类型生物信息学数据库类型序列数据库(核酸序列数据库,蛋白质序列数据库),结构数据库,功能数据库,其它专业数据库(非冗余参考序列数据库RefSeq ,密码子使用数据库Codon Usage Database CUTG,基因可变剪接数据库ASDB,转录因子数据库TRANSFAC)核酸序列数据库GenBank:美国国家生物技术信息中心(NCBI)EMBL:欧洲生物信息研究所(EBI)DDBJ :日本国立遗传学研究所(NIG)特点(了解):1、三大数据库具有不同的记录格式,但是对于核酸序列均采用了相同的记录标准,同时可每天交换数据以达到数据的更新和一致。
生物信息学复习整理
⽣物信息学复习整理⽣信整理⼀、重要概念1. ⽣物信息学的定义、研究内容、组成采⽤信息学的⽅法来研究⽣命科学定义:⽣物信息学迄今为⽌尚没有⼀个标准定义(⼴义:⽣命科学中的信息科学。
⽣物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的⽣理、病理、药理过程的中各种⽣物信息。
狭义:⽣物分⼦信息的获取、存贮、分析和利⽤。
)研究内容:①基础研究——数学:模型、算法;IT:数据库、计算机软、硬件开发②应⽤(⽣命科学研发)——序列分析:ORF、序列组装;蛋⽩质结构预测(新药研发);组学数据分析组成:数学+信息科学+计算机科学+⽣命科学2、推动⽣物信息学快速发展的学科核⼼和灵魂:⽣物学基本⼯具:数学与计算机技术3、“组”学的主要创新点对⽣命科学发展的作⽤与意义21世纪是⽣物技术和信息技术的时代,基因组研究由结构基因组研究转向功能基因组研究,蛋⽩质组学已成为当前研究的热点和重点,⽣物信息学加快了⽣命科学的发展步伐。
蛋⽩组研究的兴起和发展,在揭⽰⽣命运动的本质及疾病的诊断、治疗等⽅⾯发挥着重要作⽤。
随着基因组学研究的不断深⼊,在基因组测序、蛋⽩质序列测定和结构解析等实验的基础上,产⽣了⼤量有关⽣物分⼦的原始数据,这些原始的数据需要利⽤现代计算机技术进⾏收集、整理、管理以便检索使⽤,⽣物信息学应⽤⽽⽣,其研究重点集中在核酸和蛋⽩质两个⽅⾯。
所谓组学,即从⼀个整体的⾓度来研究。
相对于传统⽣命科学零敲碎打的研究⼿段,研究单个的基因或蛋⽩的功能、结构,⽽组学则是着眼于⼤局,将单个的基因、蛋⽩以“组”的⽔平进⾏研究,从⽽对于⽣命科学能够有⼀个⼤局的把握。
4、⽣物信息学对⽣命科学发展的作⽤与意义1.同上2.⽣物信息学的引⼊不仅能够帮助传统⽣物学的实验,还能够通过预测、模拟等来指导⽣物学的研究作⽤:(1) 从学科⾓度⽅⾯:⽣命科学进⼊了新的发展时期;研究体系的突破:局部到整体;学科性质:经验型、资料积累到总结规律(2) 从研究⼈员⾓度:提⾼研究效率、深化研究成果、显著增加论⽂“厚度”与“重量”意义:正对⽣命科学产⽣深远的影响,极⼤提⾼科研的效率、质量、促进⽣命科学实现跨越式的发展。
生物信息学重点
生物信息学重点1 生物信息学概念:生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。
一是对海量数据的收集、整理与服务,也就是管好这些数据。
另一个是从中发现新的规律,也就是用好这些数据。
2 生物信息学数据库分类:一次数据库;二次数据库序列数据库:DNA序列和蛋白质序列;结构数据库:蛋白质结构;基因组数据库:人类基因组以及其他动物基因组。
二次数据库比一次多一个文献数据库(专家库)3序列数据库:NCBI EMBL DDBJ检索系统:Entrze检索系统:NCBISRS检索系统:EMBL、DDBJ数据格式:GenbankEMBL }---------------fasta格式DDBJ4 EBI欧洲生物信息研究所SIB是瑞士的5 Uniprot 特点•高质量•更新速度快•与其他数据库联系密切•使用快捷方便•分析工具齐全6 结构数据库PDB数据库:1971年建立于美国布鲁海克海文国家实验室。
该数据库中收集了通过X射线衍射和核磁共振(NMR)试验测定的蛋白质结构的精确坐标数据。
这种数据即蛋白质中的原子坐标是蛋白质结构的最细致的层次。
该数据库的管理者是结构生物信息学合作研究组织(Research Collaboration for Structural Bioinformatics,RCSB )MMDB:分子模型数据库—一个关于三维生物分子结构的数据库,结构来自于X-ray 晶体衍射和NMR 色谱分析7 基因组结构数据库:NCBI UCSC ensemble8 1986年1月29 日, 里根总统签署了一项声明,宣布1986年为美国国立医学图书馆150 周年纪念年。
9 Pubmed: MEDLINE PreMEDLINE Publisher supplied citationsPubMed的特点•自动词语匹配•链接点多,部分在网上免费获得全文•也可以直接定购原文10 MeSH是Medical Subject Headings的缩略词,即医学主题词,是用规范化的医学术语来描述生物医学概念。
生物信息学重点
1.计算二联体频率2.保守性计算二、论述1.生物信息学与大数据的区别与联系生物信息学(Bioinformatics)是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
生物信息的数据和互联网的大数据其实很不一样, 生物信息的数据主要是深,互联网的大数据主要是广。
互联网上的大数据是一种样本量很大,但是对于每个样本要分析的内容是非常明确的,而且可行度很高,后续随便做点统计应该就可以了,主要是计算量大。
生物信息的数据就不一样了,通常来说样本量不大,就几个个体或者几十几百个,然后数据非常复杂,可能有基因组,表达组,变异数据等很多(而且数据不怎么可靠!),然后生物信息的研究会尝试从中发现一些规律或者找到关键的基因或者位点之类的。
总之就是分析方法和分析内容都和传统大数据的分析不一样。
2.生物信息学大数据在生物学上的应用生物信息学作为一门最具发展前途的新兴学科,它综合运用了计算机技术、生物技术和信息技术进行科学研究,目的在于揭示大量而复杂的生物数据所包含的生物学意义,近年来生物信息学在生物技术、生物医学、农业、食品等研究领域发挥了重要作用。
生物信息学在生物技术领域主要涉及微生物基因图谱、文库的构建、序列的分析、基因组的功能注释、菌种目录、病毒资源库、病原微生物数据库的建设及相关软件的应用以及生物技术平台服务等。
生物信息学主要的发展方向是基于数据库与知识库的知识与规律的发现$新型基因的发现、功能预测方法及程序的开发等。
生物信息学复习资料全
一、名词解释(31个)1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程息的存贮、信息的涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。
狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。
2.二级数据库:对原始生物分子数据进展整理、分类的结果,是在一级数据库、实验数据和理论分析的根底上针对特定的应用目标而建立的。
3.多序列比对:研究的是多个序列的共性。
序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。
4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支的图形来概括各种〔类〕生物之间的亲缘关系,这种树状分支的图形称为系统发育树。
5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。
指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。
〔来自百度〕6.旁系〔并系〕同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。
用来描述在同一物种由于基因复制而别离的同源基因。
〔来自百度〕7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。
8.开放阅读框〔ORF〕:是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。
〔来自百度〕9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折叠得较为严密,各行其功能,称为结构域。
10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进展罚分,以控制空位插入的合理性。
〔来自百度〕11.表达序列标签:通过从cDNA文库中随机挑选的克隆进展测序所获得的局部cDNA的3’或5’端序列。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学是一门交叉学科, 包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面, 它综合运用数学、计算机科学和生物学等的各种工具来阐明和理解大量数据所包含的生物学意义。
生物信息学宗旨在揭示基因组信息结构的复杂性及遗传语言的根本规律。
从生物分子获得和挖掘深层次生物学知识。
人类基因组计划(HGP:获得遗传图、物理图、序列图、转录图;终极目标:阐明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。
其中我国承担了人类3 号染色体短臂。
记录:一个数据库记录一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释。
冗余:在一个数据库存在着多个相同的项,如两个或者更多的记录中有一个相同序列Fasta 格式开始于一个标识符:">" ,然后是一行描述。
GenBank格式:每个基因描述可有多个描述行,包含一行以LOUCU开头描述行,基因序列以ORIGN开头,以/结尾。
EMBL入口标识符ID,序列开始标识符SQ结束是/。
数据库的特点:①数据库是可以检索的,即具有检索功能;②数据库应该是定时更新的,即不断有新版内容发布;③数据库是交叉引用的,特别是在互联网时代,数据库应该通过超链接与其他数据库相连。
EST序列:表达序列标签对cDNA文库测序得到的,是转录的DNA序列。
STS序列:序列标签位点染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,(200bp —500bp)。
STS序列标签位点是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作的短的、单拷贝DNA序列,用于产生作图位点。
GSS序列:基因组概览测序基因组DNA克隆的一次性部分测序得到的序列。
HTG序列:高通量基因组序列三大数据库:NCBI(GenBank):美国生物技术中心,建立了一系列生物信息数据和各种服务。
EMBL欧洲分子生物学实验室。
DDBJ日本遗传研究所。
同源性基因系指起源于同一祖先但序列已经发生变异的基因成员。
基因同源性只有“是”和“非”的区别,是一种质的判断。
直系同源基因:分布在不同物种间的同源基因又称直系同源基因。
旁系同源基因:同一物种的同源基因则称旁系同源基因 (水平基因:, 水平基因由重复后趋异产生。
一致性:序列中同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员的百分比。
相似性:序列中同一位置相同或相似序列的百分比。
如同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。
可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员,它们之间的代换不影响蛋白质(或酶)的生物学功能。
相似性和同源性关系:一般来说序列间的相似性越高的话,是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。
序列比对:确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。
任务:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的根本差异。
相似性:可能是核酸/氨基酸序列的相似、可能是结构的相似、可能是功能的相似主要的blast程序:Score :使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大。
E value :在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。
E值越小表示随机情况下得到该Score 值的可能性越低。
分子钟:某一蛋白在不同物种间的取代数与所研究物种间的分歧时间接近正线性关系,进而将分子水平的这种恒速变异称为“分子钟”。
中性学说:突变大多数是中性的,中性突变通过随机的遗传漂变在群体里固定下来,分子进化是遗传漂变的结果,在分子进化上自然选择不起作用。
分子进化/系统发育树的研究目的:①物种分类及关系:从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系②大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析和功能预测③进化速率分析:例如,HIV的高突变性,哪些位点易发生突变末端节点:代表最终分类,可以是物种,群体或者蛋白质、DNA RNA分子等。
系统发育树是由一系列节点和分支组成,其中每个节点代表一个分类单元(物种或序列),而节点之间的连线代表物种之间的进化关系。
树的节点又分为外部节点和内部节点。
外部节点代表实际观察到的分类单元。
内部节点又称为分支点,代表分类单元进化历程中的祖先。
一个DNA序列在物种形成或基因复制时,分裂成两个子序列,因此系统发育树一般是二叉树。
有根树:从最早共同祖先,即根开始,随着时间的连续分支事件引起的一组相关物种的分歧。
无根树:表示分类单元之间的进化关系,但不鉴别最早的共同祖先。
距离:对一个有根树来说,沿着每个分支的进化方向是确定的。
反之,对无根树来说,并不清楚内部分支的祖先物种是从哪里进化而来相关序列间的差异称为距离。
不同物种的两条同源序列的度量被称为遗传距离或进化距离。
外群/外围枝:与当前研究的主要物种或基因相对较远的一组序列,可以辅助定位树根,选择条件:序列必须与剩余序列关系较近,但外围支序列与其他序列间的差异必须比其他序列之间的差异更显著系统发育树构建步骤:多序列比对;建立取代模型(建树方法);建立进化树;进化树评估。
进化树的可信度检验自展法(统计方法):从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;重复上面的过程,得到多组新的序列;对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性建树一般原则:1.可靠的待分析数据2.准确的多序列比对3.选择合适的建树方法: A.序列相似程度高,MP 简约法)B.序列相似程度较低,ML(似然法)C.序列相似程度中等,NJ(邻接法)D.序列相似程度太低,无意义bootstrap为每个分支指派一个数值,表示这些分支在bootstrap测试中出现的百分比,暗示它们关联的化分是否被数据很好地支持。
越接近100,可信度越高。
GO基因本体联合会所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。
GO语义的分类:①分子功能描述在个体分子生物学上的活性,如催化活性或结合活性。
②生物学过程由分子功能有序地组成的,具有多个步骤的一个过程。
③细胞组件指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核糖体,蛋白酶体等),即基因产物在什么地方起作用。
语义之间有三种关系:①is a (I)②part of (P)③regulates (R)语义之间的关系:1.“语义”用“结点”表示2.用父子结点来表示语义之间的关系,其中父结点离根结点较近,表示相对宽泛的语义,而子结点离叶子结点较近,相对父结点其语义所代表的内容更为具体。
3.实线表示结点之间的关系4.虚线表示推理而并未证明的关系GO语义之间的关系是单向的,结构像是有向非循环树,但与有向非循环树不同的是,本体论结构图中的结点可以有两个及其以上的父结点。
在“ Qualifier ”用“ NOT 标注,如“ nurse cell apoptosis ”,其说明根据实验数据,该基因产物并不在“ nurse cell即optosis ”过程中起明显作用,因而该基因产物用该语义注释只是研究者的一种推测与期望,此推测的根据是该基因产物与那些在“ nurse cellapoptosis ”起明显作用的基因产物有着非常相似的序列结构。
间隔区(IGR)是一片位于基因之间的DNA序列。
非编码DNA、可隔区的一个子集。
偶尔有些间隔DNA 的作用来控制基因附近,但目前大部分没有已知的功能。
它有时也被称为“垃圾DNA的DNA序列之一,最近被称为“暗物质”或“暗物质转录间隔区的DNA片段”。
重复序列的分析:对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。
等值区:大部分真核基因组表现出一种称为等值区的组织形式。
等值区定义为“具有一致碱基组成的长区域”:①等值区基因组序列的长度超过1,000,000对碱基;②虽然不同的等值区其GC含量差别显著,但同一等值区的GC含量始终相对均衡,即在等值区全长序列上移动的1,000bp滑动窗口中的GC含量与整个序列的GC 含量相差不超过1%人类基因组大约可以划分为五个不同类型的等值区:其中有两个区域缺乏G和C, 分别被称作L1和L2,平均GC含量分别为39呀口42%另三个区域所含的G和C 相对丰富,分别被称作H1、H2和H3, GC含量平均值分别为46% 49%5 54%真核生物的H等值区中含有丰富的基因,是开始基因组测序的最佳位置。
SD序列:mRNA羽译起点上游与原核16S核糖体RNA或真核18S rRNA3'端富含嘧啶的7核苷酸序列互补的富含嘌呤的3〜7个核苷酸序列(AGGAGG)是核糖体小亚基与mRNAg合并形成正确的前起始复合体的一段序列。
Kozak规则,即第一个AUG W翼序列的碱基分布所满足的统计规律,若将第一个AUG^的碱基A,U, G分别标为1, 2, 3位,贝①第4位的偏好碱基为G②AUG 的5'端约15bp范围的侧翼序列内不含碱基T;③在-3 , -6和-9位置,G是偏好碱基;④除-3 , -6和-9位,在整个侧翼序列区,C是偏好碱基真核生物中的基因预测程序的分类:1.基于同源性的方法2.基于从头算的方法3.基于一致性的算法(大部分程序是物种专一的,这是由于用于获得统计参数的训练数据必须由单一生物体取得)蛋白质数据库:提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等同时提供其它数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接Reviewed和Un reviewed代表数据的可性度。
可性度的标签主要有三种:人工验证的数据(黄色星);从其他数据源引用过来的数据(半黄半灰星);通过程序添加或者产生信息的(灰色星)。
蛋白质3D结构预测的方法可分为三大类:①同源建模法②折叠识别法③从头预测法蛋白质理化性战 二级结构预测 结构域分析 一重要信号位点分析三级结构预测基因结构分析出・m*i *t4>■« V«<L««4^ in, 11 Mf M 甲 *■ 畳 *** tttti MltEl T<E« 序列比对 功能注释 GO KEEG 系统发育树 Codon bias 选择柱剪切 GC Content 转录调控因子 限制性菌切症点 生物芯片:生物活性物质以点阵的形式有序地固定在固相载体上。