生物信息学复习提纲解
生物信息学重点tg
《生物信息学》复习要点红色表示为重点内容, 考试的比重较大.第一章生物信息学引论生物信息学;生物信息指哪些?contig;大规模测序的基本策略;功能基因组学;生物信息学的应用有哪些?什么事件大大促进了生物信息学的发展?(HGP);生物信息学中最重要的贡献是什么(序列比对算法)?基因组测序完成的主要物种(如人,水稻,大肠杆菌,酵母,拟南芥,果蝇等);我国自主产权的基因组测序有哪些?人类基因组计划的主要任务.第二章生物信息学的生物学基础碱性氨基酸和酸性氨基酸的种类;蛋白质二级结构有哪些?核苷酸序列中N表示什么?遗传密码的基本特征是什么?真核生物基因的一般结构?转录本;启动子(promoter);EST;cDNA;内含子;外显子;UTR;TATA-box;ORF;起始密码子;终止密码子; poly(A)加尾信号;TSS;中心法则;真核生物基因表达的调控水平有哪些?*第三章生物数据库资源及其应用三大核酸数据库有哪些?蛋白质序列数据库有哪些?蛋白质结构数据库有哪些?掌握文献的PubMED检索规则;掌握核酸/蛋白质记录的检索规则;UniGene;GEO;创建最早使用最广泛的蛋白质数据库是什么?(SWISSPROT和PIR);*第四章序列分析相似性;一致性;保守突变;同源性;序列比较的基本操作是什么?序列比较的方法有哪些?序列比较的矩阵作图法;最长公共子序列;空位罚分;打分矩阵;BLAST的全称;BLAST比对结果中图形颜色的意义以及score和E-value的含义;FASTA格式;BLAST几种工具的含义及其用途;nr数据库;EST数据库;检索某个基因序列的方法;如何通过生物信息学方法确定TSS?判断1个基因(EST)表达部位或特性的生物信息学方法有哪些?*第五章系统发生分析系统发生树;趋同进化;无根树;有根树;直系同源与旁系同源;系统发生树的构建方法种类;非加权组平均法原理;最大简约法原理;信息位点;Bootstrap;掌握非加权组平均法的构建方法;用ClustalX和MEGA软件构建进化树的流程是什么?第六章基因表达数据分析基因芯片聚类分析图中红色和绿色代表的含义*第八章电子克隆技术电子克隆(in silico cloning);电子克隆的基本思路;电子克隆的操作步骤;电子克隆的条件是什么?判断1个基因5'端是否完整的方法; Kozak规则是什么?内含子的剪切规则?(GU..AG)其他:1)要了解BLAST的一般步骤和意义;2)了解序列分析的基本内容和意义;3)上机操作中涉及的重要网站和程序名称等(不需要记得网址)。
生物信息复习资料
生物信息复习资料生物信息复习资料生物信息学是一门综合性学科,涉及生物学、计算机科学和统计学等多个领域。
它的出现和发展,为我们深入研究生物体的基因组、蛋白质组以及其他生物大数据提供了强有力的工具和方法。
在生物信息学的学习和研究过程中,我们需要掌握一些基本的概念、技术和工具。
下面,我将为大家整理一些生物信息学的复习资料,希望能够对大家的学习有所帮助。
一、基本概念1. 生物信息学:生物信息学是一门研究生物体内信息的获取、存储、处理和分析的学科。
它通过运用计算机科学和统计学的方法,挖掘和解释生物体内的基因、蛋白质等分子信息,从而揭示生物体内的生命规律和机制。
2. 基因组学:基因组学是研究生物体基因组结构、功能和演化的学科。
它通过对生物体DNA序列的测定和分析,揭示基因组的组成、基因的定位和功能等信息。
3. 蛋白质组学:蛋白质组学是研究生物体蛋白质组成、结构和功能的学科。
它通过对生物体蛋白质的测定和分析,揭示蛋白质的组成、互作关系和功能等信息。
4. 基因表达谱:基因表达谱是指在特定条件下,生物体内基因的表达水平和模式。
通过对基因表达谱的分析,可以了解基因在不同组织、不同发育阶段或者不同环境条件下的表达情况,从而揭示基因的功能和调控机制。
二、常用技术和工具1. DNA测序技术:DNA测序技术是获取生物体基因组序列的重要方法。
常见的DNA测序技术包括Sanger测序、高通量测序和单分子测序等。
其中,高通量测序技术如Illumina测序和Ion Torrent测序,具有高通量、高准确性和低成本的特点,广泛应用于基因组学和转录组学研究。
2. 生物信息学数据库:生物信息学数据库是存储和管理生物学数据的重要资源。
常见的生物信息学数据库包括GenBank、EMBL、DDBJ、NCBI、Ensembl和Uniprot等。
这些数据库提供了丰富的生物学数据,如基因序列、蛋白质序列、基因表达数据等,为生物信息学的研究和分析提供了基础。
生物信息学,复习资料
第一章生物信息学是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉结合形成的一门新学科,是利用信息技术和数学方法对生命科学研究中的生物信息进行存储。
检索和分析的科学。
1982年创建了GenBank数据库。
(1)序列数据资源:储存了生物信息学研究的原始数据,是生物信息学存在和发展的基础。
(2)序列比对与比对搜索:相似性分析是生物信息学最早涉及的问题之一。
常用的分析方法是序列比对。
(3)基因组结构注释(4)分子系统发生分析:系统发生关系是表示物种进化关系的参考依据。
通过分析分子水平的序列数据,可以了解物种系统发生的关系,目前常用树的形式来表示不同物种间的进化关系。
(5)蛋白质结构:蛋白质的空间结构是其行使功能的基础。
(6)蛋白质序列分析与功能预测。
(7)微阵列数据分析:微阵列是一种重要的基因表达高通量检测技术。
(8)蛋白质组数据分析:高通量的蛋白质组工程能够大范围地确定蛋白质功能,能确定蛋白质在哪种特殊的生理条件下会出现,还能确定那些蛋白质之间有相互作用。
(9)疾病相关研究:寻找疾病相关基因是认识疾病发生机理、研制疾病的基因诊断与防治手段的基础,也是人类基因组研究的重要手段。
(10)SNP芯片及深度测序数据分析。
视黄醇结合蛋白是一个相对分子质量小、被大量分泌的蛋白质,能结合血液中的视黄醇。
性质:①在多个物种中有许多蛋白质和RBP4同源,包括人、小鼠和鱼总的蛋白质。
②也有许多人类蛋白质额RBP4紧密相关,它们和RBP4的家族成为lipocalin家族——一群多样的小配体结合蛋白,它们倾向于分泌到细胞外空间。
③有细南的lipealin 蛋白,它们在对抗生素的抗性中起作用。
编码细菌lipocalin 的基因可能是一古老基因,它通过水平基因转移的过程进人真核生物基因组。
④些lipocalin 蛋白的表达水平受到显著的调控。
⑤lipealin 蛋白小而丰富,并且是可溶性的,它们的生物化学性质已被详细研究,许多蛋白质的三维结构也以x线晶体街射的方法被解析出来。
生物信息学复习大纲
复习大纲1.生物信息学引论⏹了解生物信息学在生命科学研究中的作用和地位;⏹生物信息学与基因组学之间的关系;⏹了解生物信息学的主要研究内容;⏹认识生物信息,理解静态的生物信息与动态的生物信息,理解生物分子是基本的生物信息载体,认识基因组信息的组织与奥秘;⏹掌握生物信息学的主要研究对象及其关系。
2.生物信息资源及数据库⏹了解主要的生物信息资源网站;⏹生物信息学数据库,包括核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库、基因组数据库;⏹熟悉代表性数据库。
3.数据结构及算法⏹了解常用生物信息分析的计算机方法;⏹掌握基本的数据结构;数组、列表(链表、栈、队列)、树、图⏹掌握Hash表、树、图;⏹理解算法与程序的关系;⏹掌握算法评价的方法(时空复杂度)。
4.序列两两比对 *****⏹相似序列与同源序列(直向同源,共生同源);⏹序列的基本编辑操作和扩展操作;⏹打分函数;⏹打分矩阵(为什么要用打分矩阵?)⏹熟练掌握序列比对的点矩阵方法;⏹熟练掌握标准的基于动态规划的序列两两比对算法(反复求解两个前缀的最优比对),认识Needleman-Wunsch算法及Smith-Waterman算法与标准算法的关系;⏹了解准全局比对、连续Gap的处理方法;⏹了解相似序列比对算法的基本思想;⏹了解BLAST及其进行快速搜索的核心思想。
5.多序列比对⏹为什么不能用动态规划算法?其时空复杂度各位多少?⏹一般实现多序列比对的基本方法(转化为序列的两两比对);⏹星型比对的基本思想;⏹树型比对的基本思想;基本过程;⏹保守序列表示的三种形式(重点:consensus, PSFM/PSSM;了解sequence Logo)。
6.基因组序列拼接⏹序列拼接的生物学背景及数学定义;⏹掌握基于覆盖图的序列拼接的基本方法;⏹理解序列拼接问题的求解过程生物学问题→数学抽象→数据结构→问题转化→算法设计→求解7. 系统发生分析⏹了解现代(分子)系统发生分析的核心思想;⏹系统发生树的表示形式;⏹基于距离的系统发生分析的基本过程;⏹掌握连锁聚类分析方法;⏹了解UPGMA与NJ这两种方法的特点,它们与连锁聚类的差别。
大学教育-医学-生信-生信复习提纲-基础16级-409
2019年基础医学专业本科生《生物信息学》复习提纲中山大学中山医学院医学信息学教研室编制基础数据库1)核酸数据库国际联盟INSDC的组成2)GenBank, ENA, DDBJ的内容特点3)1000Genomes的内容特点4)TCGA的内容特点5)UniProt的组成6)UniProtKB的内容特点7)UniProtKB_SwissProt的内容特点8)UniProtKB_TrEMBL的内容特点9)PDB的内容特点10)InterPro的内容特点11)Pfam的内容特点12)PRIDE的内容特点DNA序列变异数据库介绍概念1)DNA序列变异的定义2)认识DNA序列变异的意义3)DNA序列变异类型及其定义4)单核苷酸多态的定义,在基因组分布特点背后可能的原因5)序列转换(transitions)和颠换(transversions)的含义6)肿瘤突变特征 (Mutational Signatures)的理解数据库:7)dbSNP数据库的特点和实践操作8)dbVar数据库的特点和实践操作9)gnomAD数据库的内容特点10)疾病相关突变数据库11)OMIM数据库的特点12)MIM的数字前缀的意义13)GWAS Catalog数据库的内容特点14)ClinVar 数据库的内容特点15)HGMD数据库的内容特点16)COSMIC数据库的内容特点思考问题17)结合你对数据库了解,DNA序列变异数据库,假设想研究某疾病相关基因的重要突变,你如何从数据库中获取资料?序列比对1)同源性与相似性的区别2)直系同源与旁系同源的区别3)全局比对与局部比对的区别4)Pairwise (两序列)比对的含义5)BLAST与FASTA的使用及其优缺点6)序列比对中E值得含义7)迭代比对的含义8)PSIBLAST与PSISearch的使用9)多序列比对的含义10)Clustal Omega的使用思考问题11)如何通过序列比对鉴别短肽段?分子系统发育分析与多序列比对1)理解分子进化理论的概念和常见模式。
《生物信息学》复习资料
超二级结构:是介于二级和三级结构之间的一个结构层次。
有的模体本身有一定的功能,有的与其他的结构成分协同发挥作用。
Conting(叠连群):又译作连续克隆系。
为搞清某段DNA的排列顺序而建立的一组克隆。
被克隆的DNA小片段有相互邻接并部分重叠的关系,从而可以完全覆盖该段DNA,一个这样的克隆群即为一个conting。
蛋白质组:对应于基因组的概念,指由一个细胞或一个组织的基因所表达的全部相应的蛋白质。
蛋白质组是一个动态的概念:①和基因不一样。
不同组织和不同发育时期都不一样②基因在转录后,还有一系列的修饰,翻译等过程都可以影响蛋白质的表达。
因此通过对蛋白质组的研究,在此基础上更能阐明遗传、发育、进化、功能调控等基本生物学问题以及与人类健康和疾病相关的生物医学问题。
单核苷酸多态性:在DNA的某一个位点处的核苷酸,有一部分是A,另一部分是T,其他为G和C,如果各种情况的比例均为1%,则称该位点处的核苷酸为多态性的。
就一个位点而言,SNP最多为4种。
但人类基因组很多,估计平均每1000bp就有一个SNP,因此整个金一组可有3*1000000个SNP位点,因此产生多态性就是非常多了。
已知人类基因组DNA序列中最常见的变异形式是SNP。
非蛋白质编码区:非蛋白质编码区占据了人类基因组的大部分,研究表明“Junk”是许多对生命过程富有活力的不同类型的DNA的复合体,它们至少包括以下类型的DNA成分或由其表达的RNA成分:内含子、卫星DNA、小卫星DNA、微卫星DNA、非均一核RNA、短散置元、长散置元、伪基因等。
除此之外,顺式调控原件如启动子、增强子等也属于非编码序列。
分裂基因、割裂基因、不连续基因:基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。
其中,编码的序列叫外显子,对应于心事RNA序列的区域。
不编码的叫内含子,通常比外显子大得多。
基因两端起始和结束于外显子,对应于转录产物RNA和5和3端。
如果一个基因含n个内含子,则n+1个外显子。
生物信息学 复习大纲 广东药学院 生医专业
绪论:1.什么是生物信息学?答:生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。
(答案一)以计算机软件为工具对核酸和蛋白质组成序列进行分析,并在生物大分子水平上研究其结构与功能的方法。
(答案二)2. 生物信息学研究的主要任务是什么?(1)DNA序列。
分离编码与非编码区域,识别内含子与外显子,基因产物预测,基因功能注释,基因调控信息分析(2)蛋白质序列。
序列比较,多重序列比对,识别保守的序列模式,进化分析(3)大分子结构。
二级结构、空间结构预测,三维结构比对,蛋白质几何学度量,表面和形态计算,分子间相互作用分析,分子模拟(4)基因组。
标注重复序列,基因结构分析,系统发生分析,基因与疾病的连锁分析,基因组比较,遗传语言分析(5)基因表达。
达模式相关分析基因表,基因调控网络分析,表达调控信息分析3. 生物信息学主要研究方法是什么?答:1、数学统计方法2、动态规划方法3、机器学习与模式识别技术4、数据库技术及数据挖掘5、人工神经网络技术6、专家系统7、分子模型化技术8、量子力学和分子力学计算9、生物分子的计算机模拟10、因特网(Internet)技术4. 人类基因组计划是什么?答:人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。
其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。
作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。
第一章:1. 生物中心法则是什么?DNA是细胞中的遗传物质,DNA分子通过半保留复制复制完成遗传信息的传递,DNA 转录成mRNA,通过三个核苷酸对应一个氨基酸的遗传密码细胞将信息由mRNA翻译成蛋白质,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。
生物信息学复习要点
一、名词解释(每小题3分,共30分)1.生物信息学2.数据库技术3.数据仓库4.EST5.概念性翻译6.同源性7.单系类群8.全局排列9.基因作图10.直系同源体簇二、填空题(每空1分,共10分)1.生物信息学主要研究的两种信息载体是和。
2.国际上的三大核苷酸序列数据库分别是、和。
3.数据挖掘的三大技术支柱是、和。
4.相同类型核苷酸的替换称为,不同类型核苷酸的替换称为。
三、单项选择题(每小题1分,共10分)1.在对模式生物进行全基因组的测定中,作为真菌模式生物的是。
A、大肠杆菌B、青霉菌C、酵母菌D、线虫2.NCBI成立于。
A、1988年B、1989年C、1990年D、1992年3.根据数据库管理系统所支持的基本数据模型的不同,可以将数据库分为五类,其中第二代数据库是。
A、层次数据库B、网状数据库C、关系数据库D、分布式数据库4.在向GenBank投送序列的工具中,是标准的序列投送工具。
A、Cn3DB、tb12asnC、BankItD、Sequin5. 目前最为常用和注释最全的蛋白质序列数据库是。
A、IdentifyB、OWLC、PIRD、SWISS-PROT6. 下列选项中根据蛋白质三维折叠模式和进化关系划分的结构分类数据库是。
A、PDBsumB、GDBC、SCOPD、CATH7. 构建系统发生树的方法很多,其中耗时最短的是。
A、进化简约法B、最大简约法C、最大似然法D、距离矩阵法8. 下列数据库选项中不属于蛋白质序列二次数据库的是。
A、PROSITEB、PRINTSC、BLOCKSD、PDB9. 在系统发生树的检验中,较为常用的方法是。
A、MP法B、重复取样法C、NJ法D、ML法10. 下列工具中用于发现开放阅读框的软件是。
A、Translate ToolB、ORF FinderC、Gene WiseD、E-PCR四、多项选择题(每小题2分,共20分)1.生物大分子携带的三种信息是。
A、遗传信息B、功能信息C、调控信息D、进化信息2. 为实现3个抽象级别间的数据转换,DBMS提供的两层映射是。
生物信息学知识点总结分章
生物信息学知识点总结分章第一章:生物信息学概述生物信息学是一门综合性学科,结合计算机科学、数学、统计学和生物学的知识,主要研究生物系统的结构、功能和演化等方面的问题。
生物信息学的发展可以追溯到20世纪70年代,随着基因组学、蛋白质组学和生物技术的发展,生物信息学逐渐成为生物学研究的重要工具。
生物信息学的主要研究内容包括基因组学、蛋白质组学、代谢组学、系统生物学等。
生物信息学方法主要包括序列分析、结构分析、功能预测和系统分析等。
第二章:生物数据库生物数据库是生物信息学研究的重要基础,主要用于存储、管理和共享生物学数据。
生物数据库包括基因组数据库、蛋白质数据库、代谢数据库、生物通路数据库等。
常用的生物数据库有GenBank、EMBL、DDBJ等基因组数据库,Swiss-Prot、TrEMBL、PDB等蛋白质数据库,KEGG、MetaCyc等代谢数据库,Reactome、KeggPathway等生物通路数据库等。
生物数据库的建设和维护需要大量的人力和物力,目前国际上已建立了众多生物数据库,为生物信息学研究提供了丰富的数据资源。
第三章:序列分析序列分析是生物信息学研究的重要内容,主要应用于DNA、RNA、蛋白质序列的比对、搜索和分析。
常用的序列分析工具包括BLAST、FASTA、ClustalW等,这些工具可以帮助研究人员快速比对和分析生物序列数据,从而挖掘出序列的相似性、保守性和功能等信息。
序列分析在基因组学、蛋白质组学和系统生物学等领域发挥着重要作用,是生物信息学研究的基础工具之一。
第四章:结构分析结构分析是生物信息学研究的另一个重要内容,主要应用于蛋白质、核酸等生物分子的三维结构预测、模拟和分析。
常用的结构分析工具包括Swiss-Model、Modeller、Phyre2等,这些工具可以帮助研究人员预测蛋白质或核酸的三维结构,分析结构的稳定性、功能和相互作用等特性。
结构分析在蛋白质结构与功能研究、蛋白质药物设计等方面发挥着重要作用,为生物信息学研究提供了重要的技术支持。
生物信息学复习重点
生物信息学就是一门交叉学科, 包含了生物信息得获取、加工、存储、分配、分析、解释等在内得所有方面, 它综合运用数学、计算机科学与生物学等得各种工具来阐明与理解大量数据所包含得生物学意义。
生物信息学宗旨在揭示基因组信息结构得复杂性及遗传语言得根本规律。
从生物分子获得与挖掘深层次生物学知识。
人类基因组计划(HGP):获得遗传图、物理图、序列图、转录图;终极目标:阐明人类基因组全部DNA序列;识别基因;建立储存这些信息得数据库;开发数据分析工具;研究HGP实施所带来得伦理、法律与社会问题。
其中我国承担了人类3号染色体短臂。
记录:一个数据库记录一般由两部分组成:原始序列数据与描述这些数据生物学信息得注释。
冗余:在一个数据库存在着多个相同得项,如两个或者更多得记录中有一个相同序列Fasta格式开始于一个标识符:">",然后就是一行描述。
GenBank格式:每个基因描述可有多个描述行,包含一行以LOUCUS开头描述行,基因序列以ORIGN开头,以//结尾。
EMBL:入口标识符ID,序列开始标识符SQ,结束就是//。
数据库得特点:①数据库就是可以检索得,即具有检索功能;②数据库应该就是定时更新得,即不断有新版内容发布;③数据库就是交叉引用得,特别就是在互联网时代,数据库应该通过超链接与其她数据库相连。
EST序列:表达序列标签对cDNA文库测序得到得,就是转录得DNA序列。
STS序列:序列标签位点染色体上位置已定得、核苷酸序列已知得、且在基因组中只有一份拷贝得DNA短片断,(200bp-500bp)。
STS序列标签位点就是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作得短得、单拷贝DNA 序列,用于产生作图位点。
GSS序列:基因组概览测序基因组DNA克隆得一次性部分测序得到得序列。
HTG序列:高通量基因组序列三大数据库:NCBI(GenBank):美国生物技术中心,建立了一系列生物信息数据与各种服务。
生物信息学复习
2008级医学生物技术《生物信息学》复习资料2011年6月1、生物信息学的定义:指生命科学与数学、计算机科学以及信息学等交融在一起形成的一门交叉学科。
以核酸、蛋白质等生物大分子为主要研究对象、以信息学、数学、计算机科学为主要研究手段、以计算机网络为主要研究环境、以计算机软件为主要研究工具、对序列数据进行存储、管理、注释、加工、对各种数据库进行查询、搜索、比较、分析、构建各种类型的专用数据库信息系统、研究开发面向生物学家的新一代计算机软件。
2、生物信息学研究的主要内容:序列重叠群(Contigs)装配、序列比对和结构比对、计算机辅助基因识别、基因组非编码区分析及DNA语言研究、分子进化和比较基因组学、蛋白质结构预测、基于结构的药物设计。
3、如何排列比较?(寻求序列之间最大相似性匹配!)我们不能够简单的将两个序列头尾对应的排比,而是对各种可能的排比方式都进行比较以找出最佳的比对结果。
4、序列比对和结构比对:在生物信息学研究中,比对是最常用和最经典的研究手段。
最常见的比对是蛋白质或核酸序列之间的两两比对或多重比对,通过比较两个或多个序列之间的相似区域,寻找它们共同的保守结构域和可能的分子进化关系。
5、PubMed 和Medline 有什么关系?PubMed 是美国国家医学图书馆(NLM)所属的国家生物技术信息中心(NCBI)开发的生物医学文献检索系统,是继Medline 国际联机检索和光盘检索之后推出的又一种网络检索形式。
6、PubMed 和Medline 的主要区别?1、数据来源PubMed 收录的内容更丰富。
除了Medline 之外,PubMed 还包括:1、In Process Citations(Medline 的前期数据库)2、OldMedline(含1948~1965年期间发表的生物医学文献书目)、3、以及期刊出版商提供的电子期刊和非医学文献。
PubMed 累积了自1948年以来的1900多万篇生物医学文献书目。
(完整word版)生物信息学复习资料(word文档良心出品)
一、名词解释(31个)1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。
狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。
2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
3.多序列比对:研究的是多个序列的共性。
序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。
4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。
5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。
指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。
(来自百度)6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。
用来描述在同一物种内由于基因复制而分离的同源基因。
(来自百度)7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。
8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。
(来自百度)9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折叠得较为紧密,各行其功能,称为结构域。
10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。
(来自百度)11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的3’或5’端序列。
生物信息学复习资料
生物信息学复习资料生物信息学是一门融合了生物学、计算机科学、数学和统计学等多个学科的交叉领域。
它的出现和发展为我们理解生命的奥秘提供了强大的工具和方法。
以下是对生物信息学的一些关键知识点的复习。
一、生物信息学的定义和范畴生物信息学主要是研究如何获取、处理、存储、分析和解释生物数据的学科。
这些数据包括但不限于基因组序列、蛋白质结构、基因表达数据等。
它的应用范围广泛,涵盖了从基础生物学研究到临床诊断和药物研发等多个领域。
二、生物数据的获取(一)测序技术现代测序技术的发展使得我们能够快速而准确地获取大量的生物序列信息。
第一代测序技术如 Sanger 测序法,虽然准确性高,但成本较高、通量较低。
而新一代测序技术如 Illumina 测序、Ion Torrent 测序等,则大大提高了测序的通量和速度,降低了成本,但在准确性上可能略有不足。
(二)基因芯片技术基因芯片可以同时检测成千上万个基因的表达水平,为研究基因表达模式和调控机制提供了重要的数据。
(三)蛋白质组学技术质谱技术是蛋白质组学研究中的重要手段,能够鉴定蛋白质的种类和修饰状态。
三、生物数据的存储和管理面对海量的生物数据,高效的数据存储和管理至关重要。
常用的数据库包括 GenBank、UniProt、PDB 等。
这些数据库采用了特定的数据格式和管理系统,以确保数据的完整性、准确性和可访问性。
四、生物数据的分析方法(一)序列比对序列比对是生物信息学中最基本的分析方法之一,用于比较两个或多个生物序列的相似性。
常见的比对算法包括全局比对(如NeedlemanWunsch 算法)和局部比对(如 SmithWaterman 算法)。
(二)基因预测通过对基因组序列的分析来预测基因的位置和结构。
常用的方法有基于同源性的预测、基于信号特征的预测等。
(三)蛋白质结构预测包括从头预测法和基于同源建模的方法。
从头预测法基于物理化学原理来构建蛋白质的三维结构,而同源建模法则利用已知结构的同源蛋白质来推测目标蛋白质的结构。
生物信息学复习提纲
【名词解释】生信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义数据库:是存储在某种存储介质上的相关数据的有组织的集合分子生物学数据库(生物信息学数据库)存储生物大分子信息数据的数据库称一级数据库:直接来源于实验获得的原始数据(DNA序列、蛋白质序列、蛋白质结构等),只经过简单的归类、整理和注释。
二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的基因组数据库:是模式生物基因组数据库,是一个比较专一的数据库,只收录单一的物种序列、结构、发育等相关数据信息。
同源:两条序列有一个共同的进化祖先。
同源序列:指从某一共同祖先经趋异进化而形成的不同序列序列同源性:同源蛋白质的氨基酸序列具有明显的相似性,这种相似性相似性:是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
直系同源:是指不同物种内的同源序列,它们来源于物种形成时的共同祖先基因旁系同源:基因是指同一基因组(或同一物种的基因组)中,由于始祖基因的加倍而横向/水平方向产生的几个同源基因。
序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列全局比对:对序列从头到尾进行比较局部比对:寻找序列中相似度最高的区域核酸序列拼接:通过2个及2个以上测序反应获得的序列都要拼接成一个完整的序列Kozak规则:第一个ATG侧翼序列的碱基分布所满足的统计规律。
物种树:代表一个物种或群体进化历史的系统发育树基因树:由来自各个物种的一个基因构建的系统发育树(不完全等同于物种树),表示基因分离的时间。
电子克隆:根据大量EST具有相互重叠的性质,通过计算机算法获得cDNA全长序列最小进化(ME)思想:在所有可能的拓扑结构中,选择分支长度和S最小作为最优树。
生物信息学复习资料
⽣物信息学复习资料第⼀章1.⽣物信息学:⽤数学的、统计的、计算的⽅法来解决⽣物问题,这基于⽤DNA、氨基酸及相关信息。
即⽣物+信息学,其中⽣物是指从基因型到表型:DNA/基因组→RNA→蛋⽩质→分⼦⽹络→细胞→⽣理学/疾病。
信息学是指从数据到发现:数据管理→数据计算→数据挖掘→模型/模拟2.⼈类基因组计划:①前基因组时代(1990年前):通过序列之间的对⽐,寻找序列变化,确定序列功能。
②基因组时代(1990年后~2001年)迅猛发展:标志性的⼯作包括基因寻找和识别,数据库系统的建⽴。
③后基因组时代(2001年⾄今)功能基因组研究:研究内容发展到基因和基因组的功能分析,即功能基因组,学研究。
从传统的还原论研究⽣命过程转到了整体论思想。
2001年,中美⽇德法英6国科学家耗费⼗年,联合公布⼈类基因组草图3.基因芯⽚:⼜称DNA芯⽚,由⼤量DNA或寡聚核苷酸探针密集排列形成的探针阵列。
原理:杂交测序⽅法,在⼀定条件下,载体上的核酸分⼦可以与来⾃样品的序列互补的核酸⽚段杂交,如果把样品中的核酸⽚段进⾏标记,在专⽤的芯⽚阅读仪上就可以检测到杂交信号。
药物处理细胞总mRNA⽤Cy5标记,未处理的细胞总mRNA⽤Cy3标记,颜⾊?将两者杂交形成固相探针,包含cDNA和寡核苷酸,最后进⾏结果观察和信息分析。
、EMBL、DDBJ5.数据挖掘:①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不⼀致的数据⑤建⽴模型和假设⑥实际数据挖掘⼯作⑦测试和验证挖掘结果⑧解释和应⽤。
数据挖掘中的常见算法思想:判断、聚类、关联。
数据挖掘模型:①监督模型、预测模型②⽆监督模型:聚类分析和关联分析②数据降维:主成分分析和因⼦分析。
第⼆章:1.Sanger法:①1977年,提出了“双脱氧核苷酸末端终⽌测序⽅法”②技术基础:PCR扩增;双脱氧核苷酸的扩增终⽌;电泳分离扩增⽚段③优点1.读取⽚段长2.准确率⾼99.9% 缺点:1.测序通量低2.成本⾼、流程多④⽅法、原理:每个反应含有所以四种dNTP使之扩增,并混⼊限量的⼀种不同的ddNTP使之终⽌,由于ddNTP缺乏延伸所需要的3’-OH基团,使延长的寡聚核苷酸选择性地在G,A,T或 C 处终⽌,终⽌点由反应中相应的双脱氧⽽定,每⼀种dNTPs和ddNTPs的相对浓度可以调整,使反应得到⼀组长⼏百⾄⼏千碱基的链终⽌产物。
生物信息学复习资料
第一章绪论1、生物信息学*采用计算机技术和信息论方法研究pro及核酸序列等各种生物信息的采集、储存、传递、检索、分析和解读的科学,是现代生命科学与信息科学、计算机科学、数学、统计学、物理学、化学等相互渗透而形成的交叉科学。
2、发展历程*前基因组时代基因组时代后基因组时代3、研究内容1)、基因组和蛋白质组2)、基因芯片3)、数据库(基因组数据库、蛋白质数据库,其他数据库)第二章生物信息学的分子生物学基础1、概念基因:是DNA分子上具有遗传信息的特点核苷酸序列的总称,即具有遗传效应的DNA分子片段基因。
基因组:包含细胞或生物体全套遗传信息的全部遗传物质。
蛋白质组:由基因表达产生的总蛋白质的总称。
2、基因克隆过程*目的基因(DNA、RNA)—载体构建—转入表达(离子转化、电转化)—克隆筛选3、DNA测序方法*(1).酶促双脱氧法(2)、化学降解法4、中心法则转录翻译DNA mRNA 蛋白质5、起始密码子:AUG终止密码子:UAA、UAG、UGA第三章生物信息学的计算机基础1、概念1)数据仓库:是一个面向主题的、集成的、相随稳定的、反映历史变化的数据集合,用于支持决策。
★2)计算机网络操作系统:为了使用计算机而专门设计的系统软件,它除了具有一般桌面操作系统的全面功能外,还应满足用户使用网络的需要。
3)数据挖掘:就是从数据库中抽取具有潜在价值的隐含信息的过程。
★4)数据库:是统一管理的相关数据的集合5)数据库管理系统:对数据库进行管理的系统软件,提供数据库的建立、查询、更新以及各种数据库控制功能6)数据库技术:是研究数据库的结构。
存储、设计、管理和应用的一门软件学科7)数据库系统:采用数据库技术的计算机系统,由数据库、计算机软硬件和数据库和管理员共同组成的系统。
8)数据模型:是数据库结构和语义的一种抽象描述,由数据结构、数据操作和完整性约束三部分组成。
2、计算机网络类型★1)、集中模式2)、专用服务器模式3)、客户机/服务器模式4)、对等模式3数据仓库的基本特点1)、存储的信息是面向主题来组织的2)、有一处专门用来存储5~10年或更久的历史数据3)、具有统一的数据结构和编码规则4)、是只读数据库,一般不轻易做改动,只能定期刷新。
《生物信息学》复习资料
《生物信息学》复习资料《生物信息学》先锋版中译本第二版科学出版社打分政策:60% 期末考试(70%掌握内容、25% 熟悉内容、5% 理解内容)(请注意红体与黑体字)A: 生物信息学概述1. 生物信息学:生物信息学是生物学和信息技术的结合,是现代科学的又一个分支学科,它利用计算机对大量生物数据进行分析处理。
生物信息学把用于存储和搜索数据的数据库开发,与用于分析和确定大分子序列、结构、表达模式和生化途径等生物数据集之间的关系的统计工具和算法的开发结合在一起。
数据库生物信息学主要由三大部分组成算法与统计工具分析与解释测序策略:逐个克隆法、全基因组鸟枪法计算机在生物信息学中的作用:生物信息学需要计算机快速、可靠地执行重复任务的能力以及处理问题的能力。
然而,生物信息学中涉及的许多问题仍需要专家的人工处理,同时原始数据的完整性和质量也很关键。
生物信息学课程范围:使初学者理解生物信息学的基本原理,并获得相应的应用能力。
具体包括生物信息学的一些关键领域:数据库使用、序列和结构分析工具、注释工具、表达分析以及生化和分子途径分析。
2. 生物信息学实例:——数据库界面Genbank/EMBL/DDBJ, Medline, SwissProt, PDB, …——序列搜索与比对BLAST, FASTA, Clustal, MultAlin, DiAlign ——基因搜索Genscan, GenomeScan, GeneMark, GRAIL——蛋白结构域分析与鉴定pfam, BLOCKS, ProDom,——基因调控元件的计算机模式识别Gibbs Sampler, AlignACE,MEME——蛋白折叠预测PredictProtein, SwissModeler生物信息学网站:包括生物信息学资源、各种数据库和生物信息学分析工具的网站3. 五个必须知道的生物信息学网站:(详细参考书本p9)NCBI (The National Center for Biotechnology Information)/EBI (The European Bioinformatics Institute)/The Canadian Bioinformatics Resource http://www.cbr.nrc.ca/SwissProt/ExPASy (Swiss Bioinformatics Resource)http://expasy.cbr.nrc.ca/sprot/PDB (The Protein Databank)/PDB/B: 数据采集一、DNA, RNA和蛋白质测序1. DNA测序原理:DNA测序是采用全自动的链终止反应完成的,这一技术通过加入限量的双脱氧核苷酸来产生有特定终止碱基的嵌套DNA片段。
《生物信息学》复习提纲
《生物信息学》主要知识点一、基本名词和概念1、bioinformatics 生物信息学,狭义的生物信息学是指将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的一门交叉学科。
广义上的生物信息学是指运用计算机技术,处理、分析生物学数据,以揭示生物学数据背后蕴藏的意义的所有知识体系。
2、ORF Open Reading Frame,开放阅读框,是指在给定的阅读框架中,不包含终止密码子的一串DNA序列3、CDS Coding sequence,基因的编码区(也叫Coding region),是指DNA或RNA中由外显子组成,编码蛋白质的部分。
4、UTR Untranslated Regions,即非翻译区,是指mRNA分子两端的非编码片段,包括5'-UTR(或称“前导序列”)和3'-UTR(或称“尾随序列”)5、genome 基因组,是指包含在一种生物的单倍体细胞中的全套染色体DNA(部分病毒是RNA)中的全部遗传信息,包括基因和非编码DNA。
6、proteomics 蛋白质组学,对特定的通路、细胞器、细胞、组织、器官和肌体中包含的所有蛋白质,进行鉴定、表征和定量,提供关于该系统准确和全面数据的学科。
7、transcriptome 转录组,也称为“转录物组”,广义上指在相同环境(或生理条件)下的一个细胞、组织或生物体中出现的所有RNA的总和,包括mRNA、rRNA、tRNA及非编码RNA;狭义上则指细胞所能转录出的所有mRNA。
8、metabonomics 代谢组学,属于系统生物学的一个重要组成部分,效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定量分析,从而研究生命体对外界刺激、病理生理变化、以及本身基因突变而产生的其体内代谢物水平的多元动态反应。
其研究对象大都是相对分子质量1000以内的小分子物质。
9、functional genomics 功能基因组学,是一门利用结构基因组学研究所得到的各种信息,建立和发展各种技术和实验模型来测定基因和基因组非编码序列的生物学功能的学科。
大学教育-医学-生信-生信复习提纲(答案)-基础16级-410
生物信息学复习资料目录一、基础数据库 (1)二、序列变异数据库 (4)三、序列比对 (5)四、分子系统发育分析与多序列比对 (7)五、分子进化与人类疾病 (9)六、生物分子网络与系统生物学 (10)七、基因测序、组装和注释 (12)八、基于高通量DNA 测序数据的致病突变分析 (15)九、表观遗传学 (17)十、转录组学 (20)十一、转录选择性剪切 (22)十二、转录后修饰 (23)十三、翻译组学 (24)十四、蛋白结构分析 (27)十五、蛋白质组学 (28)十六、代谢组学 (29)十七、免疫组学 (31)十八、微生物组学 (32)十九、人工智能与智慧医疗 (34)(注:本资料为16级基础医学全体同学整理,答案仅供参考,请勿外传)一、基础数据库一、核酸数据库国际联盟INSDC由NCBI–GenBank、EBI–ENA(EMBL-Bank)、DDBJ–DDBJ三大核苷酸数据库组成的联合核苷酸数据库。
二、GenBank, ENA, DDBJGenBank是一个具有目录和生物学注释的核酸序列综合数据库,该数据库中包含了已经公开的30万多种不同物种生物的核酸序列,这些数据主要来源于全世界不同实验室和大规模测序计划项目。
数据库的序列数据来源于序列发现者提交的序列、批量提交的表达序列标签(EST)、基因组测序序列(GSS)和其他测序中心提供的高通量数据,还包括美国专利商标局提供的已发表专利的序列数据。
GenBank数据库每天与欧洲EMBL和日本的DDBJ进行数据交换,以保证数据库内容在全世界范围的同步性。
互相交换信息,因此三个库的数据实际上是相同的。
EMBL核苷序列数据库是欧洲主要的核苷序列收集单位,欧洲生物信息中心EBI维护这个数据库。
核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以及与合作伙伴DDBJ 和GenBank交换的数据。
DDBJ数据库是在亚洲唯一的核酸序列数据库,是搜集研究者公认的测定核酸序列的数据库,并且发放给数据提交者国际认证的核酸序列编号。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4、芯片技术的创新点 量变到质变:并行地做几百~几万个 southern 或 northern 局部到整体:生命科学研究从单个基因、孤立地研究发展到多基因组、基因组整体性研
究的崭新阶段 分为基因组分析芯片(检测基因序列的突变和多态)和基因表达谱分析芯片(检测基因
8、分段法 先利用检索工具进行常规检索,再利用文献后附参考文献进行追溯检索,分期分段地交
替使用这两种方法
9、文献检索的主要途径 分类途径、主题途径、著者途径和其他途径(各种号码索引、专用符号代码索引、专用
名词术语索引)
10、BLAST 的中英文全名 Basic local alignment search tools = 局部序列比对基本检索工具
原理:根据双重序列比对的差异程度(距离) 优点:使用序列进化模型、计算强度小、充分考虑不可见突变 缺点:屏蔽了真实的特征符数据
23、进化树质量评价的主要方法 ① 重复取样法:从原有数据中产生假重复数据。用多次抽样产生的新数据构建系统树,
每一个内部分支出现的次数与该分支的可靠程度呈正相关 自举法
② 整体评价法:用一致性指数 lc 和保持性指数 lr 来衡量。 lc = R / L lc 越大,同塑型的比例越小,系统树越可靠
能力,有些基因高度保守,如 16S rDNA 等,突变甚至可能会导致个体的死亡,因此此种基 因进化速率慢。
不同物种间的同源基因的进化速率也不同。这与不同物种的生存决策不同有关系(K 对 策和 S 对策),还和不同物种的生存环境有关系。
碱基的替换速率基本相同,有些重要基因的突变可能会影响生物体的正常生存,因此进 化速率慢,对于功能不重要的基因,比较容易积累突变,表现为较大的基因进化速率。
时其酶活也随之恢复 10、蛋白质折叠过程中的关键作用力
范德华力、氢键、盐键、疏水作用、二硫键
注:满分诀窍!学弟学妹们!考试时心中默念瑞根最犀利即可得高分!学长亲测!效果未知!
4、生物信息学对生命科学发展的作用与意义 作用: ① 从学科角度方面:生命科学进入了新的发展时期;研究体系的突破——局
部到整体;学科性质——经验型、资料积累到总结规律 ② 从研究人员角度:提高研究效率,深化研究成果、显著提升研究工作的意
义与价值 意义: 极大提高科研的效率、质量,促进生命科学实现跨越式的发展
2、结构生物学 研究核酸、蛋白质等生物大分子结构与功能的新兴学科 生物、物理、化学、计算机科学等一级学科的交叉学科 主要研究对象:核酸、蛋白质、多糖、类脂 在分子层面上对生物大分子的结构研究,阐明重要生命过程的分子机理
3、蛋白质结构研究的主要方法 晶体学技术:X 射线衍射、中子衍射技术、电子晶体
电子显微镜:透射显微:电子显微镜、近场光镜 扫描显微:激光共聚焦、原子力显微镜
28、蛋白质三级结构预测的主要方法 同源建模法(>30-40%相似性) 序列相似的蛋白质结构也很有可能相似 蛋白质的三维结构的保守性远大于序列的保守性 找相似度高的已知结构蛋白质 -> 序列比对 -> 建立起近似结构 -> 优化 折叠识别法(穿针引线法,相似性不高~20%) 蛋白质折叠种类有限 预测折叠模式 -> 平均势函数 从头预测法 假设:蛋白质的天然构象对应其自由能能最低 完全根据蛋白质的物理模型进行分子动力学模拟其折叠过程
5、世界上最权威的四大生物数据平台 美国人工蛋白质数据库、GenBank 数据库、欧洲分子生物学实验室(EMBL)、日本核
酸序列数据库(DDBJ)
6、检索工具法 直接利用检索工具检索文献信息的方法,又分为顺查法、倒查法、抽查法
7、追溯法
利用已知的文献末尾所列的参考文献为线索,进行逐一地追溯查找引文的一种最简便的 扩大信息来源的方法
21、进化树构建的数据种类 特征数据:存在有限不同状态的特征;描述性,定性; 来自解剖学、生理、行为研究的数据(如个体颜色、对某个刺激的反应时间等) 距离数据:两个数据集之间具有可衡量的差异 以 DNA、蛋白质序列数据为主
22、进化树构建的主要方法、各自的原理及优缺点 ① 基于特征符: 最大简约法 MP 原理:需找具有最少核酸或氨基酸替换的进化树 优点:正确性效率兼顾 缺点:受长枝效应影响大
7、基因进化树与物种进化树的区别 基因树:基于一种或少数几种同源基因(蛋白)的比较分析而构建的系统发生树,其实
质是基因的进化历史。 物种树:综合考察物种多方面的进化证据而构建的系统发生树。物种树一般通过对多个
基因家族的序列比对分析后,综合获得。
8、蛋白质结构预测的意义与目的 理论意义:“第二层次遗传密码子” 蛋白质的核酸序列 -> 蛋白质三维空间结构 -> 蛋
由各种次级键维持的球状结构 四级结构:由若干亚基组装成复杂蛋白
26、蛋白质二级结构预测方法根据其原理分类 ① 基于统计:Chou-Fasman 法、GOR 法、最小邻近法、马尔科夫模型、人工神经网络
法 ② 基于知识:Lim 方法、Cohen 方法 ③ 混合方法
27、蛋白质家族、蛋白质超家族 蛋白质家族:具有相似序列或序列同源性的一组蛋白质 蛋白质超家族:结构组成上有相似的折叠模体构成,但是序列之间几乎不存在相似性
组成:生命科学、数学、计算机科学、信息科学
2、推动生物信息学快速发展的学科 核心与灵魂:生命科学 基本工具:数学与计算机技术
3、“组”学的主要创新点对生命科学发展的作用与意义 所谓组学,即从一个整体的角度来研究。相对于传统生命科学零碎敲打的研究手段,研
究单个的基因或蛋白的功能、结构,而组学则是着眼于大局,将单个的基因、蛋白以“组” 的水平进行研究,从而对于生命科学能够有一个大局的把握。
17、有根树 不仅明确节点之间的相互关系,同时确定哪个节点是其他节点的共同祖先或最早从共同
祖先中分化出来的
18、无根树 只表明了节点之间的关系,没有确定某个共同祖先以及节点之间的进化关系
19、外类群 利用已有的进化信息,人为地引入已知的与被分析群体中进化关系最远的基因序列或物
种
20、确定树根的主要方法 ① 外类群法,引入与被分析群体中进化关系更远的基因序列或物种; ② 中点法,取最长的路径的中点(假设所有分支拥有基本相同的进化速率); ③ 倍增基因法,分析时引入成对的倍增基因(同源旁系基因)。
11、比对 排列两个或以上的序列,使其最大化利于分析序列的同源性和相似性等
12、局部比对与整体比对在打分矩阵方面的主要区别、用途 全局比对:空位罚分对空位出现的位置不加区别 进化分析、蛋白质三维结构或折叠方式 准全局比对:避免对序列一端或两端出现的空位进行罚分 在较长序列中搜索较短序列 局部比对:对空位的位置加以区分,小于零时归零,回溯重建比对,直到遇上零为止 搜索序列中短的保守片段(高灵敏度地发现短的保守序列)
简述题
1、生物信息学在生命科学中的地位、作用,及对生命科学的影响应用领域
地位与作用:
① 从学科角度方面: 研究体系的突破:局部到整体;
学科性质:
经验型、资料积累到总结规律
② 从研究人员角度:提高研究效率,深化研究成果,显著提升研究工作的意义与价值
应用领域:
生命科学研究——序列分析;ORF、序列组装;蛋白质结构预测;组学数据分析
R:所有性状的范围的总和,即性状可能变化的最小值 L:给定系统树的最小进化步数
24、Domain、fold、motif
Domain: 指具有特定且相对独立的三维立体结构、而且能够独立完成某种功能的蛋白质
的一部分;或指蛋白质序列中的某一保守区段
Fold: 蛋白质基本三维结构,包括:二级结构元件、元件间的顺序连接、元件之间的相
对空间位置
Motif: 在 DNA 或蛋白质序列上保守的短片段,或蛋白质结构上普遍存在的保守立体结
构元件
概念比较
结构层次
稳定性
完整结构
独立功能
motif
二级
不稳定
否
否
domain
三级
不稳定
否
是
fold
三级
稳定
是
是Байду номын сангаас
25、蛋白质的各级结构的定义 一级结构:氨基酸序列 二级结构:局部多肽链借助氢键排成特有的规则结构 三级结构:由远程肽段折叠产生,一般指多肽链的独立折叠单位经多重盘绕、折叠形成
13、相似性与同源性 同源性:定性描述 同源序列指由共同祖先基因或序列经趋异进化而形成的多个基因或序列 相似性:定量描述 通过序列比对过程中用来描述检测序列和目标序列之间相同 DNA 碱基或氨基酸残基序
列所占比例的高低
14、序列比对的主要应用 ① 数据库搜索——最常见用途 通过对海量序列数据库的搜索,找出与提交序列相似的序列 ② 多序列比对——进化树构建 发现特定基因家族的保守区段:同源克隆基因,利用 RNAi 沉默目标基因、基因功 能结构域分析 分子系统发生分析
的表达,研究基因的功能)
5、经典生物进化与现代分子进化研究的异同
传统系统发生
分子证据的地位
辅助
证据数量
少
研究成果性质
定性、推论
分化时间确定
真实
分子系统发生 核心 海量 定量、统计分析 推测
6、不同种类基因进化速度存在很大差异的分子机理 不同基因功能不同,有些如 HLA、病毒基因等需要更快的进化速率以提高物种的适应
15、BLASTN、BLASTP、BLASTX、tBLASTN、tBLASTP?
程序 BLASTN BLASTP BLASTX tBLASTN tBLASTX
数据库 核酸 蛋白 蛋白 核酸->蛋白 核酸->蛋白
查询 核酸 蛋白 核酸->蛋白 蛋白 核酸->蛋白
16、分子钟 氨基酸的匀速变异现象 基本规律: (1)不同类的基因间的氨基酸替换率存在显著差异 (2)同类的分子进化速率则几乎完全一致 同源蛋白质的差异取决于它们独立演化的时间 不同物种中的同源基因的进化速率不同