生物信息学复习资料

合集下载

生物信息学期末复习资料(小字)

生物信息学期末复习资料(小字)

生物信息学期末复习资料(小字)

名词解释或辨析。

1.生物信息学:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。

2.基因芯片:固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。利用这类芯片与标记的生物样品进行杂交,可对样品的基因表达谱生物信息进行快速定性和定量分析。

3.人类基因组计划:HGP,是一项规模宏大,跨国跨学科的科学探索工程。其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而描绘人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。

4.中心法则:分子生物学的基本法则,是1958年由克里克(Crick)提出的遗传信息传递的规律,包括由DNA到DNA的复制,由DNA到RNA的转录和由RNA 到蛋白质的翻译等过程。20世纪70年代逆转录酶的发现,表明还有由RNA逆转录形成DNA的机制,是对中心法则的补充和丰富。

5.相似性和同源性:相似性(similarity)和同源性(homology)是两个完全不同的概念。同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。相似性是指序列比对过程中检测序列和目标序列之间

相同碱基或氨基酸残基序列所占比例的大小。当两条序列同源时,他们的氨基酸或核苷酸序列通常有显著的一致性(identity)。如果两条系列有一个共同进化的祖先,那么他们是同源的。这里不存在同源性的程度问题,两条序列要么是同源的要么是不同源的。

生物信息学_复习题及答案(打印)

生物信息学_复习题及答案(打印)

一、名词解释:

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。

5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。

6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94

7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98

8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29

生物信息复习资料

生物信息复习资料

生物信息复习资料

生物信息复习资料

生物信息学是一门综合性学科,涉及生物学、计算机科学和统计学等多个领域。它的出现和发展,为我们深入研究生物体的基因组、蛋白质组以及其他生物大

数据提供了强有力的工具和方法。在生物信息学的学习和研究过程中,我们需

要掌握一些基本的概念、技术和工具。下面,我将为大家整理一些生物信息学

的复习资料,希望能够对大家的学习有所帮助。

一、基本概念

1. 生物信息学:生物信息学是一门研究生物体内信息的获取、存储、处理和分

析的学科。它通过运用计算机科学和统计学的方法,挖掘和解释生物体内的基因、蛋白质等分子信息,从而揭示生物体内的生命规律和机制。

2. 基因组学:基因组学是研究生物体基因组结构、功能和演化的学科。它通过

对生物体DNA序列的测定和分析,揭示基因组的组成、基因的定位和功能等信息。

3. 蛋白质组学:蛋白质组学是研究生物体蛋白质组成、结构和功能的学科。它

通过对生物体蛋白质的测定和分析,揭示蛋白质的组成、互作关系和功能等信息。

4. 基因表达谱:基因表达谱是指在特定条件下,生物体内基因的表达水平和模式。通过对基因表达谱的分析,可以了解基因在不同组织、不同发育阶段或者

不同环境条件下的表达情况,从而揭示基因的功能和调控机制。

二、常用技术和工具

1. DNA测序技术:DNA测序技术是获取生物体基因组序列的重要方法。常见

的DNA测序技术包括Sanger测序、高通量测序和单分子测序等。其中,高通

量测序技术如Illumina测序和Ion Torrent测序,具有高通量、高准确性和低成

本的特点,广泛应用于基因组学和转录组学研究。

生物信息学复习题已附答案

生物信息学复习题已附答案

本卷的答案仅做参考,如有疑问欢迎提出。后面的补充复习题要靠你们

自己整理答案了。

生物信息学复习题

一、填空题

1、识别基因主要有两个途径即基因组DNA外显子识别和基于EST策略的基因鉴定。

2、表达序列标签是从mRNA 中生成的一些很短的序列(300-500bp),它们代表在特定组织或发育阶段表达的基因。

3、序列比对的基本思想,是找出检测基因和目标序列的相似性,就是通过在序列中插入空位的方法使所比较的序列长度达到一致。比对的数学模型大体分为两类,分别是整体比对和局部比对。

4、2-DE的基本原理是根据蛋白质等电点和分子量不同,进行两次电泳将之分离。第一向是等电聚焦分离,第二向是SDS-PAGE分离。

5、蛋白质组研究的三大关键核心技术是双向凝胶电泳技术、

质谱鉴定技术、计算机图像数据处理与蛋白质数据库。

二、判断题

1、生物体的结构和功能越复杂的种类就越多,所需要的基因也越多,C值越大,这是真核生物基因组的特点之一。(对)

2、CDS一定就是ORF。(对)

3、两者之间有没有共同的祖先,可以通过序列的同源性来确定,如果两个基因或蛋白质有着几乎一样的序列,那么它们高度同源,就具有共同的祖先。(错)

4、STS,是一段200-300bp的特定DNA序列,它的序列已知,并且在基因组中属于单拷贝。(对)

5、非编码DNA是“垃圾DNA”,不具有任何的分析价值,对于细胞没有多大的作用。(错)

6、基因树和物种树同属于系统树,它们之间可以等同。(错)

7、基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。( 对)

生物信息学试题

生物信息学试题

生物信息学试题

一、选择题

1. 生物信息学主要研究的是:

A. 生物实验技术

B. 生物统计学

C. 生物大数据分析与计算

D. 生物体内生化反应

2. 在生物信息学中,常用的序列比对工具是:

A. BLAST

B. PCR

C. ELISA

D. SDS-PAGE

3. 下列哪个数据库主要用于存储核酸序列信息?

A. PDB

B. GenBank

C. UniProt

D. KEGG

4. 以下哪种方法不是用于蛋白质结构预测的?

A. 同源建模

B. 折叠识别

C. 从头预测

D. 实验测定

5. 生物信息学中的“基因家族”是指:

A. 一组具有相似序列和功能的基因

B. 一组来自同一物种的基因

C. 一组通过基因复制产生的基因

D. 一组控制同一生物过程的基因

二、简答题

1. 简述生物信息学在现代医学研究中的应用。

2. 描述PCR技术的原理及其在分子生物学中的重要性。

3. 解释什么是基因编辑技术,以及CRISPR-Cas9系统是如何工作的。

三、论述题

1. 论述生物信息学在新药发现和开发中的作用。

2. 分析比较RNA测序技术与DNA测序技术的优势和局限性。

四、计算题

1. 给定一个DNA序列:“ATGCGATACCTGAGCTG”,计算其碱基组成的比例。

2. 假设某种生物的基因组大小为200 Mb,每个碱基对的平均质量为650 Da,计算该基因组的大致质量。

五、案例分析题

1. 根据给定的某种疾病的基因组数据,分析可能的致病基因,并讨论其可能的生物机制。

2. 通过分析某物种的转录组数据,探讨其在特定环境下的适应性变化。

请注意,以上试题仅供参考,具体题目应根据实际教学大纲和考试要

生物信息学复习资料

生物信息学复习资料

生物信息学复习资料

第一章

1、什么是生物信息学?

生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义

2、BIOINFORMATICS这个词是谁提出的?

林华安

3、生物信息学的发展经过了哪些阶段?

前基因组时代、基因组时代、后基因组时代

4、HGP是什么意思?什么时候开始?什么时候全部结束?

人类基因组计划、1990.10、2003

5、生物信息学的研究对象是什么?

6、生物信息学的研究内容有哪些?

获取人和各种生物的完整基因组、新基因的发现、SNP分析(单核苷酸多态性:single nucleotide polymorphism,SNP)、非编码区信息结构与分析、生物进化;

全基因组的比较研究、蛋白质组学研究、基因功能预测、新药设计、遗传疾病的研究以及关键基因鉴定、生物芯片

7、学习生物信息学的目的是什么?

阐明和理解大量数据所包含的生物学意义

第二章

1、生物信息数据库有哪些要求?

时间性、注释、支撑数据、数据质量、集成性

2、生物信息数据库分为哪几级,每一级是如何让定义的,每一级各包含哪些数据库?

一级数据库二级数据库;

一级数据库:

数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释

二级数据库:

对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的

一级数据库:包括基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库

生物信息学复习要点

生物信息学复习要点

一、名词解释(每小题3分,共30分)

1.生物信息学

2.数据库技术

3.数据仓库

4.EST

5.概念性翻译

6.同源性

7.单系类群

8.全局排列

9.基因作图

10.直系同源体簇

二、填空题(每空1分,共10分)

1.生物信息学主要研究的两种信息载体是和。2.国际上的三大核苷酸序列数据库分别是、和。

3.数据挖掘的三大技术支柱是、和。

4.相同类型核苷酸的替换称为,不同类型核苷酸的替换称为。

三、单项选择题(每小题1分,共10分)

1. 在对模式生物进行全基因组的测定中,作为真菌模式生物的是。

A、大肠杆菌

B、青霉菌

C、酵母菌

D、线虫

2.NCBI成立于。

A、1988年

B、1989年

C、1990年

D、1992年

3.根据数据库管理系统所支持的基本数据模型的不同,可以将数据库分为五类,其中第二代数据库是。

A、层次数据库

B、网状数据库

C、关系数据库

D、分布式数据库

4.在向GenBank投送序列的工具中,是标准的序列投送工具。

A、Cn3D

B、tb12asn

C、BankIt

D、Sequin

5. 目前最为常用和注释最全的蛋白质序列数据库是。

A、Identify

B、OWL

C、PIR

D、SWISS-PROT

6. 下列选项中根据蛋白质三维折叠模式和进化关系划分的结构分类数据库是。

A、PDBsum

B、GDB

C、SCOP

D、CATH

7. 构建系统发生树的方法很多,其中耗时最短的是。

A、进化简约法

B、最大简约法

C、最大似然法

D、距离矩阵法

8. 下列数据库选项中不属于蛋白质序列二次数据库的是。

A、PROSITE

B、PRINTS

C、BLOCKS

生物信息学知识点总结分章

生物信息学知识点总结分章

生物信息学知识点总结分章

第一章:生物信息学概述

生物信息学是一门综合性学科,结合计算机科学、数学、统计学和生物学的知识,主要研

究生物系统的结构、功能和演化等方面的问题。生物信息学的发展可以追溯到20世纪70

年代,随着基因组学、蛋白质组学和生物技术的发展,生物信息学逐渐成为生物学研究的

重要工具。生物信息学的主要研究内容包括基因组学、蛋白质组学、代谢组学、系统生物

学等。生物信息学方法主要包括序列分析、结构分析、功能预测和系统分析等。

第二章:生物数据库

生物数据库是生物信息学研究的重要基础,主要用于存储、管理和共享生物学数据。生物

数据库包括基因组数据库、蛋白质数据库、代谢数据库、生物通路数据库等。常用的生物

数据库有GenBank、EMBL、DDBJ等基因组数据库,Swiss-Prot、TrEMBL、PDB等蛋白

质数据库,KEGG、MetaCyc等代谢数据库,Reactome、KeggPathway等生物通路数据库等。生物数据库的建设和维护需要大量的人力和物力,目前国际上已建立了众多生物数据库,为生物信息学研究提供了丰富的数据资源。

第三章:序列分析

序列分析是生物信息学研究的重要内容,主要应用于DNA、RNA、蛋白质序列的比对、搜

索和分析。常用的序列分析工具包括BLAST、FASTA、ClustalW等,这些工具可以帮助研

究人员快速比对和分析生物序列数据,从而挖掘出序列的相似性、保守性和功能等信息。

序列分析在基因组学、蛋白质组学和系统生物学等领域发挥着重要作用,是生物信息学研

究的基础工具之一。

第四章:结构分析

生物信息学期末期末复习

生物信息学期末期末复习

■一、选择题:

1.以下哪一个是mRNA条目序列号:

A.J01536■.NM_15392C.NP_52280D.AAB134506

2.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:

■.UnigeneB.EntrezC.LocusLinkD.PCR

3.一个基因可能对应两个Unigene簇吗?

■可能B.不可能

4.下面哪种数据库源于mRNA信息:

■dbESTB.PDBC.OMIMD.HTGS

5.下面哪个数据库面向人类疾病构建:

A.EST

B.PDB■.OMIMD.HTGS

6.Refseq和GenBank有什么区另1J:

A.Refseq包括了全世界各个实验室和测序项目提交的DNA序列

B.GenBank提供的是非冗余序列

■.Refseq源于GenBank,提供非冗余序列信息D.GenBank源于Refseq

7.如果你需要查询文献信息,下列哪个数据库是你最佳选择:

A.OMIM

B.Entrez■PubMedD.PROSITE

8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:

A.因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多

B.搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样

■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同

9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:

■N/W/YB.Q/W/YC.F/W/YD.Q/N/W

10.直系同源定义为:

■不同物种中具有共同祖先的同源序列

B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列

生物信息学复习重点

生物信息学复习重点

生物信息学就是一门交叉学科, 包含了生物信息得获取、加工、存储、分配、分析、解释等在内得所有方面, 它综合运用数学、计算机科学与生物学等得各种工具来阐明与理解大量数据所包含得生物学意义。生物信息学宗旨在揭示基因组信息结构得复杂性及遗传语言得根本规律。从生物分子获得与挖掘深层次生物学知识。

人类基因组计划(HGP):获得遗传图、物理图、序列图、转录图;终极目标:阐明人类基因组全部DNA序列;识别基因;建立储存这些信息得数据库;开发数据分析工具;研究HGP实施所带来得伦理、法律与社会问题。其中我国承担了人类3号染色体短臂。

记录:一个数据库记录一般由两部分组成:原始序列数据与描述这些数据生物学信息得注释。

冗余:在一个数据库存在着多个相同得项,如两个或者更多得记录中有一个相同序列

Fasta格式开始于一个标识符:">",然后就是一行描述。

GenBank格式:每个基因描述可有多个描述行,包含一行以LOUCUS开头描述行,基因序列以ORIGN开头,以//结尾。

EMBL:入口标识符ID,序列开始标识符SQ,结束就是//。

数据库得特点:①数据库就是可以检索得,即具有检索功能;②数据库应该就是定时更新得,即不断有新版内容发布;③数据库就是交叉引用得,特别就是在互联网时代,数据库应该通过超链接与其她数据库相连。

EST序列:表达序列标签对cDNA文库测序得到得,就是转录得DNA序列。

STS序列:序列标签位点染色体上位置已定得、核苷酸序列已知得、且在基因组中只有一份拷贝得DNA短片断,(200bp-500bp)。STS序列标签位点就是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作得短得、单拷贝DNA 序列,用于产生作图位点。

《生物信息学》复习资料

《生物信息学》复习资料

Conting(叠连群):又译作连续克隆系。为搞清某段DNA的排列顺序而建立的一组克隆。被克隆的DNA小片段有相互邻接并部分重叠的关系,从而可以完全覆盖该段DNA,一个这样的克隆群即为一个conting。

功能域:蛋白质中具有某种特定功能的部分,它在序列上未必是连续的。某蛋白质中所有功能域组合起来决定着该蛋白质的全部功能。

基因组:某一物种的一套完整染色体组中的所有遗传物质。其大小一般以其碱基对总数表示。基因组学:从事基因组的序列测定和表征描述,以及基因活性与细胞功能关系的研究。

人类基因组计划:HGP主要目标:提供公开的完全的高质量的含有30亿bp的人类基因组全序列。

生物信息学:是分子生物学,信息技术与科学,物理学,数学等学科交叉,结合的产物。其研究核心是基因组信息学及蛋白质组学。

序列标签位点:人类基因组中只出现一次的位置和序列已知的长度约为200~~500bp的特定DNA序列。

人工神经网络:是对人类大脑特性的一种描述。简单地讲,它是一个数字模型,可以用电子线路来实现,也可以用计算机程序来模拟,是人工智能研究的一种方法。

一级数据库:数据库中的数据直接来源于试验获得的原始数据,只经过简单的归类整理和注释。

二级数据库:根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库。

直系同源:是指来自于不同物种的由垂直家系(物种形成)进化而来基因,并且典型的保留与原始基因有相同的功能

旁系同源:指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向产生的几个同源基因,可能会进化出新的与原来有关的功能。

生物信息学_复习题及答案(打印)

生物信息学_复习题及答案(打印)

一、名词解释:

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。

5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。

6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94

7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98

8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29

生物信息学复习资料

生物信息学复习资料

⽣物信息学复习资料

第⼀章

1.⽣物信息学:⽤数学的、统计的、计算的⽅法来解决⽣物问题,这基于⽤DNA、氨基酸及相关信息。即⽣物+信息学,其中⽣物是指从基因型到表型:DNA/基因组→RNA→蛋⽩质→分⼦⽹络→细胞→⽣理学/疾病。信息学是指从数据到发现:数据管理→数据计算→数据挖掘→模型/模拟

2.⼈类基因组计划:①前基因组时代(1990年前):通过序列之间的对⽐,寻找序列变化,确定序列功能。②基因组时代(1990年后~2001年)迅猛发展:标志性的⼯作包括基因寻找和识别,数据库系统的建⽴。③后基因组时代(2001年⾄今)功能基因组研究:研究内容发展到基因和基因组的功能分析,即功能基因组,学研究。从传统的还原论研究⽣命过程转到了整体论思想。

2001年,中美⽇德法英6国科学家耗费⼗年,联合公布⼈类基因组草图

3.基因芯⽚:⼜称DNA芯⽚,由⼤量DNA或寡聚核苷酸探针密集排列形成的探针阵列。原理:杂交测序⽅法,在⼀定条件下,载体上的核酸分⼦可以与来⾃样品的序列互补的核酸⽚段杂交,如果把样品中的核酸⽚段进⾏标记,在专⽤的芯⽚阅读仪上就可以检测到杂交信号。药物处理细胞总mRNA⽤Cy5标记,未处理的细胞总mRNA⽤Cy3标记,颜⾊?将两者杂交形成固相探针,包含cDNA和寡核苷酸,最后进⾏结果观察和信息分析。

、EMBL、DDBJ

5.数据挖掘:①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不⼀致的数据⑤建⽴模型和假设

⑥实际数据挖掘⼯作⑦测试和验证挖掘结果⑧解释和应⽤。数据挖掘中的常见算法思想:判断、聚类、关联。数据挖掘模型:①监督模型、预测模型②⽆监督模型:聚类分析和关联分析②数据降维:主成分分析和因⼦分析。

生物信息学复习题

生物信息学复习题

生物信息学复习题

生物信息学复习题

生物信息学是一门研究生物学数据的收集、存储、管理和分析的学科。它利用计算机科学和统计学的方法来解决生物学中的问题。在这篇文章中,我将提供一些生物信息学的复习题,帮助大家巩固对这门学科的理解。

1. 什么是基因组学?

基因组学是研究生物体基因组的学科。它涉及到对基因组的序列、结构和功能的研究。基因组学的发展使得我们能够更好地理解基因组的组成和功能,从而有助于解决生物学中的一些重要问题。

2. 什么是DNA序列?

DNA序列是指DNA分子中碱基的顺序。DNA序列的研究可以帮助我们了解基因组的组成和功能。通过对DNA序列的分析,我们可以识别基因、预测蛋白质编码区域,并研究基因组的演化等。

3. 什么是蛋白质序列?

蛋白质序列是指蛋白质分子中氨基酸的顺序。蛋白质序列的研究可以帮助我们了解蛋白质的结构和功能。通过对蛋白质序列的分析,我们可以预测蛋白质的结构、功能和相互作用等。

4. 什么是序列比对?

序列比对是指将两个或多个序列进行比较,找出它们之间的相似性和差异性。序列比对可以通过比较序列中的碱基或氨基酸的顺序来进行。序列比对的结果可以帮助我们了解序列的进化关系,预测序列的功能以及发现新的序列。

5. 什么是基因表达谱?

基因表达谱是指在特定条件下,基因在细胞或组织中的表达水平。基因表达谱的研究可以帮助我们了解基因的功能以及基因在生物体中的调控机制。通过对基因表达谱的分析,我们可以发现与特定生理过程或疾病相关的基因。

6. 什么是蛋白质结构预测?

蛋白质结构预测是指根据蛋白质的氨基酸序列,预测蛋白质的三维结构。蛋白质结构预测的研究可以帮助我们了解蛋白质的功能和相互作用。通过蛋白质结构预测,我们可以预测蛋白质的功能、鉴定药物靶点以及设计新的蛋白质。

(完整word版)生物信息学复习资料(word文档良心出品)

(完整word版)生物信息学复习资料(word文档良心出品)

一、名词解释(31个)

1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程

中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。

2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、

实验数据和理论分析的基础上针对特定的应用目标而建立的。

3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组

序列的功能区域,也可用于研究一组蛋白质之间的进化关系。

4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树

状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。

5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该

是进化保守的并且在其他物种中具有直系同源性。

指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度)

6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会

进化出新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。(来自百度)

7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的

核苷酸或氨基酸字符串。

8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止

密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度)

生物信息学复习资料

生物信息学复习资料

第一章绪论

1、生物信息学*

采用计算机技术和信息论方法研究pro及核酸序列等各种生物信息的采集、储存、传递、检索、分析和解读的科学,是现代生命科学与信息科学、计算机科学、数学、统计学、物理学、化学等相互渗透而形成的交叉科学。

2、发展历程*

前基因组时代

基因组时代

后基因组时代

3、研究内容

1)、基因组和蛋白质组

2)、基因芯片

3)、数据库(基因组数据库、蛋白质数据库,其他数据库)

第二章生物信息学的分子生物学基础

1、概念

基因:是DNA分子上具有遗传信息的特点核苷酸序列的总称,即具有遗传效应的DNA分子片段基因。

基因组:包含细胞或生物体全套遗传信息的全部遗传物质。

蛋白质组:由基因表达产生的总蛋白质的总称。

2、基因克隆过程*

目的基因(DNA、RNA)—载体构建—转入表达(离子转化、电转化)—克隆筛选

3、DNA测序方法*

(1).酶促双脱氧法(2)、化学降解法

4、中心法则

转录翻译

DNA mRNA 蛋白质

5、起始密码子:AUG

终止密码子:UAA、UAG、UGA

第三章生物信息学的计算机基础

1、概念

1)数据仓库:是一个面向主题的、集成的、相随稳定的、反映历史变化的数据集合,用于支持决策。★2)计算机网络操作系统:为了使用计算机而专门设计的系统软件,它除了具有一般桌面操作系统的全面功能外,还应满足用户使用网络的需要。

3)数据挖掘:就是从数据库中抽取具有潜在价值的隐含信息的过程。★

4)数据库:是统一管理的相关数据的集合

5)数据库管理系统:对数据库进行管理的系统软件,提供数据库的建立、查询、更新以及各种数据库控制功能

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章

1.生物信息学:用数学的、统计的、计算的方法来解决生物问题,这基于用DNA、氨基酸及相关信息。即生物+信息学,其中生物是指从基因型到表型:DNA/基因组→RNA→蛋白质→分子网络→细胞→生理学/疾病。信息学是指从数据到发现:数据管理→数据计算→数据挖掘→模型/模拟

2.人类基因组计划:①前基因组时代(1990年前):通过序列之间的对比,寻找序列变化,确定序列功能。②基因组时代(1990年后~2001年)迅猛发展:标志性的工作包括基因寻找和识别,数据库系统的建立。③后基因组时代(2001年至今)功能基因组研究:研究内容发展到基因和基因组的功能分析,即功能基因组,学研究。从传统的还原论研究生命过程转到了整体论思想。

2001年,中美日德法英6国科学家耗费十年,联合公布人类基因组草图

3.基因芯片:又称DNA芯片,由大量DNA或寡聚核苷酸探针密集排列形成的探针阵列。原理:杂交测序方法,在一定条件下,载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交,如果把样品中的核酸片段进行标记,在专用的芯片阅读仪上就可以检测到杂交信号。药物处理细胞总mRNA用Cy5标记,未处理的细胞总mRNA用Cy3标记,颜色?将两者杂交形成固相探针,包含cDNA和寡核苷酸,最后进行结果观察和信息分析。

、EMBL、DDBJ

5.数据挖掘:①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用。数据挖掘中的常见算法思想:判断、聚类、关联。数据挖掘模型:①监督模型、预测模型②无监督模型:聚类分析和关联分析②数据降维:主成分分析和因子分析。

第二章:

1.Sanger法:①1977年,提出了“双脱氧核苷酸末端终止测序方法”②技术基础:PCR扩增;双脱氧核苷酸的扩增终止;电泳分离扩增片段③优点1.读取片段长

2.准确率高99.9% 缺点:1.测序通量低2.成本高、流程多④方法、原理:每个反应含有所以四种dNTP使之扩增,并混入限量的一种不同的ddNTP使之终止,由于ddNTP缺乏延伸所需要的3’-OH基团,使延长的寡聚核苷酸选择性地在G,A,T或 C 处终止,终止点由反应中相应的双脱氧而定,每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可以X-光胶片放射性自显影或非同位素标记进行检测

2. 第2代测序技术(2005)①特点:1.PCR反应空间限定在特定的微小载体中。降低成本,实现高通量2.边合成边测序以及平行测序②第一代测序就出现了自动化测序③Solexa步骤:(1)制备模板,单链片断固定到载片表面(2)DNA簇群生成(3)循环合成反应+荧光成像④技术基础:基于芯片或其他载体、3’受保护的荧光标记碱基、PCR ⑤优点:高通量、没有电泳的步骤,成本降低缺点:读取片段长度短、准确率下降

3.Read contig Scaffold ①Read:测序读到的碱基序列片段,测序的最小单位②contig:由reads通过对overlap区域拼接组装成的没有gap的序列段③Scaffold:通过pair ends信息确定出的contig排列,中间有gap

4.测序的应用:①遗传多样性分析②甲基化分析③研究与蛋白质结合的DNA序列特征④转录组测序

5. 转录组测序(RNA Seq):①定义:把mRNA, non-codingRNA(ncRNA) 和smallRNA全部或者其中一些用高通量测序技术进行测序分析的技术②ncRNA主要包括有:tRNA、rRNA、snRNA、核仁小分子RNA(snoRNA)、细胞质小分子RNA(scRNA)、不均一核RNA(hnRNA)、小RNA(microRNA, miRNA) ③方法:获得cell总RNA,然后根据实验需要,对RNA样品进行处理,处理好的RNA再进行片段化,然后反转录形成cRNA,获得cDNA文库,然后在cDNA片段接上接头,最后用新一代高通量测序进行测序④作用:(1)通过RNA-seq来分析基因表达量(2)通过RNA-seq分析基因表达网

络和编码基因的变异(3)通过RNA-seq分析可变剪切(4)通过RNA-seq分析小RNA

第三章

1.Fasta格式:DNA或Protein序列的最简单展示方式。大于号(>)表示一个新文件的开始,起着分隔符作用

2.GBFF格式:Genebank数据库的基本信息单位,是最广泛使用的生物信息序列格式之一。特征1.每个条目都是一份纯文本文件。每行左端为:空格或识别字,识别字均为完整英文字,不用缩写2.主体内容可以分成3个部分:①描述信息:从LOCUS开始②注释信息:从FEATURES开始③序列信息:从ORIGIN开始

3.所有的核苷酸数据库记录(EMBL/GenBank/DDBJ)都是在最后一行以//结尾

1.LOCUS:位点名/位置名,有8个字符,通常前面的字母代表特定物种名称

2.DEFINITION:说明。包括来源物种、基因/蛋白质名称、序列的完整性

3.ACCESSION:检索号

4.VERSION:版本号。格式:检索号.版本号。其后的GI号,一条核酸序列对应一个gi号,序列变化,gi号变化,但检索号不变

5.KEYWORDS, SOURCE(序列来源的简称)和ORGANISM(序列来源的物种名称和分类学位置)

6.Rerfence:与数据相关的参考文献收录在内

7.Feature:特性表。描述基因或基因的产物以及与序列相关的生物学特性

8.Origin:序列信息的起始位置

3.PubMed文献检索:Entrez系统中的数据库之一。检索工具:特定文献检索、临床查询、专题查询

第四章

1.序列比对:①定义:序列比对是寻找两条或多条序列(核酸或蛋白质)之间所有位置上的所有匹配方式,然后筛选出最佳匹配②分类:(1)全局比对vs局部比对(决定于有最大相似度的最长子序列) (2)两两比对(待测序列与DNA或蛋白质序列库进行比较,找出与此序列相似的已知序列)vs 多重比对(将待测序列加入到一组与之同源,但来自不同物种的序列进行多序列同时比较,以确定该序列与其他序列的同源性大小)③作用:(1)未知序列与已知序列进行比对,预测其结构和功能(2) 已知序列与另一种的已知序列之间进行比对,预测两者的进化关系(3)从方法论上来讲,结构分析,功能分析和相关分析是生物研究中最基本的研究目的

2.可接受的点突变:若两个不同aa背后的DNA水平上的点突变在进化过程中频繁发生,并能被进化接受。通常认为这两个氨基酸是同源或相似的。

3.蛋白质的打分矩阵:①PAM 相同残基之间的相似性分数越高,该aa比较保守,不易突变;不同残基之间的相似性分数越高,它们的相似性越高,容易互变(PAM-1指表示100个残基中发生了1个残基突变) ②blousm(BLOcks SUbstitution Matrix)对亲缘关系较远的蛋白序列比较,不考虑差异巨大的序列。只以相对保守的block为单位进行比对打分。③区别(1)用于产生矩阵的蛋白质

相关文档
最新文档