生物信息学复习资料全
大学生物信息学专业-复习资料整理
大学生物信息学专业-复习资料整理一、名词解释:生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型;利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
genbank序列格式:是GenBank数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释:第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P94查询序列(querysequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P98打分矩阵(scoringmatrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P29空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P29空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的过化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息复习资料
生物信息复习资料生物信息复习资料生物信息学是一门综合性学科,涉及生物学、计算机科学和统计学等多个领域。
它的出现和发展,为我们深入研究生物体的基因组、蛋白质组以及其他生物大数据提供了强有力的工具和方法。
在生物信息学的学习和研究过程中,我们需要掌握一些基本的概念、技术和工具。
下面,我将为大家整理一些生物信息学的复习资料,希望能够对大家的学习有所帮助。
一、基本概念1. 生物信息学:生物信息学是一门研究生物体内信息的获取、存储、处理和分析的学科。
它通过运用计算机科学和统计学的方法,挖掘和解释生物体内的基因、蛋白质等分子信息,从而揭示生物体内的生命规律和机制。
2. 基因组学:基因组学是研究生物体基因组结构、功能和演化的学科。
它通过对生物体DNA序列的测定和分析,揭示基因组的组成、基因的定位和功能等信息。
3. 蛋白质组学:蛋白质组学是研究生物体蛋白质组成、结构和功能的学科。
它通过对生物体蛋白质的测定和分析,揭示蛋白质的组成、互作关系和功能等信息。
4. 基因表达谱:基因表达谱是指在特定条件下,生物体内基因的表达水平和模式。
通过对基因表达谱的分析,可以了解基因在不同组织、不同发育阶段或者不同环境条件下的表达情况,从而揭示基因的功能和调控机制。
二、常用技术和工具1. DNA测序技术:DNA测序技术是获取生物体基因组序列的重要方法。
常见的DNA测序技术包括Sanger测序、高通量测序和单分子测序等。
其中,高通量测序技术如Illumina测序和Ion Torrent测序,具有高通量、高准确性和低成本的特点,广泛应用于基因组学和转录组学研究。
2. 生物信息学数据库:生物信息学数据库是存储和管理生物学数据的重要资源。
常见的生物信息学数据库包括GenBank、EMBL、DDBJ、NCBI、Ensembl和Uniprot等。
这些数据库提供了丰富的生物学数据,如基因序列、蛋白质序列、基因表达数据等,为生物信息学的研究和分析提供了基础。
生物信息学,复习资料
第一章生物信息学是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉结合形成的一门新学科,是利用信息技术和数学方法对生命科学研究中的生物信息进行存储。
检索和分析的科学。
1982年创建了GenBank数据库。
(1)序列数据资源:储存了生物信息学研究的原始数据,是生物信息学存在和发展的基础。
(2)序列比对与比对搜索:相似性分析是生物信息学最早涉及的问题之一。
常用的分析方法是序列比对。
(3)基因组结构注释(4)分子系统发生分析:系统发生关系是表示物种进化关系的参考依据。
通过分析分子水平的序列数据,可以了解物种系统发生的关系,目前常用树的形式来表示不同物种间的进化关系。
(5)蛋白质结构:蛋白质的空间结构是其行使功能的基础。
(6)蛋白质序列分析与功能预测。
(7)微阵列数据分析:微阵列是一种重要的基因表达高通量检测技术。
(8)蛋白质组数据分析:高通量的蛋白质组工程能够大范围地确定蛋白质功能,能确定蛋白质在哪种特殊的生理条件下会出现,还能确定那些蛋白质之间有相互作用。
(9)疾病相关研究:寻找疾病相关基因是认识疾病发生机理、研制疾病的基因诊断与防治手段的基础,也是人类基因组研究的重要手段。
(10)SNP芯片及深度测序数据分析。
视黄醇结合蛋白是一个相对分子质量小、被大量分泌的蛋白质,能结合血液中的视黄醇。
性质:①在多个物种中有许多蛋白质和RBP4同源,包括人、小鼠和鱼总的蛋白质。
②也有许多人类蛋白质额RBP4紧密相关,它们和RBP4的家族成为lipocalin家族——一群多样的小配体结合蛋白,它们倾向于分泌到细胞外空间。
③有细南的lipealin 蛋白,它们在对抗生素的抗性中起作用。
编码细菌lipocalin 的基因可能是一古老基因,它通过水平基因转移的过程进人真核生物基因组。
④些lipocalin 蛋白的表达水平受到显著的调控。
⑤lipealin 蛋白小而丰富,并且是可溶性的,它们的生物化学性质已被详细研究,许多蛋白质的三维结构也以x线晶体街射的方法被解析出来。
[整理]《生物信息学》学生复习资料.
《生物信息学》复习资料陈芳宋东光教材:《生物信息学简明教程》(钟扬编)1 绪论分子生物学与计算机、信息科学的结合-生物信息学(Bioinformatics);Bioinformatics is the science of storing, extracting, organizing, analyzing, interpreting, and utilizing information from biological sequences and molecules.生物信息学及其分支学科分子生物信息学(molecular informatics)-即狭义的生物信息学,指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据;生物信息学(bioinformatics)-广义的生物信息学指生命科学与数学、计算机科学和信息科学等交叉形成的一门边缘学科,对各种生物信息(主要是分子生物学信息)的获取、储存、处理、分析和阐释;生物信息学是广义的计算生物学的分支,在为生物学系统建模中应用了量化分析技术;计算分子生物学(computational molecular biology)-开发和使用数学和计算机技术以帮助解决分子生物学中的问题,侧重于发展理论模型和有效算法;分子计算(molecular computing)-将DNA作为一种信息储存器,应用PCR 技术和生物芯片等来进行计算。
生物信息学的主要目的不是分子发展最精致的算法,其目的是发现生物体以怎样的方式生存。
生物信息学和计算生物学研究包括从生物系统的性质抽象出为数学或物理模型,到实现数据分析的新算法,以及开发数据库和访问数据库的Web工具。
生物信息学的功能是表示、存储和分布数据。
开发从数据中发现知识的分析工具处于第二位。
生物信息学发展阶段与研究方向前基因组时代-数据库建立、检索工具的开发和蛋白质序列分析;基因组时代-基因寻找和识别、网络数据库系统的建立如EST数据库及电子克隆等;后基因组时代-大规模基因组分析、蛋白质组分析、各种数据的比较和整合。
生物信息学复习资料(信息管理与信息系统)
1.什么是生物信息学?生信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。
2.生物信息学的主要研究任务是什么,目前生物信息学的主要研究内容是什么?任务:收集和管理生物分子数据;数据分析和挖掘;开放分析工具和实用软件;生物分子序列比较工具、基因识别工具、生物分子结构预测工具、表达数据分析工具。
内容:(1)序列比对;(2)基因预测;(3)药物设计;(4)蛋白质结构预测;(5)基因调控网络的预测;(6)蛋白质相互作用预测;(7)分子进化分析3.常用核酸、蛋白、蛋白质结构、相互作用、信号通路数据库核酸数据库:NCBI、ENA、DDBJ蛋白质数据库:Expasy、Uniprot蛋白质结构数据库:SOPMA、prosite、Pfam、myhit、SWISS-MODEL、RasMol蛋白质相互作用数据库:GO 、David、String、InAct蛋白质信号通路数据库:KEGG、BioCarta Pathway、Reactome pathway4.三大核酸数据库都包括哪些?Gene bank EMBL DDBJ5.三大生物大分子核心数据库包括哪些?GenBank核酸序列数据库;UniPROT蛋白质序列数据库;PDB生物大分子结构数据库;6.Genbank格式与FASTA格式Genbank序列以10个为一组,在序列上标注碱基或者氨基酸残基数,查找和检索方便FASTA格式序列文件的第一行是由大于符号(>)打头的任意文字说明,主要为标记序列用。
从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号。
通常核苷酸符号大小写均可,而氨基酸一般用大写字母,文件中和每一行都不要超过80个字符(通常60个字符)7.BLAST的主要功能Blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。
Blastn:核酸序列对核酸库的对比,直接比较核酸序列的同源性。
生物信息学复习资料
1.生物信息学:是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法,以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。
2.生物信息数据库一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的.3数据库格式A.FASTA格式(通用的核酸和蛋白质序列记录,以“)”开始)•序列文件的第一行是由大于符号(>)打头的任意文字说明,主要为标记序列用。
•从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号。
通常核苷酸符号大小写均可,而氨基酸一般用大写字母。
•文件中和每一行都不要超过80个字符(通常60个字符)。
B.GenBank格式(序列的详细注解)GenBank和EMBL数据库基本数据的格式序列名称、长度、日期序列说明、编号、版本号物种来源、学名、分类学位置相关文献作者、题目、刊物、日期序列特征表碱基组成序列本身(每行60个碱基)C.pdb格式(包括原子坐标理化参数数据在内的蛋白质结构信息)蛋白质数据库(Protein Data Bank,PDB)[1]是一个生物大分子(如蛋白质和核酸)数据库, 内容包括由全世界生物学家和生物化学家上传的蛋白质或核酸的X光晶体衍射或者NMR核磁共振结构数据,这些数据可以通过PBD的会员组织(PDBe,PDBj,RCSB)免费获取。
PDB是由世界蛋白质数据库(Worldwide Protein Data Bank,wwPDB)管理。
PDB是结构生物学的关键性资源,大部分学术刊物,以及一些官方科研机构[如美国的国立卫生研究院(NIH)],现在都要求科学家将它们研究的蛋白质、核酸结构上传到PDB。
D.genpeptNCBI的蛋白质基本信息记录格式4.常用的数据库A.核酸序列数据库(1)欧洲分子生物学实验室的EMBL(2)美国生物技术信息中心的GenBank(3)日本遗传研究所的DDBJB.蛋白质序列数据库(1)PIR(Protein Information Resource)(2)SWISS-PROT(3)TrEMBL(4)NCBI(5)UniProtC.生物大分子结构数据库(1)PDB(Protein Data Bank)(2)MMDB(Molecular Modeling Database)说明下列数据库的主要功能:(1)PDB 蛋白质结构(2)ProSite 蛋白质模体、结构域和功能域、家族等。
生物信息学复习资料
生物信息学复习资料第一章1、什么是生物信息学?生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义2、BIOINFORMATICS这个词是谁提出的?林华安3、生物信息学的发展经过了哪些阶段?前基因组时代、基因组时代、后基因组时代4、HGP是什么意思?什么时候开始?什么时候全部结束?人类基因组计划、1990.10、20035、生物信息学的研究对象是什么?6、生物信息学的研究内容有哪些?获取人和各种生物的完整基因组、新基因的发现、SNP分析(单核苷酸多态性:single nucleotide polymorphism,SNP)、非编码区信息结构与分析、生物进化;全基因组的比较研究、蛋白质组学研究、基因功能预测、新药设计、遗传疾病的研究以及关键基因鉴定、生物芯片7、学习生物信息学的目的是什么?阐明和理解大量数据所包含的生物学意义第二章1、生物信息数据库有哪些要求?时间性、注释、支撑数据、数据质量、集成性2、生物信息数据库分为哪几级,每一级是如何让定义的,每一级各包含哪些数据库?一级数据库二级数据库;一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的一级数据库:包括基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库二级数据库:根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库3、请列出至少三个国际知名生物信息中心网站、至少三个核酸数据库、至少三个蛋白数据库。
网站:NCBI、EBI、SIB、HGMP、CMBI、ANGIS、NIG、BIC核酸数据库:EMBL、DDBJ、GenBank蛋白质序列数据库:PIR(Protein Information Resource)、SWISS-PROT、TrEMBL、UniProt、NCBI生物大分子数据库:PDB(Protein Data Bank)蛋白质结构分类数据库SCOP、蛋白质二级结构数据库DSSP、蛋白质同源序列比对数据库HSSP4、NCBI和EBI使用的搜索引擎分别是什么?NCBI提取工具:Entrez EBI提取工具:SRS65、GENBANK使用的基本信息单位是什么,包括哪几个部分,最后以什么字符结尾?基本信息单位:GBFF(GenBank flatfile, GenBank平面文件)格式:GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一哪几个部分:头部包含整个记录的信息(描述符)、第二部分包含了注释这一记录的特性、第三部分是核苷酸序列本身最后字符:所有序列数据库记录都在最后一行以“//”结尾6、什么是Refseq?The Reference Sequence database 参考序列数据库RefSeq数据库,即RefSeq参考序列数据库,美国国家生物信息技术中心(NCBI)提供的具有生物意义上的非冗余的基因和蛋白质序列7、FASTA格式有哪些部分组成,以什么字符开始?8.NCBI的在线和离线序列提交软件是什么?在线提交软件:Bankit 离线提交软件:Sequin第三章1、什么是同源、直系同源、旁系同源?同源性和相似性有什么区别?同源性:两条序列有一个共同的进化祖先,那么它们是同源的相似性:序列间相似性的量度同源性和相似性的区别:同源性是序列同源或者不同源的一种论断,而相似性或者一致性是一个序列相关性的量化,是两个不同的概念直系同源(orthology):不同物种内的同源序列旁系同源(paralogy):同一物种内的同源序列2、什么是序列比对、全局比对、局部比对?序列比对的关键问题是什么?序列比对:根据特定的计分规则,将两个或多个符号序列按位置比较排列后,得到最具相似性的排列的过程。
生物信息学复习要点
一、名词解释(每小题3分,共30分)1.生物信息学2.数据库技术3.数据仓库4.EST5.概念性翻译6.同源性7.单系类群8.全局排列9.基因作图10.直系同源体簇二、填空题(每空1分,共10分)1.生物信息学主要研究的两种信息载体是和。
2.国际上的三大核苷酸序列数据库分别是、和。
3.数据挖掘的三大技术支柱是、和。
4.相同类型核苷酸的替换称为,不同类型核苷酸的替换称为。
三、单项选择题(每小题1分,共10分)1.在对模式生物进行全基因组的测定中,作为真菌模式生物的是。
A、大肠杆菌B、青霉菌C、酵母菌D、线虫2.NCBI成立于。
A、1988年B、1989年C、1990年D、1992年3.根据数据库管理系统所支持的基本数据模型的不同,可以将数据库分为五类,其中第二代数据库是。
A、层次数据库B、网状数据库C、关系数据库D、分布式数据库4.在向GenBank投送序列的工具中,是标准的序列投送工具。
A、Cn3DB、tb12asnC、BankItD、Sequin5. 目前最为常用和注释最全的蛋白质序列数据库是。
A、IdentifyB、OWLC、PIRD、SWISS-PROT6. 下列选项中根据蛋白质三维折叠模式和进化关系划分的结构分类数据库是。
A、PDBsumB、GDBC、SCOPD、CATH7. 构建系统发生树的方法很多,其中耗时最短的是。
A、进化简约法B、最大简约法C、最大似然法D、距离矩阵法8. 下列数据库选项中不属于蛋白质序列二次数据库的是。
A、PROSITEB、PRINTSC、BLOCKSD、PDB9. 在系统发生树的检验中,较为常用的方法是。
A、MP法B、重复取样法C、NJ法D、ML法10. 下列工具中用于发现开放阅读框的软件是。
A、Translate ToolB、ORF FinderC、Gene WiseD、E-PCR四、多项选择题(每小题2分,共20分)1.生物大分子携带的三种信息是。
A、遗传信息B、功能信息C、调控信息D、进化信息2. 为实现3个抽象级别间的数据转换,DBMS提供的两层映射是。
生物信息复习资料
1.Homology (同源): 在进化上起源相同的两段核苷酸序列,特别是功能较重要的保守区段或基因。
2.Similarity(相似性): 两个序列(核酸、蛋白质)间的相关性。
3.Identity (同一性):两个序列(核酸、蛋白质)间未发生变异序列的关系。
4.Ortholog (直系同源): 具有共同祖先和相同功能的同源基因(无基因复制事件)称为直系同源。
直系同源基因由于物种分化事件产生,它能反映物种之间的进化关系。
5.paralog (并系同源): 并系同源基因是由于基因(重复)倍增事件产生的相似序列。
6.Xenolog (异同源): 由于染色体的横向转移而产生的相似序列。
7.global alignment (全局比对):全局比对是对序列从头到尾进行比较,试图使尽可能多的字符在同一列中匹配。
全局比对适用于相似度较高且长度相近的序列。
8.local alignment (局部比对):在某些部分相似度较高,而其他部位差异较大的序列。
9.p-value (P 值): 从某一总体中随机选样,根据随机试验中某一抽样事件属于该分布的概率范围,可计算这一随机事件属于该分部的概率,即误差造成的概率,一般用P 值表示。
P 值越小,随机事件造成的概率越小。
10.E-value(E 值或期望值):是序列比对中代表随机匹配可能性的一个数值。
代表了随机匹配概率造成的相似性的概率,即,目的片段与搜索获得的片段随机配对的可能性。
它的数字越接近于0,这两个片段随机配对的可能性就越小。
11.fasta format (FASTA 序列格式):最基本的、普遍的序列格式。
第一行描述符开始“>”字符,程序行包含序列,用于序列分析程序。
12.PSI-blast (位点特异的迭代BLAST ):PSI-BLAST 为检测蛋白质之间的关系提供了遥远的手段。
第一次BLAST 搜索后,利用结果中最相思的序列重新构建PSSM ,然后再使用该矩阵进行第二轮BLAST 搜索,再调整矩阵,搜索,如此迭代,直到找出最佳搜索结果。
《生物信息学》复习资料
Conting(叠连群):又译作连续克隆系。
为搞清某段DNA的排列顺序而建立的一组克隆。
被克隆的DNA小片段有相互邻接并部分重叠的关系,从而可以完全覆盖该段DNA,一个这样的克隆群即为一个conting。
功能域:蛋白质中具有某种特定功能的部分,它在序列上未必是连续的。
某蛋白质中所有功能域组合起来决定着该蛋白质的全部功能。
基因组:某一物种的一套完整染色体组中的所有遗传物质。
其大小一般以其碱基对总数表示。
基因组学:从事基因组的序列测定和表征描述,以及基因活性与细胞功能关系的研究。
人类基因组计划:HGP主要目标:提供公开的完全的高质量的含有30亿bp的人类基因组全序列。
生物信息学:是分子生物学,信息技术与科学,物理学,数学等学科交叉,结合的产物。
其研究核心是基因组信息学及蛋白质组学。
序列标签位点:人类基因组中只出现一次的位置和序列已知的长度约为200~~500bp的特定DNA序列。
人工神经网络:是对人类大脑特性的一种描述。
简单地讲,它是一个数字模型,可以用电子线路来实现,也可以用计算机程序来模拟,是人工智能研究的一种方法。
一级数据库:数据库中的数据直接来源于试验获得的原始数据,只经过简单的归类整理和注释。
二级数据库:根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库。
直系同源:是指来自于不同物种的由垂直家系(物种形成)进化而来基因,并且典型的保留与原始基因有相同的功能旁系同源:指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向产生的几个同源基因,可能会进化出新的与原来有关的功能。
分子钟:某一种蛋白质在不同物种间的取代数与所研究的物种间的分歧时间接近正线性关系,从而将分子水平的这种恒速变异称为“分子钟”。
蛋白质组:由一个细胞或一个组织的基因所表达的全部相应的蛋白质数据库查询:指对序列,结构以及各种二次数据库中的注释信息进行关键词匹配查找数据库搜索:是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。
生物信息学复习资料
生物信息学复习资料生物信息学是一门融合了生物学、计算机科学、数学和统计学等多个学科的交叉领域。
它的出现和发展为我们理解生命的奥秘提供了强大的工具和方法。
以下是对生物信息学的一些关键知识点的复习。
一、生物信息学的定义和范畴生物信息学主要是研究如何获取、处理、存储、分析和解释生物数据的学科。
这些数据包括但不限于基因组序列、蛋白质结构、基因表达数据等。
它的应用范围广泛,涵盖了从基础生物学研究到临床诊断和药物研发等多个领域。
二、生物数据的获取(一)测序技术现代测序技术的发展使得我们能够快速而准确地获取大量的生物序列信息。
第一代测序技术如 Sanger 测序法,虽然准确性高,但成本较高、通量较低。
而新一代测序技术如 Illumina 测序、Ion Torrent 测序等,则大大提高了测序的通量和速度,降低了成本,但在准确性上可能略有不足。
(二)基因芯片技术基因芯片可以同时检测成千上万个基因的表达水平,为研究基因表达模式和调控机制提供了重要的数据。
(三)蛋白质组学技术质谱技术是蛋白质组学研究中的重要手段,能够鉴定蛋白质的种类和修饰状态。
三、生物数据的存储和管理面对海量的生物数据,高效的数据存储和管理至关重要。
常用的数据库包括 GenBank、UniProt、PDB 等。
这些数据库采用了特定的数据格式和管理系统,以确保数据的完整性、准确性和可访问性。
四、生物数据的分析方法(一)序列比对序列比对是生物信息学中最基本的分析方法之一,用于比较两个或多个生物序列的相似性。
常见的比对算法包括全局比对(如NeedlemanWunsch 算法)和局部比对(如 SmithWaterman 算法)。
(二)基因预测通过对基因组序列的分析来预测基因的位置和结构。
常用的方法有基于同源性的预测、基于信号特征的预测等。
(三)蛋白质结构预测包括从头预测法和基于同源建模的方法。
从头预测法基于物理化学原理来构建蛋白质的三维结构,而同源建模法则利用已知结构的同源蛋白质来推测目标蛋白质的结构。
生物信息复习资料
生物信息名词解释1、相似性:描述序列相关性的量,同源蛋白质总在三维结构上有显著的相似性。
2、一致性:描述序列相关性的量,两序列同源时,他们的氨基酸或者核苷酸里通常具有显著的一致性。
3、生物信息学:20世纪分子生物学与计算机学交叉产生的新学科,用计算机数据库和计算机算法来分析蛋白质、基因和构成生物体的全部脱氧核糖核酸(基因组)。
4、蛋白质组学:对高通量蛋白质数据库进行分析的生物信息学工具与方法。
能够大范围的为蛋白质制定功能,确定蛋白质在哪个特殊生理条件下会出现,确定蛋白质之间的作用。
5、比较基因学:利用生物在进化上的亲缘关系,给予基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达家里和物种进化,来比较他们与人类之间的相似与相异,即比较基因组学。
6、同源(直系/旁系):两条序列之间有一个共同的祖先,那么他们就是同源的,直系同源序列是不同物种内的同源序列,来自物种形成的共同祖先基因;旁系同源基因是通过类似基因复制的机制产生的同源序列。
7、Blast:基本局部比对搜索工具,NCBI用来将一个蛋白质或DNA序列和各种数据库中其他序列进行比对的主要工具,是研究一个蛋白质或基因的最基本方法之一。
8、家族(family):一组金华市相关的共享一个或多个结构域/重复域的蛋白为一个家族。
9、结构域(模块)/domain(module):蛋白质中能折叠成特定三维结构的一段区域。
10、模体(指纹)/motif(fingerprint):蛋白质序列中较短的保守区域,通常指按一定模式排列的氨基酸残基,通常决定一个家族。
11、重复:重复区并不但年度折叠成一个球状的结构域,还包括一些短的重复模体序列。
12、PBD数据库:蛋白质和其他大分子结构的仓库,复制搜集蛋白质的结构信息,收录大量蛋白质三维结构文件,记录有原始结构数据,包括院子坐标,配基的化学结构和晶体结构的描述,通过评估模型质量和它们与实验数据的吻合程度来证实结构,目前拥有超过20000个结构记录。
生物信息学复习资料
⽣物信息学复习资料第⼀章1.⽣物信息学:⽤数学的、统计的、计算的⽅法来解决⽣物问题,这基于⽤DNA、氨基酸及相关信息。
即⽣物+信息学,其中⽣物是指从基因型到表型:DNA/基因组→RNA→蛋⽩质→分⼦⽹络→细胞→⽣理学/疾病。
信息学是指从数据到发现:数据管理→数据计算→数据挖掘→模型/模拟2.⼈类基因组计划:①前基因组时代(1990年前):通过序列之间的对⽐,寻找序列变化,确定序列功能。
②基因组时代(1990年后~2001年)迅猛发展:标志性的⼯作包括基因寻找和识别,数据库系统的建⽴。
③后基因组时代(2001年⾄今)功能基因组研究:研究内容发展到基因和基因组的功能分析,即功能基因组,学研究。
从传统的还原论研究⽣命过程转到了整体论思想。
2001年,中美⽇德法英6国科学家耗费⼗年,联合公布⼈类基因组草图3.基因芯⽚:⼜称DNA芯⽚,由⼤量DNA或寡聚核苷酸探针密集排列形成的探针阵列。
原理:杂交测序⽅法,在⼀定条件下,载体上的核酸分⼦可以与来⾃样品的序列互补的核酸⽚段杂交,如果把样品中的核酸⽚段进⾏标记,在专⽤的芯⽚阅读仪上就可以检测到杂交信号。
药物处理细胞总mRNA⽤Cy5标记,未处理的细胞总mRNA⽤Cy3标记,颜⾊?将两者杂交形成固相探针,包含cDNA和寡核苷酸,最后进⾏结果观察和信息分析。
、EMBL、DDBJ5.数据挖掘:①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不⼀致的数据⑤建⽴模型和假设⑥实际数据挖掘⼯作⑦测试和验证挖掘结果⑧解释和应⽤。
数据挖掘中的常见算法思想:判断、聚类、关联。
数据挖掘模型:①监督模型、预测模型②⽆监督模型:聚类分析和关联分析②数据降维:主成分分析和因⼦分析。
第⼆章:1.Sanger法:①1977年,提出了“双脱氧核苷酸末端终⽌测序⽅法”②技术基础:PCR扩增;双脱氧核苷酸的扩增终⽌;电泳分离扩增⽚段③优点1.读取⽚段长2.准确率⾼99.9% 缺点:1.测序通量低2.成本⾼、流程多④⽅法、原理:每个反应含有所以四种dNTP使之扩增,并混⼊限量的⼀种不同的ddNTP使之终⽌,由于ddNTP缺乏延伸所需要的3’-OH基团,使延长的寡聚核苷酸选择性地在G,A,T或 C 处终⽌,终⽌点由反应中相应的双脱氧⽽定,每⼀种dNTPs和ddNTPs的相对浓度可以调整,使反应得到⼀组长⼏百⾄⼏千碱基的链终⽌产物。
生物信息学复习资料
第一章绪论1、生物信息学*采用计算机技术和信息论方法研究pro及核酸序列等各种生物信息的采集、储存、传递、检索、分析和解读的科学,是现代生命科学与信息科学、计算机科学、数学、统计学、物理学、化学等相互渗透而形成的交叉科学。
2、发展历程*前基因组时代基因组时代后基因组时代3、研究内容1)、基因组和蛋白质组2)、基因芯片3)、数据库(基因组数据库、蛋白质数据库,其他数据库)第二章生物信息学的分子生物学基础1、概念基因:是DNA分子上具有遗传信息的特点核苷酸序列的总称,即具有遗传效应的DNA分子片段基因。
基因组:包含细胞或生物体全套遗传信息的全部遗传物质。
蛋白质组:由基因表达产生的总蛋白质的总称。
2、基因克隆过程*目的基因(DNA、RNA)—载体构建—转入表达(离子转化、电转化)—克隆筛选3、DNA测序方法*(1).酶促双脱氧法(2)、化学降解法4、中心法则转录翻译DNA mRNA 蛋白质5、起始密码子:AUG终止密码子:UAA、UAG、UGA第三章生物信息学的计算机基础1、概念1)数据仓库:是一个面向主题的、集成的、相随稳定的、反映历史变化的数据集合,用于支持决策。
★2)计算机网络操作系统:为了使用计算机而专门设计的系统软件,它除了具有一般桌面操作系统的全面功能外,还应满足用户使用网络的需要。
3)数据挖掘:就是从数据库中抽取具有潜在价值的隐含信息的过程。
★4)数据库:是统一管理的相关数据的集合5)数据库管理系统:对数据库进行管理的系统软件,提供数据库的建立、查询、更新以及各种数据库控制功能6)数据库技术:是研究数据库的结构。
存储、设计、管理和应用的一门软件学科7)数据库系统:采用数据库技术的计算机系统,由数据库、计算机软硬件和数据库和管理员共同组成的系统。
8)数据模型:是数据库结构和语义的一种抽象描述,由数据结构、数据操作和完整性约束三部分组成。
2、计算机网络类型★1)、集中模式2)、专用服务器模式3)、客户机/服务器模式4)、对等模式3数据仓库的基本特点1)、存储的信息是面向主题来组织的2)、有一处专门用来存储5~10年或更久的历史数据3)、具有统一的数据结构和编码规则4)、是只读数据库,一般不轻易做改动,只能定期刷新。
生物信息学复习整理
⽣物信息学复习整理⽣信整理⼀、重要概念1. ⽣物信息学的定义、研究内容、组成采⽤信息学的⽅法来研究⽣命科学定义:⽣物信息学迄今为⽌尚没有⼀个标准定义(⼴义:⽣命科学中的信息科学。
⽣物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的⽣理、病理、药理过程的中各种⽣物信息。
狭义:⽣物分⼦信息的获取、存贮、分析和利⽤。
)研究内容:①基础研究——数学:模型、算法;IT:数据库、计算机软、硬件开发②应⽤(⽣命科学研发)——序列分析:ORF、序列组装;蛋⽩质结构预测(新药研发);组学数据分析组成:数学+信息科学+计算机科学+⽣命科学2、推动⽣物信息学快速发展的学科核⼼和灵魂:⽣物学基本⼯具:数学与计算机技术3、“组”学的主要创新点对⽣命科学发展的作⽤与意义21世纪是⽣物技术和信息技术的时代,基因组研究由结构基因组研究转向功能基因组研究,蛋⽩质组学已成为当前研究的热点和重点,⽣物信息学加快了⽣命科学的发展步伐。
蛋⽩组研究的兴起和发展,在揭⽰⽣命运动的本质及疾病的诊断、治疗等⽅⾯发挥着重要作⽤。
随着基因组学研究的不断深⼊,在基因组测序、蛋⽩质序列测定和结构解析等实验的基础上,产⽣了⼤量有关⽣物分⼦的原始数据,这些原始的数据需要利⽤现代计算机技术进⾏收集、整理、管理以便检索使⽤,⽣物信息学应⽤⽽⽣,其研究重点集中在核酸和蛋⽩质两个⽅⾯。
所谓组学,即从⼀个整体的⾓度来研究。
相对于传统⽣命科学零敲碎打的研究⼿段,研究单个的基因或蛋⽩的功能、结构,⽽组学则是着眼于⼤局,将单个的基因、蛋⽩以“组”的⽔平进⾏研究,从⽽对于⽣命科学能够有⼀个⼤局的把握。
4、⽣物信息学对⽣命科学发展的作⽤与意义1.同上2.⽣物信息学的引⼊不仅能够帮助传统⽣物学的实验,还能够通过预测、模拟等来指导⽣物学的研究作⽤:(1) 从学科⾓度⽅⾯:⽣命科学进⼊了新的发展时期;研究体系的突破:局部到整体;学科性质:经验型、资料积累到总结规律(2) 从研究⼈员⾓度:提⾼研究效率、深化研究成果、显著增加论⽂“厚度”与“重量”意义:正对⽣命科学产⽣深远的影响,极⼤提⾼科研的效率、质量、促进⽣命科学实现跨越式的发展。
《生物信息学》复习资料
《生物信息学》复习资料《生物信息学》先锋版中译本第二版科学出版社打分政策:60% 期末考试(70%掌握内容、25% 熟悉内容、5% 理解内容)(请注意红体与黑体字)A: 生物信息学概述1. 生物信息学:生物信息学是生物学和信息技术的结合,是现代科学的又一个分支学科,它利用计算机对大量生物数据进行分析处理。
生物信息学把用于存储和搜索数据的数据库开发,与用于分析和确定大分子序列、结构、表达模式和生化途径等生物数据集之间的关系的统计工具和算法的开发结合在一起。
数据库生物信息学主要由三大部分组成算法与统计工具分析与解释测序策略:逐个克隆法、全基因组鸟枪法计算机在生物信息学中的作用:生物信息学需要计算机快速、可靠地执行重复任务的能力以及处理问题的能力。
然而,生物信息学中涉及的许多问题仍需要专家的人工处理,同时原始数据的完整性和质量也很关键。
生物信息学课程范围:使初学者理解生物信息学的基本原理,并获得相应的应用能力。
具体包括生物信息学的一些关键领域:数据库使用、序列和结构分析工具、注释工具、表达分析以及生化和分子途径分析。
2. 生物信息学实例:——数据库界面Genbank/EMBL/DDBJ, Medline, SwissProt, PDB, …——序列搜索与比对BLAST, FASTA, Clustal, MultAlin, DiAlign ——基因搜索Genscan, GenomeScan, GeneMark, GRAIL——蛋白结构域分析与鉴定pfam, BLOCKS, ProDom,——基因调控元件的计算机模式识别Gibbs Sampler, AlignACE,MEME——蛋白折叠预测PredictProtein, SwissModeler生物信息学网站:包括生物信息学资源、各种数据库和生物信息学分析工具的网站3. 五个必须知道的生物信息学网站:(详细参考书本p9)NCBI (The National Center for Biotechnology Information)/EBI (The European Bioinformatics Institute)/The Canadian Bioinformatics Resource http://www.cbr.nrc.ca/SwissProt/ExPASy (Swiss Bioinformatics Resource)http://expasy.cbr.nrc.ca/sprot/PDB (The Protein Databank)/PDB/B: 数据采集一、DNA, RNA和蛋白质测序1. DNA测序原理:DNA测序是采用全自动的链终止反应完成的,这一技术通过加入限量的双脱氧核苷酸来产生有特定终止碱基的嵌套DNA片段。
生物信息学复习资料全
一、名词解释(31个)1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程息的存贮、信息的涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。
狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。
2.二级数据库:对原始生物分子数据进展整理、分类的结果,是在一级数据库、实验数据和理论分析的根底上针对特定的应用目标而建立的。
3.多序列比对:研究的是多个序列的共性。
序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。
4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支的图形来概括各种〔类〕生物之间的亲缘关系,这种树状分支的图形称为系统发育树。
5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。
指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。
〔来自百度〕6.旁系〔并系〕同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。
用来描述在同一物种由于基因复制而别离的同源基因。
〔来自百度〕7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。
8.开放阅读框〔ORF〕:是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。
〔来自百度〕9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折叠得较为严密,各行其功能,称为结构域。
10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进展罚分,以控制空位插入的合理性。
〔来自百度〕11.表达序列标签:通过从cDNA文库中随机挑选的克隆进展测序所获得的局部cDNA的3’或5’端序列。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、名词解释(31个)1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程息的存贮、信息的涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。
狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。
2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
3.多序列比对:研究的是多个序列的共性。
序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。
4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。
5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。
指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。
(来自百度)6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。
用来描述在同一物种由于基因复制而分离的同源基因。
(来自百度)7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。
8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。
(来自百度)9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折叠得较为紧密,各行其功能,称为结构域。
10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。
(来自百度)11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的3’或5’端序列。
(来自文献)12.Gene Ontology 协会:13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。
14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。
16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。
17.Blastn:是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
(来自百度)18.Blastp:是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
(来自百度)19.Blastx:是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
(来自百度)20.Tblastn:是蛋白序列到核酸库中的一种查询。
与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
(来自百度)21.Tblastx:是核酸序列到核酸库中的一种查询。
此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
(来自百度)22.KEGG:京都基因与基因组百科全书,是系统分析基因功能、基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。
23.ChIP-Seq:就是通过高通量测序对ChIP所得到的序列进行测序,从而进行蛋白和DNA相互作用相关研究。
24.分子生物网络:25.蛋白质相互作用(PPI):是指蛋白质分子之间的相关性,并从生物化学、信号转导和遗传网络的角度研究这种相关性。
26.高通量测序:一次性对几百万到十亿条DNA分子进行并行测序,又称为下一代测序技术,其使得可对一个物种的转录组和基因组进行深入、细致、全貌的分析,所以又被称为深度测序。
27.比较蛋白质组学:即对模式生物或重要生命过程的蛋白质组学特征进行比较。
28.NCBInr:29.GT-AG结构:30.Entrez检索系统:面向生物学家的数据库查询系统,其特点之一是使用十分方便。
它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机地结合在一起,通过超文本,用户可以从一个数据库直接转入另一个数据库。
31.系统生物学:是从系统水平来理解生物学系统,利用一系列的原理与方法学来研究分子行为与系统特性与功能的关系,通过计算生物学来定量阐明和预测生物的功能、表型和行为。
二、选择题(30个)1.下面哪种数据库源于mRNA信息(A):A. dbEST、B. PDB、C. OMIM、D. HTGS2.如果我们试图做蛋白质亚细胞定位分析,应使用()。
A.NDB数据库、B.PDB数据库、C.GenBank数据库、D.SWISS-PROT数据库3.PIR是()。
A.核酸数据库、B.mRNA数据库、C.启动子数据库、D.蛋白质数据库4.以下哪一项不属于启动子研究围?()A.CpG 岛预测、B.转录起始点预测、C.糖基化修饰、D.甲基化检测5.HTGS的含义是(C)。
A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列6.STS的含义是()。
A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列7.HGP是(C)。
A.在线人类孟德尔遗传数据、B.国家核酸数据库、C.人类基因组计划、D.水稻基因组计划8、下列中属于一级蛋白质结构数据库的是:()A. EMBL、B. DDBJ、C. PDB、D.SWISS-PROT9.BLAST教案所程序中,哪个方法是不存在的?()A. BLASTP、B. BLASTN、C. BLASTX、D. BLASTQ10.人类基因组的结构特点不包括:()A. 基因进化、B. 基因数目、C.基因重复序列、D. 基因组复制11、下列哪个选项不是微阵列实验设计的容?()A. 贝叶斯网络法、B. 对照组的选择、C. 重复样本的使用、D. 随机化原则12、构建序列进化树的一般步骤不包括. ()A. 建立DNA文库、B. 建立数据模型、C. 建立取代模型、D. 建立进化树13、在Genbank数据库中,生物学工作者向其提交数据有两种方式,其中用于提交少量数据的是基于Web方式的()。
A. BankIt、B. Sequin、C. Version、D. Matrix14、序列数据库包括核酸序列数据库和蛋白序列数据库。
下列哪个不属于蛋白质序列数据库?() A. PIR 、B. Uniprot、 C. SWISS-PROT、 D. OMIM15、序列数据库包括核酸序列数据库和蛋白序列数据库。
下列哪个不属于核酸列数据库?()A. Genbank、B. GenPept、C. EMBL、D. DDBJ16、()是NCBI提供的集成检索工具,通过一次检索可查询NCBI多个子数据库中的相关信息。
A. Retrieve、B. SRS、C. Entrez、D. PIR17、Entrez数据库中的剪贴板的容量是()。
A.500条记录、B.1000条记录、C.5000条记录、D.10000条记录18、蛋白质信号肽的预测工具有()。
A.nnpredict、B.PredictProtein、C.SingalD、D.SingalP19、Bioinformatics的含义是()。
A. 生物信息学、B. 基因组学、C. 蛋白质组学、D. 表观遗传学20、目前应用于基因芯片表达数据统计分析的主要方法是()。
A. 卡方检验、B. 相关分析、C. 聚类分析、D. 正态性分布检验21、NCBI中人类无冗余基因数据库是()。
A. UniGene、B. UniPro、C. UniRef、D. URF22、基本局部比对搜素工具是()。
A. Mega、B. ClustalW、C. BLAST、D. GCG23、根据研究发现,人类基因组中真正编码蛋白质的区域仅占DNA 序列的()。
A.1-2%、B.3-5%、C.5-10%、D.10-20%24、被誉为“生物信息学之父”的科学家是()。
A. Dulbecco、B. Sanger、C.吴瑞、D. 林华安25、多序列比对工具是()。
A. BLAST、B. ClustalW、C. Mega、D. GCG26、生物芯片分析中使用的聚类分析输出图形主要以下列哪种方式表现?()A. 以彩色小方块阵列表示、B. 以蜂窝形状表示、C. 以黑白圆点表示、D. 以彩色线条表示27、HTGS的含义是()。
A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列28、accession number的含义是()。
A.登录号、B.算法、C.比对、D.类推29、()是欧洲分子生物学网EMBLnet的主要检索工具,也是一个开放的数据查询系统。
A. Query 、B. SRS、C. PDB、D. PIR30、数据挖掘的四个步骤不包括下列哪个. ()A. 数据选择、B. 数据转换、C. 数据记录、D. 结果分析三、是非题(16个)1、生物学就是实验科学,所有的研究结论从实验中来,于实验中得到验证。
2、比较是科学研究中最常见的方法,在生物信息学研究中,比对是最常用和最经典的研究手段。
3、两个蛋白质序列相似性超过30%就是同源蛋白。
4、蛋白质序列相似性指一级序列中氨基酸残基相同。
5、蛋白质序列相似性指氨基酸残基具有相似特性. 侧链基团大小电荷性、疏水性等相同。
6、核酸序列相似性指序列中相同碱基所占的比例。
7、对一段未知功能DNA片段进行功能预测需对其进行3位翻译。
8、对一段未知功能DNA片段进行功能预测需对其进行6位翻译。
9、相似性是指一种很直接的数量关系,无需实验验证。
10、相似性是指一种很直接的数量关系,也需实验验证。
11、不同种属间的同源序列称为直向同源序列。
12、不同种属间的同源序列称为共生同源序列。
13、所谓局部比对,即分析两个序列是否有局部序列的相似。
14、所谓整体比对,即找出两个序列全长的最优比对结果。
15、PSI-BLAST是BLAST程序家族中敏感性最高的子程序。
16、PHI-BLAST是BLAST程序家族中敏感性最高的子程序。
四、问答题(15个)1、生物信息学的发展经历了哪几个阶段2、序列的相似性与同源性有什么区别与联系?3、BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?4、生物信息学的主要研究领域。