共享——农业大学生物信息学课后练习题及答案汇总

合集下载

生物信息学课后习题

生物信息学课后习题

绪论1、生物信息学的概念及其组成部分生物信息学(Bioinformatics):是一门交叉学科,包含了生物信息的获取、处理、储存、分析、解释和应用在内的所有方面,它综合运用了生物学、计算机科学和数学等多方面的知识和方法,来阐述和理解大量生物学数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产业中的各种问题。

生物信息学的三个组成部分:①建立可以存放和管理大量生物信息学数据的数据库②研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具③使用这些工具去分析和解释不同类型的生物学数据2、生物信息学的主要研究领域①生物数据的建立与搜索②序列比较与相似性搜索③基因组结构注释④蛋白质结构与功能的预测⑤基因组数据分析⑥比较基因组合系统发生遗传学分析⑦功能基因组和蛋白质组学数据分析⑧信号传导、代谢和基因调节途径的构建与描述3、初级数据库二级数据库的概念说出几个数据并说明包含什么数据一级数据库(primary database):数据直接来源于实验获得原始数据,只经过简单的归类、整理和注释。

例如GenBank、EMBL、DDBJ、SWISSPORT、PDB二级数据库(secondary database):在一级数据库、实验数据和理解分析的基础上针对特定的目标衍生而来,是对生物学知识和信息的进一步整理。

例如human genome databases GDB转录因子数据库等4、简述核酸序列的测序①DNA测序一般原理DNA测序一般采用全自动的荧光标记链终止反应完成,该法利用了DNA聚合酶能从脱氧核糖核苷酸(dNTP)延伸但不能从双脱氧核糖核苷酸(ddNTP)延伸的特性,通过加入限量的荧光标记过的双脱氧核苷酸来产生有特定终止碱基的嵌套DNA片段,然后通过聚丙烯酰胺凝胶电泳(PAGE)分离并通过扫描仪读取序列(300-800bp)②基因组测序策略—分而治之---shortgun因为测序反应每次只能测300-800bp故先将基因组分割成一定大小的片段,然后对这些片段分别测序,测完后再将这些片段拼接起来—鸟枪法(shortgun)③一次性测序例如:表达序列标签(EST)是其中的代表,它对随机挑选的cDNA克隆进行两端一次测序得到300-500bp的片段,代表cDNA的一部分。

生物信息学复习题及答案

生物信息学复习题及答案

生物信息学复习题名词解释1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。

序列相似序列并不一定是同源序列。

(直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。

(旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。

基因复制事件是促进新基因进化的重要推动力。

(异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。

Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。

6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。

7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。

衡量序列之间相似性是否显著的期望值。

E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。

值:得分为所要求的分值比对或更好的比对随机发生的概率。

它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。

通常使用低于来定义统计的显著性。

生物信息学答案1111

生物信息学答案1111

一、名词解释(共15分,每个3分)1.生物信息学:(狭义)专指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据的学科;(广义)指生命科学与数学、计算机科学和信息科学等交汇融合所形成的一门交叉学科。

2.系统发生学:phylogenetics,研究物种之间的进化关系的一门学科,从生物信息的角度主要是利用核酸和蛋白质序列分析的方法进行。

3.BLAST:Basic Local Alignment Search Tool的缩写,基本的基于局部对准的搜索工具;一种快速查找与给定序列具有连续相同片断的序列的技术。

4.中心法则:是指遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程。

也可以从DNA传递给DNA,即完成DNA的复制过程。

这是所有有细胞结构的生物所遵循的法则。

5.CHIP:又称微阵列(microarray),有多种形式,主要由大量cDNA、寡核苷酸探针或蛋白质密集排列所形成的探针阵列,其工作的基本原理是通过核酸或蛋白质杂交的远离了检测表达信息。

二、填空题(共10分,每空1分)1. 目前三大主要综合性基因序列数据库是:Genebank;DDBJ和EMBL。

2. 蛋白质的折叠预测方法:同源建模,折叠识别和从头预测。

3. 在Pubmed中进行如下检索W ANG ym [au],表明检索是依据作者姓名;4. 进化树构建过程中采用的主要方法有:UPGMA;Neighbor joining;maximum likelihood;三、选择题(共10分,每个2分)1. 下列哪个选项不是微阵列实验设计的内容?(A)A:贝叶斯网络法B:对照组的选择C:重复样本的使用D:随机化原则2. 构建序列进化树的一般步骤不包括:(A)A:建立DNA文库B:建立数据模型C:建立取代模型D:建立进化树3. 下列中属于一级蛋白质结构数据库的是:(D)A. EMBLB. DDBJC. PDBD.SWISS-PROT4. 蛋白质结构预测分为:(C)A.一级和三级结构预测 B. 二级和空间结构预测C. 三级和空间结构预测D. 二级和三级结构预测5. Cy3/Cy5双色芯片主要用来研究:(D)A.蛋白的定位; B. 基因在染色体上的位置;C. 基因的可变剪接;D. 基因表达模式;四、简答题(共3题,15分)1.生物信息学分析的数据对象主要有哪几种?这些数据之间存在着什么关系?其研究重点主要落实在核酸和蛋白质两个方面,包括它们的序列、结构和功能(1分)。

生物信息学复习题已附答案

生物信息学复习题已附答案

本卷的答案仅做参考,如有疑问欢迎提出。

后面的补充复习题要靠你们自己整理答案了。

生物信息学复习题一、填空题1、识别基因主要有两个途径即基因组DNA外显子识别和基于EST策略的基因鉴定。

2、表达序列标签是从mRNA 中生成的一些很短的序列(300-500bp),它们代表在特定组织或发育阶段表达的基因。

3、序列比对的基本思想,是找出检测基因和目标序列的相似性,就是通过在序列中插入空位的方法使所比较的序列长度达到一致。

比对的数学模型大体分为两类,分别是整体比对和局部比对。

4、2-DE的基本原理是根据蛋白质等电点和分子量不同,进行两次电泳将之分离。

第一向是等电聚焦分离,第二向是SDS-PAGE分离。

5、蛋白质组研究的三大关键核心技术是双向凝胶电泳技术、质谱鉴定技术、计算机图像数据处理与蛋白质数据库。

二、判断题1、生物体的结构和功能越复杂的种类就越多,所需要的基因也越多,C值越大,这是真核生物基因组的特点之一。

(对)2、CDS一定就是ORF。

(对)3、两者之间有没有共同的祖先,可以通过序列的同源性来确定,如果两个基因或蛋白质有着几乎一样的序列,那么它们高度同源,就具有共同的祖先。

(错)4、STS,是一段200-300bp的特定DNA序列,它的序列已知,并且在基因组中属于单拷贝。

(对)5、非编码DNA是“垃圾DNA”,不具有任何的分析价值,对于细胞没有多大的作用。

(错)6、基因树和物种树同属于系统树,它们之间可以等同。

(错)7、基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。

( 对)8、对任意一个DNA序列,在不知道哪一个碱基代表CDS的起始时,可用6框翻译法,获得6个潜在的蛋白质序列。

(对)9、一个机体只有一个确定的基因组,但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。

(对)10、外显子和内含子之间没有绝对的区分,一个基因的内含子可以是另一个基因的外显子,同一个基因在不同的生理状况或生长发育的不同阶段,外显子组成也可以不同。

共享——农业大学生物信息学课后练习题及答案汇总

共享——农业大学生物信息学课后练习题及答案汇总

2014级山东农业大学大二下学期期末生物信息学课后练习题及答案第一章绪论1、什么是生物信息学?答:广义的生物信息学:生命科学与数学、计算机科学和信息科学交汇融合形成的一门交叉学科应用先进的数据管理技术、数学分析模型和计算软件对各种生物信息进行提取、储存处理和分析,旨在掌握复杂生命现象的形成模式与演化规律。

狭义的生物信息学:应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据,也被称为分子生物信息学。

2、列举5个在生物信息学发展史上有重要意义的事件(技术发明或软件创新)答:1953年,由沃森和克里克提出DNA双螺旋结构模型,并发表于NATURE杂志。

(Nature, 1953)。

1955年,桑格采用二硝基氟苯(FDNB)法,首次成功地完成了第一个蛋白质-牛胰岛素的序列分析。

1965年,祖卡坎德尔和鲍林提出的“分子钟”理论。

(Evolving genes and proteins, 1965)1977年,桑格等发表双脱氧链末端终止法,测定ϕX174序列。

(PNAS, 1977)1988年,人类基因组计划提出。

(Science, 1986)1995年,H. influenza genome第一个测序成功的基因组。

(Science, 1995)2001年,人类基因组草图公布。

(Nature, 2001; Science, 2001)2005年,新一代测序技术出现。

(Nature, 2005)3、生物信息学的研究内容都有哪些?答:1.获取人和各种生物的完整基因组2.发现新基因和新的单核苷酸多态性3.基因组中非编码区信息结构分析4.完整基因组的比较研究5.功能基因组研究6.生物大分子结构模拟与药物设计7.生物信息学的发展与应用研究第二章生物信息学资源1、什么是一级数据库,什么是二级数据库答:1.数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释。

一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。

生物信息学题库 -精校+整理

生物信息学题库 -精校+整理

生物信息学题库一、名词解释1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。

2、相似性(similarity):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA 碱基或氨基酸残基顺序所占比例的高低。

3、同源性(homolo gy):生物进化过程中源于同一祖先的分支之间的关系。

4、BLAST(Basic Local Alignment Search Tool):基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。

5、HMM隐马尔可夫模型:是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。

6、一级数据库:一级数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释(投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中)7、二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

8、GenBank:是具有目录和生物学注释的核酸序列综合公共数据库,由NCBI构建和维护。

9、EMBL: EMBL实验室:欧洲分子生物学实验室。

EMBL 数据库:是非盈利性学术组织EMBL建立的综合性数据库,EMBL 核酸数据库是欧洲最重要的核酸序列数据库,它定期地与美国的GenBank、日本的DDBJ数据库中的数据进行交换,并同步更新。

10、DDBJ:日本核酸序列数据库,是亚洲唯一的核酸序列数据库。

11、Entrez:是由NCBI主持的一个数据库检索系统,它包括核酸,蛋白以及 Medline文摘数据库,在这三个数据库中建立了非常完善的联系。

12、SRS(sequence retrieval system):序列查询系统,是EBI提供的多数据库查询工具之一。

生物大数据_福建农林大学中国大学mooc课后章节答案期末考试题库2023年

生物大数据_福建农林大学中国大学mooc课后章节答案期末考试题库2023年

生物大数据_福建农林大学中国大学mooc课后章节答案期末考试题库2023年1.翻译contig参考答案:跨叠克隆群##%_YZPRLFH_%##重叠克隆群##%_YZPRLFH_%##克隆重叠群##%_YZPRLFH_%##重叠群##%_YZPRLFH_%##克隆叠连群2.导致氨基酸改变的核苷酸变异称为__________突变,它又可分为错义突变或无义突变参考答案:非同义3.生物信息学主要是利用哪种工具实现对生命科学研究中生物信息的存储、检索和分析的?()参考答案:计算机4.Proteomics的含义是()参考答案:蛋白质组学5.被誉为“生物信息学之父”的科学家是()参考答案:林华安6.利用PubMed文献数据查找论文“Transgenic plants of Petunia hybridaharboring the CYP2E1 gene efficiently remove benzene and toluenepollutants and improve resistance to formaldehyde”的第一作者是参考答案:Zhang D7.Bioinformatics的含义是()参考答案:生物信息学8.核酸序列一个位点的InDel会引起编码蛋白质的________突变参考答案:移码9.全基因组中拷贝数变异CNV有5种形式,列举一种_________参考答案:缺失##%_YZPRLFH_%##串联复制##%_YZPRLFH_%##不连续的复制##%_YZPRLFH_%##高层次的复制##%_YZPRLFH_%##复杂的拷贝数变异##%_YZPRLFH_%##高层次的复制变异##%_YZPRLFH_%##不连续的复制变异##%_YZPRLFH_%##串联复制变异##%_YZPRLFH_%##缺失变异10.Q值低于___时,相应的读段应该过滤掉参考答案:3011.数据库提供了最全面和可靠的注释信息,被称为蛋白质序列数据的“黄金标准”。

《生物信息学》题集

《生物信息学》题集

《生物信息学》题集一、选择题(每题3分,共30分)1.生物信息学的主要研究对象是什么?A. 蛋白质结构B. 基因序列C. 生态系统D. 细胞代谢2.下列哪项技术不是生物信息学中常用的数据库技术?A. BLASTB. GenBankC. PubMedD. SWISS-PROT3.在生物信息学中,进行多序列比对时常用的软件是什么?A. MATLABB. ClustalWC. ExcelD. PowerPoint4.哪种算法常用于基因表达数据的聚类分析?A. K-meansB. DijkstraC. A*D. Floyd5.生物信息学中,下列哪项不是常用的序列分析技术?A. PCRB. 测序C. 质谱分析D. 芯片技术6.下列哪项不是生物信息学在医学领域的应用?A. 疾病诊断B. 药物设计C. 天气预报D. 个性化医疗7.下列哪项技术常用于生物大分子的结构预测?A. NMRB. X射线衍射C. 同源建模D. 质谱分析8.在生物信息学中,下列哪项不是基因注释的内容?A. 基因功能B. 基因表达水平C. 基因在染色体上的位置D. 基因的长度9.下列哪项技术不是高通量测序技术?A. Sanger测序B. Illumina测序C. 454测序D. SOLiD测序10.下列哪项不是生物信息学在农业领域的应用?A. 作物育种B. 病虫害防治C. 土壤成分分析D. 农产品品质改良二、填空题(每题2分,共20分)1.生物信息学是一门交叉学科,它主要涉及______、计算机科学和数学等领域。

2.在生物信息学中,______技术常用于基因序列的相似性搜索。

3.生物信息学在药物研发中的主要应用包括______和药物靶点的预测。

4.在基因表达数据分析中,______是一种常用的数据标准化方法。

5.生物信息学中,______技术常用于蛋白质结构的预测和分析。

6.在生物信息学数据库中,GenBank主要存储的是______数据。

生物信息学习题

生物信息学习题

GTATCACACG ACTCAGCGCA GCATTTGCCC
GTATCACATA GCTCAGCGCA GCATTTGCCC
6、对于下列距离矩阵,用 UPGMA 构建系统发生树。
ABCDE
A0
B3 0
C6 5 0
D 9 9 10 0
E 12 11 13 9 0 7、对下面距离矩阵,用 UPGMA 法构建系统发生树
1、蛋白质得分矩阵类型有 、
、、

等。
2、对位排列主要有局部比对和 三、运算题 1、画出下面两条序列的简单点阵图。将第一条序列放在 x 坐标轴上,将第二条序列放在 y
坐标轴上。 TGAACTCCCTCAGATATTA CGAACCCTCACATATTAGCG
2、对两个核酸序列 ACACACTA 和 AGCACACA 进行全局比对
第八章 后基因组时代的生物信息学(问题与练习)
1、 比较生物还原论与生物综合论的异同 2、 简述“后基因组生物信息学”的基本研究思路 3、 后基因组生物信息学的主要挑战是什么? 4、 功能基因组系统学的基本特征是什么? 5、 说明后基因组生物信息学对信息流动的最新理解 6、 列举几种预测蛋白质-蛋白质相互作用的理论方法 7、 解释从基因表达水平关联预测蛋白质-蛋白质相互作用的理论方法 8、 解释基因保守近邻法预测蛋白质-蛋白质相互作用的理论方法 9、 解释基因融合法预测蛋白质-蛋白质相互作用的理论方法 10、解释种系轮廓发生法预测蛋白质-蛋白质相互作用的理论方法
正确的树的可能性比前一种情况大还是小?
5、对于下列 5 条序列的比对构造一个距离矩阵,其中序列之间的距离值为比对中失配的碱
基数目,但是颠换的权值为转换的两倍。
GTGCTGCACG GCTCAGTATA GCATTTACCC

生物信息学_复习题及答案(打印)

生物信息学_复习题及答案(打印)

一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。

利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。

5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。

6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。

P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。

包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。

P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。

生物信息学课后题及答案

生物信息学课后题及答案
为疾病的诊断和治疗提供依据 为设计新药提供依据
三.第二章
1、简述三干六界学说。
2.TSS,外显子和内含子的概念。 TSS是转录起始位点(Transcription Start Site)的英文缩写,是 指DNA上一段与RNA聚合酶结合并起始转录的一段DNA序列。真核生物 结构基因,由若干个编码区和非编码区互相间隔开但又连续镶嵌而 成,去除非编码区再连接后,可翻译出由连续氨基酸组成的完整蛋白 质,这些基因称为断裂基因。其中的编码区即为外显子,非编码区即 为内含子。
6、简述PAM矩阵与BLUSUM矩阵的关系 (1)两者都在打分系统中使用对数比值; (2)PAM矩阵是基于近相关蛋白家族数据的,并且假设高度相关蛋白的 取代概率可以外推到远相关蛋白的概率。BLOSUM矩阵是基于实际观测到 的远相关蛋白比对。 (3)高值BLOSUM矩阵和低值PAM矩阵最适合于研究高度保守的蛋白;低 值BLOSUM矩阵和高值PAM矩阵最适合检测远相关蛋白。 (4)一般来说,在局部相似性搜索上, BLOSUM 矩阵较PAM要好。对于 数据库搜索来说一般选择BLOSUM62矩阵。PAM矩阵可用于寻找蛋白质的 进化起源,BLOSUM矩阵用于发现蛋白质的保守域。
绘制成功,人类基因组计划的.目标全部实现。 2004,人类基因组完成图公布。 2.我国自主知识产权的主要基因组测序计划有哪些? 水稻(2002),家鸡(2004),家蚕(2007),家猪(2012),大熊猫 (2010)
2. 第一章
1、生物信息指哪些? 主要有从DNA序列、蛋白质序列、蛋白质结构和功能研究中解读的:
2、GBFF格式的特性表格式包括哪三个部分? 特性表格式包含三个部分: 第一,特性关键词(Feature key); 第二,特性位置(Location); 第三,限定词(Qualifiers)

生物信息学慕课答案.docx

生物信息学慕课答案.docx

生物信息学慕课答案问:情志转移法的具体方法不包括_______ 。

答:疏导宣散问:下列哪一项不是中医饮食养生所提倡答:B问:《素问·脏气法时论》指出“五为养,五为助,五为益,五为充,气味合而服之,以补精益气”,全面概述了饮食的主要组成内容答:C问:吴三桂被封为答:平西王问:清代书画家的朱耷号,书法用笔简练,欹正朴茂。

答:八大山人问:下列哪个属于正确的海洋生态观?()A.海洋流氓B.海洋终结者C.科学主义与人文主义相统一D.向海洋贪婪索取(1.0分)答:科学主义与人文主义相统一问:以下关于战争中的正义方问题的表述,正确的是()。

答:战争中一定有不正义方,但不一定有正义方问:唐玄奘“西天取经”的“经”,最后存放在下列哪处历史古迹中?答:大雁塔问:怀疑肝癌时应做哪些检查?答:B超检查 AFP检测活体组织检查问:天山天池位于新疆的哪个地方?答:阜康市问:从历史的角度来看,以下哪些原因是导致战争爆发的原因?答:人性中的自私、占有欲和自我实现欲国家存在的一些缺陷实力的不均衡分布、国际社会的无政府状态以及全球自然资源的有限性问:达尔文的进化论是个反目的的进化论。

()答:正确问:农业革命是人类发展史上里程碑性事件,考古学上把这样的革命性变化,叫做“新石器时代革命”。

答:正确问:国际格局由哪些要素构成?( )答:大国实力对比大国战略关系问:我国已经发现的新石器时代遗址总数超过10000处,已命名的考古学文化不少于50个。

答:A问:高学历的人也会陷入传销是因为他们也抱着快速致富的想法而忽略了踏踏实实做事。

()答:正确问:7. 网址www. pku. edu. cn中的cn表示( )。

答:D问:国际格局由哪些要素构成?( )答:大国实力对比大国战略关系问:春秋时期,诸侯王为了壮大本国实力,开始出现调和与民众之间的关系,主要措施包括()。

答:ABD问:1.九阳豆浆模仿绿山咖啡失败的因素有( )答:市场需求价格定位用户需求。

生物信息学复习题及答案

生物信息学复习题及答案

生物信息学复习题及答案一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。

利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。

包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。

P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。

P37值:衡量序列之间相似性是否显著的期望值。

E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。

P9512.低复杂度区域:BLAST搜索的过滤选项。

共享——农业大学生物信息学课后练习题及答案

共享——农业大学生物信息学课后练习题及答案

2014级山东农业大学大二下学期期末生物信息学课后练习题及答案 第一章
1、什么是生物信息学? 2、列举5个在生物信息学发展史上有重意义的事件(技术发明或软件创 新)
3、生物信息学的研究内容都有哪些? 1. What is the bioinformatics? 2. Enumerate five significance events in the bioinformatics development. 3. What are the questions for bioinformatics to answer? 第二章 1、什么是一级数据库,什么是二级数据库 2、世界上三大核酸数据库分别叫什么,由什么机构进行维护,两个重 要的蛋白质数据库分别是什么,蛋白质三维结构数据库是什么,他们分 别由什么机构进行维护。
物种I和物种II中的a1或a2被称作直系同源,因为它们来自同一祖先,
而物种I或物种II中的a1和a2被称作旁系同源,因为它们是由基因复制
得到的。
3、 什么是相似性(similarity)、同一性(identity)?他们的 关系?
答: 4、什么是点阵图(dot matrix)?作用与优点。 答:1.点阵图分析(Dot matrix analysis):是双序列比对的基本方
2005年, 新一代测序技术出现。(Nature, 2005)
3、生物信息学的研究内容都有哪些? 答:1.获取人和各种生物的完整基因组
2.发现新基因和新的单核苷酸多态性 3.基因组中非编码区信息结构分析 4.完整基因组的比较研究 5.功能基因组研究 6.生物大分子结构模拟与药物设计 7.生物信息学的发展与应用研究 第二章 生物信息学资源
列往往具有相似的结构与功能; 2、用于进化分析,是用系统发育方法构建进化树的初使步骤; 3、通过序列比对发现直系同源(Orthologs)与旁系同源(Paralogs)

生物信息学试题及个人答案(非参考答案)

生物信息学试题及个人答案(非参考答案)

生物信息学答题卷考题一:到蛋白质序列数据库中查询一条杆状病毒(Baculovirus)DNA聚合酶(DNA polymerase)的完整序列,写出序列名称、登录号及来源物种的分类情况,然后用Blast(注意:写出所用程序及所搜索的数据库名称)搜索到数据库中和它相似程度较高的10条序列(写出这些序列的名称和登陆号及来源物种的分类情况。

要求至少包括3-4个属,每个属中选择1-2个种),对这10条序列进行多序列比对后(写出比对所用程序及比对结果),使用phylip软件,用距离法对它们进行分子进化分析(包括对进化树进行统计评估),说明这种蛋白质的进化历程(60分)。

答:(1)到蛋白质序列数据库中查询一条杆状病毒(Baculovirus)DNA聚合酶(DNA polymerase)的完整序列如下:完整序列(ORIGIN):1 mastdsldtr tfdyasdssf eviiitnaph dydgyielga aarllapfqk nisalwtnaa61 pshkltrnnk nylhvfglfk ylqnynlntk khppeyytik svicdlmmga qgktfdplce121 iktqlcaiqe slneaivtln ghaaadpapr tearelvesl hseyskkltf atdtildhvk181 sikdlvclnk序列名称: capsid protein [Choristoneura fumiferana MNPV]即:云杉卷叶蛾(虎尾松卷叶蛾)颗粒体病毒具体信息:LOCUS NP_848433 190 aa linear VRL06-MAY-2009登录号(ACCESSION): NP_848433来源物种的分类情况SOURCE Choristoneura fumiferana MNPVORGANISM Choristoneura fumiferana MNPVViruses; dsDNA viruses, no RNA stage; Baculoviridae;Alphabaculovirus.FEATURES Location/Qualifierssource 1..190/organism="Choristoneura fumiferana MNPV"/db_xref="taxon:208973"/country="Ireland"(2)然后用Blast搜索和它相似程度较高的10条序列如下:说明:所用程序:blosum62所搜索的数据库名称:swissprot数据库中和它相似程度较高的10条序列1、RecName: Full=Capsid protein p24名称:RecName: Full=Capsid protein p24LOCUS VP24_NPVOP 192 aa linear VRL 11-JAN-2011登录号:P24078来源物种的分类情况:SOURCE Orgyia pseudotsugata MNPVORGANISM Orgyia pseudotsugata MNPVViruses; dsDNA viruses, no RNA stage; Baculoviridae;Alphabaculovirus.FEATURES Location/Qualifierssource 1..192/organism="Orgyia pseudotsugata MNPV"/host="Orgyia pseudotsugata (Douglas fir tussock moth)"/db_xref="taxon:262177"2、RecName: Full=Capsid protein p24名称:RecName: Full=Capsid protein p24LOCUS VP24_NPVAC 198 aa linear VRL 11-JAN-2011登录号:P41678来源物种的分类情况:SOURCE Autographa californica nucleopolyhedrovirusORGANISM Autographa californica nucleopolyhedrovirusViruses; dsDNA viruses, no RNA stage; Baculoviridae;Alphabaculovirus.FEATURES Location/Qualifierssource 1..198/organism="Autographa californica nucleopolyhedrovirus"/host="Lepidoptera (butterflies and moths)"/db_xref="taxon:46015"3、RecName: Full=Flagellar motor switch phosphatase FliY; AltName: Full=CheY-P phosphatase FliY; AltName: Full=Flagellar motor switch protein FliY名称:RecName: Full=Flagellar motor switch phosphatase FliY; AltName: Full=CheY-P phosphatase FliY; AltName: Full=Flagellar motor switch protein FliYLOCUS FLIY_BACSU 378 aa linear BCT 08-FEB-2011登录号:P24073来源物种的分类情况:SOURCE Bacillus subtilisORGANISM Bacillus subtilisBacteria; Firmicutes; Bacillales; Bacillaceae; Bacillus.FEATURES Location/Qualifierssource 1..378/organism="Bacillus subtilis"/db_xref="taxon:1423"4、RecName: Full=Uncharacterized protein YjeA名称:RecName: Full=Uncharacterized protein YjeALOCUS YJEA_HAEGA 322 aa linear BCT 30-NOV-2010登录号:Q9ZIY0来源物种的分类情况:SOURCE Avibacterium paragallinarumORGANISM Avibacterium paragallinarumBacteria; Proteobacteria; Gammaproteobacteria; Pasteurellales;Pasteurellaceae; Avibacterium.FEATURES Location/Qualifierssource 1..322/organism="Avibacterium paragallinarum"/db_xref="taxon:728"5、RecName: Full=Protein YOP1名称:RecName: Full=Protein YOP1LOCUS YOP1_USTMA 172 aa linear PLN 08-MAR-2011 登录号:Q4P0H0来源物种的分类情况:SOURCE Ustilago maydisORGANISM Ustilago maydisEukaryota; Fungi; Dikarya; Basidiomycota; Ustilaginomycotina;Ustilaginomycetes; Ustilaginales; Ustilaginaceae; Ustilago. FEATURES Location/Qualifierssource 1..172/organism="Ustilago maydis"/db_xref="taxon:5270"6、RecName: Full=Protein anon-37Cs名称:RecName: Full=Protein anon-37CsLOCUS A37C_DROLE 544 aa linear INV 10-AUG-2010 登录号:O96570来源物种的分类情况:SOURCE Scaptodrosophila lebanonensisORGANISM Scaptodrosophila lebanonensisEukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota;Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha;Ephydroidea; Drosophilidae; Scaptodrosophila.FEATURES Location/Qualifierssource 1..544/organism="Scaptodrosophila lebanonensis"/db_xref="taxon:7225"7、RecName: Full=Photosystem I P700 chlorophyll a apoprotein A1; Short=PsaA名称:RecName: Full=Photosystem I P700 chlorophyll a apoprotein A1; Short=PsaA LOCUS PSAA_SYNPW 767 aa linear BCT 08-FEB-2011登录号:Q9R6U0来源物种的分类情况:SOURCE Synechococcus sp. WH 7803ORGANISM Synechococcus sp. WH 7803Bacteria; Cyanobacteria; Chroococcales; Synechococcus.FEATURES Location/Qualifierssource 1..767/organism="Synechococcus sp. WH 7803"/db_xref="taxon:32051"8、RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenase名称:RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenaseLOCUS MURB_CAMJE 258 aa linear BCT 08-FEB-2011登录号:Q9PM01来源物种的分类情况:SOURCE Campylobacter jejuniORGANISM Campylobacter jejuniBacteria; Proteobacteria; Epsilonproteobacteria; Campylobacterales;Campylobacteraceae; Campylobacter.FEATURES Location/Qualifierssource 1..258/organism="Campylobacter jejuni"/db_xref="taxon:197"9、RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenase名称:RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenaseLOCUS MURB_CAMJR 258 aa linear BCT 08-FEB-2011登录号:Q5HSB7来源物种的分类情况:SOURCE Campylobacter jejuni RM1221ORGANISM Campylobacter jejuni RM1221Bacteria; Proteobacteria; Epsilonproteobacteria; Campylobacterales;Campylobacteraceae; Campylobacter.FEATURES Location/Qualifierssource 1..258/organism="Campylobacter jejuni RM1221"10、RecName: Full=Probable molybdopterin-guanine dinucleotide biosynthesis protein A 名称:RecName: Full=Probable molybdopterin-guanine dinucleotide biosynthesis protein A LOCUS MOBA_METAC 225 aa linear BCT 03-MAY-2011登陆号:Q8TPD6来源物种的分类情况:SOURCE Methanosarcina acetivorans C2AORGANISM Methanosarcina acetivorans C2AArchaea; Euryarchaeota; Methanomicrobia; Methanosarcinales;Methanosarcinaceae; Methanosarcina.FEATURES Location/Qualifierssource 1..225/organism="Methanosarcina acetivorans C2A"/db_xref="taxon:188937"搜索过程附图:(3)对这10条序列进行多序列比对:写出比对所用程序:clustalx比对结果分析:比对所得的以phy为后缀的文件用写字板格式打开后得如下结果: 10 771P24078.1 ---------- ---------- ------MANA DSLDAR-AFS YAPDASFEVIP41678.1 ---------- ---------- ---------- ----TR-NFM YSPDSSLEVVQ9R6U0 ---------- TAKTQVEKVD NPATFELFGK PGHFDR-ALA KGPKTTTWVWQ3AMS5.1 MTISPPERGS DAKSQVEKVD NPATFELFGK PGHFDR-ALA KGPKTTTWVWQ9PM01.1 ------MIID FKKYSSVRIG NEFEVLVLDQ ICDFDG-FLI GGANN----LQ4P0H0 ---------- ---------- -KVEYFVAQI DKELSRYPAL KKFEQTVPVPQ9ZIY0.1 ------SIQT LLSRAKIIAE IRQFFSERGL LEVETPILSE FGVTDVHLSTP24073.2 --IDALLNGT GSTLDEPEIP EVDDLSEMER DAIGEIGNIS FGSSATALSTO96570 ---------E SLSFSGYKLT RRNLYNAPAL KVMGRSVNNS SSNNNDQQQYQ8TPD6.1 ---------- ---------- MSGKTELKPG RTKSRSAIVL AGGRGRRMGMIITNAPNDHD GY---LELNA AARL-LAPFQ KN-ISALWTS ----------IITNSDGDHD GY---LELTA AAKV-MSPFL SNGSSAVWTN ----------NLHANAHDFD SHTSDLEEVS RKIF-SAHFG HLAVIFIWLS GAFFHGARFSNLHANAHDFD AHTSDLQEVS RRIF-SAHFG HLAVIFIWLS GAFFHGARFSLVSPKPKNIG ILGDGFNFIQ ILDR-NKDFI HLRIGCKTKS S---------KAYAALGAFG IFTLFVFFNI AAGF-LTNLL GFFVPAYFS- ----------FSTKLISPFQ KKEKTLWLST SPEYPMKRLL SAGSGAIFQL CKVFRN---ELLNQKVDITT PSVTVIPRSK ISDAFPEPYV AIEVNYTEGF SG--------NLESAKQNTQ IVVIGAGLAG LSAAQHLLRH GFRSTIVLEA TDRYGG---RVEKALLEFEG KTILERLLEN LFRVVDEVIL SVRDIPQKEK ----------……(此处省略约9KB的数据分析结果)以上是多序列比对的纯数据结果,部分数据省略,因为可以从下面的进化树得到具体的分析。

《生物信息学》练习题及答案

《生物信息学》练习题及答案

《生物信息学》练习题及答案1、在Genbank中查找以下6个植物蛋白序列:protein1:NP_974673.2;protein2:NP_187969.1;protein3: NP_190855.1;protein4:NP_565618.1;protein5: NP_200511.1;protein6:NP_191407.1(以FASTA格式)。

(1)用EBI上的ClustalW2工具对其进行多序列比对,分析各蛋白序列之间的同源性。

序列比对结果比对结果表明:protein1:NP_974673.2和protein4: NP_565618.1的亲缘关系最近。

(2)利用Phylip软件,选择距离法构建其进化树(要求写出具体的建树步骤)。

1.将蛋白序列保存为FASTA格式,存于txt文档;2.用Clustalx打开txt文本,保存为*.phy文件;3.用seqboot程序打开phy文件,输出结果文件*_seqboot4.用protdist程序打开*_seqboot文件,输出为*_protdist文件5.用neighbor程序打开*_protdist文件,输出为*_neighbor 文件6.用consense程序打开*_neighbor文件,输出为*_consense 文件7.用dratree程序打开*_consense文件得到进化树。

(注:由于seqboot软见无法正常运行,因此进化树无法显示)(3)任意选取其中的一个蛋白进行蛋白质一级序列分析、二级结构预测及三维结构的模拟。

选择protein3:NP_190855.1一级结构网址:/doc/479b86d06edb6f1afe001f6e.html /tools/protparam.htmlNumber of amino acids:456氨基酸数目Molecular weight:51154.5相对分子质量Theoretical pI:8.69理论pI值Amino acid composition氨基酸组成Ala(A)306.6%Arg(R)286.1%Asn(N)153.3%Asp(D)275.9%Cys(C)51.1%Gln(Q)183.9%Glu(E)286.1%Gly(G)378.1%His(H)163.5%Ile(I)163.5%Leu(L)429.2%Lys(K)327.0%Met(M)51.1%Phe(F)173.7%Pro(P)163.5%Ser(S)4610.1%Thr(T)214.6%Trp(W)81.8%Tyr(Y)194.2%Val(V)306.6%Pyl(O)00.0%Sec(U)00.0%(B)00.0%(Z)00.0%(X)00.0%正/负电荷残基数Total number of negatively charged residues(Asp+Glu): 55Total number of positively charged residues(Arg+Lys): 60Atomic composition:原子组成Carbon C2270Hydrogen H3531Nitrogen N645Oxygen O686Sulfur S10Formula:C2270H3531N645O686S10分子式Total number of atoms:7142总原子数Extinction coefficients:消光系数Extinction coefficients are in units of M-1cm-1,at280 nm measured in water.Ext.coefficient72560Abs0.1%(=1g/l)1.418,assuming all pairs of Cys residues form cystines Ext.coefficient72310Abs0.1%(=1g/l) 1.414,assuming all Cys residues are reducedEstimated half-life:半衰期The N-terminal of the sequence considered is M(Met). The estimated half-life is:30hours(mammalian reticulocytes,in vitro).>20hours(yeast,in vivo).>10hours(Escherichia coli,in vivo).Instability index:不稳定系数The instability index(II)is computed to be48.99This classifies the protein as unstable.Aliphatic index:75.26脂肪系数Grand average of hydropathicity(GRAVY):-0.554总平均亲水性蛋白质亲疏水性分析所用氨基酸标度信息Ala:1.800Arg:-4.500Asn:-3.500Asp:-3.500Cys:2.500 Gln:-3.500Glu:-3.500Gly:-0.400His:-3.200Ile:4.500 Leu:3.800Lys:-3.900Met:1.900Phe:2.800Pro:-1.600 Ser:-0.800Thr:-0.700Trp:-0.900Tyr:-1.300Val: 4.200:-3.500:-3.500:-0.490分析所用参数信息Weights for window positions1,..,9,using linear weight variation model:1234567891.001.001.001.001.001.001.001.001.00edge center edge跨膜结构预测结果(没有跨膜结构)信号肽分析:二级结构预测三级结构预测网站/doc/479b86d06edb6f1afe001f6e.html/~phyre2、在拟南芥基因组数据库中(/doc/479b86d06edb6f1afe001f6e.ht ml/)查找编号分别为At4G33050,At3G13600,At3G52870或At2G26190基因,针对所查找的基因进行初步的生物信息学分析(每人任选其中一个基因)。

生物信息学习题集

生物信息学习题集

生物信息学课堂操作练习一、生物信息学科的发展和研究内容通过下列internet上的自教课程,初步了解不同的数据库和分析工具/2can/Education二、生物数据库1. 熟悉各种数据库。

2. 重点了解GenBank和SWISS-PROT所包含的各种功能和适用范围。

三、关键词或词组为基础的数据库检索1. 熟练掌握Entrez检索体系。

2. 查找与水稻抗病基因Xa21有关的资料(1) 由多少碱基构成?编码多少个氨基酸?(2) exon和intron的位置?(3) 是否有3-D structure数据?1) 由多少碱基构成?编码多少个氨基酸?4623b.p., 1025A.a.;2) exon和intron的位置?Exon: 24~2700,3543~3943 intron: remaining;3) 是否有3-D structure数据?没有.3. 查找C. elegans基因组的资料。

(1) chromosome I的测序是否已完成?(2) 已知的chromosome I的序列有多少碱基?序列发表在哪份杂志上?期号和页码?1) chromosome I的测序是否已完成?完成.2) 已知的chromosome I的序列有多少碱基? 序列发表在哪份杂志上? 期号和页码? 15.0724Mb.p.(15072421b.p.), Science 1999 Jan 1;283(5398):35.4. 查看人类基因组第1染色体上基因的分布。

/mapview/maps.cgi?ORG=hum&MAPS=ideogr,est,loc&LINKS= ON&VERBOSE=ON&CHR=15. 查看Arabidopsis的系谱树,以及Arabidopsis第1染色体上的序列。

比较Arabidopsis基因组的资料提供形式与人类基因组有什么不同(/Taxonomy/Browser/wwwtax.cgi?id=3701,/mapview/maps.cgi?taxid=3702&chr=1)貌似没什么区别……比较Arabidopsis基因组的资料提供形式与人类基因组有什么不同。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.美国核酸数据库GenBank从1979年开始建设,1982年正式运行(NCBI);
EMBL数据库也于1982年开始服务(EBI);
1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务(NIG)。
是一种经校阅过的蛋白质序列数据库,首先于1978年在瑞
EMBL)合作,目
1.同步法就是所有序列同时进行比对,而不是两两比对或分组进行比对。基
因此这类方法对于计算
由于利用多维动态规划矩阵对于实际数据进行序列比对不太现实,因此
、 blast程序用途,clustal程序用途。
系统发育分析
、什么是系统发育分析
系统发育分析是研究物种进化和系统分类的一种方法,研究对象为携带遗传
、什么是系统发育分析
、生物进化理论包括达尔文进化论、孟德尔遗传、中性进化论
、分子时钟假说及其重大意义
、DNA突变模式:替代,插入,缺失,倒位,核苷酸替代:转换,颠换
、系统发育树分为三种类型:分枝图、进化树、时间度量树
、系统发育树构建分为哪四步,结合所学软件,分别介绍每一步所用的程序或
EMBL和新成立的瑞士生物信息学研究所(SIB)共同维护。
是由NBRF蛋白质序列数据库、Munich蛋白质序列信息中心(MIPS)
(JIPID)共同维护的国际上最大的公共蛋白质序列
蛋白质空间结构数据库是生物大分子结构数据库的主要组成部分,结构数
(Protein Data Bank)是国际上唯一的生物大分子结构数据档案库,
(人和鼠的α血红素),这样的基因应被称做直系同源基
orthologous。
在物种I和物种II中,基因a通过基因复制产生基因a1和基因a2。物
I和物种II中的a1或a2被称作直系同源,因为它们来自同一祖先,而物种
或物种II中的a1和a2被称作旁系同源,因为它们是由基因复制得到的。
、 什么是相似性(similarity)、同一性(identity)?他们的关系?
中性进化论: 并非所有种群中保留下来的突变都由自然选择所形成, 大多数
、分子时钟假说及其重大意义
如果蛋白质序列的进化保持一个恒定的速率,那么这个速率就能被用
通过这一方式一些不同物种的系统发生关
、DNA突变模式:替代,插入,缺失,倒位,核苷酸替代:转换,颠换
、通过序列比对发现直系同源(Orthologs)与旁系同源(Paralogs)基因,寻
(相似的序列往往具有同源性)。
、什么叫调和序列?
调和序列:多序列比对的最终结果可以用一个调和序列表示,有时也称假想
通常加在比对后所有序列下面。调和序列的残基是由对应的同一列残基归
、多序列比对可以分为同步法和步进法,他们的基本思想是什么,区别是什么?
、生物信息学的研究内容都有哪些?
、什么是一级数据库,什么是二级数据库
、世界上三大核酸数据库分别叫什么,由什么机构进行维护,两个重要的蛋白
蛋白质三维结构数据库是什么,他们分别由什么机构进行
、详细说明blast软件包含几种比对程序,每种程序针对什么样的待搜索序列和
、什么是序列比对,双序列比对,多序列比对
、系统发育树构建分为哪四步,结合所学软件,分别介绍每一步所用的程序或
;第四
级山东农业大学大二下学期期末生物信息学课后练习题及答案
、什么是生物信息学?
、列举5个在生物信息学发展史上有重意义的事件(技术发明或软件创新)
、什么是点阵图(dot matrix)?作用与优点。
1.点阵图分析(Dot matrix analysis):是双序列比对的基本方法,通常
非常直观。两条相似的序列通过点阵图可以直观的显示其插入
一、直观性,整体性;
(gap)参数,可寻找两序列间所有可能的残基匹
点阵分析允许随时动态地改变最高和最低界限值,可以用来摸索区分
、什么是全局比对、局部比对?如何通过动态规划算法,填写动态规划矩阵,
1. 全局比对算法,也叫Needleman和Wunsch算法。全局比对方法中,两条
1981年,Smith和Waterman提出了一种用来寻找并比较局部相似区域的
Smith-Waterman算法,也叫局部比对算法。
1.获取人和各种生物的完整基因组
发现新基因和新的单核苷酸多态性
基因组中非编码区信息结构分析
完整基因组的比较研究
功能基因组研究
生物大分子结构模拟与药物设计
生物信息学的发展与应用研究
生物信息学资源
、什么是一级数据库,什么是二级数据库
1.数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释。
Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列
SWISS-PROT、PIR等;蛋白质结构库有PDB等。
在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,
GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家
SCOP等等。
、世界上三大核酸数据库分别叫什么,由什么机构进行维护,两个重要的蛋白
、什么是开放阅读框
、确定开放阅读框的基本方法有哪五点,我们常用什么软件来寻找开放阅读框。
、什么是基因识别,基因识别的基本思路是什么,常用的基因识别软件是什么
、什么是表达序列标签,如何获得表达序列标签。
、转录组包括mRNA和非编码RNA。
、转录组测序实验基本方法,转录组数据分析基本过程。
、什么是基因组,它包括核基因组、叶绿体基因组、线粒体基因组。
采用特定的数理统计算法来计算生物间的生物系统发生
、生物进化理论包括达尔文进化论、孟德尔遗传、中性进化论
1.达尔文进化论: 进化:变异的遗传;自然选择:解释演变发生的机制。
孟德尔遗传: 种群中个体变异的遗传学基础;孟德尔豌豆实验:杂交的表现
、全基因组测序技术路线及结果分析。
、蛋白质二次数据库构建的意义及常用方法
、什么叫正则表达式
、影响蛋白质折叠的因素有哪些
、预测蛋白质二级结构,主要方法分为三类:统计/经验算法;物理-化学方法;
、同源蛋白质结构预测的主要步骤
、blast用什么样的思想和方法提高了序列搜索的效率?
Blast是通过比对(alignment)在数据库中寻找和你的查询序列(query)相似
序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据
、什么是多序列比对,其生物学意义是什么?
把多序列比对看做一张二维表,表中每一行代表一个序列,每一列代表一个
年,人类基因组计划提出。(Science, 1986)
年,H. influenza genome第一个测序成功的基因组。(Science, 1995)
年,人类基因组草图公布。(Nature, 2001; Science, 2001)
年, 新一代测序技术出现。(Nature, 2005)
、生物信息学的研究内容都有哪些?
2014级山东农业大学大二下学期期末生生物信息学:生命科学与数学、计算机科学和信息科学交汇融合形成
数学分析模型和计算软件对各种生物
储存处理和分析,旨在掌握复杂生命现象的形成模式与演化规律。
、列举5个在生物信息学发展史上有重要意义的事件(技术发明或软件创新)
、什么是同源性(homology)、直系同源(ortholog)和旁系同源(paralog)?
、什么是相似性(similarity)、同一性(identity)?他们的关系?
、什么是点阵图(dot matrix)?作用与优点。
、什么是全局比对、局部比对?如何通过动态规划算法,填写动态规划矩阵,

双序列比对(pairwise alignment):是指通过一定算法对两条核酸或
找出两者之间最大相似性匹配。双序列比对是序列分析常
把多序列比对看做一张二维表,表中每一行代表一个序列,每一列代表
将序列依照下列规则填入表中: 1、一个序列所有残基的相对位
、将不同序列间相同或相似的残基放入同
、什么是同源性(homology)、直系同源(ortholog)和旁系同源(paralog)?
1.如果两条序列有一个共同的进化祖先,那么它们具有同源性(homology)。
同源性中存在两个子类。当同源是基因复制的结果,两份拷贝在一个物
(如α血红素和β血红素),这样的基因应被称做旁系
paralogous。 当同源是物种形成的结果,基因的
将序列依照下列规则填入表中: 1、一个序列所有残基的相对位置保
、将不同序列间相同或相似的残基放入同一
首先用来区分一组序列之间的差异;
描述一组序列之间的相似性关系,以便对一个基因家族的特征有一个基本
、寻找蛋白质家族,识别多个序列的保守区域,相似的蛋白质序列往往具
、用于进化分析,是用系统发育方法构建进化树的初使步骤;
、blast用什么样的思想和方法提高了序列搜索的效率?
、什么是多序列比对,其生物学意义是什么?
、什么叫调和序列?
、多序列比对可以分为同步法和步进法,他们的基本思想是什么,区别是什么?
、blast程序用途,clustal程序用途。
What are sequence alignment, pairwise sequence alignment and multiple
DNA突变模式:替代,插入,缺失,倒位。
Transition):嘌呤被嘌呤替代,或者嘧啶被嘧啶替代。
Transversion):嘌呤被嘧啶替代,或者嘧啶被嘌呤替代
、系统发育树分为三种类型:分枝图、进化树、时间度量树
年由美国Brookhaven国家实验室建立。PDB蛋白质数据库所收集的生物大
X-射线衍射和核磁共振(NMR)实验测定,包括结构
相关文档
最新文档