【免费下载】生物信息学课后题及答案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学课后习题及答案
(由10级生技一、二班课代表整理)
一、绪论
1.你认为,什么是生物信息学?
采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。

2.你认为生物信息学有什么用?对你的生活、研究有影响吗?
(1)主要用于:
在基因组分析方面:生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等
在医药方面:新药物设计、基因芯片疾病快速诊断、流行病学研究:SARS、人类基因组计划、基因组计划:基因芯片。

(2)指导研究和实验方案,减少操作性实验的量;验证实验结果;为实验结果提供更多的支持数据等材料。

3.人类基因组计划与生物信息学有什么关系?
人类基因组计划的实施,促进了测序技术的迅猛发展,从而使实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作。

而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。

4简述人类基因组研究计划的历程。

通过国际合作,用15年时间(1990-2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其他生物进行类似研究。

1990,人类基因组计划正式启动。

1996,完成人类基因组计划的遗传作图,启动模式生物基因组计划。

1998完成人类基因组计划的物理作图,开始人类基因组的大规模测序。

Celera公司加入,与公共领域竞争启动水稻基因组计划。

1999,第五届国际公共领域人类基因组测序会议,加快测序速度。

2000,Celera公司宣布完成果蝇基因组测序,国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。

2001,人类基因组“中国卷”的绘制工作宣告完成。

2003,中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功,人类基因组计划的.目标全部实现。

2004,人类基因组完成图公布。

2.我国自主知识产权的主要基因组测序计划有哪些?
水稻(2002),家鸡(2004),家蚕(2007),家猪(2012),大熊猫(2010)
2.第一章
2、如何查找由Rao Y 实验室于2005以后发表的,文章主题中与brain有关的文献,写出检索语言。

Brain[ti] AND RaoY[au] AND 2005:2013[dp]
3、如:我要查找RaoY在Nature 或Science上发表的论文,哪一个检索语言是正确的?正确①Rao Y[au] AND (Nature[Journal] OR Science[Journal])
②Rao Y[au] AND Nature OR Science[Journal]
③Rao Y[au] AND Nature[Journal] OR Science[Journal]
④Rao Y[au] AND (Nature OR Science)[Journal]
五.第三章(2)
1、简述GenBank数据库中GBFF格式的结构?
GenBank flatfile(GBFF)是GenBank数据库的基本信息单位,也是最广泛地用以表示生物序列的格式之一。

GBFF可以分成三个部分,头部包含关于整个记录的信息(描述符);第二部分包含了注释这一记录的特性;第三部分是核苷酸序列自身。

所有的核苷酸数据库记录(DDBJ/ EMBL/ GenBank)都在最后一行以 //结尾.
2、GBFF格式的特性表格式包括哪三个部分?
特性表格式包含三个部分:
第一,特性关键词(Feature key);
第二,特性位置(Location);
第三,限定词(Qualifiers)
3、指出下列特殊标识符的格式?
①序列辨认号(GI):一串阿拉伯数字
②GenBank/EMBL/DDBJ序列接受号:
1个字母+5个阿拉伯数字;1个字母+6个阿拉伯数字
③RefSeq序列接受号:带“-”
mRNA记录(NM*);完整的基因组或染色体(NC*)
④PDB序列接受号:1个阿拉伯数字+3个字母
4、指出下列GBFF格式中特性表含义?
(23.45)..600 指明序列特征起始碱基在23和45碱基之间,终止于600号碱基
145^177 指明145和177碱基之间的某个位点
Complement(join(2691..4571,4918..5163)) 纪录中的特性处于2691至4571碱基以及4918至5163碱基之间的序列相连构成的连续序列的互补链上
六.第四章
1、这两个序列的cost 和score分别是多少?
(A)cost 2 score 9 (B)cost 4 score 6
3、给定一个DNA打分矩阵,假设空位罚分为2,按照以下的打分矩阵,对于下列对齐方案
A T C G
A1-1-1-1
(4)空位罚分:在一条序列的残基间引入一个空位使得这条序列与第二条序列的相似残基对齐,引入空位的一个数值罚分(分值)称为空位罚分。

每个记分矩阵
都有默认的空位罚分值
(5)空位开放罚分:(Gap opening penalty)对起始缺失进行罚分
(6)空位延长罚分:(Gap extension penalty) :当加入一个空位至已存在的空位时的罚分,使得大于一个残基不能对齐或者和空位对齐。

(7)PAM:代表可接受点突变,每一百个氨基酸中可接受的点突变。

⑻PAM1(1个PAM单位)被定义为每100个残基出现1个被接受的点突变(氨基酸的置换
不引起蛋白质功能上的显著变化)
(9)PAM250矩阵:这个矩阵是指平均100个残基上固定会发生250次突变。

也就是很多残基都发生过一次以上的突变。

这种变化数量接近于检测遥远关系的极限。

(10)BLOSUM矩阵:BLOSUM矩阵:块替换矩阵,一种氨基酸替换矩阵,以序列片段为基础,它是基于蛋白质模块(Block)数据库而建立起来的,BLOSUM矩阵后面的数字表示构建此矩阵所用的序列的相似程度,如BLOSUM62表示由相似度为62%的序列构建。

6、简述PAM矩阵与BLUSUM矩阵的关系
(1)两者都在打分系统中使用对数比值;
(2)PAM矩阵是基于近相关蛋白家族数据的,并且假设高度相关蛋白的取代概率可以外推到远相关蛋白的概率。

BLOSUM矩阵是基于实际观测到的远相关蛋白比对。

(3)高值BLOSUM矩阵和低值PAM矩阵最适合于研究高度保守的蛋白;低值BLOSUM矩阵和高值PAM矩阵最适合检测远相关蛋白。

(4)一般来说,在局部相似性搜索上, BLOSUM 矩阵较PAM要好。

对于数据库搜索来说一般选择BLOSUM62矩阵。

PAM矩阵可用于寻找蛋白质的进化起源,BLOSUM矩阵用于发现蛋白质的保守域。

7.如何选择合适的评分矩阵?
一般来说,在局部相似性搜索上, BLOSUM 矩阵较PAM要好
当比较距离相近的蛋白时,应选择低的PAM或高的BLOSUM矩阵;当比较距离较远的蛋白时,应选择高的PAM或低的BLOSUM矩阵 
对于数据库搜索来说一般选择BLOSUM62矩阵
PAM矩阵可用于寻找蛋白质的进化起源,BLOSUM矩阵用于发现蛋白质的保守域
8.掌握下列概念(英文对照):相似性、一致性、同源性、直系同源、旁系同源、空位罚
分、空位开放罚分、空位延长罚分、PAM、PAM1、PAM250、
9.打分矩阵有哪些?
(1)核酸打分矩阵:
等价矩阵、BLAST矩阵、转换-颠换矩阵
(2)蛋白质打分矩阵:
等价矩阵、氨基酸突变代价矩阵(遗传密码矩阵GCM)、疏水矩阵、PAM矩阵、BLOSUM矩阵。

1、序列比对分类有哪些?
A、双序列比对:两条序列的比对
B、多序列比对:三条或以上序列的比对
2、简述序列比对两种类型。

(1)全局序列比:在全局范围内对两条序列进行比对打分的方法,适合于非常相似且长度近似相等的序列
(2)局部序列比对:一种寻找匹配子序列的序列比对方法,适合于一些片段相似而另一些片段相异的序列
3、双序列比对方法有哪些?
①点阵序列比较(Dot Matrix Sequence Comparison)
②动态规划算法(Dynamic Programming Algorithm)
③词或K串方法(Word or K-tuple Methods)
④贝叶斯统计方法(Bayesian Statistical Methods)
4、Basic BLAST有哪些?它们的查询序列类型和数据库类型是怎样的?
5、什么是动态规划算法?
动态规划算法(Dynamic Programming Algorithm)是一种计算方法,它的主要思路是把一个问题分成若干个小问题来解决,在序列比对尤其是双序列比对中非常重要,因为其提供了序列间最优的对位排列。

在生物学中应用的两种动态规划算法:Needleman-Wunsch算法(全局比对)和Smith-Waterman算法(局部比对)。

6、如何处理BLAST后过少或过多的结果?
如何处理过多的结果:限定数据库:Refseq;限定生物体;利用序列的特定部分搜索;调整打分矩阵;调整E值。

处理过少的结果:去掉数据库限定,进行多个数据库搜索;提高。

相关文档
最新文档