共享——农业大学生物信息学课后练习题及答案汇总

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2014级山东农业大学大二下学期期末生物信息学课后练习题及答案
第一章绪论
1、什么是生物信息学？
答：广义的生物信息学：生命科学与数学、计算机科学和信息科学交汇融合形成的一门交叉学科应用先进的数据管理技术、数学分析模型和计算软件对各种生物信息进行提取、储存处理和分析，旨在掌握复杂生命现象的形成模式与演化规律。

狭义的生物信息学：应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据，也被称为分子生物信息学。

2、列举5个在生物信息学发展史上有重要意义的事件（技术发明或软件创新）答：1953年，由沃森和克里克提出DNA双螺旋结构模型，并发表于NATURE杂志。

（Nature, 1953）。

1955年，桑格采用二硝基氟苯（FDNB）法，首次成功地完成了第一个蛋白质-牛胰岛素的序列分析。

1965年，祖卡坎德尔和鲍林提出的“分子钟”理论。

（Evolving genes and proteins, 1965）
1977年，桑格等发表双脱氧链末端终止法，测定ϕX174序列。

（PNAS, 1977）1988年，人类基因组计划提出。

（Science, 1986）
1995年，H. influenza genome第一个测序成功的基因组。

（Science, 1995）2001年，人类基因组草图公布。

（Nature, 2001; Science, 2001）
2005年，新一代测序技术出现。

（Nature, 2005）
3、生物信息学的研究内容都有哪些？
答：1.获取人和各种生物的完整基因组
2.发现新基因和新的单核苷酸多态性
3.基因组中非编码区信息结构分析
4.完整基因组的比较研究
5.功能基因组研究
6.生物大分子结构模拟与药物设计
7.生物信息学的发展与应用研究
第二章生物信息学资源
1、什么是一级数据库，什么是二级数据库
答：1.数据都直接来源于实验获得的原始数据，只经过简单的归类整理和注释。

一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等；蛋白质序列数据库有SWISS-PROT、PIR等；蛋白质结构库有PDB等。

2. 在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步整理。

人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家
族分类库SCOP等等。

2、世界上三大核酸数据库分别叫什么，由什么机构进行维护，两个重要的蛋白质数据库分别是什么，蛋白质三维结构数据库是什么，他们分别由什么机构进行维护。

答：1.美国核酸数据库GenBank从1979年开始建设，1982年正式运行（NCBI）；/
欧洲分子生物学实验室的EMBL数据库也于1982年开始服务（EBI）；
/
日本于1984年开始建立国家级的核酸数据库DDBJ，并于1987年正式服务（NIG）。

http://www.ddbj.nig.ac.jp/
2. SWISS-PROT是一种经校阅过的蛋白质序列数据库，首先于1978年在瑞士日内瓦大学医学生化系建立，随后与欧洲分子生物学实验室（EMBL）合作，目前同EMBL和新成立的瑞士生物信息学研究所（SIB）共同维护。

PIR-PSD是由NBRF蛋白质序列数据库、Munich蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。

这是一个全面的、经过注释的、非冗余的蛋白质序列数据库。

3.蛋白质空间结构数据库是生物大分子结构数据库的主要组成部分，结构数据库
用图像直观表示蛋白质的空间结构。

4.PDB（Protein Data Bank）是国际上唯一的生物大分子结构数据档案库，1971年由美国Brookhaven国家实验室建立。

PDB蛋白质数据库所收集的生物大分子三维结构数据主要通过X-射线衍射和核磁共振（NMR）实验测定，包括结构数据，文献，一级二级结构信息。

3、详细说明blast软件包含几种比对程序，每种程序针对什么样的待搜索序列和数据库。

第三章序列比对
1、什么是序列比对，双序列比对，多序列比对
答：1. 序列比对又叫序列联配，其意义在于从核酸、氨基酸的层次分析序列的相似性，推测其结构功能及进化上的联系，是基因识别、分子进化、生命起源研究的基础。

基本问题是比较两个或两个以上符号序列的相似性或不相似性。

序列比对是生物信息学的基础，非常重要。

2. 双序列比对（pairwise alignment）：是指通过一定算法对两条核酸或蛋白质序列进行比较，找出两者之间最大相似性匹配。

双序列比对是序列分析常用的方法之一，是多序列
比对和数据库搜索的基础。

3. 把多序列比对看做一张二维表，表中每一行代表一个序列，每一列代表一个残基位置。

将序列依照下列规则填入表中： 1、一个序列所有残基的相对位置保持不变；
2、将不同序列间相同或相似的残基放入同一列，即尽可能将序列间相同或相似残基上下对齐。

2、什么是同源性（homology）、直系同源（ortholog）和旁系同源（paralog）？举例说明它们的关系？
答：1.如果两条序列有一个共同的进化祖先，那么它们具有同源性（homology）。

2. 同源性中存在两个子类。

当同源是基因复制的结果，两份拷贝在一个物种的历史上是平行演化的（如α血红素和β血红素），这样的基因应被称做旁系同源基因paralogous。

当同源是物种形成的结果，基因的历史反映了物种的历史（人和鼠的α血红素），这样的基因应被称做直系同源基因orthologous。

3. 在物种I和物种II中，基因a通过基因复制产生基因a1和基因a2。

物种I和物种II中的a1或a2被称作直系同源，因为它们来自同一祖先，而物种I或物种II中的a1和a2被称作旁系同源，因为它们是由基因复制得到的。

3、什么是相似性（similarity）、同一性（identity）？他们的关系？
答：
4、什么是点阵图（dot matrix）？作用与优点。

答：1.点阵图分析（Dot matrix analysis）：是双序列比对的基本方法，通常用图示方法表示，非常直观。

两条相似的序列通过点阵图可以直观的显示其插入或缺失的残基，以及一些重复片段。

2. 一、直观性，整体性；
二、点阵分析不依赖空位(gap)参数，可寻找两序列间所有可能的残基匹配；
三、不依赖任何先决条件，是一种可用于初步分析的理想工具；
四、点阵分析允许随时动态地改变最高和最低界限值，可以用来摸索区分信号和背景标准的严格程度；
五、不能很好地兼容打分矩阵；
六、不适合进行高通量的数据分析。

5、什么是全局比对、局部比对？如何通过动态规划算法，填写动态规划矩阵，分别对两条序列进行全局比对和局部比对。

答：1. 全局比对算法，也叫Needleman和Wunsch算法。

全局比对方法中，两条蛋白质序列具有最多匹配残基定义为最佳匹配，其中允许进行必要的插入或缺失。

为控制无限的空位插入，我们引进了罚分概念。

2. 1981年，Smith和Waterman提出了一种用来寻找并比较局部相似区域的方法，即Smith-Waterman算法，也叫局部比对算法。

3.
6、blast用什么样的思想和方法提高了序列搜索的效率？
答：Blast是通过比对(alignment)在数据库中寻找和你的查询序列(query)相似度很高的序列，通俗地说就是在已知的序列数据库中找和你的序列差不多的序列。

序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索，找出与之相似的序列，从而评判新测定的序列是重复别人的工作，还是在前人的基础上有所创新，或是发现了新的序列。

7、什么是多序列比对，其生物学意义是什么？
答：把多序列比对看做一张二维表，表中每一行代表一个序列，每一列代表一个残基位置。

1.首先用来区分一组序列之间的差异；
2.描述一组序列之间的相似性关系，以便对一个基因家族的特征有一个基本了解。

1、寻找蛋白质家族，识别多个序列的保守区域，相似的蛋白质序列往往具有相似的结构与功能；
2、用于进化分析，是用系统发育方法构建进化树的初使步骤；
3、通过序列比对发现直系同源(Orthologs)与旁系同源(Paralogs)基因，寻找同源基因(相似的序列往往具有同源性)。

8、什么叫调和序列？
答：调和序列：多序列比对的最终结果可以用一个调和序列表示，有时也称假想序列，通常加在比对后所有序列下面。

调和序列的残基是由对应的同一列残基归纳而得到。

9、多序列比对可以分为同步法和步进法，他们的基本思想是什么，区别是什么？答：1.同步法就是所有序列同时进行比对，而不是两两比对或分组进行比对。

基本思想是将一个二维的动态规划矩阵扩展到三维或多维。

因此这类方法对于计算机的系统资源要求较高，通常只能进行少量较短序列的比对。

2. 由于利用多维动态规划矩阵对于实际数据进行序列比对不太现实，因此大多数实用的多序列比对程序采用启发式算法，以降低运算复杂度。

10、blast程序用途，clustal程序用途。

答：
第四章系统发育分析
1、什么是系统发育分析
答：系统发育分析是研究物种进化和系统分类的一种方法，研究对象为携带遗传信息的生物大分子序列，采用特定的数理统计算法来计算生物间的生物系统发生的关系。

并用系统进化树来概括生物间的这种亲缘关系。

2、生物进化理论包括达尔文进化论、孟德尔遗传、中性进化论
答：1.达尔文进化论：进化：变异的遗传；自然选择：解释演变发生的机制。

2.孟德尔遗传：种群中个体变异的遗传学基础；孟德尔豌豆实验：杂交的表现特征是基因表达的结果，而不是基因杂交遗传。

3.中性进化论：并非所有种群中保留下来的突变都由自然选择所形成，大多数突变是中性或接近中性，不妨碍种群的生存与繁衍。

3、分子时钟假说及其重大意义
答：分子时钟假说：认为对于每一个给定的基因（或者蛋白质），其分子进化速率大致是恒定的。

重大意义：如果蛋白质序列的进化保持一个恒定的速率，那么这个速率就能被用于推算不同物种序列发生分化的时间。

通过这一方式一些不同物种的系统发生关系就能被确定下来。

4、DNA突变模式：替代，插入，缺失，倒位，核苷酸替代：转换，颠换
答：DNA突变模式：替代，插入，缺失，倒位。

核苷酸替代：转换（Transition）：嘌呤被嘌呤替代，或者嘧啶被嘧啶替代。

颠换（Transversion）：嘌呤被嘧啶替代，或者嘧啶被嘌呤替代
5、系统发育树分为三种类型：分枝图、进化树、时间度量树
6、系统发育树构建分为哪四步，结合所学软件，分别介绍每一步所用的程序或方法。

答：第一步：选择可供分析的序列（核酸或蛋白质）；第二步：多序列比对（自动比对，手工校正）；第三步：选择建树方法以及替代模型，建立进化树；第四步：进化树评估。

2014级山东农业大学大二下学期期末生物信息学课后练习题及答案
第一章
1、什么是生物信息学？
2、列举5个在生物信息学发展史上有重意义的事件（技术发明或软件创新）
3、生物信息学的研究内容都有哪些？
1. What is the bioinformatics?
2. Enumerate five significance events in the bioinformatics development.
3. What are the questions for bioinformatics to answer?
第二章
1、什么是一级数据库，什么是二级数据库
2、世界上三大核酸数据库分别叫什么，由什么机构进行维护，两个重要的蛋白质数据库分别是什么，蛋白质三维结构数据库是什么，他们分别由什么机构进行维护。

3、详细说明blast软件包含几种比对程序，每种程序针对什么样的待搜索序列和数据库。

1. What is the primary database?
2. What is the secondary database?
3. What are the three major nucleic acid databases in the world?
4. What are the two major protein databases in the world?
5. How many programs are contained in BLAST and what are they?
第三章
1、什么是序列比对，双序列比对，多序列比对
2、什么是同源性（homology）、直系同源（ortholog）和旁系同源（paralog）？举例说明它们的关系？
3、什么是相似性（similarity）、同一性（identity）？他们的关系？
4、什么是点阵图（dot matrix）？作用与优点。

5、什么是全局比对、局部比对？如何通过动态规划算法，填写动态规划矩阵，分别对两条序列进行全局比对和局部比对。

6、blast用什么样的思想和方法提高了序列搜索的效率？
7、什么是多序列比对，其生物学意义是什么？
8、什么叫调和序列？
9、多序列比对可以分为同步法和步进法，他们的基本思想是什么，区别是什么？
10、blast程序用途，clustal程序用途。

1. What are sequence alignment, pairwise sequence alignment and multiple sequence alignments?
2. What are the homology, ortholog and paralog?
3. What are the similarity and identity? How is their relationship?
4. What is the dot matrix? What are its function and advantage?
5. What are Global Alignment and Local Alignment?
6. How do we use the dynamic programming algorithm?
7. How do we improve the efficiency of sequence search using BLAST?
8. What is the biological significance of multiple sequence alignments?
9. What is the consensus sequence?
第四章
1、什么是系统发育分析
2、生物进化理论包括达尔文进化论、孟德尔遗传、中性进化论
3、分子时钟假说及其重大意义
4、DNA突变模式：替代，插入，缺失，倒位，核苷酸替代：转换，颠换
5、系统发育树分为三种类型：分枝图、进化树、时间度量树
6、系统发育树构建分为哪四步，结合所学软件，分别介绍每一步所用的程序或方法。

1. What is the phylogenic analysis?
2. What is the hypothesis of molecular clock and what is its significant?
3. How to construct phylogenetic tree?
第五章
1、什么是中心法则
2、什么是基因表达
3、画图说明原核生物和真核生物的基因结构
4、简述第一代，第二代，第三代测序列技术的代表方法，及它们的优点与不足。

5、核酸序列的基本分析方案是什么？
6、什么是开放阅读框
7、确定开放阅读框的基本方法有哪五点，我们常用什么软件来寻找开放阅读框。

8、什么是基因识别，基因识别的基本思路是什么，常用的基因识别软件是什么
9、什么是表达序列标签，如何获得表达序列标签。

10、转录组包括mRNA和非编码RNA。

11、转录组测序实验基本方法，转录组数据分析基本过程。

12、什么是基因组，它包括核基因组、叶绿体基因组、线粒体基因组。

13、全基因组测序技术路线及结果分析。

1. What is the genetic central dogma?
2. What is the gene expression?
3. What is the transcriptome?
4. What is the genome?
第六章
1、蛋白质二次数据库构建的意义及常用方法
2、什么叫正则表达式
3、影响蛋白质折叠的因素有哪些
4、预测蛋白质二级结构，主要方法分为三类：统计/经验算法；物理-化学方法；机器学习方法
5、同源蛋白质结构预测的主要步骤。