中国科学院大学生物信息学期末考试资料,陈润生老师

合集下载

《生物工程与Bioinformatics基础》2020-2021期末试题及答案

《生物工程与Bioinformatics基础》2020-2021期末试题及答案一、选择题 (每题2分，共20分)1. 以下哪项是生物信息学的核心内容？A. 分子生物学B. 计算机科学C. 统计学D. 生物统计学答案：B. 计算机科学2. 以下哪个数据库是存储基因组序列的数据库？A. PubMedB. GenBankC. PDBD. SwissDock答案：B. GenBank3. 生物信息学中的数据分析方法不包括以下哪项？A. 机器学习B. 聚类分析C. 数据挖掘D. 量子化学计算答案：D. 量子化学计算4. 在生物信息学中，以下哪个工具用于序列比对？A. BLASTB. Clustal OmegaC. FASTAD. R答案：A. BLAST5. 以下哪个是生物信息学中的常用编程语言？A. PythonB. RC. MATLABD. C++答案：A. PythonB. R二、填空题 (每题2分，共20分)1. 生物信息学是运用计算机科学与生物学的交叉领域，旨在开发和应用计算机技术来理解生物数据。

2. 基因组学是研究生物体的全部基因及其表达和调控的学科。

3. 蛋白质组学是研究生物体内所有蛋白质的组成、结构、功能和相互作用的科学。

4. BLAST是一种常用的生物信息学工具，用于核酸或蛋白质序列的相似性搜索。

5. bioinformatics是一个跨学科领域，它结合了计算机科学、信息工程、分子生物学和统计学，以理解生物数据。

三、简答题 (每题10分，共30分)1. 请简要解释生物信息学的应用领域。

生物信息学的应用领域包括基因组学、蛋白质组学、系统生物学、药物设计和疾病建模等。

它被广泛应用于医学、生物学、农业和环境科学等领域，以推动科学发现和技术创新。

2. 请简要介绍生物信息学中的序列比对工具。

生物信息学中的序列比对工具用于比较两个或多个生物序列（如DNA、RNA或蛋白质序列）之间的相似性。

常用的序列比对工具包括BLAST（Basic Local Alignment Search Tool）、FASTA （FAST Allignment Search Tool for Proteins and Nucleotides）和Clustal Omega等。

《生物信息学》试卷(A)

武汉大学2007—2008学年度高校教师研修班《生物信息学》试卷（A）及答案一、翻译下列名词并解释。

(每题5分，共25分)1. EST2. ORF3. BLAST4. ANN5. HGP二、填空(每空2分，共20分)1、蛋白质空间结构测定常用的方法有和二维核磁共振技术。

2、BLAST对序列格式的要求是常见的格式。

3、系统发育树由一系列和组成，其中每个代表一个分类单元，而代表物种之间的进化关系。

、、等。

6. 目前已经是最广泛使用的系统发育程序。

三、解释说明: 请按要求对下列GenBank文件作解释说明。

(每小题4分，共20分)1、LOCUS行中的第3项mRNA linear表示，这里是。

2、DEFINITION行在GenBank记录中用以3 ACCESSION 是，是从数据库中检索一个记录的主要。

4. FEATURES后面部分是，直接表达了记录的生物背景知识，5 CDS 30…533 表示。

四、问答。

（共35分）1简述国际上有哪几个著名的核酸序列数据库？（10分）2何谓序列比对的相似性和同源性，它们之间有何联系和区别（10分）3试述发现基因的一般过程（15分）《生物信息学》试卷（A）答案一、翻译下列名词并解释。

(每题5分，共25分)1. EST expressed sequence tag 表达序列标签2. ORF Open Reading Frame, 开放阅读框3. BLAST Basic Local Alignment Search T ool 局部相似性基本查询工具4. ANN Artificial Neural Network, 人工神经网络5. HGP Human genome project 人类基因组计划二、填空(每空2分，共20分)1、蛋白质空间结构测定常用的方法有X射线晶体衍射法和二维核磁共振技术。

2、BLAST对序列格式的要求是常见的FASTA格式。

3、系统发育树由一系列节点和分支组成，其中每个节点代表一个分类单元，而节点之间的连线代表物种之间的进化关系。

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播，分析和解释等各方面的学科，也是随着生命科学和计算机科学的迅猛发展，生命科学和计算机科学相结合形成的一门新学科。

它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2、数据库（Database）是按照数据结构来组织、存储和管理数据的仓库，它产生于距今六十多年前，随着信息技术和市场的发展，特别是二十世纪九十年代以后，数据管理不再仅仅是存储和管理数据，而转变成用户所需要的各种数据管理的方式。

数据库有很多种类型，从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。

3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短的cDNA 部分序列，代表一个完整基因的一小部分，在数据库中其长度一般从20 到7000bp 不等，平均长度为360 ±120bp。

EST 来源于一定环境下一个组织总mRNA 所构建的cDNA 文库，因此EST也能说明该组织中各基因的表达水平。

4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列，可编码相应的蛋白。

ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或终止子，符合这些条件的序列有可能对应一个真正的单一的基因产物。

ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。

5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列，并进一步折叠成特定的空间结构前者我们称为蛋白质的一级结构，也叫初级结构或基本结构。

蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理功能的必要基础。

6、基因识别是生物信息学的一个重要分支，使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。

【免费下载】生物信息期末考试重要文件

《生物信息学》课程复习思考题
蛋白质结构从头预测法蛋白质折叠 FASTA-ALL NCBI EBI GenBank Entrez SRS 系统同源性 homology、同一性 identity、形似性 similarity neutral theory of molecular evolution 最小二乘法 neighbor-joinning method maximum parsimony 基因组注释基因组学蛋白质组学 PDB MEGA 软件 PHYLIP 软件动态规划算法 dynamic programming algorithm Smith-Waterman algorithm Needleman-Wunsch 算法
《生物信息学》课程复习思考题
一、名词解生物信息学 bioinformatics Dotplot 算法分子钟 molecular clock 隐马尔科夫模型 hidden Markov model, HMM Gene Ontology, GO molecular phylogenetic tree 序列比对 sequence alignment 空位罚分线性空位罚分 constant gap penalty 多序列比对关系数据库 Dayhoff 突变数据矩阵 BLOSUM 矩阵 blocks substitution matrix 蛋白质结构分类数据库 SCOP（structural classification of proteins） CATH 蛋白质结构分类数据库系统发育树物种树基因树有根数、无根树最大似然法同源建模蛋白质结构预测
《生物信息学》课程复习思考题
BLAST，BLASTn, BLASTp
复习思考题 1. 什么是生物信息学？其主要应用有哪些？ 2. 简述生物信息学发展史上重大的标志性成果？ 3. 有人说生物将是下一场技术革命的热土，你认为生物信息学将对生物产业化有哪些方面的贡献？

生物信息学期末考试答案分析解析

一、名词Bioinformatics：生物信息学——是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法，以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析，并进一步挖掘和解读生物学数据。

Consensus sequence：共有序列——决定启动序列的转录活性大小。

各种原核启动序列特定区域内（通常在转录起始点上游-10及-35区域）存在共有序列，是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。

Data mining：数据挖掘——数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。

数据挖掘通常是利用计算方法分析生物数据，即根据核酸序列预测蛋白质序列、结构、功能的算法等，实现对现有数据库中的数据进行发掘。

EST：(Expressed Sequence Tag)表达序列标签——是某个基因cDNA克隆测序所得的部分序列片段，长度大约为200~600bp。

Similarity：相似性——是直接的连续的数量关系，是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

Homology：同源性——是两个对象间的肯定或者否定的关系。

如两个基因在进化上是否曾具有共同祖先。

从足够的相似性能够判定二者之间的同源性。

Alignment：比对——从核酸以及氨基酸的层次去分析序列的相同点和不同点，以期能够推测它们的结构、功能以及进化上的联系。

或是指为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。

BLOSUM：模块替换矩阵——是指在对蛋白质数据库搜索时，采用不同的相似性分数矩阵进行检索的相似性矩阵。

以序列片段为基础，从蛋白质模块数据库BLOCKS中找出一组替换矩阵，用于解决序列的远距离相关。

在构建矩阵过程中，通过设置最小相同残基数百分比将序列片段整合在一起，以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。

新闻时事素材解读及适用话题

新闻时事素材解读及适用话题作者：孙俊强来源：《作文成功之路·高考冲刺》2022年第10期29道题全选“A”：让学生“相信自己”也是一道必考题江德斌29道选择题答案全部是“A”！近日，山东青岛平度市某学校一名90后数学老师制作了一份这样的试卷，并在社交媒体发布了此事，引发网友讨论。

这位老师称自己曾经在备考时，做练习题遇到过连着七八个选择题都选A，当时特别怀疑自己，所以这次如此设置考题，是想帮助学生树立自信，让学生相信自己。

这确实是一份难得一见的试卷，选择题答案都是“A”，估计一辈子也遇不到一次。

这张别出心裁的试卷是数学老师为学生量身定做的，对数学题的选项进行了重新编排，花费了不少时间。

这张特殊的试卷，也是数学老师给学生出的一道必考题，借此考验学生的心理承受力，测试学生的临场应变能力，增强学生的自信心。

学生每个学期都要经历许多次考试，正所谓久考成精，卷子刷多了，也会揣摩出题者的思路，总结出应试套路，特别是针对选择题，有很多做题“口诀”，比如，“多选B，少选C，尽量不选A和D”，“三长一短就选短，三短一长就选长。

两长两短就选b，参差不齐c无敌”等。

显然，如果遇到选择题选项都一样的时候，这种做题“口诀”就失灵了，毫无作用，反而会害了迷信“口诀”的学生。

还有一些学生自信心不足，总是怀疑自己，甚至因为过度疑虑而选错答案。

这份特别的试卷能提醒学生，不要过于迷信“口诀”，不要赌概率，应该相信自己。

（摘自2022年10月25日东方网有删节）【素材解读】在人生的道路上，会遇到很多意外和不可预测的事，这些也是人生的“必考题”，无法绕过，只能面对。

在这些特别的时候，就需要葆有自信心，理性思考，勇敢地面对问题、解决问题。

由此可见，这份特别试卷凸显了老师的良苦用心，不管学生的考试成绩如何，都会给他们留下深刻的记忆，让他们知晓，无论何时都要“相信自己”！这才是最难能可贵的“考试口诀”。

适用话题：教育自信直面问题81岁院士被排队要签名，这样的星该追伍璨课程8：30开始，6点半已经没有座位，整个礼堂都是坐满的，几乎每一届学生都会去追院士的课、找院士要签名……近日，话题“81岁院士课后被学生排长队要签名”登上微博热搜，网友纷纷留言点赞：“这样的星应该被追，这样的课必须火爆”“这种景象才是追星的正确打开方式”。

生物信息学期末考试重点总结

第一章DNA、RNA和蛋白质序列信息资源生物信息学的概念：专指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据，也称分子生物信息学。

三大核酸序列数据库GenBank(NCBI)美国国家生物技术信息中心，EMBL欧洲分子生物学实验，DDBJ日本DNA序列资料库序列信息通常用FASTA和GenBank两种格式显示第二章双序列比对数据库查询：指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配。

数据库搜索：通过特定相似性比对算法，找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。

区别：数据库搜索专门针对核酸和蛋白质序列数据库而言，其搜索对象不是数据库的注释信息，而是序列信息。

检测序列：新测定的，希望通过数据库搜索确定其性质或功能的序列目标序列：通过数据库搜索得到的和检测序列具有一定相似性的序列同源性的意义：具有共同祖先。

两个物种中有两个性状满足下列任一条件，就可称为同源性状：（1）它们与这些物种的祖先类群中所发现的某个性状相同（2）（2）它们是具有祖先一后裔的不同性状同源（homology）-具有共同的祖先同源序列：共同祖先趋异进化形成垂直同源（ortholog）种系形成过程中起源于一个共同祖先的不同种系中的DNA或蛋白质序列水平同源（paralog）由序列复制事件产生的相似（similarity）用来描述检测和目标序列之间相同DNA/蛋白质序列占比高低。

同源序列一般是相似的，但相似序列不一定是同源的。

相似性：大于50%可认为是同源性序列，小于20%无法确定同源性目的：通过数据库搜索，推测该未知序列可能属于哪个基因家族，具有哪些生物学功能。

可能找到已知三维结构的同源蛋白质而推测其可能的空间结构。

在序列数据库中对查询序列进行同源性比对.整体比对：从全长序列出发（分子系统学）局部比对：序列部分区域相似性（分子结构与功能性研究）数据库搜索的基础是序列的相似性比对，即双序列比对(pairwise alignment)。

生物信息学期末期末复习

■一、选择题：1.以下哪一个是mRNA条目序列号：A.J01536■.NM_15392C.NP_52280D.AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是：■.UnigeneB.EntrezC.LocusLinkD.PCR3.一个基因可能对应两个Unigene簇吗？■可能B.不可能4.下面哪种数据库源于mRNA信息：■dbESTB.PDBC.OMIMD.HTGS5.下面哪个数据库面向人类疾病构建：A.ESTB.PDB■.OMIMD.HTGS6.Refseq和GenBank有什么区另1J：A.Refseq包括了全世界各个实验室和测序项目提交的DNA序列B.GenBank提供的是非冗余序列■.Refseq源于GenBank,提供非冗余序列信息D.GenBank源于Refseq7.如果你需要查询文献信息，下列哪个数据库是你最佳选择：A.OMIMB.Entrez■PubMedD.PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法，下列哪种说法正确：A.因为GenBank的数据比EMBL更多，Entrez给出的搜索结果将更多B.搜索结果很可能一样，因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当，但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于：■N/W/YB.Q/W/YC.F/W/YD.Q/N/W10.直系同源定义为：■不同物种中具有共同祖先的同源序列B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变：A.丙氨酸B.谷氨酰胺C.甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变：A.1%B.20%■.80%D.250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同：A.全局比对通常用于比对DNA序列，而局部比对通常用于比对蛋白质序列B.全局比对允许间隙，而局部比对不允许C.全局比对寻找全局最大化，而局部比对寻找局部最大化■全局比对比对整体序列，而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。

中科院生物信息学期末考试复习题

中科院生物信息学期末考试复习题陈润生老师部分：1.什么是生物信息学，如何理解其含义？为什么在大规模测序研究中，生物信息学至关重要？答：生物信息学有三个方面的含义：1)生物信息学是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面，是基因组研究不可分割的部分。

2)生物信息学是把基因组DNA序列信息分析作为源头，破译隐藏在DNA序列中的遗传语言，特别是非编码区的实质；同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测；其本质是识别基因信号。

3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。

它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

生物信息学是把基因组DNA序列信息分析作为源头，找到基因组序列中代表蛋白质和RNA 基因的编码区；同时阐明基因组中大量存在的非编码区的信息实质，破译隐藏在DNA序列中的遗传语言规律：在此基础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据，从而认识代谢、发育、分化、进化的规律。

同时在发现了新基因信息之后，其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测，并将此类信息与生物体和生命过程中的生理生化信息结合，阐明其分子机制，最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。

2.如何利用数据库信息发现新基因，基本原理？答：利用数据库资源发现新基因，根据数据源不同，可分2种不同的查找方式：1)从大规模基因组测序得到的数据出发，经过基因识别发现新基因：（利用统计，神经网络，分维，复杂度，密码学，HMM，多序列比对等方法识别特殊序列，预测新ORF。

但因为基因组中编码区少，所以关键是“数据识别”问题。

）利用大规模拼接好的基因组，使用不同数据方法，进行标识查找，并将找到的可能的新基因同数据库中已有的基因对比，从而确定是否为新基因。

可分为：①基于信号，如剪切位点、序列中的启动子与终止子等。

生物信息学期末考试答案

生物信息学期末考试答案rmatics是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等多个学科的理论方法，以互联网为媒介、数据库为载体，利用数学和计算机科学对生物学数据进行储存、检索和处理分析，并进一步挖掘和解读生物学数据。

Consensus sequence是决定启动序列的转录活性大小的序列。

在各种原核启动序列特定区域内（通常在转录起始点上游-10及-35区域）存在共有序列，这是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。

数据挖掘通常是利用计算方法分析生物数据，即根据核酸序列预测蛋白质序列、结构、功能的算法等，实现对现有数据库中的数据进行发掘。

EST（Expressed Sequence Tag）是某个基因cDNA克隆测序所得的部分序列片段，长度大约为200~600bp。

相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

同源性是两个对象间的肯定或者否定的关系，如两个基因在进化上是否曾具有共同祖先。

从足够的相似性能够判定二者之间的同源性。

比对从核酸以及氨基酸的层次去分析序列的相同点和不同点，以期能够推测它们的结构、功能以及进化上的联系。

或是指为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。

BLOSUM（模块替换矩阵）是指在对蛋白质数据库搜索时，采用不同的相似性分数矩阵进行检索的相似性矩阵。

以序列片段为基础，从蛋白质模块数据库BLOCKS中找出一组替换矩阵，用于解决序列的远距离相关。

在构建矩阵过程中，通过设置最小相同残基数百分比将序列片段整合在一起，以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。

在每一片段中，计算出每个残基位置的平均贡献，使得整个片段可以有效地被看作为单一序列。

通过设置不同的百分比，产生了不同矩阵。

生物信息学是一门综合学科，主要研究生物学系统和生物学过程中信息流的综合系统，运用生物学、数学、物理学、信息科学以及计算机科学等多学科的理论方法，以互联网为媒介、数据库为载体，利用数学和计算机科学对生物学数据进行储存、检索和处理分析，并进一步挖掘和解读生物学数据。

生物信息学期末考试答案

Consensus sequence：共有序列——决定启动序列的转录活性大小。

各种原核启动序列特定区域（通常在转录起始点上游-10及-35区域）存在共有序列，是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。

Data mining：数据挖掘——数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。

数据挖掘通常是利用计算方法分析生物数据，即根据核酸序列预测蛋白质序列、结构、功能的算法等，实现对现有数据库中的数据进行发掘。

EST：(Expressed Sequence Tag)表达序列标签——是某个基因cDNA克隆测序所得的部分序列片段，长度大约为200~600bp。

Similarity：相似性——是直接的连续的数量关系，是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

Homology：同源性——是两个对象间的肯定或者否定的关系。

如两个基因在进化上是否曾具有共同祖先。

从足够的相似性能够判定二者之间的同源性。

Alignment：比对——从核酸以及氨基酸的层次去分析序列的相同点和不同点，以期能够推测它们的结构、功能以及进化上的联系。

或是指为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。

BLOSUM：模块替换矩阵——是指在对蛋白质数据库搜索时，采用不同的相似性分数矩阵进行检索的相似性矩阵。

以序列片段为基础，从蛋白质模块数据库BLOCKS中找出一组替换矩阵，用于解决序列的远距离相关。

在构建矩阵过程中，通过设置最小相同残基数百分比将序列片段整合在一起，以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。

(完整word版)生物信息学复习资料(word文档良心出品)

一、名词解释(31个)1.生物信息学:广义：应用信息科学的方法和技术，研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息，或者也可以说成是生命科学中的信息科学。

狭义：应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。

2.二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

3.多序列比对：研究的是多个序列的共性。

序列的多重比对可用来搜索基因组序列的功能区域，也可用于研究一组蛋白质之间的进化关系。

4.系统发育分析：是研究物种进化和系统分类的一种方法，其常用一种类似树状分支的图形来概括各种（类）生物之间的亲缘关系，这种树状分支的图形称为系统发育树。

5.直系同源：如果由于进化压力来维持特定模体的话，模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。

指的是不同物种之间的同源性，例如蛋白质的同源性，DNA序列的同源性。

（来自百度）6.旁系（并系）同源：是那些在一定物种中的来源于基因复制的蛋白，可能会进化出新的与原来有关的功能。

用来描述在同一物种内由于基因复制而分离的同源基因。

（来自百度）7.FASTA序列格式：将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。

8.开放阅读框（ORF）：是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。

（来自百度）9.结构域：大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域，折叠得较为紧密，各行其功能，称为结构域。

10.空位罚分：序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分，以控制空位插入的合理性。

（来自百度）11.表达序列标签：通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的3’或5’端序列。

生物信息学考试资料

一、定义和概念1、生物信息学广义：生命科学中的信息科学。

生物体系和过程中信息的存贮、传递和表达；细胞、组织、器官的生理、病理、药理过程的中各种生物信息。

狭义：生物分子信息的获取、存贮、分析和利用。

2、基因：有遗传效应的DNA片断,是控制生物性状的基本遗传单位。

3、中心法则是指遗传信息从DNA传递给RNA，再从RNA传递给蛋白质，即完成遗传信息的转录和翻译的过程。

也可以从DNA传递给DNA，即完成DNA的复制过程。

这是所有有细胞结构的生物所遵循的法则。

4、一级数据库数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释5、基因芯片基因芯片（gene chip），又称DNA微阵列（microarray），是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列，其工作的基本原理是通过杂交检测信息。

6、推动生物信息学快速发展的学科核心和灵魂：生物学基本工具：数学与计算机技术7、“组”学的主要创新点对生命科学发展的作用与意义21世纪是生物技术和信息技术的时代，基因组研究由结构基因组研究转向功能基因组研究，蛋白质组学已成为当前研究的热点和重点，生物信息学加快了生命科学的发展步伐。

蛋白组研究的兴起和发展，在揭示生命运动的本质及疾病的诊断、治疗等方面发挥着重要作用。

随着基因组学研究的不断深入，在基因组测序、蛋白质序列测定和结构解析等实验的基础上，产生了大量有关生物分子的原始数据，这些原始的数据需要利用现代计算机技术进行收集、整理、管理以便检索使用，生物信息学应用而生，其研究重点集中在核酸和蛋白质两个方面。

所谓组学，即从一个整体的角度来研究。

相对于传统生命科学零敲碎打的研究手段，研究单个的基因或蛋白的功能、结构，而组学则是着眼于大局，将单个的基因、蛋白以“组”的水平进行研究，从而对于生命科学能够有一个大局的把握。

作用：(1) 从学科角度方面：生命科学进入了新的发展时期；研究体系的突破：局部到整体；学科性质：经验型、资料积累到总结规律(2) 从研究人员角度：提高研究效率、深化研究成果、显著增加论文“厚度”与“重量”意义：正对生命科学产生深远的影响，极大提高科研的效率、质量、促进生命科学实现跨越式的发展。

生物信息期末考试重要文件

线性空位罚分constant gap penalty
多序列比对
关系数据库
Dayhoff突变数据矩阵
BLOSUM矩阵blocks substitution matrix
蛋白质结构分类数据库SCOP（structural classification of proteins）
CATH蛋白质结构分类数据库
4.
KEGG is a database resource for understanding high-level functions and utilities of the biological system, such as the cell, the organism and the ecosystem, from genomic and molecular-level information. It is a computer representation of the biological system, consisting of molecular building blocks of genes and proteins (genomic information) and chemical substances (chemical information) that are integrated with the knowledge on molecular wiring diagrams of interaction, reaction and relation networks (systems information).
5.
TheGenBanksequence database is an annotated collection of all publicly available nucleotide sequences and their protein translations. This database is produced at National Center for Biotechnology Information (NCBI) as part of an international collaboration with the European Molecular Biology Laboratory (EMBL) Data Library from the European Bioinformatics Institute (EBI) and theDNAData Bank of Japan (DDBJ). GenBank and its collaborators receive sequences produced in laboratories throughout the world from more than 100,000 distinct organisms. GenBank continues to grow at an exponential rate, doubling every 10 months. Release 134, produced in February 2003, contained over 29.3 billion nucleotide bases in more than 23.0 million sequences. GenBank is built by direct submissions from individual laboratories, as well as from bulk submissions from large-scale sequencing centers.

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生物信息学期末考试复习1.生物学中的7个数学故事(1) 孟德尔遗传定律（分离和自由组合定律）运用了组、合原理中的加法原理和乘法原理。

(2) Hardy-Weinberg遗传平衡定律通过构造数学关系式来证明。

(3)基因在染色体上的线性排列采用概率分布优化距离的计算距离，使其更接近真实情况。

(4)关联分析通过假设检验看两个特征的关联有无统计显著性。

(5) 序列比对设计合适的算法可以有效降低计算复杂度。

(6)基因组学和其他的组学组学时代产生的大量数据需要依赖数据库技术来寻找生物分子之间的关联。

(7)微阵列芯片大规模芯片数据需要数据挖掘：聚类、关联、预测建模、异常检测。

2. DNA、protein、RNA序列比对及其算法序列比对：为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。

常用的方法有：点阵法，动态规划算法，k-tup 算法等。

（1）dotplot算法：通过点阵作图的方法表示，能很直观地氨基酸序列或核苷酸序列上的插入、删除、重复和反相重复。

算法步骤：将两条序列的碱基（或残基）分别沿x轴和y轴排列，依次比较两条序列的每个碱基（或残基），如果两个碱基（或残基）相同则在矩阵中填充点，这样就形成一个点矩阵。

在点矩阵中，将对角线上的点连接起来，这些直线所对应的矩形区域就是这两条序列的相似性片段。

算法特点：该算法相似性片段实际上是相同的片段；而且不能提供相似性片段在统计学意义上的相似性。

（2）动态规划算法：分为全局动态规划算法和局部动态规划算法。

保证了指定打分模型的情况下，两条序列能获得尽可能的最高分算法步骤：①初始化序列矩阵；②将序列输入矩阵，计算分数并绘制箭头；③用箭头回溯找到最优得分路径；④连接最优路径，产生序列比对。

动态规划算法优缺点：优点：对于一个给定的计分函数集合，能找到最优的比对缺点：时间复杂度为O(n 2)，运行慢，计算所需的内存与序列长度的平方成正比，因此不适用于非常长序列的比对。

序列比对的定义，存在哪几种算法，打分矩阵是什么意思序列比对：为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列;算法种类：动态规划算法、Smith-Waterman Alterations算法、FASTA - Hi Level Algorithm 算法、BLAST – Heuristic算法；打分矩阵：通过点矩阵对序列比对进行积分，根据不同物质情况可分为DNA序列打分矩阵：等价矩阵、转换-颠换矩阵、blast矩阵；蛋白质打分矩阵：等价矩阵、遗传密码矩阵、疏水性矩阵、PAM矩阵、BLOSUM矩阵。

1.动态规划算法，给个表格可以把数字填出：3. 序列比对搜索工具FASTA和BLAST(这一部分我们没有讲,也看看吧)（1）FASTA EBI(European Bioinformatics Institute)的序列比对数据库搜索工具步骤：①找到所有的热点（hot-spots）（精确匹配的对数：1或2个氨基酸；4或6个核苷酸）；②给热点打分，定位十个最好的diagonal run③将sub-alignments通过gap连接成一个alignment；④将动态规划算法应用于得分最高的alignment附近的局部区域，找到得分最高的alignment。

（2）BLAST NCBI(National Center for Biotechnology Information)的序列比对数据库搜索工具步骤：①预处理查询：从搜索中编译出short-hit得分的word list，对于BLOSUM打分，搜索词的长度w是3，阈值T是13；为每个搜索词建立neighborhood words）。

②扫描数据库，对于每一个word list，鉴定所有与数据库序列完全匹配的word（方法1：哈希表；方法2：有限状态机）。

③搜索最优的alignment。

④评估比对的统计显著性。

3.Dynamic Programming，FASTA，BLAST的算法比较动态规划算法：由于用到了两个序列的全部信息，因此敏感性最好由于计算了很多无用区域，浪费了时间，因此运行速度慢FASTA：不如动态规划算法和BLAST算法敏感，运行时间快于动态规划算法BLAST：比FASTA算法敏感性好，并且对结果进行了统计评估，BLAST 消除了搜索的噪音，因此运行比FASTA 更快。

4. 两种打分矩阵PAM矩阵：基于氨基酸进化的点突变模型，如果两种氨基酸替换频繁，说明自然界接受这种替换，那么这对氨基酸替换得分就高。

PAM矩阵的制作步骤：①构建序列相似（大于85％）的比对；②计算氨基酸j 的相对突变率mj（j被其他氨基酸替换的次数）；③针对每个氨基酸对i和j , 计算j被i替换次数；④替换次数除以相对突变率（mj）；⑤利用每个氨基酸出现的频度对j进行标准化；⑥取常用对数，得到PAM-1(i，j)；⑦将PAM-1自乘N次，可以得到PAM-n。

一个PAM就是一个进化的变异单位, 即1%的氨基酸改变（但这并不意味100次PAM后，每个氨基酸都发生变化，因为其中一些位置可能会经过多次突变，甚至可能会变回到原来的氨基酸），最常用的是PAM250，250%期望的突变，PAM250= (PAM1)250。

BLOSUM矩阵：根据蛋白质模块数据库BLOCKS 中蛋白质序列的高度保守部分的比对而得到的。

BLOSUM矩阵的数目(例如：BLOSUM 62)表示收集Blocks资料库中序列一致性为62%的序列，再由这些序列推导出计分矩阵，数目越低，差异越大。

5. 如何把写好的文件上传到服务器，并以网页的形式展现出来？1），安装并运行winscp，在session对话框输入主机名，端口号，用户名和密码，点击login，登陆2），将要运行的文件（如：test.html）拖到unix中的相应目录文件夹下，如：hanclass/2010280167150xx/目录下，然后在浏览器中输入：http://210.77.20.246/hanclass/2010280167150xx/test.html，即可运行。

6. 展示html要用什么服务器，什么浏览器？放在服务器特定的文件夹中（对放入什么文件夹不作要求）。

放在www底下。

7. R与Bioconductor有什么关系？R 是一个有着强大统计分析及作图功能的软件系统，在GUN 协议General Public Licence下免费发行。

R是S 语言的一个分支，R的使用与S-PLUS 有很多类似之处，两个软件有一定的兼容性。

不依赖于操作系统，可以在运行于UNIX, Windows和Macintosh 的操作系统上BioconductorR语言的延伸是一个开源和开放式的软件开发项目,目标是建立多方面的、强有力的基因组数据统计与图形分析方法。

Bioconductor的应用功能主要是以包（package）的集成形式呈现在用户面前，Bioconductor 提供了大量开放式的生物信息学软件包。

嵌入到R 中，进行各种生物信息学的数据处理和分析以及绘图。

8. 新一代测序技术如何影响进化基因组学的发展新一代测序技术，可用较低的成本产生大量的序列信息，解决了以前进化基因组学中难以解决的问题：①深入的群体调查；②研究正选择的基因座；③Standing变异和de novo突变：④通过系统发生重建研究致癌突变；⑤古基因组学；⑥靶向非模式生物；⑦转录组进化。

9. 数据库NCBI, ENSEMBLNCBI是美国国家生物技术信息中心。

该中心保存GenBank的基因测序数据。

Ensemble是一个全自动的基因注释软件。

由英国Sanger研究所和欧洲生物信息学研究所共同协作运营。

10. 分子进化研究方法距离法①邻接法：在所有可能拓扑结构中选择分支长度和S最小的作为最优树。

②UPGMA：基于层次聚类最大简约法：对所有可能的拓扑结构进行计算，计算出所需替代数最小的那个拓扑结构作为最优树。

最大似然法：以一个特定的替代模型分析一组给定的核苷酸（或氨基酸）序列数据，使获得的每一个拓扑结构的似然率均为最大，挑选其中最大似然率最大的拓扑结构，选为最终系统树。

软件：PAML(Phylogenetic Analysis by Maximum Likelihood)，即最大似然法分析，是伦敦大学的杨子恒（Yang Ziheng）教授开发的一套基于最大似然估计来对蛋白质和核酸序列进行系统发育分析的软件，对学术使用是免费的。

PAML 可实现系统发育树的构建、祖先序列估计、进化模拟和KaKs 计算等功能。

其中分支及位点KaKs 的计算是本软件包的特色功能。

11. RNA二级结构（茎、环）答：RNA二级结构是由非共价键维持，包括氢键和碱基堆积力。

典型的碱基配对方式为A-U, G-C, G-U。

单链RNA分子中存在的反向重复序列，通过氢键形成碱基互补配对结构。

双链区称为茎(stem)，而不能配对的单链区部分称为环(loop)。

茎内的其中一条链多出若干碱基不形成配对，这样的结构称为凸环(bulge loop)；茎内的两条链都多出若干碱基不能配对，这样的结构称为内环(internal/interior loop)；一条单链，其两端为茎，这样的结构称为发夹环（hairpin loop）12. 非编码RNA(Non-coding RNA)有哪些，分别起什么作用？蛋白质编码基因的数目与物种的复杂度不符，在人类和其他生物的基因组的大多数非蛋白编码区存在转录活性。

主要的非编码RNA及其功能，如下所述：(1)transfer RNAs (tRNA)，即转移RNA：蛋白质翻译过程中，转运氨基酸分子，作为氨基酸与mRNA 上的接头分子。

(2)ribosomal RNAs(rRNA)，即核糖体RNA：蛋白质合成的场所。

(3) small nuclear RNAs(snRNAs)，即小核RNA：与蛋白质形成核糖核蛋白颗粒，在RNA剪接中发挥作用。

(4) small nucleolar RNAs，即小核仁RNA (snoRNAs)：Pre-rRNA(即前体rRNA)在成熟而具有功能之前要进行修饰，如甲基化、尿嘧啶转变成假尿嘧啶。

snoRNAs就起这样的修饰作用。

(5) small interfering RNAs (siRNAs)，即小干扰RNA：在RNA干扰中发挥作用，使双链RNA 降解，基因沉默。

(6) microRNAs (miRNAs)，即微小RNA：类似于siRNAs，通过与靶基因mRNA碱基互补配对引导沉默复合体(RISC)降解mRNA或阻止其翻译。

(7) PIWI-interacting RNAs (piRNAs)：是维持生殖细胞完整性和可育性所必须的一类小分子RNA。