中国科学院大学生物信息学期末考试资料,陈润生老师
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学期末考试复习
1.生物学中的7个数学故事
(1) 孟德尔遗传定律(分离和自由组合定律)运用了组、合原理中的加法原理和乘法原理。
(2) Hardy-Weinberg遗传平衡定律通过构造数学关系式来证明。
(3)基因在染色体上的线性排列采用概率分布优化距离的计算距离,使其更接近真实情况。
(4)关联分析通过假设检验看两个特征的关联有无统计显著性。
(5) 序列比对设计合适的算法可以有效降低计算复杂度。
(6)基因组学和其他的组学组学时代产生的大量数据需要依赖数据库技术来寻找生物分子之间的关联。
(7)微阵列芯片大规模芯片数据需要数据挖掘:聚类、关联、预测建模、异常检测。
2. DNA、protein、RNA序列比对及其算法
序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。常用的方法有:点阵法,动态规划算法,k-tup 算法等。
(1)dotplot算法:通过点阵作图的方法表示,能很直观地氨基酸序列或核苷酸序列上的插入、删除、重复和反相重复。
算法步骤:将两条序列的碱基(或残基)分别沿x轴和y轴排列,依次比较两条序列的每个碱基(或残基),如果两个碱基(或残基)相同则在矩阵中填充点,这样就形成一个点矩阵。在点矩阵中,将对角线上的点连接起来,这些直线所对应的矩形区域就是这两条序列的相似性片段。
算法特点:该算法相似性片段实际上是相同的片段;而且不能提供相似性片段在统计学意义上的相似性。
(2)动态规划算法:分为全局动态规划算法和局部动态规划算法。保证了指定打分模型的情况下,两条序列能获得尽可能的最高分
算法步骤:①初始化序列矩阵;②将序列输入矩阵,计算分数并绘制箭头;③用箭头回溯找到最优得分路径;④连接最优路径,产生序列比对。
动态规划算法优缺点:
优点:对于一个给定的计分函数集合,能找到最优的比对
缺点:时间复杂度为O(n 2),运行慢,计算所需的内存与序列长度的平方成正比,因此不适用于非常长序列的比对。
序列比对的定义,存在哪几种算法,打分矩阵是什么意思
序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列;
算法种类:动态规划算法、Smith-Waterman Alterations算法、FASTA - Hi Level Algorithm 算法、BLAST – Heuristic算法;
打分矩阵:通过点矩阵对序列比对进行积分,根据不同物质情况可分为DNA序列打分矩阵:等价矩阵、转换-颠换矩阵、blast矩阵;蛋白质打分矩阵:等价矩阵、遗传密码矩阵、疏水性矩阵、PAM矩阵、BLOSUM矩阵。
1.动态规划算法,给个表格可以把数字填出:
3. 序列比对搜索工具FASTA和BLAST(这一部分我们没有讲,也看看吧)
(1)FASTA EBI(European Bioinformatics Institute)的序列比对数据库搜索工具
步骤:①找到所有的热点(hot-spots)(精确匹配的对数:1或2个氨基酸;4或6个核苷酸);
②给热点打分,定位十个最好的diagonal run
③将sub-alignments通过gap连接成一个alignment;
④将动态规划算法应用于得分最高的alignment附近的局部区域,找到得分最高的alignment。(2)BLAST NCBI(National Center for Biotechnology Information)的序列比对数据库搜索工具
步骤:①预处理查询:从搜索中编译出short-hit得分的word list,对于BLOSUM打分,搜索词的长度w是3,阈值T是13;为每个搜索词建立neighborhood words)。
②扫描数据库,对于每一个word list,鉴定所有与数据库序列完全匹配的word(方法1:哈希表;方法2:有限状态机)。
③搜索最优的alignment。
④评估比对的统计显著性。
3.Dynamic Programming,FASTA,BLAST的算法比较
动态规划算法:由于用到了两个序列的全部信息,因此敏感性最好
由于计算了很多无用区域,浪费了时间,因此运行速度慢
FASTA:不如动态规划算法和BLAST算法敏感,运行时间快于动态规划算法
BLAST:比FASTA算法敏感性好,并且对结果进行了统计评估,BLAST 消除了搜索的噪音,因此运行比FASTA 更快。
4. 两种打分矩阵
PAM矩阵:基于氨基酸进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。
PAM矩阵的制作步骤:①构建序列相似(大于85%)的比对;
②计算氨基酸j 的相对突变率mj(j被其他氨基酸替换的次数);
③针对每个氨基酸对i和j , 计算j被i替换次数;
④替换次数除以相对突变率(mj);
⑤利用每个氨基酸出现的频度对j进行标准化;
⑥取常用对数,得到PAM-1(i,j);
⑦将PAM-1自乘N次,可以得到PAM-n。
一个PAM就是一个进化的变异单位, 即1%的氨基酸改变(但这并不意味100次PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸),最常用的是PAM250,250%期望的突变,PAM250= (PAM1)250。
BLOSUM矩阵:根据蛋白质模块数据库BLOCKS 中蛋白质序列的高度保守部分的比对而得到的。BLOSUM矩阵的数目(例如:BLOSUM 62)表示收集Blocks资料库中序列一致性为62%的序列,再由这些序列推导出计分矩阵,数目越低,差异越大。
5. 如何把写好的文件上传到服务器,并以网页的形式展现出来?
1),安装并运行winscp,在session对话框输入主机名,端口号,用户名和密码,点击login,登陆
2),将要运行的文件(如:test.html)拖到unix中的相应目录文件夹下,如:
hanclass/2010280167150xx/目录下,然后在浏览器中输入:
http://210.77.20.246/hanclass/2010280167150xx/test.html,即可运行。
6. 展示html要用什么服务器,什么浏览器?
放在服务器特定的文件夹中(对放入什么文件夹不作要求)。放在www底下。
7. R与Bioconductor有什么关系?
R 是一个有着强大统计分析及作图功能的软件系统,在GUN 协议General Public Licence下免费发行。R是S 语言的一个分支,R的使用与S-PLUS 有很多类似之处,两个软件有一定的兼容性。不依赖于操作系统,可以在运行于UNIX, Windows和Macintosh 的操
作系统上
BioconductorR语言的延伸是一个开源和开放式的软件开发项目,目标是建立多方面的、强有力的基因组数据统计与图形分析方法。Bioconductor的应用功能主要是以包(package)的集成形式呈现在用户面前,Bioconductor 提供了大量开放式的生物信息学软件包。嵌入到R 中,进行各种生物信息学的数据处理和分析以及绘图。
8. 新一代测序技术如何影响进化基因组学的发展
新一代测序技术,可用较低的成本产生大量的序列信息,解决了以前进化基因组学中难以解决的问题:①深入的群体调查;②研究正选择的基因座;③Standing变异和de novo突变:④通过系统发生重建研究致癌突变;⑤古基因组学;⑥靶向非模式生物;⑦转录组进化。
9. 数据库NCBI, ENSEMBL
NCBI是美国国家生物技术信息中心。该中心保存GenBank的基因测序数据。
Ensemble是一个全自动的基因注释软件。由英国Sanger研究所和欧洲生物信息学研究所共同协作运营。
10. 分子进化研究方法
距离法
①邻接法:在所有可能拓扑结构中选择分支长度和S最小的作为最优树。
②UPGMA:基于层次聚类
最大简约法:对所有可能的拓扑结构进行计算,计算出所需替代数最小的那个拓扑结构作为最优树。
最大似然法:以一个特定的替代模型分析一组给定的核苷酸(或氨基酸)序列数据,使获得的每一个拓扑结构的似然率均为最大,挑选其中最大似然率最大的拓扑结构,选为最终系统树。