计算生物学试题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算生物学复习题
名词解释:
ORFs----在DNA链上,由蛋白质合成的起始密码开始,到终止密码子为止的一个连续编码序列。
算法---为了解决一个适当的公式化表示的问题而必须执行的一系列指令。
相似性方法:利用一个基因组中已知功能的基因预测另一物种的未知基因
Motif(基序)
编辑距离---将一个字符串变换成另一个字符串所需要的最少编辑操作数目。d(v,w) = 把v 变成w的最少编辑操作数目
带: 两个相邻断点之间的区间,即不存在断点的最大片段
部分酶切——将样本DNA在有限的时间内进行酶切,结果,在某个概率下,任意两个(不一定是相邻的)位点间的区段可能没有发生酶切,因此会生成任意两个限制酶切位点间的片段。
贪婪算法——贪婪算法就是在每次迭代中选择”最有吸引力“的一项
无根树——无根树中不知道共同祖先
汉明距离——dH(v,w)是两序列v和w比对时,不一致的核苷酸数目
有向无圈图——
系统聚类---是一种元素组成树的技术,在这种情况下,基因表示为树的叶子,树的边被赋予长度,而叶与叶之间的距离表示基因之间的距离。相似的基因存在于同一子树下。
Open reading frame——由起始密码子(ATG)开始的子片段
exon——真核生物基因的一部分,它在剪接(Splicing)后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。
熵Entropy-----多重序列中,每种字符在每一列中出现的频率。
限制性酶切图谱——限制性酶切图谱即DNA分子限制酶切位点图。
穷举搜索算法——即强力算法; 检测各种可能的途径从而求解。
大O记号——描述一个算法的运行时间。
缺口罚分联配——
有根树——有根树中有共同祖先
反序排序法——给定一个排列, 找到一个能将此排列变成恒等排列的最短的反序序列——基因组重排事件为基因组片段的翻转,我们称之为反序反序r ( i, j ) 就是在p中将元素从i到j转换次序
序列相同的百分比:两条氨基酸或核酸序列相似的程度
保守序列:氨基酸的改变倾向于保持原有残基的物化性质。
基因: 编码蛋白质的核苷酸序列
基因预测问题: 预测基因在基因组中位置的计算问题
1.考虑部分酶切,,以下为已知的任意两个酶切位点之间片段的长度集合L={1,1,1,2,2,3,3,3,4,4,5,5,6,6,6,9,9,10,11,12,15}
求解L的部分酶切问题(即寻找△X=L的X),即酶切图谱上所有酶切位点的位置的集合,包括开始和结束。
2.现有两条序列分别是v = TACGGGTGA和w=GGACGTACG,假设匹配得分
=1,错配得分=-2,空位罚分=-1,利用动态规划算法对这两条序列进行比对,
画出对应于计算过程的得分矩阵及最优路径,并给出这两条序列最终的比对结
果。
4.现有两条序列v = TACGGGTGA和w=GGACGTACG,假设匹配奖励为+1,
错配罚分为-2和插缺罚分均为-1.填写序列v和w之间的局部联配的动态
规划表。并给出这两条序列局部比对的最终结果。
5.利用反序设计一个排序基因组的近似算法(即将它变换成恒等排列)(书写伪代码),并估计该算法的性能保证。
6.对于发现基序和寻找中间字符串问题,穷举搜索法/分支定界法/贪婪算法/动态规划法需要运行的时间(即算法复杂度)分别是多少?各方法的优缺点是?
3.给定一个4×4阶的可加距离矩阵D,求解一棵符合D的含有4片叶子的加
权无根树T,列出计算过程。
2.给定一棵树T,其每片叶子是由4个字母(A T C G)所标记,4×4阶的可加权得分矩阵如下表,求解树T最小化加权简约得分的内部顶点的标记。
A T G C 3.考虑部分酶切,以下为已知的任意两个酶切位点之间片段的长度集合 L ={1, 1, 2, 2, 2, 3, 3, 4, 4, 5, 5, 5, 6, 7, 7, 7, 8, 9, 10, 11, 12}
求解L 的部分酶切问题(即寻找△X =L 的X ),即酶切图谱上所有酶切位点的位置的集合,包括开始和结束。
A T G
C