计算生物学试题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计算生物学复习题

名词解释:

ORFs----在DNA链上,由蛋白质合成的起始密码开始,到终止密码子为止的一个连续编码序列。

算法---为了解决一个适当的公式化表示的问题而必须执行的一系列指令。

相似性方法:利用一个基因组中已知功能的基因预测另一物种的未知基因

Motif(基序)

编辑距离---将一个字符串变换成另一个字符串所需要的最少编辑操作数目。d(v,w) = 把v 变成w的最少编辑操作数目

带: 两个相邻断点之间的区间,即不存在断点的最大片段

部分酶切——将样本DNA在有限的时间内进行酶切,结果,在某个概率下,任意两个(不一定是相邻的)位点间的区段可能没有发生酶切,因此会生成任意两个限制酶切位点间的片段。

贪婪算法——贪婪算法就是在每次迭代中选择”最有吸引力“的一项

无根树——无根树中不知道共同祖先

汉明距离——dH(v,w)是两序列v和w比对时,不一致的核苷酸数目

有向无圈图——

系统聚类---是一种元素组成树的技术,在这种情况下,基因表示为树的叶子,树的边被赋予长度,而叶与叶之间的距离表示基因之间的距离。相似的基因存在于同一子树下。

Open reading frame——由起始密码子(ATG)开始的子片段

exon——真核生物基因的一部分,它在剪接(Splicing)后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。

熵Entropy-----多重序列中,每种字符在每一列中出现的频率。

限制性酶切图谱——限制性酶切图谱即DNA分子限制酶切位点图。

穷举搜索算法——即强力算法; 检测各种可能的途径从而求解。

大O记号——描述一个算法的运行时间。

缺口罚分联配——

有根树——有根树中有共同祖先

反序排序法——给定一个排列, 找到一个能将此排列变成恒等排列的最短的反序序列——基因组重排事件为基因组片段的翻转,我们称之为反序反序r ( i, j ) 就是在p中将元素从i到j转换次序

序列相同的百分比:两条氨基酸或核酸序列相似的程度

保守序列:氨基酸的改变倾向于保持原有残基的物化性质。

基因: 编码蛋白质的核苷酸序列

基因预测问题: 预测基因在基因组中位置的计算问题

1.考虑部分酶切,,以下为已知的任意两个酶切位点之间片段的长度集合L={1,1,1,2,2,3,3,3,4,4,5,5,6,6,6,9,9,10,11,12,15}

求解L的部分酶切问题(即寻找△X=L的X),即酶切图谱上所有酶切位点的位置的集合,包括开始和结束。

2.现有两条序列分别是v = TACGGGTGA和w=GGACGTACG,假设匹配得分

=1,错配得分=-2,空位罚分=-1,利用动态规划算法对这两条序列进行比对,

画出对应于计算过程的得分矩阵及最优路径,并给出这两条序列最终的比对结

果。

4.现有两条序列v = TACGGGTGA和w=GGACGTACG,假设匹配奖励为+1,

错配罚分为-2和插缺罚分均为-1.填写序列v和w之间的局部联配的动态

规划表。并给出这两条序列局部比对的最终结果。

5.利用反序设计一个排序基因组的近似算法(即将它变换成恒等排列)(书写伪代码),并估计该算法的性能保证。

6.对于发现基序和寻找中间字符串问题,穷举搜索法/分支定界法/贪婪算法/动态规划法需要运行的时间(即算法复杂度)分别是多少?各方法的优缺点是?

3.给定一个4×4阶的可加距离矩阵D,求解一棵符合D的含有4片叶子的加

权无根树T,列出计算过程。

2.给定一棵树T,其每片叶子是由4个字母(A T C G)所标记,4×4阶的可加权得分矩阵如下表,求解树T最小化加权简约得分的内部顶点的标记。

A T G C 3.考虑部分酶切,以下为已知的任意两个酶切位点之间片段的长度集合 L ={1, 1, 2, 2, 2, 3, 3, 4, 4, 5, 5, 5, 6, 7, 7, 7, 8, 9, 10, 11, 12}

求解L 的部分酶切问题(即寻找△X =L 的X ),即酶切图谱上所有酶切位点的位置的集合,包括开始和结束。

A T G

C

相关文档
最新文档