计算生物学重点含答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
名词解释(共21分,每小题3分):
Motif(基序):调节蛋白(TF) 结合到一段DNA 序列,称这段DNA 序列为基序
部分酶切:将样本DNA在有限的时间内进行酶切,结果,在某个概率下,任意两个(不一定是相邻的)位点间的区段可能没有发生酶切,因此会生成任意两个限制酶切位点间的片段。贪婪算法:是指在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,他所做出的仅是在某种意义上的局部最优解。
无根树:在构建的进化树种中没有一个共同的祖先。
汉明距离:是两序列v和w比对时,不一致的核苷酸数目
有向无圈图:就城市街区而言如果假定城市街区对应于有向边,使得游客们只能朝边的方向走并且使得图中没有有向圈,使得游客沿着圈行走重复参观同样的景点许多次。这样的图称为有向无圈图。
Open reading frame:是以起始密码子开始,在三联体读框的倍数后出现终止密码子之间的一段序列
Intron:在转录后的加工中,从最初的转录产物除去的内部的核苷酸序列
Exon:真核生物基因的一部分,它在剪接(Splicing)后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。
限制性酶切图谱:使用限制性内切酶进行酶切,比如HindⅢ,电泳之后所得就是限制性酶切图谱
穷举搜索算法:即强力算法; 检测各种可能的途径从而求解,只在少数情况下实用; 通常是不切实际,难以实现的
大O记号:从数学的角度来说,大O记号刻画了函数在输入任意增长,并超过某个任意的值x0是的渐进形态,也是用来描述一个算法的运行时间。
缺口罚分联配:它对含有x个空格缺口的罚分可用一个比x个单独插缺的罚分之和要低的函数表示。
有根树:在构建的进化树中,所给出的物种有一个共同的祖先,位于进化树的顶端。
反序排序法:给定一个排列, 找到一个能将此排列变成恒等排列的最短的反序序列
选择题(共20分,每小题2分);填空题(共14分,每空1分)
矩阵和数组的加、减、乘、除;
矩阵中元素的引用,
绘制不同图形使用的函数,
polar函数用来绘制极坐标图
loglog(x,y),title('双对数')
semilogx(x,y),title('x轴对数')
semilogy(x,y),title('y轴对数')
bar(x,y,选项)条形图三维的图形在后面加一个3
stairs(x,y,选项)阶梯图
stem(x,y,选项)杆图
fill(x1,y1,选项1,x2,y2,选项2,…)填充图
pie([2347,1827,2043,3025])饼图
mesh(x,y,z)画网格曲面
surf(x,y,z)画完整曲面
[x,y,z]=sphere(n)球面
[x,y,z]= cylinder(R,n)三维面
什么是for, while循环等等。
给定序列t条,如何计算剖面矩阵得分,汉明距离。
什么是反序排序:给定一个排列, 找到一个能将此排列变成恒等排列的最短的反序序列
断点:在任何相邻的不连续的元素之间存在断点breakpoint
若ρ=8为引入缺口罚分,σ=2为缺口中每个字符的罚分,则序列中5个连续的单字符缺口罚分之和为-18 。(-ρ-xσ)
蛋白质序列比较的常用得分矩阵有pam 和blosum 。
菲波那契问题中第8个菲波那契数F(8)是21 。
计算题(共30分,每小题10分);论述题(共15分)
1.考虑部分酶切,,以下为已知的任意两个酶切位点之间片段的长度集合L={1, 1, 2, 2, 2, 3, 3, 4, 4, 5, 5, 5, 6, 7, 7, 7, 8, 9, 10, 11, 12}
求解L的部分酶切问题(即寻找△X=L的X),即酶切图谱上所有酶切位点的位置的集合,包括开始和结束。
解:{0,1,2,5,7,9,12} 和{0,1,5,7,8,10,12}
2.现有两条序列分别是v = TACGGGTGA和w=GGACGTACG,假设匹配得分=1,错配得分=-2,空位罚分=-1,利用动态规划算法对这两条序列进行全局比对,画出对应于计算过程的得分矩阵及最优路径,并给出这两条序列最终的比对结果。
3.现有两条序列v = TACGGGTGA和w=GGACGTACG,假设匹配奖励为+1,
错配罚分为-2和插缺罚分均为-1.填写序列v和w之间的局部联配的动态
规划表。并给出这两条序列局部比对的最终结果。
5.利用反序设计一个排序基因组的近似算法(即将它变换成恒等排列)(书写伪代码),并估计该算法的性能保证。
改进断点反序排序法是一个性能保证不超过4的近似算法每两步至少消除一个断点; 那么最多经过2b(p) 步消除所有断点近似率: 2b(p) / d(p)最优算法一步最多消除两个断点,即:
d(p) b(p) / 2性能保证的上界:( 2b(p) / d(p) ) < [ 2b(p) / (b(p) / 2) ] = 4
6.对于发现基序和寻找中间字符串问题,穷举搜索法/分支定界法/贪婪算法/动态规划法需要运行的时间(即算法复杂度)分别是多少?各方法的优缺点是?
3.给定一棵树T,其每片叶子是由4个字母(A T C G)所标记,4×4阶的可加权得分矩阵如下表,求解树T最小化加权简约得分的内部顶点的标记。
2.给定一个4×4阶的可加距离矩阵D,求解一棵符合D的含有4片叶子的加权无根树T,列出计算过程。