蛋白质分解问题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分子量分解问题研究
第39组:陈胜:模型建立,程序设计
徐南:算法优化,程序设计
周荣玲:搜索资料,论文撰写
摘要:生命是由蛋白质组成的,没有蛋白质就没有生命。蛋白质是由C、H、O、N、P、S等元素组成的一类高分子化合物,氨基酸是其主要组成物质。研究蛋白质的组成,最重要的就是研究其是由哪些氨基酸组成的。本文在基于对实际蛋白质分子量之大的认识基础上,认为在没有计算机的情况下求解其分解情况已不现实,所以不考虑在没有计算机的情形下求解。在有计算机的前提下,我们根据考虑氮元素含量的限制条件与否建立了不考虑氮元素限制的模型1和更加优化的考虑氮元素含量限制的模型2,模型2相较模型1更加合理,可以剔除模型1中大量无实际意义的解。对两个模型分别建立18元一次方
程18
1i i
i
a x X =
=
∑,通过穷举法和C++编程求解出题目给定的蛋白质分子量X=1000时,模型1的可能解的个数N=28268,模型2的可能解的个
数N=13421。
关键字:蛋白质分解氨基酸分子量n元一次方程穷举法
1、问题重述
生命蛋白质是由若干种氨基酸经不同的方式组合而成。在实验中,为了分析某个生命蛋白质的分子组成,通常用质谱实验测定其分子量x (正整数),然后将分子量x分解为n个已知分子量a[i](i=1,.......,n)氨基酸的和的形式。某实验室所研究的问题中:
n=18, x≤1000
a[i](i=1,.......,18)分别为57, 71, 87, 97, 99, 101, 103, 113, 114, 115, 128, 129, 131, 137, 147, 156, 163, 186
要求针对该实验室拥有或不拥有计算机的情况作出解答。
2、问题分析
氨基酸脱水缩合形成蛋白质是一个复杂的过程,为建模方便我们忽略氨基酸经脱水缩合形成肽键对蛋白质分子量的影响,认为蛋白质
分子量就是组成其结构的各种氨基酸分子量之和,也即18
1i i
i
a x X =
=
∑,
该题目就是建立相关模型寻找不同方法求解这个多元一次方程,得出所有满足条件的蛋白质分子量分解的可能解的个数。我们认为实际蛋白质分子量非常大,在没有计算机的情况下求解其分解情况已不现实,所以我们不考虑在没有计算机的情形下求解。在有计算机的前提下,我们根据考虑氮元素含量的限制条件与否建立了不考虑的模型1和
更加优化的模型2,分别通过穷举法和C++编程求解出题目给定的蛋白质分子量可能分解情况的解的个数。
3、模型假设
1)组成蛋白质的各种氨基酸是任意排列组合的,任一种氨基酸的存在不以其他氨基酸存在为前提。
2)蛋白质分子只由组成其结构且给定分子量的氨基酸组成,而不含有其他物质。
3)蛋白质分子质量为组成其结构的各种氨基酸分子量之和,即不考虑各氨基酸形成蛋白质时脱水缩合形成肽键的过程。
4) 蛋白质分子中的各给定分子量的氨基酸水解程度相同。 5)
题目中所给出的各氨基酸分子量是准确的,没有测量误差。
4、系统符号与说明
i a :第i 种氨基酸的分子量(1,2...18,i i N =∈); i x :第i 种氨基酸的个数(1,2...18,i i N =∈)
; X :蛋白质的分子量;
N :蛋白质分子量分解的可能解的个数;
T : 执行程序至得出答案需要的时间(s )
。 5、模型建立与求解
给定蛋白质的分子量X 和各种氨基酸的分子量i a ,测定蛋白质的组成,即求解n 元一次线性方程1n
i i i a x X ==∑的所有整数解的问题。特别
的,对于本题,当18n =时即为本题所要求解的问题。在此,本文给出两个模型,即不考虑氮元素限制的模型和考虑氮元素限制的优化模型。
5、1在拥有计算机的情况下求解:模型1—穷举法(不考虑氮元素限制)
所谓穷举法,即根据问题中的条件将所有可能的情况一一列举出来,逐一尝试从中找出满足问题条件的解。
对于本文的问题,我们可以根据18元一次方程18
1i i i a x X ==∑编写C++
程序,设计多重循环并进行判断,满足条件即输出,进而列举出所有可能组合成该蛋白质的解的情况,并统计出所有解的个数。
通过程序运行得到不同蛋白质质量输入值X与其可能氨基酸组合解的个数N以及程序运行时间T之间的关系(表一)。
表一:不考虑氮元素限制时输入X与解个数N、耗时T关系表
X的值解的个数N/个花费时间T/s
100 0 0
200 4 0
300 14 0
400 45 0
500 158 0
600 522 0.015
700 1508 0.047
800 4291 0.062
900 11249 0.14
1000 28268 0.297
1100 67339 0.718
1200 154143 1.607
1300 338158 3.542
1400 716481 7.442
1500 1467221 15.35
据表一我们可以知道此种情况下,当输入蛋白质质量X=1000时,其对应的可能解的个数N=28268。
使用MATLAB软件对表一中的数据进行数据拟合(图一、图二)(具体程序见附录)。
图一:不考虑氮元素限制时输入X 与解个数N 关系拟合曲线图
据图一可以看出,不考虑氮元素限制时解的个数N 随着输入X 呈现指数增长趋势,具体函数关系为:
0.00736823.33X N e =。
图二:不考虑氮元素限制时输入X 与求解时间T 拟合关系曲线图
据图二可以看出,不考虑氮元素限制时求解时间T 随着输入X 也呈现指数增长趋势,具体函数关系式为:0.0073840.0002382X T e =。
我们可以发现,当X 较小时,解的个数相对较少,求解时间相对较快;当X 增加时,其解的个数显著增加,求解时间也显著延长。而实际蛋白质质量变化范围很大,从6000到100万或更大,因此对于
5
输入X
解个数N
输入X 与解个数N 关系图
输入X
求解时间T
输入X 与求解时间T 关系图