质谱从头测序作业背景利用串联质谱进行多肽鉴定是质谱数据分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

质谱从头测序作业
背景:
利用串联质谱进行多肽鉴定是质谱数据分析中最重要的工作之一。

从头测序(De Novo sequencing)是从串联质谱数据出发直接检测多肽序列的方法。

常见的从头测序算法的思路是首先从质谱数据中构建图,图中每个顶点为质谱数据中的一个峰,两个顶点间如果质量差为恰好等于一个氨基酸残基的质量,则在这两个顶点间确定一条边,多肽序列的测定就是在图中通过寻找最优路径的过程。

下图所示为一个串联质谱数据,其中第一行中三个数字分别表示母离子质量、母离子强度以及所带电荷数。

按照离子质量顺序,数据从第二行开始,分别表示N端或C端不同离子类型(如b,y等)的质量和强度。

为简化问题,作业中假设图1中所有离子均为N端的b离子,并忽略了离子强度信息,仅利用离子质量进行从头测序的工作。

离子质量离子强度电荷
1087.498165 40.981954 1
147.068400 82.319138
284.127300 16.399043
355.164400 20.567660
412.185900 9.754579
483.223000 77.013146
597.265900 98.471866
696.334300 44.139246
753.355800 13.062783
856.365000 24.500068
913.386500 86.636427
1069.487600 6.572141
图1 一个典型的串联质谱数据
一个N x N的邻接矩阵(adjacency matrix)Adj可以用来描述包括N个顶点的图。

如果图中顶点i和j之间有一条边,则Adj(i,j)为某个不为零的数字,比如1或者分别代表20种氨基酸的不同数字,图中没有边的两个顶点所对应的A中元素为0。

图2所示为一个简单的示例。

123
10 10
20 0 1
30 0 0
图2 图和邻接矩阵
实验内容:
1)根据图1所示的串联质谱数据,通过编程的方式构建出从头测序所需的图,用邻接矩阵表示。

2)(选作内容,有加分!)根据实验1)得到的图,即找出与给定串联质谱图匹配的所有可能的多肽序列。

编程提示:
1.串联质谱数据保存于“tandemdata.txt”中,氨基酸残基质量数据保存于
“residueMassMono.txt”中。

2.将串联质谱中每个峰的质量作为图的顶点,如果两个峰的质量差等于某个氨基酸的质
量,则表明他们所对应的顶点之间由一条有向边相连,方向由质量小的节点指向质量大的顶点,边用对应氨基酸的序号来表示。

图通过邻接矩阵表示。

3.表征图结构的邻接矩阵建好之后,找出所有入度为0的顶点的集合A和出度为0的顶
点的集合B,对于每一个A和B中的顶点对(i,j)找出它们之间所有的路径,路径用相应的氨基酸的符号序列来表示,并输出结果。

相关文档
最新文档