从质谱数据鉴定多肽蛋白质

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

PMF的效果可能会受到很大的影响。
多肽质量纹：小结
► 质量纹算法是用一级质谱鉴定蛋白质的经典
方法。 ► 质量纹算法比较简单，一般使用较简单的统计模型，速度一般较快。 ► 质量纹算法的效果受到很多方面的限制，首先是仪器精度的限制，其次是样品中可能有多个蛋白的限制。这使得质量纹算法不是理想的分析复杂混合物中蛋白成分的方法。 ► 返回
常用的质量纹算法
► 现在试验中可用的算法有：
Mascot: http://www.matrixscience.com Profound: http://prowl.rockefeller.edu/cgibin/Profound Expasy tools: http://www.expasy.ch/tools/ PeptideSearch: http://mac-mann6.emblheidelberg.de
理论质谱图和试验质谱图
数据库搜索的流程
► 在一个蛋白序列数据库中，可以找出来的，
落在质谱仪质量范围以内的多肽多达数百至数千万，如果每个多肽都拿来和试验质谱图做比对的话，需要花费的时间是难以接受的。
► 提高搜索速度的关键就是减少搜索的对象数。
数据库搜索的流程
► 所以，基本上，所有的数据库搜索算法都包
Genpept示例
Genpept示例
FASTA格式
► FASTA格式就是蛋白的氨基酸序列。
虚拟酶解
► 对应于送进质谱仪的样品，我们可以对数据
库里的序列作一次虚拟的酶解。
质量排列
► 虚拟酶解的结果，产生了一系列的多肽，我
们可以计算每个多肽的质量。
► 最后一个R的质量多加了18，这是因为我们写
PMF中的问题
► 第一个问题：质量相近的多肽怎么处理？ ► 在现实的蛋白数据库中，多肽的数量是很庞
大的。这里面难保不会有质量非常相近的多肽。这样，就造成了质谱图上的一个峰可能匹配不止一个多肽，于是我们就难以知晓这张质谱图究竟代表哪个蛋白。
质量相近的多肽
多肽 DGAPLESSSR REGESTPSR DFPIANGER DPLASSSWR YVPLKDQR HLQLPAPSR VLFLNGIDK [M+H+] 1019.0490 1019.0520 1019.0940 1019.0940 1019.1800 1019.1830 1019.2200
Carbonic anhydrase II
SLLPNVLDYWTYPGSLTTPPLLESVTWIVLKEPISV SSQQMLKFRTLNFNAEGEPELLML ANWRPAQPLKNRQVRGFPK
多匹配可以大大降低随机匹配的概率,从而增加结果的可信度
长蛋白和短蛋白
► 第二个问题：长蛋白可能会更容易的被匹配。 ► 因为长蛋白里的多肽数目较多，即以概率来
600 - 700
248521
4873260
1418510
Database Searching
► 对于一张不完美的质谱图，有这么多的组合
可以生成之。但是，幸运的是，我们还有这个蛋白序列数据库。 ► 虽然组合有那么多，但是在这个数据库的限制之下，组合数就大大的减少了。 ► 所以我们可以从数据库里搜索最好的匹配质谱图的多肽，这样就有了二级质谱的数据库搜索算法。
Peak m/z: 1019.08
解决方案
► 第一个解决的办法是Baidu Nhomakorabea制用来搜索的数据库。
比如，你如果做的试验用的是小白鼠的组织，那么你可以只在鼠类的数据库中搜索，这样就可以减低出现这种情况的可能性。 ► 第二个解决的办法是要求必须有多个多肽和数据库相匹配，才做出最后的蛋白质鉴定。
多匹配
DFPIANGER EPISVSSQQMLK VLDALDSIK 1019.09 1347.56 974.13
组合数(估计值）
峰间质量距离 (Da) 50 - 100 100 - 200
200 - 300 300 - 400 400 - 500 500 - 600
最低组合数最高组合数
0 1
平均值
0.089
0
1 37 586 14093
14
136 1687 23481 340380
1.556
24.871 386.23 5958.36 92016.7
一级质谱图
► 蛋白质经过酶解后，送入质谱仪，得到一级
质谱。 ► 目前来说，由MALDI-TOF质谱仪产生的质谱图精度较高，而由ESI质谱仪产生的质谱图精度相对较低。 ► 另一个问题是，ESI产生的质谱图中的离子通常带有很多电荷，而MALDI质谱图中的离子一般只带一个电荷，比较容易计算。 ► 所以从一级质谱鉴定蛋白质的算法（质量纹）主要用在MALDI-TOF产生的质谱图上。
利用二级质谱图
► 我们刚才谈到了，多肽质量纹有其先天的不
足。其中，最糟糕的是它不能处理多个蛋白的混合物。 ► 如果我们能够处理混合物，就可以减少很多用于纯化上的时间和精力。 ► 那么，怎么才能从混合物中鉴定蛋白呢？这就要用到二级质谱。
二级质谱图
► 在一级质谱图中，选择其中的一个峰，对其
进行CID过程，就得到一张二级质谱图。
肽键及其断裂
一些常见的特殊情况
► 除了普通的肽键断裂以外，还经常有一些特
殊的情况。 ► Neutral loss: 某些酸性氨基酸可能会在CID中丢失一个水分子（H2O），而碱性氨基酸会在CID中丢失一个氨分子（NH3）。 ► 翻译后修饰：有时，二级质谱中需要考虑某些氨基酸可能被修饰（磷酸化、糖基化等），这些修饰可能改变残基的分子量。
第四讲从质谱数据鉴定多肽/蛋白质
中科院自动化所李伏欣
开场白
► 在之前的讲座中，我们已经学到了关于蛋白
质组学中的重要工具—质谱仪的知识。
► 蛋白质组学里，质谱仪的作用是鉴定混合物
中的蛋白质。然而，没有数据分析的辅助，它是做不到这一点的。
讲座大纲
► 本讲座中，将分别讲述两种鉴定蛋白质的方
法。其一是质量纹鉴定法（Peptide Mass Fingerprinting），另外一种是二级质谱的数据库搜索鉴定法（MS/MS Database Searching）。
数据库搜索的基础
► 数据库搜索的基础很简单，就是理论质谱图
和试验质谱图之间的一个比对。
► 我们刚才讨论了CID的过程，所以我们知道了
残基产生的规律，那么，利用这些规律，我们可以对每个多肽产生一张理论的质谱图，用来和试验质谱图进行比对，对它们“相似” 的程度做一个评分，分数最高的多肽，我们就认为它是试验质谱图代表的多肽。
128.09496 113.08406 131.04049 114.04293 97.05276 128.05858 156.10111 87.03203 101.04768 99.06841 186.07931 163.06333
氨基酸质量表
Met Asn Pro Gln Arg Ser Thr Val Trp Tyr M N P Q R S T V W Y 71.03711 103.00919 115.02694 129.04259 147.06841 57.02146 137.05891 113.08406
Sample MS Spectrum
蛋白序列数据库
► 在美国国家生物信息中心的网站
http://ncbi.nlm.nih.gov上可以查询到最新的蛋白序列数据库。 ► NCBI上的数据库中，信息最丰富的是 Genpept格式，包括有蛋白的序列，各种性质，甚至于参考文献。 ► 但是对我们来说，我们只需要蛋白序列的信息就够了。
Molecular weights used for calculations. Monoisotop Sho Butt Average ic rt on mass mass of cod Name code of residue residue e Twenty Naturally-Occurring Amino Acids Ala Cys Asp Glu Phe Gly His Ile A C D E F G H I Alanine Cysteine Aspartic Acid Glutamic Acid Phenylalan ine Glycine Histidine Isoleucine 71.0788 103.1448 115.0886 129.1155 147.1766 57.0520 137.1412 113.1595
► 这里的假设是一级质谱中的一个峰就对应了
一个多肽，实际情况可能并不是这样。
► 先看一张二级质谱图，然后我们来解释CID过
程。
典型二级质谱图
CID
► CID，即Collision-induced
Dissociation，是通过撞击使得多肽的肽键断裂的过程。 ► 在做二级质谱的试验时，质谱仪选择一级质谱中的一个峰，也就是对应质荷比的这些离子，让这些离子高速撞击质谱仪中的惰性气体，使其肽键断裂，这就是CID。
Lys Leu
K L
Lysine Leucine Methionine Asparagine Proline Glutamine Arginine Serine Threonine Valine Tryptophan Tyrosine
128.1742 113.1595 131.1986 114.1039 97.1167 128.1308 156.1876 87.0782 101.1051 99.1326 186.2133 163.1760
通过残基鉴定多肽
De-novo Sequencing
► 这种通过残基来鉴定多肽的方法被称为De-
novo Sequencing。
► 当我们拥有近乎完美的二级质谱图时，我们
可以采用这种De-novo Sequencing的办法。
► 但是，实际情况中，我们并没有完美的二级
质谱图，而一点点的不完美，带来的误差是惊人的。
算，匹配上的几率也会比较大。
► 质量纹算法必须考虑这个问题，给短蛋白一
定的补偿。
多个蛋白的情况
► 第三个问题就是在一张质谱图中可能有多个
蛋白存在。
► 通常，MALDI-TOF是与双向电泳连接使用。
双向电泳的一个电泳点上可能有2-3个蛋白，这样就增加了鉴定的难度。
► 由于无法预知一个电泳点上有多少蛋白质，
括两个步骤。 ► 第一个步骤是筛选数据库里的多肽，找出所有有可能与质谱图匹配的多肽。 ► 第二个步骤就是拿这些选出来的多肽去和质谱图进行比对，并输出最高分值的多肽作为一个PSM（Peptide-Spectrum Match）。
肽键断裂的说明
► CID中，肽键的断裂方式有非常多的可能性。
关于具体的断裂方式，可以去查询生物化学方面的书籍。这些问题超过了本课程的范围。 ► 通常，我们只考虑b系列和y系列。原因是我们使用的电压较低，其他系列的离子不易产生。 ► 但实际上，如果能够清楚的知道我们究竟需要考虑什么样的断裂方式，对搜索算法的设计会有很大的帮助。
SHHWGYGKHBGPZHWHKDFPIANGERQSPVNID TKAVVQDPALKPLALVYGEATSRRMVN
NGHSFNVEYDDSQDKAVLKDGPLTGTYRLVQFHF HWGSSBBQGSEHTVDRKKYAAELHLV HWNTKYGDFGTAAQQPDGLAVVGVFLKVGDANP ALQKVLDALDSIKTKGKSTDFPNFDPG
► 我们将简略的介绍质量纹鉴定法。而用更多
的时间讨论用于二级质谱上的方法。
多肽质量纹鉴定
► 多肽质量纹（Peptide
Mass Fingerprinting， PMF）是从一级质谱（MS）中鉴定多肽的主要方法。 ► 多肽质量纹一般都是在MALDI-TOF仪器的结果上进行。 ► 其原理就是利用了蛋白序列数据库中的多肽质量的信息。 ► 我们下面的讨论，先假设一张质谱图对应一个蛋白。后面会讨论处理多个蛋白的情况。
在下面的是残基的分子量。
质量排列的
► 把所有多肽的质量排序。
质量纹
► 如此，质谱图上的质量就可以与多肽上的质
量相匹配。
质量纹
► 这就是多肽质量纹（PMF）的最基础的思路。 ► 但是，真正的将之作为一个鉴定蛋白质的方
法，还有很多需要考虑的问题。
► 在讨论这些问题之前，我们先看一看目前常
用的质量纹算法。