从质谱数据鉴定多肽蛋白质

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

PMF的效果可能会受到很大的影响。
多肽质量纹:小结
► 质量纹算法是用一级质谱鉴定蛋白质的经典
方法。 ► 质量纹算法比较简单,一般使用较简单的统 计模型,速度一般较快。 ► 质量纹算法的效果受到很多方面的限制,首 先是仪器精度的限制,其次是样品中可能有 多个蛋白的限制。这使得质量纹算法不是理 想的分析复杂混合物中蛋白成分的方法。 ► 返回
常用的质量纹算法
► 现在试验中可用的算法有:
Mascot: http://www.matrixscience.com Profound: http://prowl.rockefeller.edu/cgibin/Profound Expasy tools: http://www.expasy.ch/tools/ PeptideSearch: http://mac-mann6.emblheidelberg.de
理论质谱图和试验质谱图
数据库搜索的流程
► 在一个蛋白序列数据库中,可以找出来的,
落在质谱仪质量范围以内的多肽多达数百至 数千万,如果每个多肽都拿来和试验质谱图 做比对的话,需要花费的时间是难以接受的。
► 提高搜索速度的关键就是减少搜索的对象数。
数据库搜索的流程
► 所以,基本上,所有的数据库搜索算法都包
Genpept示例
Genpept示例
FASTA格式
► FASTA格式就是蛋白的氨基酸序列。
虚拟酶解
► 对应于送进质谱仪的样品,我们可以对数据
库里的序列作一次虚拟的酶解。
质量排列
► 虚拟酶解的结果,产生了一系列的多肽,我
们可以计算每个多肽的质量。
► 最后一个R的质量多加了18,这是因为我们写
PMF中的问题
► 第一个问题:质量相近的多肽怎么处理? ► 在现实的蛋白数据库中,多肽的数量是很庞
大的。这里面难保不会有质量非常相近的多 肽。这样,就造成了质谱图上的一个峰可能 匹配不止一个多肽,于是我们就难以知晓这 张质谱图究竟代表哪个蛋白。
质量相近的多肽
多肽 DGAPLESSSR REGESTPSR DFPIANGER DPLASSSWR YVPLKDQR HLQLPAPSR VLFLNGIDK [M+H+] 1019.0490 1019.0520 1019.0940 1019.0940 1019.1800 1019.1830 1019.2200
Carbonic anhydrase II
SLLPNVLDYWTYPGSLTTPPLLESVTWIVLKEPISV SSQQMLKFRTLNFNAEGEPELLML ANWRPAQPLKNRQVRGFPK
多匹配可以大大降低随机匹配的概率,从而增加结 果的可信度
长蛋白和短蛋白
► 第二个问题:长蛋白可能会更容易的被匹配。 ► 因为长蛋白里的多肽数目较多,即以概率来
600 - 700
248521
4873260
1418510
Database Searching
► 对于一张不完美的质谱图,有这么多的组合
可以生成之。但是,幸运的是,我们还有这 个蛋白序列数据库。 ► 虽然组合有那么多,但是在这个数据库的限 制之下,组合数就大大的减少了。 ► 所以我们可以从数据库里搜索最好的匹配质 谱图的多肽,这样就有了二级质谱的数据库 搜索算法。
Peak m/z: 1019.08
解决方案
► 第一个解决的办法是Baidu Nhomakorabea制用来搜索的数据库。
比如,你如果做的试验用的是小白鼠的组织, 那么你可以只在鼠类的数据库中搜索,这样 就可以减低出现这种情况的可能性。 ► 第二个解决的办法是要求必须有多个多肽和 数据库相匹配,才做出最后的蛋白质鉴定。
多匹配
DFPIANGER EPISVSSQQMLK VLDALDSIK 1019.09 1347.56 974.13
组合数(估计值)
峰间质量距离 (Da) 50 - 100 100 - 200
200 - 300 300 - 400 400 - 500 500 - 600
最低组合数 最高组合数
0 1
平均值
0.089
0
1 37 586 14093
14
136 1687 23481 340380
1.556
24.871 386.23 5958.36 92016.7
一级质谱图
► 蛋白质经过酶解后,送入质谱仪,得到一级
质谱。 ► 目前来说,由MALDI-TOF质谱仪产生的质谱 图精度较高,而由ESI质谱仪产生的质谱图精 度相对较低。 ► 另一个问题是,ESI产生的质谱图中的离子通 常带有很多电荷,而MALDI质谱图中的离子 一般只带一个电荷,比较容易计算。 ► 所以从一级质谱鉴定蛋白质的算法(质量纹) 主要用在MALDI-TOF产生的质谱图上。
利用二级质谱图
► 我们刚才谈到了,多肽质量纹有其先天的不
足。其中,最糟糕的是它不能处理多个蛋白 的混合物。 ► 如果我们能够处理混合物,就可以减少很多 用于纯化上的时间和精力。 ► 那么,怎么才能从混合物中鉴定蛋白呢?这 就要用到二级质谱。
二级质谱图
► 在一级质谱图中,选择其中的一个峰,对其
进行CID过程,就得到一张二级质谱图。
肽键及其断裂
一些常见的特殊情况
► 除了普通的肽键断裂以外,还经常有一些特
殊的情况。 ► Neutral loss: 某些酸性氨基酸可能会在CID中 丢失一个水分子(H2O),而碱性氨基酸会 在CID中丢失一个氨分子(NH3)。 ► 翻译后修饰:有时,二级质谱中需要考虑某 些氨基酸可能被修饰(磷酸化、糖基化等), 这些修饰可能改变残基的分子量。
第四讲 从质谱数据鉴定多肽/蛋白质
中科院自动化所 李伏欣
开场白
► 在之前的讲座中,我们已经学到了关于蛋白
质组学中的重要工具—质谱仪的知识。
► 蛋白质组学里,质谱仪的作用是鉴定混合物
中的蛋白质。然而,没有数据分析的辅助, 它是做不到这一点的。
讲座大纲
► 本讲座中,将分别讲述两种鉴定蛋白质的方
法。其一是质量纹鉴定法(Peptide Mass Fingerprinting),另外一种是二级质谱的数 据库搜索鉴定法(MS/MS Database Searching)。
数据库搜索的基础
► 数据库搜索的基础很简单,就是理论质谱图
和试验质谱图之间的一个比对。
► 我们刚才讨论了CID的过程,所以我们知道了
残基产生的规律,那么,利用这些规律,我 们可以对每个多肽产生一张理论的质谱图, 用来和试验质谱图进行比对,对它们“相似” 的程度做一个评分,分数最高的多肽,我们 就认为它是试验质谱图代表的多肽。
128.09496 113.08406 131.04049 114.04293 97.05276 128.05858 156.10111 87.03203 101.04768 99.06841 186.07931 163.06333
氨基酸质量表
Met Asn Pro Gln Arg Ser Thr Val Trp Tyr M N P Q R S T V W Y 71.03711 103.00919 115.02694 129.04259 147.06841 57.02146 137.05891 113.08406
Sample MS Spectrum
蛋白序列数据库
► 在美国国家生物信息中心的网站
http://ncbi.nlm.nih.gov上可以查询到最新的 蛋白序列数据库。 ► NCBI上的数据库中,信息最丰富的是 Genpept格式,包括有蛋白的序列,各种性 质,甚至于参考文献。 ► 但是对我们来说,我们只需要蛋白序列的信 息就够了。
Molecular weights used for calculations. Monoisotop Sho Butt Average ic rt on mass mass of cod Name code of residue residue e Twenty Naturally-Occurring Amino Acids Ala Cys Asp Glu Phe Gly His Ile A C D E F G H I Alanine Cysteine Aspartic Acid Glutamic Acid Phenylalan ine Glycine Histidine Isoleucine 71.0788 103.1448 115.0886 129.1155 147.1766 57.0520 137.1412 113.1595
► 这里的假设是一级质谱中的一个峰就对应了
一个多肽,实际情况可能并不是这样。
► 先看一张二级质谱图,然后我们来解释CID过
程。
典型二级质谱图
CID
► CID,即Collision-induced
Dissociation,是通 过撞击使得多肽的肽键断裂的过程。 ► 在做二级质谱的试验时,质谱仪选择一级质 谱中的一个峰,也就是对应质荷比的这些离 子,让这些离子高速撞击质谱仪中的惰性气 体,使其肽键断裂,这就是CID。
Lys Leu
K L
Lysine Leucine Methionine Asparagine Proline Glutamine Arginine Serine Threonine Valine Tryptophan Tyrosine
128.1742 113.1595 131.1986 114.1039 97.1167 128.1308 156.1876 87.0782 101.1051 99.1326 186.2133 163.1760
通过残基鉴定多肽
De-novo Sequencing
► 这种通过残基来鉴定多肽的方法被称为De-
novo Sequencing。
► 当我们拥有近乎完美的二级质谱图时,我们
可以采用这种De-novo Sequencing的办法。
► 但是,实际情况中,我们并没有完美的二级
质谱图,而一点点的不完美,带来的误差是 惊人的。
算,匹配上的几率也会比较大。
► 质量纹算法必须考虑这个问题,给短蛋白一
定的补偿。
多个蛋白的情况
► 第三个问题就是在一张质谱图中可能有多个
蛋白存在。
► 通常,MALDI-TOF是与双向电泳连接使用。
双向电泳的一个电泳点上可能有2-3个蛋白, 这样就增加了鉴定的难度。
► 由于无法预知一个电泳点上有多少蛋白质,
括两个步骤。 ► 第一个步骤是筛选数据库里的多肽,找出所 有有可能与质谱图匹配的多肽。 ► 第二个步骤就是拿这些选出来的多肽去和质 谱图进行比对,并输出最高分值的多肽作为 一个PSM(Peptide-Spectrum Match)。
肽键断裂的说明
► CID中,肽键的断裂方式有非常多的可能性。
关于具体的断裂方式,可以去查询生物化学 方面的书籍。这些问题超过了本课程的范围。 ► 通常,我们只考虑b系列和y系列。原因是我 们使用的电压较低,其他系列的离子不易产 生。 ► 但实际上,如果能够清楚的知道我们究竟需 要考虑什么样的断裂方式,对搜索算法的设 计会有很大的帮助。
SHHWGYGKHBGPZHWHKDFPIANGERQSPVNID TKAVVQDPALKPLALVYGEATSRRMVN
NGHSFNVEYDDSQDKAVLKDGPLTGTYRLVQFHF HWGSSBBQGSEHTVDRKKYAAELHLV HWNTKYGDFGTAAQQPDGLAVVGVFLKVGDANP ALQKVLDALDSIKTKGKSTDFPNFDPG
► 我们将简略的介绍质量纹鉴定法。而用更多
的时间讨论用于二级质谱上的方法。
多肽质量纹鉴定
► 多肽质量纹(Peptide
Mass Fingerprinting, PMF)是从一级质谱(MS)中鉴定多肽的主 要方法。 ► 多肽质量纹一般都是在MALDI-TOF仪器的结 果上进行。 ► 其原理就是利用了蛋白序列数据库中的多肽 质量的信息。 ► 我们下面的讨论,先假设一张质谱图对应一 个蛋白。后面会讨论处理多个蛋白的情况。
在下面的是残基的分子量。
质量排列的
► 把所有多肽的质量排序。
质量纹
► 如此,质谱图上的质量就可以与多肽上的质
量相匹配。
质量纹
► 这就是多肽质量纹(PMF)的最基础的思路。 ► 但是,真正的将之作为一个鉴定蛋白质的方
法,还有很多需要考虑的问题。
► 在讨论这些问题之前,我们先看一看目前常
用的质量纹算法。
相关文档
最新文档