从质谱数据鉴定多肽蛋白质

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
► 由于无法预知一个电泳点上有多少蛋白质,
PMF的效果可能会受到很大的影响。 PMF的效果可能会受到很大的影响。
多肽质量纹:小结
► 质量纹算法是用一级质谱鉴定蛋白质的经典
方法。 ► 质量纹算法比较简单,一般使用较简单的统 计模型,速度一般较快。 ► 质量纹算法的效果受到很多方面的限制,首 先是仪器精度的限制,其次是样品中可能有 多个蛋白的限制。这使得质量纹算法不是理 想的分析复杂混合物中蛋白成分的方法。 ► 返回
Genpept示例 Genpept示例
Genpept示例 Genpept示例
FASTA格式 FASTA格式
► FASTA格式就是蛋白的氨基酸序列。 FASTA格式就是蛋白的氨基酸序列。
虚拟酶解
► 对应于送进质谱仪的样品,我们可以对数据
库里的序列作一次虚拟的酶解。
质量排列
► 虚拟酶解的结果,产生了一系列的多肽,我
128.09496 113.08406 131.04049 114.04293 97.05276 128.05858 156.10111 87.03203 101.04768 99.06841 186.07931 163.06333
氨基酸质量表
Met Asn 71.03711 Pro 103.00919 Gln 115.02694 Arg 129.04259 Ser 147.06841 Thr 57.02146 Val 137.05891 Trp 113.08406 Tyr Y W V T S R Q P M N
肽键断裂的说明
► CID中,肽键的断裂方式有非常多的可能性。 CID中,肽键的断裂方式有非常多的可能性。
关于具体的断裂方式,可以去查询生物化学 方面的书籍。这些问题超过了本课程的范围。 ► 通常,我们只考虑b系列和y系列。原因是我 通常,我们只考虑b系列和y 们使用的电压较低,其他系列的离子不易产 生。 ► 但实际上,如果能够清楚的知道我们究竟需 要考虑什么样的断裂方式,对搜索算法的设 计会有很大的帮助。
Carbonic anhydrase II
SLLPNVLDYWTYPGSLTTPPLLESVTWIVLKEPISV SSQQMLKFRTLNFNAEGEPELLML ANWRPAQPLKNRQVRGFPK
多匹配可以大大降低随机匹配的概率,从而增加结 果的可信度
长蛋白和短蛋白
► 第二个问题:长蛋白可能会更容易的被匹配。 ► 因为长蛋白里的多肽数目较多,即以概率来
利用二级质谱图
► 我们刚才谈到了,多肽质量纹有其先天的不
足。其中,最糟糕的是它不能处理多个蛋白 的混合物。 ► 如果我们能够处理混合物,就可以减少很多 用于纯化上的时间和精力。 ► 那么,怎么才能从混合物中鉴定蛋白呢?这 就要用到二级质谱。
二级质谱图
► 在一级质谱图中,选择其中的一个峰,对其
进行CID过程,就得到一张二级质谱图。 进行CID过程,就得到一张二级质谱图。
一级质谱图
► 蛋白质经过酶解后,送入质谱仪,得到一级
质谱。 ► 目前来说,由MALDI-TOF质谱仪产生的质谱 目前来说,由MALDI-TOF质谱仪产生的质谱 图精度较高,而由ESI质谱仪产生的质谱图精 图精度较高,而由ESI质谱仪产生的质谱图精 度相对较低。 ► 另一个问题是,ESI产生的质谱图中的离子通 另一个问题是,ESI产生的质谱图中的离子通 常带有很多电荷,而MALDI质谱图中的离子 常带有很多电荷,而MALDI质谱图中的离子 一般只带一个电荷,比较容易计算。 ► 所以从一级质谱鉴定蛋白质的算法(质量纹) 主要用在MALDI-TOF产生的质谱图上。 主要用在MALDI-TOF产生的质谱图上。
PMF中的问题 PMF中的问题
► 第一个问题:质量相近的多肽怎么处理? ► 在现实的蛋白数据库中,多肽的数量是很庞
大的。这里面难保不会有质量非常相近的多 肽。这样,就造成了质谱图上的一个峰可能 匹配不止一个多肽,于是我们就难以知晓这 张质谱图究竟代表哪个蛋白。
质量相近的多肽
多肽 DGAPLESSSR REGESTPSR DFPIANGER DPLASSSWR YVPLKDQR HLQLPAPSR VLFLNGIDK [M+H+] 1019.0490 1019.0520 1019.0940 1019.0940 1019.1800 1019.1830 1019.2200
Lys Leu
K L
Lysine Leucine Methionine Asparagine Proline Glutamine Arginine Serine Threonine Valine Tryptophan Tyrosine
128.1742 113.1595 131.1986 114.1039 97.1167 128.1308 156.1876 87.0782 101.1051 99.1326 186.2133 163.1760
通过残基鉴定多肽
De-novo Sequencing De► 这种通过残基来鉴定多肽的方法被称为De这种通过残基来鉴定多肽的方法被称为De-
novo Sequencing。 Sequencing。
► 当我们拥有近乎完美的二级质谱图时,我们
可以采用这种De可以采用这种De-novo Sequencing的办法。 Sequencing的办法。
法,还有很多需要考虑的问题。
► 在讨论这些问题之前,我们先看一看目前常
用的质量纹算法。
常用的质量纹算法
► 现在试验中可用的算法有:
Mascot: http://www.matrixscience.com Profound: http://prowl.rockefeller.edu/cgihttp://prowl.rockefeller.edu/cgibin/Profound Expasy tools: http://www.expasy.ch/tools/ PeptideSearch: http://mac-mann6.emblhttp://mac-mann6.emblheidelberg.de
► 我们将简略的介绍质量纹鉴定法。而用更多
的时间讨论用于二级质谱上的方法。
多肽质量纹鉴定
► 多肽质量纹(Peptide 多肽质量纹(Peptide
Mass Fingerprinting, Fingerprinting, PMF)是从一级质谱(MS)中鉴定多肽的主 PMF)是从一级质谱(MS)中鉴定多肽的主 要方法。 ► 多肽质量纹一般都是在MALDI-TOF仪器的结 多肽质量纹一般都是在MALDI-TOF仪器的结 果上进行。 ► 其原理就是利用了蛋白序列数据库中的多肽 质量的信息。 ► 我们下面的讨论,先假设一张质谱图对应一 个蛋白。后面会讨论处理多个蛋白的情况。
Sample MS Spectrum
蛋白序列数据库
► 在美国国家生物信息中心的网站
http://ncbi.nlm.nih.gov上可以查询到最新的 http://ncbi.nlm.nih.gov上可以查询到最新的 蛋白序列数据库。 ► NCBI上的数据库中,信息最丰富的是 NCBI上的数据库中,信息最丰富的是 Genpept格式,包括有蛋白的序列,各种性 Genpept格式,包括有蛋白的序列,各种性 质,甚至于参考文献。 ► 但是对我们来说,我们只需要蛋白序列的信 息就够了。
► 但是,实际情况中,我们并没有完美的二级
质谱图,而一点点的不完美,带来的误差是 惊人的。
Molecular weights used for calculations. Monoisotop Sho Butt Average ic rt on mass mass of cod Name code of residue residue e Twenty Naturally-Occurring Amino Acids Ala Cys Asp Glu Phe Gly His Ile A C D E F G H I Alanine Cysteine Aspartic Acid Glutamic Acid Phenylalan ine Glycine Histidine Isoleucine 71.0788 103.1448 115.0886 129.1155 147.1766 57.0520 137.1412 113.1595
算,匹配上的几率也会比较大。
► 质量纹算法必须考虑这个问题,给短蛋白一
定的补偿。
多个蛋白的情况
► 第三个问题就是在一张质谱图中可能有多个
蛋白存在。
► 通常,MALDI-TOF是与双向电泳连接使用。 通常,MALDI-TOF是与双向电泳连接使用。
双向电泳的一个电泳点上可能有2 双向电泳的一个电泳点上可能有2-3个蛋白, 这样就增加了鉴定的难度。
们可以计算每个多肽的质量。
► 最后一个R的质量多加了18,这是因为我们写 最后一个R的质量多加了18,这是因为我们写
在下Biblioteka Baidu的是残基的分子量。
质量排列的
► 把所有多肽的质量排序。
质量纹
► 如此,质谱图上的质量就可以与多肽上的质
量相匹配。
质量纹
► 这就是多肽质量纹(PMF)的最基础的思路。 这就是多肽质量纹(PMF)的最基础的思路。 ► 但是,真正的将之作为一个鉴定蛋白质的方
Peak m/z: 1019.08
解决方案
► 第一个解决的办法是限制用来搜索的数据库。
比如,你如果做的试验用的是小白鼠的组织, 那么你可以只在鼠类的数据库中搜索,这样 就可以减低出现这种情况的可能性。 ► 第二个解决的办法是要求必须有多个多肽和 数据库相匹配,才做出最后的蛋白质鉴定。
多匹配
DFPIANGER EPISVSSQQMLK VLDALDSIK 1019.09 1347.56 974.13 SHHWGYGKHBGPZHWHKDFPIANGERQSPVNID TKAVVQDPALKPLALVYGEATSRRMVN NGHSFNVEYDDSQDKAVLKDGPLTGTYRLVQFHF HWGSSBBQGSEHTVDRKKYAAELHLV HWNTKYGDFGTAAQQPDGLAVVGVFLKVGDANP ALQKVLDALDSIKTKGKSTDFPNFDPG
► 这里的假设是一级质谱中的一个峰就对应了
一个多肽,实际情况可能并不是这样。
► 先看一张二级质谱图,然后我们来解释CID过 先看一张二级质谱图,然后我们来解释CID过
程。
典型二级质谱图
CID
► CID,即Collision-induced CID,即Collision-
Dissociation,是通 Dissociation,是通 过撞击使得多肽的肽键断裂的过程。 ► 在做二级质谱的试验时,质谱仪选择一级质 谱中的一个峰,也就是对应质荷比的这些离 子,让这些离子高速撞击质谱仪中的惰性气 体,使其肽键断裂,这就是CID。 体,使其肽键断裂,这就是CID。
法。其一是质量纹鉴定法(Peptide 法。其一是质量纹鉴定法(Peptide Mass Fingerprinting),另外一种是二级质谱的数 Fingerprinting),另外一种是二级质谱的数 据库搜索鉴定法(MS/MS 据库搜索鉴定法(MS/MS Database Searching)。 Searching)。
肽键及其断裂
一些常见的特殊情况
► 除了普通的肽键断裂以外,还经常有一些特
殊的情况。 ► Neutral loss: 某些酸性氨基酸可能会在CID中 某些酸性氨基酸可能会在CID中 丢失一个水分子(H 丢失一个水分子(H2O),而碱性氨基酸会 在CID中丢失一个氨分子(NH3)。 CID中丢失一个氨分子(NH ► 翻译后修饰:有时,二级质谱中需要考虑某 些氨基酸可能被修饰(磷酸化、糖基化等), 这些修饰可能改变残基的分子量。
第四讲 从质谱数据鉴定多肽/ 从质谱数据鉴定多肽/蛋白质
中科院自动化所 李伏欣
开场白
► 在之前的讲座中,我们已经学到了关于蛋白
质组学中的重要工具— 质组学中的重要工具—质谱仪的知识。
► 蛋白质组学里,质谱仪的作用是鉴定混合物
中的蛋白质。然而,没有数据分析的辅助, 它是做不到这一点的。
讲座大纲
► 本讲座中,将分别讲述两种鉴定蛋白质的方
相关文档
最新文档