基于质谱分析的定性蛋白质组学方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

处理,把其变成中心化后棒状图。
图.质谱原始图谱预处理基本流程 6.基于鸟枪法蛋白鉴定过程
图. 基于鸟枪法蛋白鉴定过程。孙汉昌,2011,蛋白质组质谱数据处理关键问题 与技术研究。 1)数据库搜索方法
顾名思义,就是针对每一张实验图谱,从数据库中搜索与之匹配的肤段。
量基,本的ε 为方质法量是误:差首容先限从,数筛据选库所中满,足由条条件件的M肽-段M构pi成≤候ε 选,集其,中然M后Pi 为根肽据段肽段pi 的的质碎
肽段鉴别结果的判定和评估,是指给定结果划分的标准和对假阳性率进行 评估,对于 SEQUEST 搜库结果,现有的方法大致可分为三类:1)经验阈值法;2) 概率模型法;3 神经网络学习法。 1) 经验阈值法
经验阈值法是确定一组与鉴别可信度相关参数的阈值,作为接受结果的标 准 。 SEQUEST 常 采 用 的 阈 值 , 对 [M + 2H]2+ 肽 段 离 子 , 设 定 的 阈 值 为 :
裂原理,产生理论图谱,并将理论图谱和实验图谱进行比对,给出相似性打分, 挑选分值最高的一个或者几个肽段输出结果。
已有的数据库搜索打分算法,包括 SEQUEST,Mascot 和 X!Tandem。SEQUEST 对实验图谱进行预处理后,从数据库中得到的酶切肽段,预测其理论图谱,并将实 验图谱与之进行匹配,对匹配结果进行预打分(公式 1),以筛选最可能匹配的肽 段(保留前 500 个);然后将原始的实验图谱进行局部信号增强处理,并与预选出 肽段的理论图谱进行互相关打分(公式 2);最后对得到的结果按照 Xcorr 分值从 大到小顺序输出(输出前 10 个);同时输出的还有 ΔCn 分值(公式 3),预测离子的 匹配比例( Ions),预打分 Sp ,预打分排序 RSp ,母离子质量( (M + H)+ 等信息。
自底向上策略, 称之为鸟枪法, 是利用串联质谱数据,即肽碎片指纹 (peptide fragment fingerprinting,PFF)来鉴定肽段序列,然后再推断组装 样品中包含的蛋白质, 是常用的高通量分析策略。由于肽碎片携有呈几何增长的 组合信息,可以消除质量简并之忧,对质谱的质量分辨率要求不高,多用于对复 杂样品的混合物进行高通量分析。
第二步:测定 D 的分布
Below threshold matches dropped
Peptides that are identified with scores above the threshold are considered “correct” matches. Those with scores below the threshold are considered “incorrect”.
H| 图.HC| ID
作用H下| 肽键H| 的断裂方H| 式
| H
| HBaidu Nhomakorabea
y3
y2
y1
y3 -H2O
y2 - NH3
图.部分离子示意举例
不同类系列间存在一定的联系,如质量和的关系 a i + x n-i = bi + yn-i = ci + zn-i , a 和 x n-i , bi和yn-i 以及 ci和z n-i 称为互补的离子,互补
图.SEQUEST 工作流程。图片来自张记阳,2007,蛋白质组学中串联质谱数据搜 库结果质量控制方法研究。
Model Spectrum
B/Y type ions (100%)
Where B an d Y ion s are esti mated at 100%,
pl us 2 ions are estimated at 50%,
基于质谱分析的定性蛋白质组学方法
齐孟文 中国农业大学 现代质谱是蛋白质分析与研究的基本实验技术,这里简要介绍有关蛋白质鉴 定的质谱原理、实验平台,及其质谱解析算法,以期对相关领域的技术线路和实 验方法有一基本了解。 1.现代生物质谱的一般结构
生物质谱得益于两种软电离技术的发展,即基质辅助激光解吸电离(MALDI) 和电喷雾电离(ESI)。
SEQUEST Model Spectrum
图.计算 Corr 的模式图。图片来自 Brian.Searle@ProteomeSoftware.com
Sp 的计算公式为:
∑ Sp
= ⎜⎛ ⎝
k
Ik
⎟⎞m(1 ⎠
+
β)(1
+
ρ)/
L
(1)
其中 ∑ Ik 表示匹配离子强度和, β和ρ 为出现连续离子序列和亚氨离子 k
离子的质量和等于母离子的质量。相邻的离子,比如 bi和bi + 1, yi和yi + 1等则 称为连续离子,连续离子之间的质量差正好是一个氨基酸的质量,某类离子与其 失水失氨离子称为同源离子,同源离子之间相差某些分子基团,如CO,H2O,NH3等, 因此其质量的差值也可计算出来。
An Introduction to Bioinformatics Algorithms
Xcorr ≥ 2;ΔCn ≥ 0.1;SP ≤ 50 。
2) 概率模型法 这是在一定的假设条件下,利用标准样品的数据作为测试集测定,得到相关
参数的概率分布模型,然后进行统计推断的方法,其代表性的方法是 Keller 提
出的 petiprophet。其基本思路是,将相关打分参数( Xcorr,ΔCn,RSp 等)线
性组合得到单一的判别函数,确定其分布,然后由期望最大算法和贝叶斯公式确 定鉴别结果的假阳性率。一般步骤如下:
第一步:构建判别函数
D
=
c0
+
c1

ln(XCorr) ln L
+
c2

ΔCn
+
c3

ln(RSp)
其中, L 是肽段的长度, c 是常系数,由标准混合样品测定定,经拟合得到的值
为: (c0,c1,c2,c3 ) = (−1.5,9.3,7.3,−0.2) 。
www.bioalgorithms.info
b2-H2O
b3- NH3
a2 b2
a3 b3
HO
NH3+
|
|
R1 O | ||
R2 O
R3 O
R4
| ||
| ||
|
H -- N --- C --- C --- N --- C --- C --- N --- C --- C --- N --- C -- COOH
An Introduction to Bioinformatics Algorithms
www.bioalgorithms.info
b2-H2O
b3- NH3
a2 b2
a3 b3
HO
NH3+
|
|
R1 O | ||
R2 O
R3 O
R4
| ||
| ||
|
H -- N --- C --- C --- N --- C --- C --- N --- C --- C --- N --- C -- COOH
图.LTQ-Orbitrap 质谱平台及常用实验流程。图片来自张记阳,2007,蛋白质组 学中串联质谱数据搜库结果质量控制方法研究。
3. 蛋白质组学的实验策略 在基于质谱技术的蛋白质组学研究中,有两种基本的实验策略:自底向上策
略(Bottom-up)和自顶向下策略(Top-down)。 自顶向下策略是以蛋白质分子整体作为分析对象,通过蛋白质的肽质量指纹
2)De novo 算法 从本质上来说,De novo 算法是,在分子质量误差容限内所有可能的肽段中,
寻找图谱的最优解释,搜索空间比数据库搜索还要大,为了减小搜索空间,De novo 算法利用了二级图谱中包含的肽段序列信息来约束搜索空间。Bartels 于 1990 首次提出求解从头测序问题的图论方法,这类这类方法的基本流程可以概 述如下:首先对图谱进行预处理,例如,去掉图谱中低丰度的峰,或者归并图谱 中的同位素峰簇等;然后构建质谱峰连接图,即如果两个峰之间的质量差在误差 范围内等于某个氨基酸残基的质量,就将这两个质谱峰作为两个顶点和一条边加 入到 (V,E) 图中,质谱峰连接图构建完毕后,在 (V,E) 图中加入 b 型离子的 起始点 1 和结束点 M -17 ,以及 y 型离子的起始点 19 和结束点 M + 1 ,其 中, M 为母离子质量,再利用动态规划算法,在 (V,E) 图中搜索 b 型离子 或 y 型离子从起始点到结束点的最优路径,如质量离查平方和最小的路径,并 产生候选肽段,最后通过打分函数对候选肽段进行排序和输出。
其中,τ 是两序列之间的位移。 XCorr 的计算公式定义为
XCorr
=
Corr(0 E, T)-
1 150
Corr(τ E,
T)
(2)
假设排在前两位的搜库结果的 XCorr ,分别为 XCorr1 和 XCorr2 ,则 ΔCn 定
义是两者的归一化差值:
ΔCn = 1- Xcorr2 / XCorr1
||
||
||
|
HH
HH
HH
H
y3
y2
y1
y3 -H2O
y2 - NH3
图.示意失去中性分子集团而产生的离子类型。
图.连续离子构成阶梯式质量序列
5.实验质谱预处理基本流程
质谱仪产生的图谱 {m / z,I},包含质荷比和信号强度的信息,由于酶切和
CID 碎裂都遵从一定的物理化学规律,蛋白质和肽段产生的质谱都具有特定的模 式,这是利用质谱数据进行蛋白质和肽段鉴定的理论基础。从数据采集的角度来 说,原始质谱是质谱仪按照固定的时间间隔采集得到的模式谱,其构成包括序列 离子,内部碎裂离子,以及电子和化学噪声。电子噪声是随机分布的低矮信号, 而化学噪声是由试剂中的杂物质引入的,有时信号很强,难于按信噪比去除或滤 波,由于实际质谱十分复杂,存在大量的杂峰,不仅使鉴定工作量巨大,而且发 生随机匹配可能性增加,使鉴定的可靠性降低,因此在进行鉴定前,必须进行预
图.De novo 算法原理。 3) 肽序列标签法
肽段在 CID 过程中有可能碎裂不充分,导致实验图谱的肽段序列信息不完 整,在这种情况下,De novo 显然是不可能的,但是根据图谱可以确定肽段的部分 序列信息,间断的部分可以计算出分子量,如此将推得的局部序列,或局部序列+ 分子量作为标签,并利用标签镞通过搜索数据库对预测肽段进行鉴定。 7. 鉴定结果的判定和评估
(immonium ion)的奖励,分别等于 0.075 和 0.15, L 为预测离子总数目, m 为在 实验图谱中获得匹配的预测离子数目。
两信号序列间的相互关系系数,由对其的卷积表示,对连续序列有
+∞
∫ R x,y (τ ) = x(t)y(t + τ)dt -∞
对分立序列,则有
n-1
Rτ = ∑ x(i)y(i + τ ) i=0
图.自底向上策略和自顶向下策略示意图。孙汉昌,2011,蛋白质组质谱数据处 理关键问题与技术研究。
4.串联质谱生产特点及解析 利用低能惰性气体诱导碰撞,使肽骨架各种键断裂,生成 N 端的
a -,b -,c - 类 和 C 端的 x -,y -,z - 类 6 种系列离子,低能 CID 主要产生 y -,b - , 其次是 a - 离子。另外两个骨架键断裂往往会形成内部碎片, 如氨基一酰基离子 (amino-acylium ion), 亚氨(immnonim)离子等。碎片离子还有可能丢失一个中 性分子基团(比如水或者氨分子)形成新的离子,高能量 CDI 则还可导致侧链的断 裂而得到其它类型的离子。
B/Y +2H type ions (50%)
and other stragglers are at 20%.
A type ions B/Y -NH3/-H2O
(20%)
图.理论推断的模式谱。图片来自 Brian.Searle@ProteomeSoftware.com
For calculator Cross correlation,the pectra is shifted to forth ro back
(peptide mass fingerprinting,PMF)对蛋白进行鉴定的方法。为了有效地克 服质量简并的现象,减少搜索目标的范围,一般选择高精度和高分辨率的质谱, 如傅里叶变换离子回旋共振质谱仪(2ppm,50000)。该策略具有较高的序列覆盖 度和翻译后修饰特征的保持,适合于翻译后修饰及特殊的蛋白质异构体的分析。 不足的是,(1)实验样品蛋白质需要高度纯化;(2)在目前的实验条件下,较难分 析大分子量的蛋白质。
图.MALDI 电离原理示意图,一般得到单价的正离子。孙汉昌,2011,蛋白质组 质谱数据处理关键问题与技术研究。
图.ESI 电离的示意图,一般得到多价态的离子。图片来自,孙汉昌,2011,蛋 白质组质谱数据处理关键问题与技术研究。 2.定性蛋白组学的实验平台
图.ABI 4700 质谱仪组成、常用实验策略和数据处理。图片来自张记阳,2007, 蛋白质组学中串联质谱数据搜库结果质量控制方法研究。
相关文档
最新文档