基于质谱分析的定性蛋白质组学方法

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

处理，把其变成中心化后棒状图。
图.质谱原始图谱预处理基本流程 6.基于鸟枪法蛋白鉴定过程
图. 基于鸟枪法蛋白鉴定过程。孙汉昌，2011，蛋白质组质谱数据处理关键问题与技术研究。 1）数据库搜索方法
顾名思义，就是针对每一张实验图谱，从数据库中搜索与之匹配的肤段。
量基，本的ε 为方质法量是误：差首容先限从,数筛据选库所中满，足由条条件件的M肽-段M构pi成≤候ε 选，集其，中然M后Pi 为根肽据段肽段pi 的的质碎
肽段鉴别结果的判定和评估，是指给定结果划分的标准和对假阳性率进行评估，对于 SEQUEST 搜库结果，现有的方法大致可分为三类：1）经验阈值法；2）概率模型法；3 神经网络学习法。 1）经验阈值法
经验阈值法是确定一组与鉴别可信度相关参数的阈值，作为接受结果的标准。 SEQUEST 常采用的阈值，对 [M + 2H]2+ 肽段离子，设定的阈值为：
裂原理，产生理论图谱，并将理论图谱和实验图谱进行比对,给出相似性打分, 挑选分值最高的一个或者几个肽段输出结果。
已有的数据库搜索打分算法，包括 SEQUEST，Mascot 和 X!Tandem。SEQUEST 对实验图谱进行预处理后,从数据库中得到的酶切肽段,预测其理论图谱,并将实验图谱与之进行匹配,对匹配结果进行预打分(公式 1),以筛选最可能匹配的肽段(保留前 500 个)；然后将原始的实验图谱进行局部信号增强处理,并与预选出肽段的理论图谱进行互相关打分(公式 2)；最后对得到的结果按照 Xcorr 分值从大到小顺序输出(输出前 10 个)；同时输出的还有 ΔCn 分值(公式 3),预测离子的匹配比例( Ions),预打分 Sp ，预打分排序 RSp ,母离子质量( (M + H）+ 等信息。
自底向上策略, 称之为鸟枪法, 是利用串联质谱数据，即肽碎片指纹（peptide fragment fingerprinting，PFF）来鉴定肽段序列，然后再推断组装样品中包含的蛋白质, 是常用的高通量分析策略。由于肽碎片携有呈几何增长的组合信息，可以消除质量简并之忧，对质谱的质量分辨率要求不高，多用于对复杂样品的混合物进行高通量分析。
第二步：测定 D 的分布
Below threshold matches dropped
Peptides that are identified with scores above the threshold are considered “correct” matches. Those with scores below the threshold are considered “incorrect”.
H| 图.HC| ID
作用H下| 肽键H| 的断裂方H| 式
| H
| HBaidu Nhomakorabea
y3
y2
y1
y3 -H2O
y2 - NH3
图.部分离子示意举例
不同类系列间存在一定的联系,如质量和的关系 a i + x n-i = bi + yn-i = ci + zn-i , a 和 x n-i , bi和yn-i 以及 ci和z n-i 称为互补的离子,互补
图.SEQUEST 工作流程。图片来自张记阳，2007，蛋白质组学中串联质谱数据搜库结果质量控制方法研究。
Model Spectrum
B/Y type ions (100%)
Where B an d Y ion s are esti mated at 100%,
pl us 2 ions are estimated at 50%,
基于质谱分析的定性蛋白质组学方法
齐孟文中国农业大学现代质谱是蛋白质分析与研究的基本实验技术，这里简要介绍有关蛋白质鉴定的质谱原理、实验平台，及其质谱解析算法，以期对相关领域的技术线路和实验方法有一基本了解。 1.现代生物质谱的一般结构
生物质谱得益于两种软电离技术的发展，即基质辅助激光解吸电离(MALDI) 和电喷雾电离（ESI）。
SEQUEST Model Spectrum
图.计算 Corr 的模式图。图片来自 Brian.Searle@ProteomeSoftware.com
Sp 的计算公式为:
∑ Sp
= ⎜⎛ ⎝
k
Ik
⎟⎞m（1 ⎠
+
β）（1
+
ρ）/
L
(1)
其中 ∑ Ik 表示匹配离子强度和, β和ρ 为出现连续离子序列和亚氨离子 k
离子的质量和等于母离子的质量。相邻的离子，比如 bi和bi + 1， yi和yi + 1等则称为连续离子,连续离子之间的质量差正好是一个氨基酸的质量,某类离子与其失水失氨离子称为同源离子,同源离子之间相差某些分子基团，如CO,H2O,NH3等, 因此其质量的差值也可计算出来。
An Introduction to Bioinformatics Algorithms
Xcorr ≥ 2；ΔCn ≥ 0.1；SP ≤ 50 。
2) 概率模型法这是在一定的假设条件下，利用标准样品的数据作为测试集测定，得到相关
参数的概率分布模型，然后进行统计推断的方法，其代表性的方法是 Keller 提
出的 petiprophet。其基本思路是，将相关打分参数（ Xcorr，ΔCn，RSp 等）线
性组合得到单一的判别函数，确定其分布，然后由期望最大算法和贝叶斯公式确定鉴别结果的假阳性率。一般步骤如下：
第一步：构建判别函数
D
=
c0
+
c1
⋅
ln(XCorr) ln L
+
c2
⋅
ΔCn
+
c3
⋅
ln(RSp)
其中， L 是肽段的长度， c 是常系数，由标准混合样品测定定，经拟合得到的值
为： (c0，c1，c2，c3 ) = (−1.5,9.3,7.3,−0.2) 。
www.bioalgorithms.info
b2-H2O
b3- NH3
a2 b2
a3 b3
HO
NH3+
|
|
R1 O | ||
R2 O
R3 O
R4
| ||
| ||
|
H -- N --- C --- C --- N --- C --- C --- N --- C --- C --- N --- C -- COOH
An Introduction to Bioinformatics Algorithms
www.bioalgorithms.info
b2-H2O
b3- NH3
a2 b2
a3 b3
HO
NH3+
|
|
R1 O | ||
R2 O
R3 O
R4
| ||
| ||
|
H -- N --- C --- C --- N --- C --- C --- N --- C --- C --- N --- C -- COOH
图.LTQ-Orbitrap 质谱平台及常用实验流程。图片来自张记阳，2007，蛋白质组学中串联质谱数据搜库结果质量控制方法研究。
3. 蛋白质组学的实验策略在基于质谱技术的蛋白质组学研究中，有两种基本的实验策略：自底向上策
略(Bottom-up)和自顶向下策略(Top-down)。自顶向下策略是以蛋白质分子整体作为分析对象，通过蛋白质的肽质量指纹
2)De novo 算法从本质上来说,De novo 算法是，在分子质量误差容限内所有可能的肽段中，
寻找图谱的最优解释,搜索空间比数据库搜索还要大,为了减小搜索空间,De novo 算法利用了二级图谱中包含的肽段序列信息来约束搜索空间。Bartels 于 1990 首次提出求解从头测序问题的图论方法，这类这类方法的基本流程可以概述如下：首先对图谱进行预处理，例如，去掉图谱中低丰度的峰，或者归并图谱中的同位素峰簇等；然后构建质谱峰连接图，即如果两个峰之间的质量差在误差范围内等于某个氨基酸残基的质量，就将这两个质谱峰作为两个顶点和一条边加入到 (V，E) 图中，质谱峰连接图构建完毕后，在 (V，E) 图中加入 b 型离子的起始点 1 和结束点 M -17 ,以及 y 型离子的起始点 19 和结束点 M + 1 ，其中， M 为母离子质量，再利用动态规划算法，在 (V，E) 图中搜索 b 型离子或 y 型离子从起始点到结束点的最优路径，如质量离查平方和最小的路径，并产生候选肽段，最后通过打分函数对候选肽段进行排序和输出。
其中，τ 是两序列之间的位移。 XCorr 的计算公式定义为
XCorr
=
Corr（0 E, T）-
1 150
Corr（τ E,
T)
(2)
假设排在前两位的搜库结果的 XCorr ，分别为 XCorr1 和 XCorr2 ，则 ΔCn 定
义是两者的归一化差值:
ΔCn = 1- Xcorr2 / XCorr1
||
||
||
|
HH
HH
HH
H
y3
y2
y1
y3 -H2O
y2 - NH3
图.示意失去中性分子集团而产生的离子类型。
图.连续离子构成阶梯式质量序列
5.实验质谱预处理基本流程
质谱仪产生的图谱 {m / z，I}，包含质荷比和信号强度的信息，由于酶切和
CID 碎裂都遵从一定的物理化学规律，蛋白质和肽段产生的质谱都具有特定的模式，这是利用质谱数据进行蛋白质和肽段鉴定的理论基础。从数据采集的角度来说，原始质谱是质谱仪按照固定的时间间隔采集得到的模式谱，其构成包括序列离子，内部碎裂离子，以及电子和化学噪声。电子噪声是随机分布的低矮信号，而化学噪声是由试剂中的杂物质引入的，有时信号很强，难于按信噪比去除或滤波，由于实际质谱十分复杂，存在大量的杂峰，不仅使鉴定工作量巨大，而且发生随机匹配可能性增加，使鉴定的可靠性降低，因此在进行鉴定前，必须进行预
图.De novo 算法原理。 3) 肽序列标签法
肽段在 CID 过程中有可能碎裂不充分,导致实验图谱的肽段序列信息不完整，在这种情况下,De novo 显然是不可能的,但是根据图谱可以确定肽段的部分序列信息,间断的部分可以计算出分子量,如此将推得的局部序列,或局部序列+ 分子量作为标签,并利用标签镞通过搜索数据库对预测肽段进行鉴定。 7. 鉴定结果的判定和评估
(immonium ion)的奖励，分别等于 0.075 和 0.15, L 为预测离子总数目, m 为在实验图谱中获得匹配的预测离子数目。
两信号序列间的相互关系系数，由对其的卷积表示，对连续序列有
+∞
∫ R x，y (τ ) = x(t)y(t + τ）dt -∞
对分立序列，则有
n-1
Rτ = ∑ x(i)y(i + τ ) i=0
图.自底向上策略和自顶向下策略示意图。孙汉昌，2011，蛋白质组质谱数据处理关键问题与技术研究。
4.串联质谱生产特点及解析利用低能惰性气体诱导碰撞,使肽骨架各种键断裂，生成 N 端的
a -，b -，c - 类和 C 端的 x -，y -，z - 类 6 种系列离子，低能 CID 主要产生 y -，b - , 其次是 a - 离子。另外两个骨架键断裂往往会形成内部碎片, 如氨基一酰基离子 (amino-acylium ion), 亚氨(immnonim)离子等。碎片离子还有可能丢失一个中性分子基团(比如水或者氨分子)形成新的离子，高能量 CDI 则还可导致侧链的断裂而得到其它类型的离子。
B/Y +2H type ions (50%)
and other stragglers are at 20%.
A type ions B/Y -NH3/-H2O
(20%)
图.理论推断的模式谱。图片来自 Brian.Searle@ProteomeSoftware.com
For calculator Cross correlation,the pectra is shifted to forth ro back
（peptide mass fingerprinting,PMF）对蛋白进行鉴定的方法。为了有效地克服质量简并的现象，减少搜索目标的范围，一般选择高精度和高分辨率的质谱，如傅里叶变换离子回旋共振质谱仪（2ppm，50000）。该策略具有较高的序列覆盖度和翻译后修饰特征的保持，适合于翻译后修饰及特殊的蛋白质异构体的分析。不足的是，(1)实验样品蛋白质需要高度纯化；(2)在目前的实验条件下，较难分析大分子量的蛋白质。
图.MALDI 电离原理示意图，一般得到单价的正离子。孙汉昌，2011，蛋白质组质谱数据处理关键问题与技术研究。
图.ESI 电离的示意图，一般得到多价态的离子。图片来自，孙汉昌，2011，蛋白质组质谱数据处理关键问题与技术研究。 2.定性蛋白组学的实验平台
图.ABI 4700 质谱仪组成、常用实验策略和数据处理。图片来自张记阳，2007，蛋白质组学中串联质谱数据搜库结果质量控制方法研究。