质谱数据定量分析方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不需要鉴定信息,直接从MS图谱中解析同位素 峰簇
考虑了XIC截断,同位素峰叠加,母离子误差校 正等问题
提供了信噪比、同位素分布拟合优度等过滤 测试:发现采用严格过滤规则,则鉴定肽段也
可能不能定量,说明和LC-MS/MS策略可以相互 补充
第三部分:进一步的思考
预分离和信号归一化
SDS分离 蛋白质多条带分布 条带切割的不均匀性 不同实验之间信号不可比
标记定量:比值,定量指标 无标定量:定量指标
肽段定量指标计算
可选步骤
去噪处理:小波,平 滑滤波
XIC峰形拟合:复杂的 类高斯函数
XIC边界确定:信噪比, 连续性,局部最小 值
母离子匹配误差分布: 提高精度?
标记定量:比值计算,MaxQuant采用了最小二乘拟合法 问题:不同试剂标记的肽段XIC平移,差异越大,表现越明显 无标记定量:定量指标计算
定量软件-Mascot
支持的定量类型
多种标记定量, MS/MS图谱 定量, emPAI, 重复实验 Label free, 选择信号最强的3 个肽段
数据处理算法特色
基于m/z和RT的对齐,多种XIC积分方法,多参数鉴定结果过滤,outliers排 除,归一化处理(利用均值)
使用方法
在搜库前定义修饰和定量的参数(通过修改XML文件实现),搜库,然后 使用Distiller定量
差异显著性检验 从肽段到蛋白质的信息综合:平均?筛选? 异方差问题:信号越弱,误差分布越宽
一个例子
XIC
定量信息:TGVIVGEDVHNLFTYAK
图谱计数SC 126 70 3 4
XIC面积SA(对数) 8.54 7.56 5.15 5.89
保留时间RT 53.661617 58.135022 59.199630 57.643797
可能方法
仪器加性电 子噪声的不 变性
图谱信号统 计不变量
小波去噪
蛋白质组装与定量
RPLC分离过 程中肽段之 间相互影响
蛋白质
色谱流出曲线与 肽段混合物有关
MS response不仅仅 由肽段自身属性决 定,还与其它混合 在一起的肽段相关
肽段检测效率预测问题
肽段
影响图谱质量,从 而影响 ID Score
共3*4*3*4*3=432种计算流程
比较原则:重复实验的CV值最小
目前结论: (1)不进行去噪处理的信号 加和方法最优 (2)高信号水平的处理结果 CV值都比较小
定量信息提取:标记定量
图谱水平:
非线性拟合算法
C *Ti i
, i 1,2Iiຫໍສະໝຸດ CC*Ti *Ti
K1Ti2 K1Ti2
i K T2 i4
数据:FT,人血浆,BPRC
无标记定量中差异分布
分段估计方差
带有参数的分布模型
f (i , yˆi )
e
2
(i )2
aeyˆi b
2
2 aeyˆi b
L
n
ln
i1
f
(
i
,
yˆ i
)
1 2
n i1
( i )2
2 i
n 2 ln(2 )
n
ln i
i1
极大似然估计—直接优化似然函数
RT对齐
LC-MS策略:寻找共同的肽段信号,建立非线性 模型
LC-MS/MS策略:利用共同鉴定肽段的RT建立对 齐模型
对齐模型:3次样条,局部回归,小波,分段线 性,偏移向量等
作用:对LC-MS/MS策略,可以弥补鉴定信息的 不足,提高MS图谱信号利用率
信号归一化和差异显著性检验
信号归一化 目的:针对无标记定量,消除不同实验间的系 统误差 基本方法:寻找不变量
能够充分利用同位素分布信息
能够直接解决谱峰叠加问题
定量信息提取:标记定量
肽段水平
实现了多种算法:XIC面积比, 图谱比值平均,主成分分析, 最小二乘回归
采用了异常值排除策略
实现了基于XIC连续性的截断
问题:同位素峰分布测量误差
Density
ERRi
ExpIso[i]
6
IsoDis[i] / IsoDis[i],i 1 ~ 6
重复实验的数据处理---信息融合
问题:一个肽段,多个定 量结果,怎样给出最终结 果?
方法:信号归一化后,求 平均值、中值或者最大值
结果:对简单重复来说, 分组平均后组间差异更小 ,例如10次重复,分为两 组,求5次平均。
数据:FT_yeast, BPRC
标记定量中比值分布--信号强度
H/D(3)标记实验中发现,比值的标准差随着 XIC中peak number的增大而减小
bi 0.0005792 -0.09212 0.02292 0.09675 0.1138 0.1215
Bellew, M., M. Coram, et al., Bioinformatics, 2006. 22(15):.
重复实验的数据处理
RT对齐和交叉搜索
P1
√
X
P2
X
√ MS搜索
MS搜索
…
信息的充分利用
Pn
√
√
不可逆:需要建立Cn2 n(n 1) / 2
个RT对齐模型
可逆:需要建立n-1个模型
工作:实现了基于局部回归(采用 线性函数)的可逆模型和算法,大 大减小了计算量
交叉搜索的效果
鉴定次数
1400
10
9
8
7
6
5
4
3
2
1
1200
1000
800
600
400
200
0
1
2
3
4
5
6
7
8
9
10
定量次数
问题:从质量预测同位素分布
经验公式:从IPI.Human
3.49酶切肽段中统计(胰酶,2
个漏切,肽段长度不超过100)
f0 (x) a0 xeb0x
fi
(x)
(ai x
bi )i i!
eai xbi
i 1,2,3,4,5
ai 1.007 0.0006321 0.0005683 0.0005526 0.000568 0.0005795
上样量(ug/ul) 3.0 0.3 0.03
0.003
鉴定信息
SC CH XCorr ∆Cn LM(ug/ul)
126 2 5.1
0.62 3.0
14 3 2.63 0.33 3.0
70 2 5.58 0.47 0.3
4 3 2.8
0.40 0.3
3 2 4.9
0.49 0.03
4
AVG_ISO_DIS 1
2 4.3 3 2.2
0.72 0.003 0.34 0.003
数据产生
LTQ/FT分析Yeast样品,SEQUEST 搜库,Target-decoy过滤 (FDR=0.01),取Scan number最小 的记录
定量软件
Cencus、 CRAWDAD、 MaxQuant
软件在可视化、 速度、数据文 件格式支持、 算法精度和实 验策略支持等 方面有很大发 展空间
的不同 信号归一化---消除系统误差 差异显著性检验---考虑信号强度影响
质谱信号与定量
标记:配对的同位素峰
无标记:同位素峰
图谱定量信息提取方法
基本方法
最大值法,平滑积分法,信号求和,构建3D peaks (MaxQuant),函数拟合
附加处理
小波去噪,同位素分布约束,信噪比过滤
结果形式
未来工作
第一部分:研究背景
定量数据分析面对的问题
大规模Biomarker 发现 ---低丰度蛋白质---
信号S/N低+鉴定信息少 重复实验数据综合 蛋白质和肽段预分离技术 策略的数据综合
Biomarker验证 ---靶标分析---
靶标挑选(MRM)肽段分析效率预测(绝对定量)生物样本蛋白质表达 的随机变化影响
XIC
定 量 指 标
分匹
布配
物理化学属性 碎裂模式
共享肽段问题:肽段有多个父节点
图重 搜 谱复 库 质鉴 打 量定 分
次 数
感谢
北京蛋白质组研究中心-贺福初,钱小红,朱云 平研究员
北京蛋白质组研究中心-刘科辉博士,马洁博士 团队主要成员: 博士---张纪阳,刘伟 博士生---孙汉昌,徐长明,张伟,刘辉,唐海 琳,
王腾蛟 硕士生---马海滨
谢谢大家!
1D-SDS PAGE 和Label free定量
蛋白质的多条 带分布问题没 有提及
多条带分布的 原因:修饰、 误切、可变剪 接
信号归一化“局部效应”
仅仅考虑了信 号强度因素
RPLC和ESI过程 中的离子抑制 效应和Matrix effect:信号的 局部归一化
寻找RT轴上的 校正曲线:不 变量
无标记定量软件LFQuant
重复实验支持
从搜库(SEQUEST)
定量精度和参数优化
到定量完成的全流程 自动化,有GUI界面
速度:1 s可以定量1000
个肽段
支持pepXML,protXML, mzXML,mzData, mzML
蛋白质组装和未鉴定肽 段搜索
RT对齐、信号归一化
LC-MS策略支持软件XICFinder
初始值的选择决定成败
标记定量软件SILVER
C++语言 GUI 交互操作 批量数据处理 文件格式支持:
XML,Mascot dat和html
多线程,图谱、XIC导出,多种输出格式,算法优化
索引文件和速度提升
索引文件和数 据结构
Scan number到 MS图谱索引: Hash表
图谱中Isotopic peaks定位:二 分法查找
第二部分:研究内容和结果
定量信息的提取:Label free
图 谱 水 平
去噪方法 谱峰定量信息
同位素峰
X 不去噪
Xcalibur默认 小波去噪
最大值 平滑积分 函数拟合 信号加和
X
单一 最高
全部
X
肽 段 水 平
X XIC处理 小波去噪 平滑去噪 连续性截断
XIC定量
平滑积分 函数拟合
误差分析
信号加和
i
, ,
i i
3,4 5,6
K1Ti2 K2Ti4 i
, i 7,8
K T2 i4 i
,i 9,10
10
2
f i
f K1
10
2 i
i 1
i K1
0
f
特点 K2
i 110
2 i
i 1
i K 2
0
f C
10
2 i
i 1
i C
0
可定义一般模式,支持自定义标记方法,支持多重标记
临床诊断 ---直接寻找差异---
肽段组学,肽段特征矩阵,LC-MS策略,信号直接对比+有选择鉴定
定量数据分析的基本方法
无
标
标 记
定 量
定
量
不包括MRM、iTRAQ和SC定量
计算问题
图谱定量信息提取---同位素峰簇处理 肽段定量指标计算---比值计算,XIC处
理,母离子误差校正 RT对齐---LC-MS策略和LC-MS/MS策略
Quant:MS ID score:MS/MS PCP: sequence Quant:MS PCP: sequence
决定碎裂模式, 影响 ID score
贝叶斯网络 蛋白质
肽段
肽段
酶切模型 肽段
MS图谱(多张,组成XIC)
序列
MS/MS图谱(多张,重复鉴定)
母同 离位 子 素形 误 分状 差布
ExpIso[i]
i1
1.8
Iso1
1.6
Iso2
Iso3
1.4
Iso4
Iso5
1.2
Iso6
1
0.8
0.6
0.4
0.2
-1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 Data
单一同位素峰最高 第二同位素峰最高 第三同位素峰最高 第四同位素峰最高
数据:FT_yeast, BPRC,高可信鉴定肽段
蛋白质学组中质谱数据定量分 析方法研究
谢红卫 国防科学技术大学机电工程与自动 化学院自动控制系
2010.5.15
主要内容
研究背景(我们对定量问题的认识)
定量数据分析面对的问题 定量数据分析的基本方法 已有定量软件和应用情况
研究内容和结果
定量信息提取方法及问题 多批次定量数据的对应及重复实验 差异显著性检验 计算问题和软件开发
考虑了XIC截断,同位素峰叠加,母离子误差校 正等问题
提供了信噪比、同位素分布拟合优度等过滤 测试:发现采用严格过滤规则,则鉴定肽段也
可能不能定量,说明和LC-MS/MS策略可以相互 补充
第三部分:进一步的思考
预分离和信号归一化
SDS分离 蛋白质多条带分布 条带切割的不均匀性 不同实验之间信号不可比
标记定量:比值,定量指标 无标定量:定量指标
肽段定量指标计算
可选步骤
去噪处理:小波,平 滑滤波
XIC峰形拟合:复杂的 类高斯函数
XIC边界确定:信噪比, 连续性,局部最小 值
母离子匹配误差分布: 提高精度?
标记定量:比值计算,MaxQuant采用了最小二乘拟合法 问题:不同试剂标记的肽段XIC平移,差异越大,表现越明显 无标记定量:定量指标计算
定量软件-Mascot
支持的定量类型
多种标记定量, MS/MS图谱 定量, emPAI, 重复实验 Label free, 选择信号最强的3 个肽段
数据处理算法特色
基于m/z和RT的对齐,多种XIC积分方法,多参数鉴定结果过滤,outliers排 除,归一化处理(利用均值)
使用方法
在搜库前定义修饰和定量的参数(通过修改XML文件实现),搜库,然后 使用Distiller定量
差异显著性检验 从肽段到蛋白质的信息综合:平均?筛选? 异方差问题:信号越弱,误差分布越宽
一个例子
XIC
定量信息:TGVIVGEDVHNLFTYAK
图谱计数SC 126 70 3 4
XIC面积SA(对数) 8.54 7.56 5.15 5.89
保留时间RT 53.661617 58.135022 59.199630 57.643797
可能方法
仪器加性电 子噪声的不 变性
图谱信号统 计不变量
小波去噪
蛋白质组装与定量
RPLC分离过 程中肽段之 间相互影响
蛋白质
色谱流出曲线与 肽段混合物有关
MS response不仅仅 由肽段自身属性决 定,还与其它混合 在一起的肽段相关
肽段检测效率预测问题
肽段
影响图谱质量,从 而影响 ID Score
共3*4*3*4*3=432种计算流程
比较原则:重复实验的CV值最小
目前结论: (1)不进行去噪处理的信号 加和方法最优 (2)高信号水平的处理结果 CV值都比较小
定量信息提取:标记定量
图谱水平:
非线性拟合算法
C *Ti i
, i 1,2Iiຫໍສະໝຸດ CC*Ti *Ti
K1Ti2 K1Ti2
i K T2 i4
数据:FT,人血浆,BPRC
无标记定量中差异分布
分段估计方差
带有参数的分布模型
f (i , yˆi )
e
2
(i )2
aeyˆi b
2
2 aeyˆi b
L
n
ln
i1
f
(
i
,
yˆ i
)
1 2
n i1
( i )2
2 i
n 2 ln(2 )
n
ln i
i1
极大似然估计—直接优化似然函数
RT对齐
LC-MS策略:寻找共同的肽段信号,建立非线性 模型
LC-MS/MS策略:利用共同鉴定肽段的RT建立对 齐模型
对齐模型:3次样条,局部回归,小波,分段线 性,偏移向量等
作用:对LC-MS/MS策略,可以弥补鉴定信息的 不足,提高MS图谱信号利用率
信号归一化和差异显著性检验
信号归一化 目的:针对无标记定量,消除不同实验间的系 统误差 基本方法:寻找不变量
能够充分利用同位素分布信息
能够直接解决谱峰叠加问题
定量信息提取:标记定量
肽段水平
实现了多种算法:XIC面积比, 图谱比值平均,主成分分析, 最小二乘回归
采用了异常值排除策略
实现了基于XIC连续性的截断
问题:同位素峰分布测量误差
Density
ERRi
ExpIso[i]
6
IsoDis[i] / IsoDis[i],i 1 ~ 6
重复实验的数据处理---信息融合
问题:一个肽段,多个定 量结果,怎样给出最终结 果?
方法:信号归一化后,求 平均值、中值或者最大值
结果:对简单重复来说, 分组平均后组间差异更小 ,例如10次重复,分为两 组,求5次平均。
数据:FT_yeast, BPRC
标记定量中比值分布--信号强度
H/D(3)标记实验中发现,比值的标准差随着 XIC中peak number的增大而减小
bi 0.0005792 -0.09212 0.02292 0.09675 0.1138 0.1215
Bellew, M., M. Coram, et al., Bioinformatics, 2006. 22(15):.
重复实验的数据处理
RT对齐和交叉搜索
P1
√
X
P2
X
√ MS搜索
MS搜索
…
信息的充分利用
Pn
√
√
不可逆:需要建立Cn2 n(n 1) / 2
个RT对齐模型
可逆:需要建立n-1个模型
工作:实现了基于局部回归(采用 线性函数)的可逆模型和算法,大 大减小了计算量
交叉搜索的效果
鉴定次数
1400
10
9
8
7
6
5
4
3
2
1
1200
1000
800
600
400
200
0
1
2
3
4
5
6
7
8
9
10
定量次数
问题:从质量预测同位素分布
经验公式:从IPI.Human
3.49酶切肽段中统计(胰酶,2
个漏切,肽段长度不超过100)
f0 (x) a0 xeb0x
fi
(x)
(ai x
bi )i i!
eai xbi
i 1,2,3,4,5
ai 1.007 0.0006321 0.0005683 0.0005526 0.000568 0.0005795
上样量(ug/ul) 3.0 0.3 0.03
0.003
鉴定信息
SC CH XCorr ∆Cn LM(ug/ul)
126 2 5.1
0.62 3.0
14 3 2.63 0.33 3.0
70 2 5.58 0.47 0.3
4 3 2.8
0.40 0.3
3 2 4.9
0.49 0.03
4
AVG_ISO_DIS 1
2 4.3 3 2.2
0.72 0.003 0.34 0.003
数据产生
LTQ/FT分析Yeast样品,SEQUEST 搜库,Target-decoy过滤 (FDR=0.01),取Scan number最小 的记录
定量软件
Cencus、 CRAWDAD、 MaxQuant
软件在可视化、 速度、数据文 件格式支持、 算法精度和实 验策略支持等 方面有很大发 展空间
的不同 信号归一化---消除系统误差 差异显著性检验---考虑信号强度影响
质谱信号与定量
标记:配对的同位素峰
无标记:同位素峰
图谱定量信息提取方法
基本方法
最大值法,平滑积分法,信号求和,构建3D peaks (MaxQuant),函数拟合
附加处理
小波去噪,同位素分布约束,信噪比过滤
结果形式
未来工作
第一部分:研究背景
定量数据分析面对的问题
大规模Biomarker 发现 ---低丰度蛋白质---
信号S/N低+鉴定信息少 重复实验数据综合 蛋白质和肽段预分离技术 策略的数据综合
Biomarker验证 ---靶标分析---
靶标挑选(MRM)肽段分析效率预测(绝对定量)生物样本蛋白质表达 的随机变化影响
XIC
定 量 指 标
分匹
布配
物理化学属性 碎裂模式
共享肽段问题:肽段有多个父节点
图重 搜 谱复 库 质鉴 打 量定 分
次 数
感谢
北京蛋白质组研究中心-贺福初,钱小红,朱云 平研究员
北京蛋白质组研究中心-刘科辉博士,马洁博士 团队主要成员: 博士---张纪阳,刘伟 博士生---孙汉昌,徐长明,张伟,刘辉,唐海 琳,
王腾蛟 硕士生---马海滨
谢谢大家!
1D-SDS PAGE 和Label free定量
蛋白质的多条 带分布问题没 有提及
多条带分布的 原因:修饰、 误切、可变剪 接
信号归一化“局部效应”
仅仅考虑了信 号强度因素
RPLC和ESI过程 中的离子抑制 效应和Matrix effect:信号的 局部归一化
寻找RT轴上的 校正曲线:不 变量
无标记定量软件LFQuant
重复实验支持
从搜库(SEQUEST)
定量精度和参数优化
到定量完成的全流程 自动化,有GUI界面
速度:1 s可以定量1000
个肽段
支持pepXML,protXML, mzXML,mzData, mzML
蛋白质组装和未鉴定肽 段搜索
RT对齐、信号归一化
LC-MS策略支持软件XICFinder
初始值的选择决定成败
标记定量软件SILVER
C++语言 GUI 交互操作 批量数据处理 文件格式支持:
XML,Mascot dat和html
多线程,图谱、XIC导出,多种输出格式,算法优化
索引文件和速度提升
索引文件和数 据结构
Scan number到 MS图谱索引: Hash表
图谱中Isotopic peaks定位:二 分法查找
第二部分:研究内容和结果
定量信息的提取:Label free
图 谱 水 平
去噪方法 谱峰定量信息
同位素峰
X 不去噪
Xcalibur默认 小波去噪
最大值 平滑积分 函数拟合 信号加和
X
单一 最高
全部
X
肽 段 水 平
X XIC处理 小波去噪 平滑去噪 连续性截断
XIC定量
平滑积分 函数拟合
误差分析
信号加和
i
, ,
i i
3,4 5,6
K1Ti2 K2Ti4 i
, i 7,8
K T2 i4 i
,i 9,10
10
2
f i
f K1
10
2 i
i 1
i K1
0
f
特点 K2
i 110
2 i
i 1
i K 2
0
f C
10
2 i
i 1
i C
0
可定义一般模式,支持自定义标记方法,支持多重标记
临床诊断 ---直接寻找差异---
肽段组学,肽段特征矩阵,LC-MS策略,信号直接对比+有选择鉴定
定量数据分析的基本方法
无
标
标 记
定 量
定
量
不包括MRM、iTRAQ和SC定量
计算问题
图谱定量信息提取---同位素峰簇处理 肽段定量指标计算---比值计算,XIC处
理,母离子误差校正 RT对齐---LC-MS策略和LC-MS/MS策略
Quant:MS ID score:MS/MS PCP: sequence Quant:MS PCP: sequence
决定碎裂模式, 影响 ID score
贝叶斯网络 蛋白质
肽段
肽段
酶切模型 肽段
MS图谱(多张,组成XIC)
序列
MS/MS图谱(多张,重复鉴定)
母同 离位 子 素形 误 分状 差布
ExpIso[i]
i1
1.8
Iso1
1.6
Iso2
Iso3
1.4
Iso4
Iso5
1.2
Iso6
1
0.8
0.6
0.4
0.2
-1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 Data
单一同位素峰最高 第二同位素峰最高 第三同位素峰最高 第四同位素峰最高
数据:FT_yeast, BPRC,高可信鉴定肽段
蛋白质学组中质谱数据定量分 析方法研究
谢红卫 国防科学技术大学机电工程与自动 化学院自动控制系
2010.5.15
主要内容
研究背景(我们对定量问题的认识)
定量数据分析面对的问题 定量数据分析的基本方法 已有定量软件和应用情况
研究内容和结果
定量信息提取方法及问题 多批次定量数据的对应及重复实验 差异显著性检验 计算问题和软件开发