蛋白组学数据分析方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
选择程序X!Tandem
选择需要搜索的质谱 数据 DTA, PKL, MGF, mzData, mzXML or Tandem BIOML 选择数据库
数据检索输出阀值
二级谱中片段离 子理论与实际差 异最大允许值
(|M-M0|/M0)X106(ppm) M为离子质量的实测值; M0为离子质量的理论值; 一级谱中片段离 子理论与实际差 异最大允许值
蛋白质组学质谱分析背景介绍
Tandem MS
m/z:质量电荷比
蛋白质组学质谱分析背景介绍
http://www.expasy.ch/tools/peptidecutter/
粘贴蛋白序列:PGYRNNVVN TMRLWSAKAPNDFNLKDFNVG 点击Perform 选择“Only the following selection of enzymes and chemicals”,并选择胰酶Trypsin酶切
蛋白质组学数据库检索软件 GPM(X!tandem)
蛋白质组学数据库检索软件
GPM(X!tandem) SEQUEST
类型 免费开源软件
DTA,PKL,MGF mzXML,mzDATA
Mascot
商业软件
MGF,DTA
商业软件
RAW,DTA
数据输入
速度 并行运算
快 支持(PVM,MPI)
较慢 支持(PVM)
双击打开
!!点击advanced 选 择搜索二级谱
One spectrum:搜索一个质谱数据 One directory:搜索多个质谱数据,放于 一个文件夹中,然后压缩成一个rar文件谱
Simple:仅简单的设置一级肽指纹图谱 相关参数 Advanced:设置搜索二级图谱所有参数 Upload:查看以前的搜索
实习5:蛋白质组学数据分析
张维一 莫 凡 华大颂 毛瑞芳
系统生物学平台 浙江加州国际纳米技术研究院(ZCNI)
zjuzwy@gmail.com
课程内容:
1.蛋白质组学质谱分析背景介绍
2.蛋白质组学数据库检索软件 GPM(X!tandem)
3.蛋白质组学数据统计分析软件TPP
蛋白质组学质谱分析背景介绍
PeptideProphet处理结束
经PeptideProphet处理后的结果可用浏览器打开. 在IE里面输入:http://localhost/ISB/data/ZCNI_training/interact.pep.shtml可以看到结果为:
4.运行ProteinProphet
点击Analysis Pipeline,选择 Analyze Peptides
较慢 支持(MPI)
蛋白质组学数据库检索软件
X!Tandem
优点:
• 运算速度快
Master node
• 免费,并行集群计算成本低
• 开源可自行修改代码
Network switching
缺点:
• 应用范围尚不广泛 • 后期统计软件接口尚未成熟
硬件要求:
当前主流电脑配置即可胜任小规模数据检索
Slave nodes
PeptideProphet界面
选择所有需要运行PeptideProphet 的pepXML文件
选择RUN PeptideProphet,其 他参数为默认.
点击RUN Xinteract,即可作 PeptideProphet分析.
运行PeptideProphet的结 果可通过IE打开.
PeptideProphet分析
I L K M F P S T U W Y V
113.16 113.16 128.17 131.19 147.18 97.12 87.08 101.10 150.03 186.21 163.18 99.13
Alanine
Arginine Asparagine Aspartic acid Asn or Asp Cysteine Glutamic acid Glutamine Glu or Gln Glycine Histidine
选择sequest的参数文件
• 其他参数选择默认,点击下面的Convert!下的Convert to PepXML,即可以将文件夹中的所有.out文件整合成 pepXML文件
3.运行PeptideProphet
点击Analysis Pipeline,选择 Analyze Peptides
搜索的离子为b 离子与y离子
氨基酸残 基的修饰 完全修饰
57.03404
潜在的修饰
15.99492 氧化,磷酸化等等
快速搜索可 能的修饰
蛋白酶解时所使 用的酶(胰酶)
非特异性酶切 漏切
3.运行程序
点击运行
运行界面
4. 查看结果
结果可 靠性的 统计指 标以及 强度
蛋白 的覆 盖率
唯一 对应 肽断 数
蛋白质组学数据库检索软件
Download GPM:
ftp://ftp.thegpm.org/projects/gpm/gpm-xe-installer/
蛋白质组学数据库检索软件
解压缩:
质谱原始数据
运行程序
数据库、结果 程序等核心内容
蛋白质组学数据库检索软件
C:/ZCNI_tranning/X!tandem/
点击Analysis Pipeline,选择mzXML,在Specify RAW Input File(s) to convert to mzXML中点击Add Files,添加要转成mzXML的RAW文件
选择目录ZCNI_training
选择目录ZCNI_training
选择所有的RAW文 件
蛋白质组学质谱分析背景介绍
APNDFNLK
蛋白质组学质谱分析背景介绍
v
1letter code A
R N D B C E Q Z G H
Isoleucine Average mass Leucine Lysine Methionine Phenylalanine Proline Serine Threonine Selenocysteine Tryptophan 57.05 137.14 Tyrosine Valine
操作流程
1. 将质谱RAW文件转换成mzXML文件 ; 2. 以Sequest结果文件和mzXML文件转换成xml 文件; 3. 运行PeptideProphet,得到pepXML文件; 4. 以上步得到的pepXML文件运行 ProteinProphet,得到最终结果;
1.将RAW转换成mzXML文件
PTPEGDLEILLQK : p = 0.81 TPEVDDEALEK : p = 0.96
ቤተ መጻሕፍቲ ባይዱ
LSFNPTQLEEQCHI : p = 0.65
P = 1 – (1-0.81)(1-0.96)(1-0.65) = 0.99
TPP的安装与配置
从http://tools.proteomecenter.org/TPP.php上 下载并安装windows版本TPP软件。 TPP_Setup_v4_2_JETSTREAM_rev_0.exe。 安装过程中选择附带安装Apache(安装TPP4.2 要求系统已安装ActivePerl-5.8.8.*以上版本, 可从http://www.activeperl.com网站上下载)。 安装完成后,将会生成TPP的图标
对应 肽断 总数
蛋白分 子质量
蛋白检索号
5.替换数据库
下载蛋白数据库存放到本文件夹
(所使用fasta数据库为所研究种属的蛋白数据库,可从 ftp://ftp.ebi.ac.uk/pub/databases/IPI/current/下载得 到)
用记事本打开
参考文献:
http://thegpm.org/
选择所有的RAW文件
RAW转成mzXML文件
2.由.out文件整合成pepXML文件
点击“Analysis Pipeline”, 然后点击pepXML,出现如图所示的界 面.
在File(s) to convert to pepXML点击add files
pepXML界面
选择ZCNI_training
蛋白质组学数据统计分析软件
Trans-Proteomic Pipeline (sashimi)
蛋白质组学数据统计分析软件
蛋白质组学数据统计分析软件
>sp|P02754|LACB_BOVIN BETA-LACTOGLOBULIN PRECURSOR (BETA-LG) (ALLERGEN BOS D 5) - Bos taurus (Bovine). MKCLLLALALTCGAQALIVTQTMKGLDIQKVAGTWYSLAMAASDISLLDA QSAPLRVYVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTKIPAVFKIDA LNENKLVLDTDYKKYLLFCMENSAEPEQSLACQCLVRTPEVDDEALEKFDK ALKALPMHIRLSFNPTQLEEQCHI
点击Add Files
ProteinProphet界面
选择经PeptideProphet后生成的 interact.xml文件
• 其他为默认,点击Run ProteinProphet!
其它参数为默认,点击Run ProteinProphet,即可运行 ProteinProphet程序
运行ProteinProphet完成后生 成的interact-prot.shtml 文件可由IE打开. 运行ProteinProphet
经ProteinProphet分析得到的结果可由IE打开,在IE中输入 http://localhost/ISB/data/ZCNI_training/interact.prot.shtml 可以看到经ProteinProphet后的结果为:
开始>运行>输入“cmd” 开启命令行窗口
Download:http://sourceforge.net/project/d
ownloading.php?group_id=69281&use_mirror=jai st&filename=ReAdW_2006Nov01.exe&40300388
2. 编辑参数
71.08
156.19 114.10 115.09
103.14 129.12 128.13
具体数值,对应后页中离子质量
蛋白质组学质谱分析背景介绍
蛋白质组学质谱分析背景介绍
蛋白质组学质谱分析背景介绍
目前人类已知蛋白大约有6万8千种 平均每种蛋白长度为500个氨基酸 平均每种蛋白可以胰切成50个肽段 平均每个肽段有10种可能打碎情况 每一种可能情况产生一张理论图谱 平均一次质谱实验有3000次扫描 每一次扫描产生一张质谱谱图 ???面对如此多的质谱谱图和理论图 谱我们将如何进行比对
安装完后,桌面上生成了TPP和Cygwin的图标
使用TPP
点击桌面上的 TPP Web Tools ,将会出现TPP的登陆界面.
UserName: guest Password: guest
TPP的登陆界面
TPP Web Interface的欢迎界面
样本数据分析
准备工作: 1. 确保C盘至少1G的空闲的硬盘空间. 2. 将数据文件ZCNI_No1(含.dta和.out文件)至 ZCNI_No6和质谱RAW文件ZCNI_No1.RAW 至ZCNI_No6.RAW,以及Sequest参数文件 sequest.param放到目录: C:\Inetpub\wwwroot\ISB\data\ZCNI_training 下 3. 将数据库文件ipi.HUMAN.fasta放到目录: C: \database中
http://thegpm.org/GPM/gpm_ins tall_faq.html
蛋白质组学数据统计分析软件
Trans-Proteomics Pipeline (TPP)
蛋白质组学数据统计分析软件
Trans-Proteomic Pipeline (TPP)是用于 LC/MS/MS蛋白质组学数据分析的软件. TPP包含一系列蛋白质鉴定和定量分 析的模块, 能够对经Sequest数据库搜索 引擎得到的结果进行筛选过滤,从而达到 蛋白质鉴定和测序的目的.
参数
数据库目录
数据库
输出结果目录
蛋白质组学数据库检索软件
工作流程:
1. 将 *.raw 文件转变为 *.mzXML 文件
(练习文件为肝癌蛋白质组学数据)
2. 编辑参数
3. 运行 GPM中的X!Tandom 4. 查看结果 5. 使用自己的数据库
1. 将 *.raw 文件转变为 *.mzXML 文件