第7讲 蛋白质组学 生物信息学
蛋白质组学生物信息学分析介绍
生物信息学分析FAQCHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION (3)什么是GO? (3)GO和KEGG注释之前,为什么要先进行序列比对(BLAST)? (3)GO注释的意义? (3)GO和GOslim的区别 (4)为什么有些蛋白没有GO注释信息? (4)为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致? (4)什么是差异蛋白的功能富集分析&WHY? (4)GO注释结果文件解析 (5)Sheet TopBlastHits (5)Sheet protein2GO/protein2GOslim (5)Sheet BP/MF/CC (6)Sheet Level2_BP/Level2_MF/Level2_CC (6)CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION (7)WHY KEGG pathway annotation? (7)KEGG通路注释的方法&流程? (7)KEGG通路注释的意义? (7)为什么有些蛋白没有KEGG通路注释信息? (8)什么是差异蛋白的通路富集分析&WHY? (8)KEGG注释结果文件解析 (8)Sheet query2map (8)Sheet map2query (9)Sheet TopMapStat (9)CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING (10)WHY Feature Selection? (10)聚类分析(Clustering) (10)聚类结果文件解析 (10)CHAPTER FOUR ABOUT PROTEIN-PROTEIN INTERACTION NETWORK (12)蛋白质相互作用网络分析的意义 (12)蛋白质相互作用 VS生物学通路? (12)蛋白质相互作用网络分析结果文件解析 (12)CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION什么是GO?随着多种生物基因组的相继解码,同时大量ESTs以及gene expression profile date的积累,使得annotation的工作量和复杂度大大增加。
生物信息学在蛋白质组学研究中的应用
生物信息学在蛋白质组学研究中的应用在当今生命科学的前沿领域中,蛋白质组学的研究正如火如荼地开展着。
蛋白质组学旨在全面、系统地研究细胞、组织或生物体中蛋白质的组成、结构、功能以及相互作用。
而生物信息学作为一门交叉学科,正为蛋白质组学的研究提供了强大的工具和方法,加速了我们对生命活动的深入理解。
蛋白质组学研究产生了海量的数据,这些数据的复杂性和规模远远超出了传统实验方法所能处理的范围。
生物信息学的介入就像是为这些数据的分析和解读配备了一把“万能钥匙”。
它通过运用各种算法、数据库和统计方法,能够从纷繁复杂的数据中挖掘出有价值的信息。
首先,在蛋白质鉴定方面,生物信息学发挥着关键作用。
质谱技术是目前蛋白质组学研究中常用的蛋白质鉴定手段。
通过质谱分析得到的大量肽段数据,需要与蛋白质数据库进行比对,以确定其对应的蛋白质。
生物信息学提供了高效的算法和软件,能够快速准确地完成这一比对过程。
例如,常用的搜索引擎如 Mascot 和 SEQUEST 等,它们基于不同的算法原理,能够根据质谱数据的特征,在庞大的蛋白质数据库中搜索匹配的肽段和蛋白质。
除了鉴定,蛋白质定量也是蛋白质组学研究的重要内容。
在这方面,生物信息学同样不可或缺。
基于质谱的定量蛋白质组学技术,如标记定量(如 iTRAQ、TMT 等)和非标记定量,都会产生大量的数据。
生物信息学工具可以对这些数据进行处理和分析,计算出不同样品中蛋白质的相对或绝对丰度。
通过统计学方法,可以筛选出在不同条件下表达水平发生显著变化的蛋白质,为进一步研究蛋白质的功能和调控机制提供线索。
在蛋白质结构和功能预测方面,生物信息学也有着出色的表现。
虽然实验方法可以测定蛋白质的三维结构,但由于技术难度和成本等因素的限制,能够测定结构的蛋白质数量相对较少。
生物信息学通过利用已知蛋白质结构的信息和相关算法,可以对未知结构的蛋白质进行结构预测。
同时,根据蛋白质的序列特征和结构信息,还可以预测其功能,例如酶的活性位点、蛋白质的相互作用位点等。
蛋白质组学PPT课件
代谢性疾病蛋白质组学研究通过对糖尿病、肥胖症等代谢 性疾病相关蛋白质的分析,发现了一些与代谢过程密切相 关的关键蛋白质。这些蛋白质涉及糖代谢、脂肪代谢等多 个方面,为药物研发和个体化治疗提供了新的思路和靶点 。同时,对代谢性疾病蛋白质组学的研究也有助于深入了 解疾病的发病机制,为疾病的预防和治疗提供科学依据。
蛋白质组学揭示基因表达 的复杂性
蛋白质组学研究关注基因表达的最终产物蛋白质,揭示了基因表达的复杂性和多样性 。蛋白质的表达和功能受到多种因素的影响 ,如翻译后修饰、蛋白质相互作用等,这些
因素在基因组学研究中难以全面考虑。
蛋白质组学与代谢组学的关系
代谢组学为蛋白质组学提供上下文
代谢组学研究生物体内小分子代谢物的变化,为蛋白质组学提供了上下文和背景。蛋白 质的功能和表达往往与代谢物的变化相互关联,了解代谢物的变化有助于更深入地理解 Nhomakorabea02
蛋白质组学研究技术
蛋白质分离技术
双向凝胶电泳技术
通过改变电泳的pH值和电场强度, 将复杂的蛋白质混合物分离成多 个有序的蛋白质带,以便后续的 鉴定和分析。
蛋白质芯片技术
将蛋白质固定在固相支持物上, 通过与特定的配体或抗体相互作 用,实现对蛋白质的快速、高通 量筛选和检测。
蛋白质免疫沉淀技
术
利用抗体与目标蛋白质的特异性 结合,将目标蛋白质从复杂的混 合物中分离出来,常用于蛋白质 相互作用的研究。
详细描述
癌症蛋白质组学研究通过对癌症细胞和正常细胞蛋白 质表达谱的比较,发现了一系列与癌症发生发展相关 的关键蛋白质。这些蛋白质涉及细胞信号转导、细胞 周期调控、细胞凋亡等多个方面,为癌症治疗提供了 潜在的药物靶点。
案例二:神经退行性疾病蛋白质组学研究
生物信息学中的蛋白质组学和蛋白质互作
生物信息学中的蛋白质组学和蛋白质互作随着科技的飞速发展,生物学研究已经从单一的分子和单一的基因上升到了组学领域。
其中,蛋白质组学是研究生物体内所有蛋白质的一门科学。
蛋白质是细胞的重要组成部分,不仅参与物质代谢和能量转化,还能调控细胞的信号转导和基因表达等生命活动。
因此,蛋白质组学也是基础医学、临床医学和药物研发等多个领域的重要研究方向。
而蛋白质互作则是蛋白质组学中的一个重要分支,主要研究蛋白质之间的相互作用关系。
一、蛋白质组学蛋白质组学是从基因组学和转录组学中发展而来的。
基因组学研究的是基因组,即生物体内所有基因的总体组成和结构;转录组学则研究的是转录组,即基因在特定的生理条件和生化环境下的表达水平和模式。
而蛋白质组学则是研究生物体内所有蛋白质的总体组成和结构,从而探究它们的生物学功能。
蛋白质组学主要包括以下几种方法:蛋白质质谱、两性二维电泳、蛋白质芯片、蛋白质鉴定、蛋白质结构预测和功能分析等。
二、蛋白质互作蛋白质互作是通过研究蛋白质之间的相互作用关系,探究蛋白质所在的生理过程和生物学功能。
蛋白质互作主要分为直接和间接两种方式。
直接互作是指两个或多个蛋白质之间通过化学或生物学方法直接结合形成复合物;间接互作则是指两个或多个蛋白质之间通过其他蛋白质介导进行相互作用。
蛋白质互作研究方法有很多,其中最常用的是酵母双杂交技术、共免疫沉淀法、生物亲和层析法、荧光共振能量转移法和蛋白质芯片技术等。
这些方法可以通过筛选出与特定蛋白质相互作用的其他蛋白质,帮助我们探究生命活动的调控机理。
三、蛋白质组学在疾病研究中的应用近年来,随着蛋白质组学方法和技术的不断发展,越来越多的学者开始尝试将其应用于疾病的研究和诊断。
例如,通过蛋白质组学研究,已经发现了一些新型肿瘤标志物,如前列腺特异性抗原(PSA)、癌胚抗原(CEA)和甲胎蛋白(AFP)等。
此外,蛋白质组学还可以研究疾病的发生机理和治疗方案。
例如,蛋白质组学可以揭示癌细胞中的特定靶标,从而帮助开发出更有效的治疗方案。
蛋白质生物信息学(共45张PPT)
利用生物信息学软件DNAman将VH-L-L的核苷酸序列翻译
为氨基酸序列
利用NCBI提供的ORF Finder预测VH-L-L的 ORF,从预测结果看出VH-L-L是一段连续 的较长的ORF,它可能是一个完整的编码 序列
利用ProtParam对VH-L-L的氨基酸序列及基本 理化性质进行了分析。
析,更加深入地理解DNA序列,结构,演化及其 与生物功能之间的关系。
研究课题涉及到分子生物学,分子演化及结构生 物学,统计学及计算机科学等许多领域。
研究过程
以数据(库)为核心 1 数据库的建立 2 生物学数据的检索 3 生物学数据的处理 4 生物学数据的利用:计算生物学
研究展望
由于生物信息学是基于分子生物学与多种学科交叉而成的 新学科,现有的形势仍表现为各种学科的简单堆砌,相互之 间的联系并不是特别的紧密。在处理大规模数据方面,没 有行之有效的一般性方法;而对于大规模数据内在的生成 机制也没有完全明了,这使得生物信息学的研究短期内很 难有突破性的结果。
第一节生物信息学与蛋白质工程 一、生物信息学概述
生物信息学是利用应用数学、信息学、统计 学和计算机科学的方法研究生物学的问题。
1987年,林华安首创Bioinformation 一词,被誉为”世界生物信息之父”。
概述
生物信息学分子生物学与信息技术(尤其是互联网 技术)的结合体。
研究材料和结果就是各种各样的生物学数据 研究工具是计算机
由于DNA自动测序技术的快速发展,
DNA数据库中的核酸序列公共数据量 以每天106bp速度增长,生物信息迅速 地膨胀成数据的海洋。毫无疑问,我们 正从一个积累数据向解释数据的时代转 变,数据量的巨大积累往往蕴含着潜 在突破性发现的可能。 “生物信息学” 正是从这一前提产生的交叉学科。
蛋白质组相关生物信息学
比500 bp或更多一些碱基对的序列,这就有一个由 大量的较短的序列全体构成的重叠群。逐步把它们 拼接起来形成序列更长的重叠群,直至得到完整序 列的过程称为重叠群装配。
蛋白质组相关生物信息学
8.遗传密码的起源
遗传密码为什么是现在这样的?这一直是一个谜。 一种最简单的理论认为,密码子与氨基酸之间的关 系是生物进化历史上一次偶然的事件而造成的,并 被固定在现代生物最后的共同祖先里,一直延续至 今。不同于这种“冻结”理论,有人曾分别提出过 选择优化、化学和历史等三种学说来解释遗传密码。 随着各种生物基因组测序任务的完成,为研究遗传 密码的起源和检验上述理论的真伪提供了新的素材。
蛋白质组相关生物信息 学
2020/12/5
蛋白质组相关生物信息学
蛋白质组研究中的生物信息学
第一节 生物信息学简介
蛋白质组相关生物信息学
一、什么是生物信息学 生物Fra bibliotek息学是随着人类基因组计划而发展
起来的。生物信息学是一门新兴的交叉学科。 它包含了生物信息的获取、处理、存储、发 布、分析和解释等在内的所有方面.它综合 运用数学、计算机科学和生物学的各种工具, 来阐明和理解大量数据所包含的生物学意义。
国内外都开展了生物信息处理算法并行化方 向的研究。主要是研究生物信息学中的一些 关键的算法,研究其中的可并行性.然后将 其固化到硬件芯片中,从而提高整个计算系 统的性能。 11. 其它
如基因表达谱分析,代谢网络分析,基因 芯片设计和蛋白质组学数据分析.逐渐成为 生物信息学中新兴的重要研究领域。
蛋白质组相关生物信息学
日本1984年着手建立国家级的核较数据库DDBJ, 1987年正式服务。目前绝大部分核酸和蛋白质数据 由美国、欧洲和日本产生,以上三家共同组成了 DDBJ/EMBI/GeneBank国际核酸序列数据库。其 他国家如德国、法国、意大利等也纷纷建立自己的数 据库,为本国服务。
蛋白质组学
蛋白质组学研究的内容、方法及意义生物有机体的生理活动、病理活动以及药物的作用主要是通过蛋白质来实现的,然而仅凭目前已知的蛋白质根本无法阐明各种复杂的生命活动过程,因此,以基因组的研究成果为基础,以各种先进技术为支撑,进一步研究生物有机体的全部蛋白质结构、功能及其相互作用已经成为必然。
目前大量工作者致力于蛋白质组学的研究,本文现对此作一简述。
1.蛋白质组学的定义及研究内容蛋白质组学(Proteomics)是研究在特定时间或环境下某个细胞或某种组织的基因组表达的全部蛋白质。
蛋白质组学的真正含义在于:它不是按照传统的方式孤立地研究某种蛋白质分子的功能,而是应用各种蛋白质组学技术研究某种蛋白质在复杂的细胞环境中的功能。
蛋白质组学旨在列出全部蛋白质的细目,弄清每一个蛋白质的结构和功能及蛋白质群体内的相互作用,对比在疾病和健康状态下它们的表达水平的变化。
蛋白质组学分为表达蛋白质组学和细胞图谱蛋白质组学。
前者利用各种先进技术研究蛋白质表达的整体变化,即研究在机体的生长发育、疾病和死亡的不同阶段中,细胞与组织的蛋白质组分的变化;后者主要通过分离蛋白质复合物系统地研究蛋白质间的相互作用。
2.蛋白质组与基因组的关系基因是遗传信息的携带者,蛋白质则是生命活动的执行者。
实际上每一种生命运动形式,都是特定蛋白质群体在不同时间和空间出现并发挥功能的结果。
因而蛋白质组研究是我们理解细胞功能和疾病发生发展过程的中心环节。
如果不能共同致力于蛋白质组的研究,那么基因组的研究成果将无法兑现。
DNA序列所提供的信息仅仅是一种静止的资源,而细胞的生命活动是通过各种蛋白质来实现的一种动态过程。
一个机体内所有不同的细胞都共享同一基因组,然而同一个机体的不同细胞和不同组织却有不同的蛋白质组,而且机体在不同发育阶段,直至最后消亡的全过程中蛋白质组也在不断变化。
因而蛋白质组要比基因组复杂得多。
由于对转录产物的选择性剪切、翻译起止点的变化或者mRNA上三联体密码发生移码突变等均可以明显促进蛋白质多样性的产生,而且mRNA的水平并不能反映蛋白质水平,即使一个开放阅读框(ORF)呈现在面前,也根本无法证实某种蛋白质存在与否。
生物信息学中的蛋白质组学技术
生物信息学中的蛋白质组学技术随着生物学和计算机科学的快速发展,将蛋白质组学技术与生物信息学相结合已经成为了研究蛋白质在生物系统中作用和展现的重要手段。
蛋白质组学技术是近年来兴起的一种高通量技术,能够在不同紧急和不同条件下快速鉴定蛋白质并进行分析。
本文将介绍生物信息学中的蛋白质组学技术的基本原理、常用方法和应用。
蛋白质组学技术的基本原理在生物信息学中,蛋白质组学技术是一种定量蛋白质和代谢产物分析的方法。
通过分析生物体中蛋白质的组成和分布,可以解决蛋白质相互作用、代谢通路、信号转导等复杂的分子机制问题。
蛋白质组学技术基于蛋白质在生物体中的表达、功能和亚细胞分布等特性,采用多种生化分离和质谱技术对蛋白质进行鉴定和定量分析。
蛋白质组学技术常用的方法1. 二维凝胶电泳技术(2-DE)二维凝胶电泳技术是一种常用的分离和定量蛋白质的方法。
它将蛋白质分子按照电荷和分子量两个维度进行分离,从而得到一个二维蛋白质电泳图谱。
这种方法可以分离出几千个蛋白质,是高分辨率蛋白质分析方法之一。
同时,二维凝胶电泳技术也被广泛应用于酶活性的检测和定量。
由于其对样品量要求较高和谱图分析的复杂性,二维凝胶电泳技术的应用范围受到一定限制。
2. 质谱技术质谱技术是一种利用质谱仪进行蛋白质鉴定的方法。
这种方法依赖蛋白质分子的离子化和碎片化,将碎片化的蛋白质进行质谱分析,进而得到各种化学参数。
质谱技术的优势在于可以分析极小量的蛋白质,并对蛋白质分子的序列和结构进行分析。
同时,质谱技术在准确度、灵敏度和多样性等方面优于其他适用于该领域的分析技术。
3. 蛋白质芯片技术蛋白质芯片技术是一种高通量的蛋白质定量和分析技术。
通过将具有不同功能的蛋白质分子或其片段加到芯片上,可以同时检测数千个蛋白质或蛋白质相互作用。
蛋白质芯片技术可用于测定蛋白质表达量、活性、功能和相互作用,以及蛋白质与其他分子的交互作用。
这种技术的优势在于其快速性、简便性和灵敏度,足以满足复杂生物样品的多维蛋白质表达、诊断和治疗等需求。
生物信息学中的基因组学和蛋白质组学
生物信息学中的基因组学和蛋白质组学生物信息学是对生物学的理解和掌握而产生的学科,是应用计算机技术和信息科学方法来处理、储存和分析生物学数据的学科。
生物信息学不仅涉及到基础科学方面的内容,还与生物工程、医药研究、环境监测、生物保护等有着紧密的联系,具有重要的理论及实践意义。
生物信息学主要分为三个分支,包括基因组学、蛋白质组学和生物数据挖掘。
本文将介绍其中的基因组学和蛋白质组学。
一、基因组学基因组学是一门研究全基因组结构、功能及其进化等方面的学科。
随着人类基因组计划和各种生物物种基因组测序技术的成熟,分子遗传学发生了革命性的变化。
基因组学在促进生物学的发展进程中具有举足轻重的地位。
1.基因组测序随着第一次完全测序人类基因组的完成,基因组测序技术已成为生命科学领域的基础。
基因组测序技术不仅帮助人类了解本身,还可以解析其它生物的遗传信息,为各种医学、农业、生态学等领域研究奠定基础。
2.基因组的比较和进化通过比较基因组序列,可以了解不同物种之间基因的演化关系,复制和转座过程,进而了解一些基因功能的进化情况,这对于开发新的疾病治疗策略、农业作物选择、生物多样性保护等领域都具备重要意义。
3. 系统生物学系统生物学是一门集大数据、数学模型、数据驱动的科学,用系统的方式去研究生命本质和现象,它是基因组学的一个重要方向。
它的研究手段主要有基于高通量实验获取的大量生物数据,结合数学建模和计算机分析,从而获得更深入的生物信息并提出高效生物学假说。
二、蛋白质组学蛋白质组学是一门研究蛋白质在整个生物系统中的功能、结构、相互作用以及与基因表达调控等方面关系的学科。
随着大规模蛋白质组学数据的不断产生和普及,蛋白质组学成为了现代生物学领域中一个重要的方向。
1. 蛋白质的定量和鉴定蛋白质组学研究的一个主要目标就是用高通量技术来鉴定和定量蛋白质、翻译后修饰,利用着色法、荧光染色法和质谱方法等技术手段进行定量和鉴定。
对比基因组研究,蛋白质组学更直接的反映了体内的生物功能,更符合细胞生物学以及揭示疾病发生的基础机制的需求。
蛋白质组学简介
基于2DE的差异蛋白质组学分析技术流程:
条件A:样品 图像分析 差异蛋白质 质谱分析 条件B:样品 确定差异点 数据搜寻蛋 白质鉴定
2-D Difference Gel Electrophoresis (DIGE)
Protein extract 1 Label with fluor 1
Mix labeled extracts
Protein extract 2
Label with fluor 2
Separate by 2D PAGE
3.1表达谱研究的技术流程图
蛋白质样品的制备 双向电泳 凝胶中的蛋白 图像分析 溶液中的蛋白
转印至膜上的蛋白
混合肽
肽指纹图 肽序列质谱数据 蛋白质质量 数据搜索 新的或已知蛋白 蛋白转录后修饰的鉴定 N端测序
3.2 差异蛋白组学的研究策略
What is differential proteomics Differential proteomics is the qualitative and quantitative comparison of proteomes under different conditions to further unravel biological processes or to find biomarkers.
基于二级质谱信息
3. 数据库及分析软件
PIR
PIR
SWISS-PROT
SWISS-PROT
TrEMBL
生物信息学第七章蛋白质结构分析和预测
提交氨基酸序列
/~phyre/
五、蛋白质跨膜区预测
膜蛋白结构
脂双层
1
2
3
6 NH3
P
P
胞质
COOH
4
5
7
五、蛋白质跨膜区预测
跨膜区特点
➢ 膜蛋白跨膜区氨基酸具有极强疏水性 ➢ 跨膜区的二级结构一般为α螺旋和β筒状结构
20-30个连续高度疏水氨基酸可以α螺旋形式穿越 脂双层;β筒跨膜区的氨基酸只有20个左右。
构象分布概率、氨基酸在蛋白质中的相对出现 概率以及残基出现在结构中的频率,最后得到 构想参数,根据此参数得出氨基酸形成二级结 构的倾向性,从而预测二级结构。
Chou-Fasman二级结构预测经验规则
α螺旋规则
➢ 相邻的6个残基中如果有至少4个残基倾向于形 成α螺旋,则认为是螺旋核。
➢ 然后从螺旋核向两端延伸,直至四肽α螺旋倾 向性因子的平均值pα<1.0为止。此外,不容许 脯氨酸在螺旋内部出现,但可出现在C末端以 及N端的前三位。
蛋白质的结构层次:
一级结构(氨基酸序列) 二级结构 三级结构 四级结构
采用ProtParam软件[1] (/tools/protpa ram.html)分析蛋白质的分子量、理论 等电点、氨基酸组成、带正负电荷的氨 基酸残基数目、消光系数、吸光系数、 疏水系数和半衰期等基本理化性质。
信号肽预测
分泌蛋白新生肽链N端的一段20~30氨 基酸残基组成的肽段。将分泌蛋白引导 进入内质网,同时这个肽段被切除。现 这一概念已扩大到决定新生肽链在细胞 中的定位或决定某些氨基酸残基修饰的 一些肽段。
信号肽预测
预测给定的氨基酸序列中是否存在潜在 的信号肽剪切位点及其所在
蛋白质组学ppt课件
Typical Mass Spectrum
Relative Abundance
aspirin
120 m/z-for singly charged ion this is the mass
Resolution in MS
Resolution in MS
783.455
QTOF
784.465 785.475
2 Unknown masses 1 hit on P21234 3 hits on P12345
Conclude the query protein is P12345
Database search
PeptIdent (ExPasy) Mascot (Matrix Science) MS-Fit (Prospector; UCSF) ProFound (Proteometrics) MOWSE (HGMP)
3: 化学标志法—iTRAQ
iTRAQ法。 1:样本经过不同处置后, 提取蛋白质; 2:蛋白质经过复原,封锁 后胰蛋白酶酶切; 3:肽段混合物分别用不同 的iTRAQ标志; 4:等量混合各种iTRAQ试剂 标志的肽段; 5:MS/MS质谱检测及分析。
4: SILAC
SILAC法。 细胞培育条件下稳定同位素 标志技术(Stable isotope labeling with amino acids in cell culture,SILAC)
450 698
2098 1940 (trp)
500
1000
1500
2000
2500
Query vs. Database
Query Masses Database Mass List Results
蛋白质组学PPT课件
蛋白质组定义
1,基因组表达的全部蛋白质。 2,在一种细胞/组织内存在的全部蛋白 质。
Proteome
• 1994 M.Wilkins and K.W.Williams
•
Macquarie University in Sydney
• Total Proteins Complement of a Genome
环境
ቤተ መጻሕፍቲ ባይዱ
REAL COMPLEXITY…
IS IN CELLULAR ROTEOMES • BEYOND THE GENOME… • Tissue Specific Expression • Alternate Splicing, (1/3 of all genes) • Post-Translational Modifications
Functional
Proteomics
• During human development, cell express different proteins
• Normal and cancer cells express different proteins
• Cell treated with and without drug express different proteins
– Types and Level:
– Signal Sequence cleavage – Glycosylation
– Phosphorylation – Farnylation – Isoprenylation – Acetylation
• All combine > 100-1000 fold increase in complexity
生物信息学在蛋白质组学中的应用
生物信息学在蛋白质组学中的应用北京天坛医院检验科方芳蛋白质序列数据库中的数据较DNA序列库要少得多,但提供的信息更为完备,蛋白质进化的保守程度比DNA高,在DNA水平与已知基因无显著同源性的序列,可能在蛋白质序列库中找到有功能参考价值的同源序列。
您知道被送上太空的啤酒酵母,其完整基因组所包含的约6000多个基因中,有多少是通过信息分析得到的吗?A. 50%B. 60%C. 70%从20世纪末期以来,生物科学技术的迅猛发展。
随着人类基因组计划的实施,通过基因测序、蛋白质序列测定和结构分析实验,分子生物学家提供了大量有关生物分子的原始数据,无论从数量上还是从质量上都极大地丰富了生物科学的数据资源,需要利用现代计算机网络技术对这些原始数据进行收集、整理、管理,以便于检索使用;而且为了解释和理解这些数据,还需要对数据进行对比、分析,建立计算模型,进行仿真、预测与验证,发现蕴藏在这些生物学数据资源中大量的生物学规律,这些都促进了生物信息学的产生和发展。
生物信息学最终形成一门独立的学科被推上了生物科学发展的最前沿。
生物信息学(bioinformatics)是生命科学和信息学以及数学等学科交叉、结合的产物,它的诞生极大地推动了生命科学研究的进展。
目前生物信息学已经成为生物医学、农学、遗传学、细胞生物学等学科发展的强大推动力量,也是药物设计、环境监测的重要组成部分。
诺贝尔奖获得者 W.Gilbert 在1991年曾经指出:“传统的生物学解决问题的方式是实验的。
现在,基于全部基因都将知晓,并以电子操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。
一个科学家将从理论推测出发,再回到实验中去,追踪或验证这些理论假设。
”因此,在现代以及未来的科研工作中,科学家们可能首先是从生物信息学的角度入手寻找自己感兴趣的生物对象,然后回过头来进行实验操作以证明已有的科学知识或发现新的科研领域[1]。
人类基因组计划 HGP 后基因时代图1 生物信息学与相关学科的关系人类基因组序列草图的完成,宣告了“后基因组时代的到来,其中功能基因组学(functional genomics)成为研究的重心,蛋白质组学(proteomics)则是其中流砥柱,蛋白质组信息学已成为当前生物信息学面临的主要问题之一。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Proteomics in genomeland Science 297: 1221 , 2001)
And now for the proteome. . .
Nature 409: 747 , 2001
1 蛋白质组概念的提出
• 蛋白质组( proteome ) 一词是澳大利亚Macquarie 大学 Wilkins 和Williams 在1994 年首次提出,最早见于文献是 在1995 年7月《Electrophoresis》杂志上,是指由一个基因 组,或一个细胞、组织表达的所有蛋白质。
• 蛋白质组学的研究手段也可以应用于农业研究、 环境保护等多方面。
• 蛋白质组研究不仅可实现与基因组的对接与确认, 直接揭示生命活动规律和本质、人类重大疾患 (病原体)致病的物质基础以及发生与发展的病 理机制;
• 而且可广泛推动生命科学基础学科以及分析、信 息、材料等应用科学的发展;
• 对提高我国生物医学原始创新能力、重大疾病防 诊治能力和国民健康水平以及新药研发能力、对 促进生物医药产业乃至国民经济的发展具有重大 的战略意义
46
Orbitrap
47
Orbitrap
k
m/z
w = oscillation frequency k = instrumental const. m/z = …. what we want!
48
Orbitrap
49
课 堂内容
一. 蛋白质组学简介 二. 质谱技术基础 三. 质谱数据分析 四. 蛋白质组数据库
43
Quadrupole Mass Filter
44
FT-ICR
Fourier transform ion cyclotron resonance mass spectrometry
Analyst (2005) 130, 18–28
45
FT-ICR-MS
Analyst (2005) 130, 18–28
1.质谱技术是鉴定蛋白质的最主要技术 2.质谱数据是蛋白质组学中最丰富的信息源 3.质谱技术与蛋白质鉴定是蛋白质组计划中启动最早,
也是相对研究基础较强的方向
35
质谱仪的组成
36
质谱仪的组成与结构
37
质谱仪的三大构件
Sample
+ _
Ionizer
• MALDI • Electro-Spray
Ionization (ESI)
• 另外,蛋白质组学与其它学科的交叉也将日益显 著和重要,
• 蛋白质组学与其它大规模科学如基因组学,生物 信息学等领域的交叉,所呈现出的系统生物学 (System Biology)研究模式,将成为未来生命科 学最令人激动的新前沿。
人类肝脏蛋白质组的研究问题
21
蛋白质组学与信息技术
蛋白质组学
计算
色谱技术
5、蛋白质组学的发展趋势
基础研究方面
• 已被应用到各种生命科学领域,如细胞生 物学、神经生物学等;
• 涉及到各种重要的生物学现象,如信号转 导、细胞分化、蛋白质折叠等等。
• 在研究对象上,覆盖了原核微生物、真核 微生物、植物和动物等范围;
应用研究方面
• 蛋白质组学将成为寻找疾病分子标记和药 物靶标最有效的方法之一。
68
69
70
71 /course/2005.jan.eng.pdf
Single Stage MS
72 /course/2005.jan.eng.pdf
Tandem MS
73 /course/2005.jan.eng.pdf
25
Biomarker 发现
7500
10000
12500
15000
4
2
0 4
7500 3 2 1 0 4 7500 3 2 1 0 4 7500 3 2 1 0
7500 4
2
10000 10000 10000 10000
C
C-B8
12500
15000
C
D-B9
12500
15000
N
E-B10
12500
1. 人类基因组测序计划(HGP)完成之后,自2001年前 后开始,蛋白质组学逐渐受到重视,人类蛋白质组计 划成为HGP之后又一重大国际合作大科学项目
2. 生化测试仪器技术的快速发展导致“数据泛滥、知识 困乏”尴尬局面日益突出,尤其是在蛋白质组学领域
3. 计算技术可以为在蛋白质组学中快速可靠地发现生物 学关键知识和指导提高生物学实验的质量和效率提供 强大的技术方法支持
39
Electrospray (ESI)
40
2002年诺贝尔化学奖
"for the development of methods for identification and structure analyses of biological macromolecules"
"for their development of soft desorption
• 蛋白质组学( Proteomics )是研究在特定时间或环境下某 个细胞或某种组织基因组表达的全部蛋白质。
Wilkins
2、蛋白质组学的研究意义
• 蛋白质是生理功能的执行者,是生命现象的直接 体现者,对蛋白质结构和功能研究将直接阐明生 命在生理或病理条件下的变化机制。
• 几乎所有的生理和病理过程,以及药物和环境因 子的作用都依赖于蛋白质,并引起蛋白质的变化。 反之,对蛋白质组变化的分析也能提供对上述过 程或结果的重要信息。
10
蛋白质组学
后基因组时代
功能基因组学
Genome DNA
RNA
Transcriptome
Proteins
Metabolites
Protein-DNA, Protein-RNA Protein-protein
Proteome Metabolome Interactome
转录组学
蛋白质组学 代谢组学 表型组学 相互作用组 ……
ionisation methods for mass spectrometric
NMR
analyses of biological macromolecules"
John B. Fenn ESI
b. 1917
Koichi Tanaka MALDI b. 1959
41
42
Time of Flight (TOF)
50
51
Ion Trap (LCQ, LTQ)
52
53
一个应用示例
54
恐龙胶原蛋白的质谱图
55
第二个应用示例
56
第三个应用示例
57
Primary Structure No. in UniProtKB
58
一张串联质谱
59
What is a Protein ?
60
The Structure of Protein
问题
凝胶电泳
质谱技术
从头测序
解决
NMR
方案
X-Ray
信息技术
数据库
算法学 统计学
模式识别 信息论 几何学
22
利用串联质谱鉴定蛋白质
输入
蛋白质数据库
?查询
①
串联质谱图
序列片段
③ PNT
②
从头测序
23
输出
氨基酸序列 VLDPNTVFAL
癌症的早期诊断问题
24
(Source: Nature)
质谱与Biomarker发现
30
课 堂内容
一. 蛋白质组学简介 二. 质谱技术基础 三. 质谱数据分析 四. 蛋白质组数据库
31
32
Left: An LTQ mass spectrometer (image from University of Vermont) Right: A high-end Fourier Transform mass spectrometer (imag33e from Pacific Northwest National Labs)
urce: Science)
蛋白质组 VS 基因组(复杂性)
7
蛋白质的复杂性
8
Proteoform: 描述蛋白质的复杂性
9
人类蛋白质组计划
Human Plasma Proteome Project, USA
Human Disease Glycomics/Proteome Initiative (HGPI), Japan
4)功能蛋白质组学 蛋白质的功能和相互作用;
5)蛋白质组学研究的技术平台与生物信息学 分离、鉴定技术,分析软件和数据库。
4、蛋白质组学的研究技术
• 蛋白质分离技术
凝胶双向电泳、HPLC;
• 蛋白质鉴定技术
Edman 测序、质谱技术;
• 图像分析与生物信息
图像分析软件,数据库;
• 相互作用研究技术
酵母双杂交技术、免疫共沉淀、蛋白质芯片等。
15000
N
C-B14
12500
15000
C
D-B15
0
26
750000
1100000 00
112250000
1155000 00
“计算蛋白质组学”
Computational Proteomics:
以计算技术为主,专门研究蛋白质组学实验中产生的大 规模数据的存储、管理、计算、分析与理解的一门蛋白 质组学的主要分支学科。
Mass Analyzer
• Time-Of-Flight (TOF) • Quadrapole • Ion-Trap