蛋白质分析和蛋白质组学
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2010 郝大鹏
Example of a protein with domains: Methyl CpG binding protein 2 (MeCP2)
MBD
TRD
The proteቤተ መጻሕፍቲ ባይዱn includes a methylated DNA binding domain (MBD) and a transcriptional repression domain (TRD). MeCP2 is a transcriptional repressor.
模体
• 氨基酸残基修饰的模体 • 蛋白质细胞定位的模体 • 与活性有关的模体 • 其他模体
2010 郝大鹏
氨基酸残基修饰的模体
• 糖蛋白中被N糖基化的天冬酰胺(N)一定是处于 N{P}[S/T]中的。
• 在一些与凝血过程相关的蛋白质中,被羟化的天冬氨酸或 天冬酰胺处于CX[D/N]X4@XCXC的模体中。@为芳香性 氨基酸,X4为任意氨基酸构成的四肽。
2010 郝大鹏
蛋白质motif
~~~~~EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTM LSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTF TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR VQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV VKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTF LQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLF VQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFL VQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRW PKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD...
Mutations in the gene encoding MeCP2 cause Rett Syndrome, a neurological disorder affecting girls primarily.
2010 郝大鹏
例子
• 在HIV-1 pol蛋白的天冬氨酸蛋白酶(aspartyl proteases)结构域中,天 冬氨酸残基(asp, D)对酶的催化活性至关重要。天冬氨酸蛋白酶模体 由12个氨基酸残基构成: [LIVMFGAC]-[LIVMTADN]-[LIVFSA]-D-[ST] -G-[STAV][STAPDENQ]-x-[LIVMFSTNC]-x-[LIVMFGTA]。
lipocalin 1 odorant-binding protein 2a progestagen-assoc. endo. apolipoprotein D retinol-binding protein neutrophil gelatinase-ass. prostaglandin D2 synthase alpha-1-microglobulin complement component 8
2010 郝大鹏
蛋白质模式的种类
• 特征(signatures)的概念很宽广,它确定一个蛋白 质分类,可能指结构域(domain)、家族(family) 或模体(motif)。signature主要可以分为两类:
结构域(domain)是蛋白质中能折叠成特定三维结构的 一段区域。结构域也能被称为模块。一组拥有相同结 构域的蛋白被称为一个蛋白质家族。
• 几乎所有的lipocalins中都可以找到一个短的模体GxW。PROSITE数据 库定义的lipocalins的保守氨基酸模体是: [DENG]-x- [DENQGSTARK]-x(0,2)-[DENQARK]-[LIVFY]-{CP}-G{C}-W-[FYWLRH]-x-[LIVMTA]。
2010 郝大鹏
• 结构域: InterPro数据库中的结构域是指一个独 立的结构单元,他们可能单独存在也可能与其他 结构域相连。结构域也是进化上相关的序列。
2010 郝大鹏
SMART对相关术语的定义
• 结构域:保守的结构单元,包含独特的二级结构 组合和疏水内核。具有相同功能的同源结构域往 往具有序列上的相似性。
模体(motif,或称指纹,fingerprint)是蛋白质序列中 较短的保守区域。模体的长度一般是10—20个氨基酸 残基。
2010 郝大鹏
Protein family, domains and motifs
2010 郝大鹏
InterPro对相关术语的定义
• 家族:InterPro定义一组进化上相关的共享一个或 多个结构域的蛋白质为一个家族
Rho家族
G DGAX GKT
ATP合成酶 G GAGV GKTV
肌球蛋白重链 G ESGS GKT
胸苷激酶
G XXGX GKTT
胸苷酸激酶 G XPGX GKGT
这个模体可以形成一个特定的结构,与核苷酸结合。
2010 郝大鹏
其他模体
• 含有半胱氨酸的模体。在一些蛋白质中存在着特 定的序列模体,其中半胱氨酸的位置是相对固定 的(锌指)。
• 一般来说,如果两个蛋白质拥有一个相同的结构域,那么 这两个蛋白质有相关的功能。
• 序列模体是一个序列上经概括后“求同存异”的“框架”, 是在一段肽段中关键位置上氨基酸残基的组合模式。二者 的区别在于结构域有“结构”的含义。
2010 郝大鹏
人类中15个最常见的结构域
2010 郝大鹏
蛋白质共享一个结构域
蛋白质分析和蛋白质组学
2010 郝大鹏
蛋白质分析和蛋白质组学
• 蛋白质模式 • 蛋白质组学:对高通量蛋白质数据进行分
析的生物信息学工具和方法:
Rosetta Stone方法 酵母双杂交 其他方法:
➢二维凝胶电泳 ➢亲和层析 ➢质谱分析 ➢蛋白质芯片
2010 郝大鹏
蛋白质分析和蛋白质组学
• 蛋白质模式 • 蛋白质组学:对高通量蛋白质数据进行分
• 未知功能的模体。如一些细胞因子受体的膜外侧 接近膜处有WKS和WSKWS序列模体,但其功能还 不清楚。
2010 郝大鹏
模体的意义
• 总结:一些简单而常见的模体在一组蛋白质中发 现并不意味着这组蛋白质是同源的(跨膜区结构 域或磷酸化位点)。
• 在另一些情况下,模体可以成为一个蛋白质家族 的标志,反映了这个家族的亲缘关系。可以利用 这个族徽寻找宗亲。(载脂蛋白超家族)
2010 郝大鹏
结构域:蛋白质的模块性质
2010 郝大鹏
结构域:蛋白质的模块性质
2010 郝大鹏
结构域:蛋白质的模块性质
2010 郝大鹏
结构域:蛋白质的模块性质
2010 郝大鹏
结构域的由来
• 从球状蛋白到晶体衍射实验。(溶菌酶) • 免疫球蛋白的例子 • 蛋白质的折叠过程 • 20世纪60~70年代,提出结构域(domain)的概念。从
lipocalin 1 odorant-binding protein 2a progestagen-assoc. endo. apolipoprotein D retinol-binding protein neutrophil gelatinase-ass. prostaglandin D2 synthase alpha-1-microglobulin complement component 8
水解实验,可以看出结构域能组成一个结构单元。 • 结构域常由不同的外显子编码。
2010 郝大鹏
总结
• 结构域的概念:从最初的一级结构中较长的重复片段,上 升为有特征的立体结构,而且他们有一定生物功能,并且 对应着基因中的某些外显子,为它们编码、形成肽链后, 还能自行折叠成稳定的结构。总之,结构域可看作是一个 “entity”。
• PrP(疯牛病):有四个连续对八肽: PHGG[G/S]WGQ
2010 郝大鹏
Motif
模体( motif or fingerprint) 是蛋白质序列中较短的保守区域, 是按照一定的模式排列的氨基酸残基,长度一般在10~20残 基之间。 比如:跨膜区结构域、磷酸化位点. --These do not imply homology when found in a group of proteins. PROSITE (www.expasy.org/prosite) is a dictionary of motifs. In PROSITE, a pattern is a qualitative motif description (a protein either matches a pattern, or not).
Extending along the length of a protein
lipocalin
与甲基化的DNA结
Occupying a subset of a protein sequence 合的转录因子家族
Occurring one or more times
免疫球蛋白结构域 纤连蛋白重复区
2010 郝大鹏
• 模体:序列模体是指短的保守的多肽段。含有相 同模体的蛋白质并不一定是同源的。
2010 郝大鹏
结构域 VS. Motif
• 血清蛋白(581氨基酸):3个类似结构域,每个 约180个氨基酸
• 胶原蛋白中存在着几十个有GXY三肽组成的重复 片段
• RNA聚合酶最大亚基C端结构域中有52个重复的 六肽片段:[T/S]PTSP[N/T].
• 问题: DNA合成酶中,有一部分序列提供 了催化活性位点,这段序列高度保守;另 外一部分序列序列差异较大。请问这种蛋 白质应该怎么进行序列分析?
2010 郝大鹏
DNA合成酶的模式
2010 郝大鹏
载脂蛋白超家族的模式
~~~~~EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTM LSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTF TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR VQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV VKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTF LQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLF VQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFL VQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRW PKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD...
• 能进入细胞核的肽链都有特定的序列模体。 1. PKKKRKV or KRX10KKKK;2. 蛋白激酶 中,KRX21RXKXKXK; 3. #RX10#XX。
2010 郝大鹏
与活性有关的模体
• 在许多蛋白水解酶中,与催化有关的活性中心由D/E-H-S 组成。
• 在ATP和GTP结合蛋白质中存在着一种序列为 GXXXXGK[T/S]的模体:
析的生物信息学工具和方法:
Rosetta Stone方法 酵母双杂交 其他方法:
➢二维凝胶电泳 ➢亲和层析 ➢质谱分析 ➢蛋白质芯片
2010 郝大鹏
寻找蛋白质模式
2010 郝大鹏
一个引人深思的问题
• 从序列比对的知识中,我们知道序列差异 较大的序列和序列差异小的序列在比对时 需要选择不同的打分矩阵。
• 被磷酸化的丝氨酸和苏氨酸在不同蛋白质中处于不同的模 体中。组蛋白中为SP##(#为带正电的氨基酸)。蛋白激酶 PKA或PKG中的模体是##X[S/T]。
2010 郝大鹏
Motif与细胞定位
2010 郝大鹏
蛋白质细胞定位的模体
• 当C端的4个氨基酸序列为KDEL或HDEL时, 蛋白质就被局限在细胞的内质网中