蛋白质序列分析及结构预测
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学
谢文海 讲师 13371585745 xiewenhai@sdut.edu.cn
第五章 蛋白质序列分析及结构预测
一、蛋白质的结构 二、蛋白质数据库介绍 三、蛋白质序列分析 四、蛋白质结构预测 五、蛋白质功能预测
回顾
从多条免疫球蛋白序列中提取的8个片段的多重比对
疏水氨基酸 半胱氨酸
免疫球蛋 白可变区
2. 模体以及结构域数据库
➢ 模体数据库
(1)PROSITE 蛋白质家族及结构域数据库( www.expasy.org/prosite/ )
• PROSITE 数据库收集了有显著生物学意义的蛋白质位点序 列、蛋白质特征序列谱库以及序列模型, 并能依据这些特征属 性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白 质家族, 即使在蛋白质序列相似性很低的情况下, 也可以通过 搜索隐含的功能结构模体(motif)来鉴定, 因此是有效的序列分 析数据库。
② MotifScan 用于查找未知序列中所有可能的已知结 构组件, 数据库包括PROSITE序列表谱、PROSITE 模式、Pfam 收集的隐马尔可夫模式( HMM)。
模体数据库
(2) PRINTS Fingerprint Database www.bioinf.man.ac.uk/dbrowser/PRINTS/
这个数据库包含1 500 个蛋白质指纹图谱, 编码9 136 个单一模体。
(3) BLOCKS ( www.blocks.fhcrc.org/ ) BLOCKS 是通过一些高度保守的蛋白质区域比对出来
的无空位的片段。
➢ 蛋白质结构域数据库
(1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库Pfam( protein families database of alignments and HMMs)
1. 蛋白质序列数据库
(1)PIR(protein information resource, PIR)和PSD (protein sequence database, PSD) http://pir.georgetown.edu/pirwww
PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白 质序列数据库。PIR-PSD 的序列来自于将GenBank/ EMBL/ DDBJ 三大 数据库的编码序列的翻译而成的蛋白质序列、发表的文献中的序列和用 户直接提交的序列。
3. 蛋白质结构数据库
PDB( protein data bank , PDB) http://www.rcsb.org/pdb/
PDB 包括了蛋白质、核酸、蛋白质-核酸复合体以及病 毒等生物大分子结构数据, 主要是蛋白质结构数据, 这些数据来源于几乎全世界所有从事生物大分子结 构研究的研究机构, 并由结构生物学合作研究协会( RCSB) 维护和注释。
三、蛋白质的序列分析
蛋白质序列分析
蛋白质一级序列
蛋白质二级结构 蛋白质超二级结构 蛋白质三级结构
Biblioteka Baidu蛋白质分类
蛋白质基本理化性质分析
蛋白质亲疏水性分析 跨膜区结构预测 卷曲螺旋预测
翻译后修饰位点预测 蛋白质二级结构预测 蛋白质序列信号位点分析 蛋白质结构域分析 蛋白质三维结构模拟
蛋白质家族分析
1.蛋白质基本理化性质分析
• PROSITE 中涉及的序列模式包括酶的催化位点、配体结合 位点、金属离子结合位点、二硫键、小分子或者蛋白质结合 区域等, 此外PROSITE 还包括由多序列比对构建的序列表谱( profile) , 能更敏感地发现序列中的信息。
PROSITE同时数据库提供了序列分析工具:
① ScanProsite 是用于搜索所提交的序列数据是否包 含 PROSITE 数据库中的序列模式或者SWISSPROT 数据库中已提交的序列模式;
4.蛋白质结构分类数据库
(1) CATH 数据库 www.biochem.ucl.ac.uk/bsm/cathnew/index.html
(2) SCOP 蛋白质结构分类数据库( structural classification of protein database,SCOP) scop.mrclmb.cam.ac.uk/scop/index.html
蛋白质数据库特征:
这些数据库种类有差别, 但内部是相互联系的.
每个数据库都有指针指向其他数据库, 而且数据 库之间的序列以及相应的结构是共享的, 同一种 蛋白质依次会出现在不同的数据库.
这样的数据沟通有助于更深层地挖掘蛋白质的 内在生物信息, 这些数据库是融序列信息的索取、 处理、存储、输出于一身的。
四级结构:具有二条或二条以上独立三级结构的多肽链组成的蛋白 质,其多肽链间通过次级键相互组合而形成的空间结构称为蛋白 质的四级结构(quarternary structure)。其中,每个具有独立 三级结构的多肽链单位称为亚基(subunit)。
蛋白质的一级结构决定了蛋白质的二级、三级、四级结构
Compute pI/Mw http://expasy.org/tools/pi_tool.html
(2)SWISS-PROT/ TrEMBL数据库 www.expasy.org/swissprot
数据库由蛋白质序列条目构成, 每个条目包含蛋白质序列、引用文献 信息、分类学信息、注释等, 注释中包括蛋白质的功能、转录后修饰 位点、特殊位点和区域、二级结构、四级结构、与其他序列的相似性、 序列残缺与疾病的关系、序列变异体等信息。
来自人细胞珠蛋白(2DC3.pdb)的两段α螺旋由β转角连接,用粗树枝状显 示了两段螺旋末端的脯氨酸。
无规卷曲的结构特征为:
无规卷曲的特点为在主链骨架上无规则盘绕,其构象状态仍遵循物 理化学原理,但波动性较大,对温度变化敏感;实验测定三级结构 时往往无法识别无规卷曲(缺失其座标),即使有座标则其温度因子也 较高。无规卷曲同Ω环的区分主要是其长度和其形状的波动性。
蛋白质理化性质是蛋白质研究的基础
蛋白质的基本性质:
相对分子质量 氨基酸组成
等电点(PI) 消光系数
半衰期
不稳定系数
总平均亲水性 ……
实验方法:
• 相对分子质量的测定、等电点实验、沉降实验
• 缺点:费时、耗资
基于实验经验值的计算机分析方法
基于一级序列的组分分析 氨基酸亲疏水性等分析为高级结构预测提供参考 • Expasy 开发的针对蛋白质基本理化性质的分析:
Pfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网 址是: www.sanger.ac.uk/Software/Pfam/index.shtml。
(2) 蛋白质结构域数据库ProDom http://prodes.toulouse.inra.fr/prodom/doc/prodom.html
二级结构:主要由氢键维系的结构(α-螺旋、β-折叠)指多肽 链中主链原子的局部空间排布即构象,不涉及侧链部分的构象 。 α-螺旋、 β-折叠、 β-转角、无规卷曲 、α螺旋组合(αα)β 折叠组合(βββ)和α螺旋β折叠组合(βαβ)
α螺旋(αhelix)的结构特征为: (1)主链骨架围绕中心轴盘绕形成右手螺旋; (2)螺旋每上升一圈是3.6个氨基酸残基,螺距为0.54nm; (3)相邻螺旋圈之间形成许多氢键; (4)侧链基团位于螺旋的外侧。 Ala、Glu、Leu、Met 促进形成 Pro、 Gly、Tyr、Ser不利于形成
结构是蛋白行使功能的前提
DNA 序列 蛋白序列 蛋白结构 功能
一、蛋白质的结构
蛋白质的结构主要分为四级, 一级结构、二级结构、三级结构以及四级结 构。 一级结构:蛋白质多肽链中氨基酸残基的排列顺序
MTYKLILNGKTKGETTTEAVDAATAEKVFQYANDNGVDGEWTYTE
蛋白质二级结构
保守结构域
免疫球蛋 白恒定区
色氨酸
回顾 通过珠蛋白的比 较构建系统发育 树判断生物进化 分歧时间
1. human beta globin (人β珠蛋白) 2. horse beta globin (马β珠蛋白) 3. human alpha globin (人α珠蛋白) 4. horse alpha globin (马α珠蛋白) 5. cyanohaemoglobin (蓝血红蛋白) 6. whale myoglobin (鲸肌红蛋白) 7. Leghaemoglobin (豆血红蛋白)
(3) SMART SMART 是一个简单的结构研究工具, 可对可转移的遗传因子 进行鉴定和注解, 以及分析结构域结构, 可以检测出500 多个 参与信号传导、胞外和染色体相关蛋白质的结构域家族, 对这 些结构域又在系统进化树分布、功能分类、三级结构和重要 的功能残基方面做了注解。 http://smart.embl-heidelberg.de/
– Protparam 工具 http://www.expasy.org/tools/protparam.html
相对分子质量 氨基酸组成 等电点(PI) 消光系数 半衰期 不稳定系数 总平均亲水性 ……
蛋白质理化性质分析工具
工具
AACompldent
网站
http://expasy.org/tools/aacomp/
二、蛋白质数据库
依据蛋白质的结构层次, 将蛋白质数据库分为:
1. 蛋白质序列数据库:如PIR、SWISS-PROT、NCBI , 这些数据库的 数据主要以蛋白质的序列为主, 并赋予相应的注释; 2. 蛋白质模体及结构域数据库:如PROSITE、Pfam, 这些数据库主要 收集了蛋白质的保守结构域和功能域的特征序列; 3. 蛋白质结构数据库: 如PDB 等, 这些数据库主要以蛋白质的结构测 量数据为主; 4. 蛋白质分类数据库:如SCOP、CATH、FSSP 等, 这其中有以序列 比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据 库之分。
图,可见转角(turn); c. 来自人pi型谷胱甘肽-S-转硫酶一个亚基中连续主链的部分β折叠结构顶部视图,可见转角
(turn); d. 来自人信号传递蛋白SMAD4(1DD1.pdb)的一个亚基中部分β折叠结构顶部视图,可见到大
的环区(loop)。
β转角的结构特征为: 多肽链180°回折部分,通常由四个氨基酸残基构成,借1. 4残基 之间形成的氢键维系。 Asp、Asn、Ser、Thr、Gln 、Pro 常出现在β转角
蛋白质三级结构
二级结构进一步折叠形成的结构域
三级结构:蛋白质的多肽链在各种二级结构的基础上再进一步盘曲或 折迭形成具有一定规律的三维空间结构,称为蛋白质的三级结构( tertiary structure)。蛋白质三级结构的稳定主要靠次级键,包括氢 键、疏水键、盐键以及范德华力(Van der Wasls力)等。
超二级结构的主要类型和特征
超二级结构(supersecondary structure)指位于同一主链的多个二级 结构组装形成的特定组装体,可直接作为三级结构的或结构域的组成单元 ,是从蛋白质二级结构形成三级结构的一个过渡结构形式,也称为立体结 构形成的模体。
超二级结构的主要类型:
(1)β转角或Ω环等连接连续四个α螺旋形成的四α螺旋捆; (2)中部固定位置含有亮氨酸及其他疏水侧链氨基酸残基、在螺旋两端 含有强亲水侧链氨基酸的α螺旋组成的亮氨酸拉链(Leucine zipper); (3)一条主链中相邻七个两亲α螺旋通过过度结构形成的七次穿膜螺旋 组; (4)连续主链中两段α螺旋连接三段β折叠链形成的Rossmann折叠; (5)β转角连接a螺旋构成的a-螺旋-β转角-α螺旋; (6)Ω环连接α螺旋构成的α螺旋-Ω环-α螺旋等。 (7)β-折叠都为超二级结构。
人细胞珠蛋白(2DC3.pdb)的第121到140位残基 对应的a-螺旋侧面和顶部(N端)视图
β折叠(βsheets) 的结构特征为: (1)若干条肽链或肽段平行或反平行排列成片; (2)所有肽键的C=O和N—H形成链间氢键; (3)侧链基团分别交替位于片层的上、下方。
a. 反平行和平行的多个β折叠链形成一个完整β折叠结构的氢键示意图; b. 来自人pi型谷胱甘肽-S-转硫酶中单个亚基中连续主链的部分β折叠结构(2DGQ.pdb)侧面视
谢文海 讲师 13371585745 xiewenhai@sdut.edu.cn
第五章 蛋白质序列分析及结构预测
一、蛋白质的结构 二、蛋白质数据库介绍 三、蛋白质序列分析 四、蛋白质结构预测 五、蛋白质功能预测
回顾
从多条免疫球蛋白序列中提取的8个片段的多重比对
疏水氨基酸 半胱氨酸
免疫球蛋 白可变区
2. 模体以及结构域数据库
➢ 模体数据库
(1)PROSITE 蛋白质家族及结构域数据库( www.expasy.org/prosite/ )
• PROSITE 数据库收集了有显著生物学意义的蛋白质位点序 列、蛋白质特征序列谱库以及序列模型, 并能依据这些特征属 性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白 质家族, 即使在蛋白质序列相似性很低的情况下, 也可以通过 搜索隐含的功能结构模体(motif)来鉴定, 因此是有效的序列分 析数据库。
② MotifScan 用于查找未知序列中所有可能的已知结 构组件, 数据库包括PROSITE序列表谱、PROSITE 模式、Pfam 收集的隐马尔可夫模式( HMM)。
模体数据库
(2) PRINTS Fingerprint Database www.bioinf.man.ac.uk/dbrowser/PRINTS/
这个数据库包含1 500 个蛋白质指纹图谱, 编码9 136 个单一模体。
(3) BLOCKS ( www.blocks.fhcrc.org/ ) BLOCKS 是通过一些高度保守的蛋白质区域比对出来
的无空位的片段。
➢ 蛋白质结构域数据库
(1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库Pfam( protein families database of alignments and HMMs)
1. 蛋白质序列数据库
(1)PIR(protein information resource, PIR)和PSD (protein sequence database, PSD) http://pir.georgetown.edu/pirwww
PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白 质序列数据库。PIR-PSD 的序列来自于将GenBank/ EMBL/ DDBJ 三大 数据库的编码序列的翻译而成的蛋白质序列、发表的文献中的序列和用 户直接提交的序列。
3. 蛋白质结构数据库
PDB( protein data bank , PDB) http://www.rcsb.org/pdb/
PDB 包括了蛋白质、核酸、蛋白质-核酸复合体以及病 毒等生物大分子结构数据, 主要是蛋白质结构数据, 这些数据来源于几乎全世界所有从事生物大分子结 构研究的研究机构, 并由结构生物学合作研究协会( RCSB) 维护和注释。
三、蛋白质的序列分析
蛋白质序列分析
蛋白质一级序列
蛋白质二级结构 蛋白质超二级结构 蛋白质三级结构
Biblioteka Baidu蛋白质分类
蛋白质基本理化性质分析
蛋白质亲疏水性分析 跨膜区结构预测 卷曲螺旋预测
翻译后修饰位点预测 蛋白质二级结构预测 蛋白质序列信号位点分析 蛋白质结构域分析 蛋白质三维结构模拟
蛋白质家族分析
1.蛋白质基本理化性质分析
• PROSITE 中涉及的序列模式包括酶的催化位点、配体结合 位点、金属离子结合位点、二硫键、小分子或者蛋白质结合 区域等, 此外PROSITE 还包括由多序列比对构建的序列表谱( profile) , 能更敏感地发现序列中的信息。
PROSITE同时数据库提供了序列分析工具:
① ScanProsite 是用于搜索所提交的序列数据是否包 含 PROSITE 数据库中的序列模式或者SWISSPROT 数据库中已提交的序列模式;
4.蛋白质结构分类数据库
(1) CATH 数据库 www.biochem.ucl.ac.uk/bsm/cathnew/index.html
(2) SCOP 蛋白质结构分类数据库( structural classification of protein database,SCOP) scop.mrclmb.cam.ac.uk/scop/index.html
蛋白质数据库特征:
这些数据库种类有差别, 但内部是相互联系的.
每个数据库都有指针指向其他数据库, 而且数据 库之间的序列以及相应的结构是共享的, 同一种 蛋白质依次会出现在不同的数据库.
这样的数据沟通有助于更深层地挖掘蛋白质的 内在生物信息, 这些数据库是融序列信息的索取、 处理、存储、输出于一身的。
四级结构:具有二条或二条以上独立三级结构的多肽链组成的蛋白 质,其多肽链间通过次级键相互组合而形成的空间结构称为蛋白 质的四级结构(quarternary structure)。其中,每个具有独立 三级结构的多肽链单位称为亚基(subunit)。
蛋白质的一级结构决定了蛋白质的二级、三级、四级结构
Compute pI/Mw http://expasy.org/tools/pi_tool.html
(2)SWISS-PROT/ TrEMBL数据库 www.expasy.org/swissprot
数据库由蛋白质序列条目构成, 每个条目包含蛋白质序列、引用文献 信息、分类学信息、注释等, 注释中包括蛋白质的功能、转录后修饰 位点、特殊位点和区域、二级结构、四级结构、与其他序列的相似性、 序列残缺与疾病的关系、序列变异体等信息。
来自人细胞珠蛋白(2DC3.pdb)的两段α螺旋由β转角连接,用粗树枝状显 示了两段螺旋末端的脯氨酸。
无规卷曲的结构特征为:
无规卷曲的特点为在主链骨架上无规则盘绕,其构象状态仍遵循物 理化学原理,但波动性较大,对温度变化敏感;实验测定三级结构 时往往无法识别无规卷曲(缺失其座标),即使有座标则其温度因子也 较高。无规卷曲同Ω环的区分主要是其长度和其形状的波动性。
蛋白质理化性质是蛋白质研究的基础
蛋白质的基本性质:
相对分子质量 氨基酸组成
等电点(PI) 消光系数
半衰期
不稳定系数
总平均亲水性 ……
实验方法:
• 相对分子质量的测定、等电点实验、沉降实验
• 缺点:费时、耗资
基于实验经验值的计算机分析方法
基于一级序列的组分分析 氨基酸亲疏水性等分析为高级结构预测提供参考 • Expasy 开发的针对蛋白质基本理化性质的分析:
Pfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网 址是: www.sanger.ac.uk/Software/Pfam/index.shtml。
(2) 蛋白质结构域数据库ProDom http://prodes.toulouse.inra.fr/prodom/doc/prodom.html
二级结构:主要由氢键维系的结构(α-螺旋、β-折叠)指多肽 链中主链原子的局部空间排布即构象,不涉及侧链部分的构象 。 α-螺旋、 β-折叠、 β-转角、无规卷曲 、α螺旋组合(αα)β 折叠组合(βββ)和α螺旋β折叠组合(βαβ)
α螺旋(αhelix)的结构特征为: (1)主链骨架围绕中心轴盘绕形成右手螺旋; (2)螺旋每上升一圈是3.6个氨基酸残基,螺距为0.54nm; (3)相邻螺旋圈之间形成许多氢键; (4)侧链基团位于螺旋的外侧。 Ala、Glu、Leu、Met 促进形成 Pro、 Gly、Tyr、Ser不利于形成
结构是蛋白行使功能的前提
DNA 序列 蛋白序列 蛋白结构 功能
一、蛋白质的结构
蛋白质的结构主要分为四级, 一级结构、二级结构、三级结构以及四级结 构。 一级结构:蛋白质多肽链中氨基酸残基的排列顺序
MTYKLILNGKTKGETTTEAVDAATAEKVFQYANDNGVDGEWTYTE
蛋白质二级结构
保守结构域
免疫球蛋 白恒定区
色氨酸
回顾 通过珠蛋白的比 较构建系统发育 树判断生物进化 分歧时间
1. human beta globin (人β珠蛋白) 2. horse beta globin (马β珠蛋白) 3. human alpha globin (人α珠蛋白) 4. horse alpha globin (马α珠蛋白) 5. cyanohaemoglobin (蓝血红蛋白) 6. whale myoglobin (鲸肌红蛋白) 7. Leghaemoglobin (豆血红蛋白)
(3) SMART SMART 是一个简单的结构研究工具, 可对可转移的遗传因子 进行鉴定和注解, 以及分析结构域结构, 可以检测出500 多个 参与信号传导、胞外和染色体相关蛋白质的结构域家族, 对这 些结构域又在系统进化树分布、功能分类、三级结构和重要 的功能残基方面做了注解。 http://smart.embl-heidelberg.de/
– Protparam 工具 http://www.expasy.org/tools/protparam.html
相对分子质量 氨基酸组成 等电点(PI) 消光系数 半衰期 不稳定系数 总平均亲水性 ……
蛋白质理化性质分析工具
工具
AACompldent
网站
http://expasy.org/tools/aacomp/
二、蛋白质数据库
依据蛋白质的结构层次, 将蛋白质数据库分为:
1. 蛋白质序列数据库:如PIR、SWISS-PROT、NCBI , 这些数据库的 数据主要以蛋白质的序列为主, 并赋予相应的注释; 2. 蛋白质模体及结构域数据库:如PROSITE、Pfam, 这些数据库主要 收集了蛋白质的保守结构域和功能域的特征序列; 3. 蛋白质结构数据库: 如PDB 等, 这些数据库主要以蛋白质的结构测 量数据为主; 4. 蛋白质分类数据库:如SCOP、CATH、FSSP 等, 这其中有以序列 比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据 库之分。
图,可见转角(turn); c. 来自人pi型谷胱甘肽-S-转硫酶一个亚基中连续主链的部分β折叠结构顶部视图,可见转角
(turn); d. 来自人信号传递蛋白SMAD4(1DD1.pdb)的一个亚基中部分β折叠结构顶部视图,可见到大
的环区(loop)。
β转角的结构特征为: 多肽链180°回折部分,通常由四个氨基酸残基构成,借1. 4残基 之间形成的氢键维系。 Asp、Asn、Ser、Thr、Gln 、Pro 常出现在β转角
蛋白质三级结构
二级结构进一步折叠形成的结构域
三级结构:蛋白质的多肽链在各种二级结构的基础上再进一步盘曲或 折迭形成具有一定规律的三维空间结构,称为蛋白质的三级结构( tertiary structure)。蛋白质三级结构的稳定主要靠次级键,包括氢 键、疏水键、盐键以及范德华力(Van der Wasls力)等。
超二级结构的主要类型和特征
超二级结构(supersecondary structure)指位于同一主链的多个二级 结构组装形成的特定组装体,可直接作为三级结构的或结构域的组成单元 ,是从蛋白质二级结构形成三级结构的一个过渡结构形式,也称为立体结 构形成的模体。
超二级结构的主要类型:
(1)β转角或Ω环等连接连续四个α螺旋形成的四α螺旋捆; (2)中部固定位置含有亮氨酸及其他疏水侧链氨基酸残基、在螺旋两端 含有强亲水侧链氨基酸的α螺旋组成的亮氨酸拉链(Leucine zipper); (3)一条主链中相邻七个两亲α螺旋通过过度结构形成的七次穿膜螺旋 组; (4)连续主链中两段α螺旋连接三段β折叠链形成的Rossmann折叠; (5)β转角连接a螺旋构成的a-螺旋-β转角-α螺旋; (6)Ω环连接α螺旋构成的α螺旋-Ω环-α螺旋等。 (7)β-折叠都为超二级结构。
人细胞珠蛋白(2DC3.pdb)的第121到140位残基 对应的a-螺旋侧面和顶部(N端)视图
β折叠(βsheets) 的结构特征为: (1)若干条肽链或肽段平行或反平行排列成片; (2)所有肽键的C=O和N—H形成链间氢键; (3)侧链基团分别交替位于片层的上、下方。
a. 反平行和平行的多个β折叠链形成一个完整β折叠结构的氢键示意图; b. 来自人pi型谷胱甘肽-S-转硫酶中单个亚基中连续主链的部分β折叠结构(2DGQ.pdb)侧面视