蛋白质结构域划分方法及在线服务综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[392~441(蓝色)].识别该蛋白的结构域的过程: 首先确定结构域边界 HIS93、ASN158、ARG391,这 3个残基将该蛋白分为 4段;然后检测不连续结 构域.对该蛋白,第 1段[1~93]与第 3段[159~ 391]构成不连续结构域,这从图 1b中可以更清晰 的看出,A1[1~93]和 A2[159~391]在序列上不 临近,但在三级结构上是一个结构域(即不连续结 构域).
括 DROP[11-12]、Dompro[13]、DOBO[14]、ThreaDom 等[15].
目前已建立一些结构域数据和在线预测的服务 系 统,例 如,Pfam[16-17]、SMART[18-19]、SCOP[20-21]、 CATH[22-23]、InterPro[24]、ThreaDomEx[25]等.据 2016 年 2月份的数据统计,当前最完整的蛋白质序列 数据库(UniProt)中去掉重复序列后有 74897059 条序列,该数据库的结构域注释主要来自 Pfam、 SMART、SCOP、CATH以及 InterPro等结构域数据 库,其中只有 36449183(487%)的序列有结构 域注释.其 中 被 研 究 工 作 者 熟 知、并 广 泛 使 用 的 Pfam结构域数据库注释了 33529428条序列.究 其主要原因:已 解 析 三 级 结 构 的 蛋 白 质 及 其 近 同 源蛋白质序 列 只 占 有 较 小 的 比 例,当 前 技 术 还 无 法较大规模地从序列注释远同源蛋白质结构域. 本文从蛋白 质 结 构 域 识 别 问 题 的 提 出、结 构 域 边 界预测、不连 续 结 构 域 检 测 及 相 关 在 线 服 务 情 况 进行介绍,供相关研究者参考.
第 1期
王 燕等:蛋白质结构域划分方法及在线服务综述
2 1
质结构域划 分 边 界,还 要 准 确 检 测 出 组 成 蛋 白 质 结构域的序列片段(即不连续结构域).
以多结 构 域 蛋 白 4α葡 聚 糖 转 移 酶 (PDB: 1LWH)为例来说明结构域识别过程,从序列出发 的结构域识别过程包括结构域边界预测和不连续 结构域检测 2个步骤.图 1a是 4α葡聚糖转移酶 的蛋白质结构图,图 1b是该蛋白结构域示意图. 从图 1a可以看出该蛋白包含 3个结构域:[1~93 (紫红色)|159~391(红色)]、[94~158(黄色)]、
图 1 4α葡聚糖转移酶结构与结构域示意图 Fig.1 Schematicdiagram ofstructureanddomainof4αglucanotransferase
一个优秀的结构域划分工具需要准确的判断 出在 氨 基 酸 序 列 位 置 93(94)、158(159)、391 (392)3个位置附近存在结构域划分边界,即把序 列划分为(1~93))(94~158)(159~391)(392~ 441)4个片段;同时要应该具有将片段(1~93)和 片段(159~391)组 装 成 一 个 结 构 域 的 能 力 (不 连 续结构域检测).对不具备这 2种能力的结构域划 分的工具来说,至少是不完美的.
王 燕 a,石 强 b,薛 志 东 b
(华中科技大学 a.生命学院;b.软件学院,湖北 武汉 430074)
摘 要:蛋白质结构域是研究蛋白质结构、功能与进化的基本单位,不同的结构域可组合出更为复杂的蛋白质 分子.划分蛋白质结构域后,可以从结构域的角度研究蛋白质的结构、功能与进化,降低了研究复杂度.根据已 知结构的蛋白质统计,有约 40%的为多结构域蛋白质,其中还存在一级结构上不临近的氨基酸序列出现在同一 个结构域的情况,即不连续结构域.文章给出了当前国内外有关蛋白质结构域边界预测、不连续结构域检测及 结构域数据库与在线服务的研究进展,供相关研究者参考. 关键词:蛋白质;结构域;不连续结构域;预测;在线服务 中图分类号:Q518 文献标志码:A
随着大 量 物 种 全 基 因 组 测 序 的 完 成,以 测 定 蛋白质结构为目的的结构基因组学和以研究蛋白 质功能为目的的蛋白质组学成为当前研究热点之 一.根据蛋白质三级结构的测定和功能研究,有利 于增深对疾 病 发 生 的 分 子 机 制 理 解,从 而 有 助 于 开发新的手 段 与 方 法 来 预 防、诊 断 疾 病 和 新 药 研 发 . [1-2]
第 18卷 第 1期
2019年 2月
广州大学学报(自然科学版)
JournalofGuangzhouUniversity(NaturalScienceEdition)
文章编号:16714229(2019)01002010
Vol.18 No.1 Feb. 2019
蛋白ຫໍສະໝຸດ Baidu结构域划分方法及在线服务综述
1 结构域识别问题
蛋白质结构域识别问题不仅要准确识别蛋白
收稿日期:2019-01-10; 修回日期:2019-02-28 基金项目:国家自然科学基金资助项目(61772217) 作者简介:王 燕(1976—),女,副教授,博士.Email:yanw@hust.edu.cn 通信作者.Email:zdxue@hust.edu.cn
结构域是蛋白质的一个结构层次,可以看作 是蛋白质结 构、折 叠、功 能、进 化 和 设 计 的 基 本 单 位.根据 PDB数据库统计[3-4],已知结构蛋白质中 约 40%为多结构域蛋白[5].结构域的不同组合使 多结构域蛋 白 质 具 有 不 同 的 三 级 结 构 和 功 能.准 确识别蛋白质结构域对结构基因组学选择目标序 列、结构解析至关重要,也是预测和理解蛋白质功 能关键的一步.自 1973年以来,若干研究者就蛋 白质结构域 划 分 问 题 进 行 研 究,可 归 纳 为 从 实 验 测定三维结构着手的结构域划分方法和不依赖三 维结构仅从 序 列 出 发 的 结 构 域 划 分 方 法.前 者 的 代表性工作包括 Wetlaufer[6]首次提出的基于原子 间接触密度划分结构域的方法,以及后期 Domain Parser[7-9]、PDP等 方 法 [10];后 者 的 代 表 性 工 作 包