结构基序预测蛋白质功能.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Genome sequence technologies促使我们更加急迫 的去发掘从序列信息预测蛋白质功能的有效技术。迄 今为止,最常用于蛋白质功能预测的方法是 annotation transfer,它是基于一种蛋白质序列相似, 功能相似的假设基础上的方法。然而,随着研究的 逐步深入,这种方法在很多情况下却是不可靠的。
2. Characterization of composite motifs
组成composite motif的elementary motifs的数目由1-20不等。
To characterize the diversity of composite motifs, the average and minimum sequence identities were calculated for pairs of subunits sharing the same composite motifs.
wenku.baidu.com
Kinjo AR, Nakamura H (2007) Similarity search for local protein structures at atomic resolution by exploiting a database management
system.
All-against-all structure用GIRAF结构搜索和排列程序比 对410254小分子结合位点,346288蛋白质结合位点和 20388核酸结合位点。完全连锁聚类后各自输出5869, 7678和398簇(至少有十个成员)。我们把这些簇看做 elementary motifs.一个蛋白质亚基中所包含的全部的 elementary motifs 的集称为亚基的composite motif.因此 两个亚基有共同的elementary motifs 可以推断他们有共 同的composite motif。
1. Identification of elementary and composite motifs
首先,我们找到PDBML file 中所有有注释的生物学单元,然 后从中提取出197690个蛋白质亚基(这些亚基均至少包 含一个配体结合位点) 这里,我们把一个亚基的配体结合位点定义为一个亚基的原 子集(与配体原子的距离在5A之内)。然而我们不用已知 的基于序列相似性的非冗余数据库,我们的冗余在相似结 构聚类之后再清理。通过这种方式,确定在后续的分析中 当结构冗余条件移除后高度相似的蛋白质结构差异或相同 的氨基酸序列是否能够preserved。
然而,大部分研究都是针对于一些特殊 的相互作用本身和不明确机理的相互作 用如何调控蛋白质的生物学功能的。
文中思想
为了明确原子水平上蛋白质相互作用的模式与其功能的 关系,在这里我们采用一个非常详尽的all-against-all structural comparisons of binding site structures at atomic level using all structures available in the Protein Data Bank (PDB) 。
汇报人:刘言
简介
在原子水平上,我们都是通过蛋白质之间或蛋白 质与其他分子之间相互作用来理解生物学过程的。
大部分蛋白质会同步或不同步的与很多分子相互 作用。 • 单原子离子,小分子到蛋白质、核酸和其他大分子
众所周知,蛋白质相互作用的类型和蛋白质是否 相互作用可以调节蛋白质的功能(血红蛋白与氧结 合,与一氧化碳结合)。因此,我们不仅要确定个 体蛋白的相互作用,也要考虑潜在的蛋白质相互作 用,这些相互作用或许可以充分描述蛋白质的功 能,也能从同源蛋白中区分它们的不同功能。
基础知识汇报
在类的合并上,主要有三种算法来确定类间的距离:单一连 锁(single-linkage)、完全连锁(complete-linkage)和平均连 锁(average-linkage)。这三种算法在定义类间的距离时分 别取两类间的最小距离、最大距离和平均距离。前两种算 法对边缘值太过敏感,对于未知的元素分布,一般采用平 均连锁算法。 完全连锁(complete linkage),又称最远邻(furthest neightbour)方法。同样从相似度矩阵或距离矩阵出发,但 定义距离为两类之间数据的最大距离。同样不考虑到类的 结构。倾向于找到一些紧凑的分类。
以最小近邻法聚类为例
最短距离聚类法具有空间压缩性,而最远距离聚类 法具有空间扩张性。最短距离为 dAB=da1b1,最远
距离为 dAB=dap2。
表示了八种不同系统聚类方法计算类间距离的统一表达式
Composite Structural Motifs of Binding Sites for Delineating Biological Functions of Proteins
蛋白质功能相似,并不仅仅是序列功能的相似。蛋 白质序列折叠方式不同,会导致结构不同,从而影响 功能。所以我们要更加精细的检查蛋白质功能的决定 因素,而不是只单纯的考虑蛋白质序列相似性。
结构信息可以为蛋白质功能预测提供更加准确的信 息。
To date, there have been many methods for detecting potential ligand binding sites based on structural similarity of proteins [14,16–22]. Most of these methods are targeted at predicting protein functions at the level of ligand binding and catalytic activity. There have also been many studies on protein-protein interaction interfaces to understand biological functions of proteins in cellular contexts 。