蛋白质家族和结构域

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1蛋白质家族和结构域数据库
1.1蛋白质模体及结构域数据库
模体和结构域
PROSITE数据库
PRINTS数据库
BLOCKS数据库
ProDom数据库
Pfam数据库
SMART数据库
InterPro数据库
Conserved Domain数据库
CDART
模体（motifs）和结构域（domains）：
Biologists can gain insight of the protein function based on identification of short consensus sequences related to known functions. These consensus sequence patterns are termed motifs and domains.
A motif is a short conserved sequence pattern associated with distinct functions of a protein or DNA.
It is often associated with a distinct structural site performing a particular function.
A typical motif, such as a Zn-finger motif, is ten to twenty amino acids long.
A domain is also a conserved sequence pattern, defined as an independent functional and structural unit.
Domains are normally longer than motifs.
A domain consists of more than 40 residues and up to 700 residues, with an average length of 100 residues.
A domain may or may not include motifs within its boundaries.
Examples，transmembrane domains， ligand-binding domains.
Identification of motifs and domains heavily relies on multiple sequence alignment as well as profile and hidden Markov model (HMM) construction
PROSITE（蛋白质家族及结构域数据库）：
The first established sequence pattern database /prosite/
是蛋白质家族和结构域数据库，包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。

PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。

PROSITE还包括根据多序列比对而构建的序列统计特征，能更敏感地发现一个（未知）序列是否具有相应的特征。

The functional information of these patterns is primarily based on published literature.
PRINTS（蛋白质模体指纹数据库）：
A fingerprint is a group of conserved motifs used to characterise a protein family; its diagnostic power is refined by iterative scanning of a SWISS-PROT/TrEMBL composite. Usually the motifs do not overlap, but are separated along a sequence, though they may be contiguous in 3D-space.. /dbbrowser/PRINTS/
提供蛋白质同源性分析，蛋白质模体指纹分析，系统发生和序列进化分析，以及微阵列分析，并提供生物信息学和PRINTS数据库数据下载。

BLOCKS:
A database of blocks
Blocks：ungapped multiple alignments derived from the most conserved, ungapped regions of homologous protein sequences.
The blocks, which are usually longer than motifs, are subsequently converted to PSSMs. Because blocks often encompass motifs, the functional annotation of blocks is thus consistent with that for the motifs
/blocks.
检测和鉴定蛋白质模体，有BLOCK search、Get Blocks和Block Maker工具
A query sequence can be used to align with precomputed profiles in the database to select the highest scored matches.
ProDom
Domain database
ProDom is a comprehensive set of protein domain families automatically generated from the SWISS-PROT and TrEMBL sequence databases
The domains are built using recursive iterations of PSI-BLAST.
http://prodom.prabi.fr/prodom/current/html/home.php
提供相似性搜索、来自SWISSPROT相关结构域的多序列比对
Pfam（Protein families database of alignments and HMMs）
A database with protein domain
derived from sequences in SWISSPROT and TrEMBL. Each motif or domain is represented by an HMM profile generated from the seed alignment of a number of conserved homologous proteins. /
The Pfam database is composed of two parts
Pfam-A involves manual alignments
Pfam-B, automatic alignment in a way similar to ProDom（ PSI-BLAST ）.
The functional annotation of motifs in Pfam-A is often related to that in PROSITE. Pfam-B only contains sequence families not covered in Pfam-A.
Because of the automatic nature, Pfam-B has a much larger coverage but is also more error prone because some HMMs are generated from unrelated sequences.
SMART (Simple Modular Architecture Research Tool）：
Contains HMM profiles constructed from manually refined protein domain alignments. http://smart.embl-heidelberg.de/
Alignments in the database are built based on
tertiary structures whenever available
or based on PSI-BLAST profiles.
Alignments are further checked and refined by human annotators before HMM profile construction.
Protein functions are also manually curated.
The database may be of better quality than Pfam with more extensive functional annotations. Compared to Pfam, the SMART database contains an independent collection of HMMs, with emphasis on signaling, extracellular, and chromatin-associated motifs and domains.
Sequence searching in this database produces a graphical output of domains with well-annotated information with respect to cellular localization, functional sites, superfamily, and tertiary structure
InterPro：
An integrated pattern database /interpro/
The database integrates information from PROSITE, Pfam, PRINTS, ProDom, and SMART databases.
The sequence patterns from the five databases are further processed. Only overlapping motifs and domains in a protein sequence derived by all five databases are included.
A popular feature of this database is a graphical output that summarizes motif matches and has links to more detailed information.
CDD( Conserved Domain Database)
a collection of multiple sequence alignments for ancient domains and full-length proteins. /Structure/cdd/cdd.shtml
The CD-Search service may be used to identify the conserved domains present in a protein query sequence: /Structure/cdd/wrpsb.cgi RPS-BLAST (Reverse PSI-BLAST) is the search tool used in the CD-Search service.
uses a query sequence to search against a pre-computed profile database generated by PSI-BLAST. The role of the PSSM has changed from "query" to "subject", hence the term "reverse" in RPS-BLAST.
It performs only one iteration of regular BLAST searching against a database of PSI-BLAST profiles to find the high-scoring gapped matches.
CDART (Conserved Domain Architecture) :
A domain search program /BLAST/
Combines the results from RPS-BLAST, SMART, and Pfam.
The resulting domain architecture of a query sequence can be graphically presented along with related sequences.
CDART is not a substitute for individual database searches because it often misses certain features that can be found in SMART and Pfam.
1.2 蛋白质家族数据库
COG (Cluster of Orthologous Groups ):
A protein family database based on phylogenetic
classification. /COG/
It is constructed by comparing protein sequences encoded in completely sequenced genomes. Unicellular clusters：检索工具为COGnitor program
Eukaryotic Clusters：检索工具为KOGnitor
A query sequence can be assigned function if it has significant similarity matches with any member of the cluster.
ProtoNet:
A database of clusters of homologous proteins similar to COG. www.protonet.cs.huji.ac.il/
Orthologous protein sequences in the SWISSPROT database are clustered based on pairwise sequence comparisons between all possible protein pairs using BLAST.
Protein relatedness is defined by the E-values from the BLAST alignments.
A query protein sequence can be submitted to the server for cluster identification and functional annotation.
1.3、蛋白质结构数据库
PDB（Protein Data Bank）
PDB中含有通过实验（X射线晶体衍射，核磁共振NMR）测定的生物大分子的三维结构蛋白质
核酸
糖类
其它复合物
/pdb
SCOP（Structural Classification of Proteins ）蛋白质结构分类数据库
提供关于已知结构的蛋白质之间结构和进化关系的详细描述，包括蛋白质结构数据库PDB 中的所有条目。

/scop/
SCOP数据库除了提供蛋白质结构和进化关系信息外，对于每一个蛋白质还包括下述信息：到PDB的连接，序列，参考文献，结构的图像等。

可以按结构和进化关系对蛋白质分类，分类结果是一个具有层次结构的树，其主要的层次是家族、超家族和折叠:
家族：具有明显的进化关系
超家族：具有远源进化关系，具有共同的进化源
折叠类：主要结构相似
DSSP（蛋白质二级结构数据库）
对生物大分子数据库PDB中的任何一个蛋白质，根据其三维结构推导出对应的二级结构。

http://www.sander.embl-heidelberg.de/dssp/
对研究蛋白质序列与蛋白质二级结构及空间结构的关系非常有用
除了二级结构以外，DSSP还包括蛋白质的几何特征及溶剂。

HSSP（蛋白质同源序列比对数据库）
二级数据库 http://www.sander.embl-heidelberg.de/hssp/
数据来源于PDB，或来源于SWISS-PROT
对于PDB中的每一个蛋白质，HSSP将与其同源的所有蛋白质序列对比排列起来，从而将相似序列的蛋白质聚集成结构同源的家族。

HSSP有助于分析蛋白质的保守区域，研究蛋白质的进化关系，有助于蛋白质的分子设计。

1.4、其它生物大分子数据库
MMDB （Molecular Modeling Database）
MMDB 是（NCBI）Entrez的一个部分，数据库的内容包括来自于实验的生物大分子结构数据。

/entrez/query.fcgi?db=Structure
与PDB相比，对于数据库中的每一个生物大分子结构，MMDB具有许多附加的信息，如分子的生物学功能、产生功能的机制、分子的进化历史等。

还提供生物大分子三维结构模型显示、结构分析和结构比较工具。

dbSNP（ Single nucleotide polymorphisms，单核苷酸多态性数据库）
/entrez/query.fcgi?db=snp
OMIM (Online Mendelian Inheritance in Man)
是关于人类基因和遗传疾病的分类数据库
该数据库收集了已知的人类基因及由于这些基因突变或者缺失而导致的遗传疾病。

/entrez/query.fcgi?db=OMIM
EPD
真核基因启动子数据库 http://www.epd.isb-sib.ch/
提供从EMBL中得到的真核基因的启动子序列，目标是帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。

TRRD （Transcription Regulatory Regions Database ）
关于基因调控信息的集成数据库
该数据库搜集真核生物基因转录调控区域结构和功能的信息。

每一个TRRD的条目对应于一个基因，包含特定基因各种结构－功能特性 http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/
2 蛋白质功能预测
蛋白质结构与功能的研究已有相当长的历史，由于其复杂性，对其结构与功能的预测不论是方法论还是基础理论方面均较复杂。

蛋白质功能预测的一般过程：
数据库同源性搜索——根据同源信息预测功能
未知蛋白质序列（结构）是否和已知功能蛋白质的序列（结构）相似
根据序列特征预测功能
蛋白质的许多特性可直接从序列上分析获得，如疏水性，它可以用于预测序列是否位跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。

模体或结构域搜索——通过比对模体或结构域数据库确定功能
未知蛋白包含保守的模体或结构域，则具有该模体和结构域的功能
2.1根据同源信息预测功能
相似序列→同源性→相似功能
数据库的相似性搜索是最可靠的确定蛋白质功能的方法。

一个显著的匹配应至少有25%的相同序列和超过80个氨基酸的区段。

一般的策略是
首先进行BLAST检索，
如果不能提供相关结果，运行FASTA；
如果FASTA也不能得到有关蛋白质功能的线索，最后可选用完全根据Smith-Waterman算法设计的搜索程序。

BLITZ： /searches/blitz.html
ParAlign： /
2.2 根据序列特征预测功能
查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段Transmembrane
Signal peptide
Domain & Motif
Coiled coil
Subcellular Location
二级结构
疏水性信息分析
ProtScale ： /cgi-bin/protscale.pl
能计算超过50种蛋白质的特性。

可通过输入框将序列粘贴进去，也可输入SWISS-PROT的记录号。

设定输入框的宽度参数，该参数将指示系统每次运行计算和显示的残基数，其缺省值为9。

如果想考虑跨膜螺旋特性，该参数设置应为20，因为一个跨膜螺旋通常有20个氨基酸长度
预测序列的跨膜螺旋：
跨膜蛋白由跨越脂质膜的片段(通常是螺旋)以及膜外连接这些片断的卷曲区域组成的。

跨膜的片段往往含有较高比例的疏水残基，长度常常在20个残基以上，这种相对较长的疏水残基片断在可溶性球蛋白中很少见，因而可以依靠疏水残基片断来进行预测。

跨膜螺旋是可以根据序列数据比较准确预测的蛋白质特性之一。

预测跨膜片段的工具，包括
TMPred：/software/TMPRED_form.html
TMHMM: http://www.cbs.dtu.dk/services/TMHMM/
TopPred：http://bioweb.pasteur.fr/seqanal/interfaces/toppred.html
Tmbase：跨膜螺旋数据库/software/tmbase/TMBASE_doc.html TMAP：http://www.embl-heidelberg.de/tmap/tmap/tmap_sin.html
这些程序使用不同的统计模型，总体上，预测准确率在80～95%左右。

其中许多工具也预测跨膜拓扑，即预测α螺旋对于膜的方向。

例如i→o(in to out，从内到外)，螺旋的N端在膜包围的细胞或细胞器以内，而螺旋的C端在膜外。

前导序列或特殊区室靶蛋白信号的预测
信号肽预测工具
SignalP：http://www.cbs.dtu.dk/services/SignalP
细胞内定位
PSORT：http://psort.nibb.ac.jp/form.html
TargetP: http://www.cbs.dtu.dk/services/TargetP/
卷曲螺旋：控制蛋白质寡聚化的元件，可能是蛋白质结构域之间的间隔
COILS: /software/COILS_form.html
Paircoil: /cgi-bin/score
2.3通过比对模体或结构域数据库确定功能
Prosite
SMART
Pfam
Prints
Blocks
COGS
3 蛋白质结构预测
蛋白质结构：一般情况下，蛋白质的结构分为4个层次：
初级结构——蛋白质序列；
二级结构——а－螺旋和β－折叠片(β-sheets)模式；
蛋白质折叠(fold)：介于二级和三级结构之间的蛋白质结构层次
三级结构——残基在空间的布局；
四级结构——蛋白质之间的互作。

概念：蛋白质结构预测是指仅依据蛋白序列信息来预测蛋白质中每个原子在三维空间中的相对位置
蛋白质结构预测意义：
目前对结构知识得了解仍然相当有限，因为实验确定蛋白质结构的过程非常缓慢，而且大量的蛋白质结构不能通过实验方法测得。

数据库中包含近30 000个蛋白质结构数据（PDB库），但序列数据库却含有几十万条序列（2004年）。

这是人们进行蛋白质结构预测的主要驱动因素之一。

另一个因素是结构的认识有利于进一步认识蛋白质的功能。

另外许多药物选择性地结合靶蛋白，而蛋白质结构的知识可以有助于合理的设计药物（药物分子根据它作用的蛋白质分子的结构来设计)。

蛋白质结构预测方法
基于已有知识的预测方法：
二级结构预测法
比较建模法
折叠识别法
从头预测：
3.1 基于已有知识的预测方法
3.1.1 二级结构预测
二级结构预测常常被认为是预测蛋白质结构的第一步。

二级结构预测并不能得出蛋白质中原子的空间位置，而是对每个残基二级结构状态进行预测，即预测该残基是处于螺旋、折叠或无规卷曲中的哪一种，因此这种预测有时也被称为三态预测。

Chou-Fasman方法与GOR法：
使用氨基酸对二级结构的偏好性这个信息。

这种基于局部氨基酸组成的单一序列预测方法的精度相当低，通常，预测出处于正确二级结构状态中的残基比例要低于60％。

利用进化信息进行预测：
20世纪90年代初，人们意识到利用多序列比对得出的进化信息，可以显著地提高二级结构预测的质量。

如残基对某种类型的二级结构有高度偏好保守模式信息序列和结构数据库中数据发生了爆炸式的增长，使得二级结构预测算法可以利用的进化和结构信息也大为增加；加之多序列比对算法本身的改善，促使二级结构预测的精度大大提高。

技术方法：
PSI-PRED：人工神经网络模型（next）
PHDSec：人工神经网络模型/predictprotein/
JPRED：三层神经网络方法/~www-jpred/submit.html ：
这些方法的准确率都在70％以上，公认预测精度最好的是PSI-PRED
PSI-PRED
/psipred/
PSI-PRED用到了两级神经网络。

它首先用PSI-BLAST迭代搜索序列数据库，并根据搜索出来的蛋白质建立目标蛋白质的profile （序列谱），从而将蛋白质氨基酸序列用profile来表示，对每个位点最终选择前后共15个位点组成一个窗口（windows）输入神经网络进行二级结构预测。

PSI-PRED的预测准确率可达75％。

跨膜片段的预测：
标准二级结构预测方法应用到跨膜蛋白的预测中结果非常的糟糕
依靠疏水残基片断来进行预测（※）
3.1.2 同源建模方法（Homology Modeling）：
如果两个蛋白质序列在80个以上残基的序列比对中显示出25％的一致性，那么这两个蛋白质就具有相似的结构，这就是同源建模方法的理论基础。

如果一条结构未知的序列(通常称为目标序列)可以在已知结构库中找到一条或一条以上蛋白质满足上面的条件，那么已知的结构就可以用作目标序列的结构，所用的已知的蛋白质结构通常称作模板结构。

同源建模工具
SWISS-MODEL /SWISS-MODEL.html
SWISS-MODEL中一共有三个工作方式：
First Approach mode：
Alignment Interface mode：
Project(Optimise)mode：
SWISS-MODEL还能对寡聚蛋白质和GPCR（G Protein-Coupled Receptors ）进行单独的建模。

3.1.3 折叠识别方法
折叠模式是关于蛋白质的一个结构类，那些具有相似的二级结构组成、数目以及排列的蛋白质被归入到一个相同的折叠模式类里面。

在一个折叠模式类里面的蛋白质序列相似度不一定很高，但它们都有相似的结构特征。

据理论分析，大自然中存在的总的折叠模板类数目少于1000个。

所以就可以利用这些知识来提出一种新的蛋白质结构预测方法，也就是折叠识别的方法（Fold Recognition）。

克服同源建模方法发展的“瓶颈”：同源建模的方法单纯用序列相似度阈值作为判断结构相似与否，很可能遗漏一些原本相似的结构。

因为蛋白质结构比序列有更强的保守性，即使序列相似度很低，结构也有可能有很高的相似性。

但如果通过降低相似度阈值的方法提高预测敏感度，会导致其特异性降低，这是制约同源建模方法发展的“瓶颈”。

折叠识别方法：
基于序列比对法
Threading 方法
Threading方法不通过序列相似性比较来判断两个蛋白质的结构是否相关，而是直接判断待测序列和已知结构模板间的相关程度。

Threading方法认为天然结构中残基间相互的吸引或者排斥有一定的倾向性，也就是说某些残基出现在一定空间范围内对结构有稳定作用，而另外一些则会使结构变的不稳定，并假设这种作用能有一个能量函数加以描述。

计算某条蛋白质序列安放到结构模板之后其残基间这种作用力分值，通过结果来判断未知结构和该模板结构之间的相似性。

能量函数是通过统计已知结构库中残基对在一定范围内出现的频率，这个频率反映了残基间吸引或者排斥倾向，这个频率转换的分值也通常称作接触能。

折叠识别的网络服务：
FUGE： /~fugue/
3D-PSSM：/~3dpssm/index2.html
Gen-THREADER（next）
GenTHREADER /threader/ （下载）/psipred/psiform.html （PSIPRED 在线服务的项目之一）
Gen-THREADER应用二级神经网络在折叠模板库中搜索目标蛋白质的结构模板。

用户只需要提交目标蛋白质的序列，Gen-THREADER就会通过邮件返回预测的结果。

邮件返回的结果中将包含排列在前面10位的折叠模板的名称、预测可信度（分为Certain, High, Medium, Low, Guess五个不同的等级）、比对能量值以及目标蛋白质和模板蛋白质的序列比对结果。

（next）
3.2 从头预测方法
Anfinsen于1974提出蛋白质天然构象是处于全局自由能最小状态，这就为通过计算蛋白质构象能来预测蛋白质三级结构提供了理论依据。

从头预测方法存在两个方面的问题：
首先，蛋白质折叠过程是一个非常复杂的动力学过程，受蛋白质组成以及外界（溶液）环境的影响，如今还没有一个很好的理论能描述这个过程。

其次，从头预测方法将自由能最小的构象作为天然的构象，能否找到这个天然构象还取决于
选取的能量函数是否能真实的反映蛋白质内部分子间相互作用以及能量关系，还没有一个很好的能量函数能反映蛋白质折叠。

正是由于这些制约，相比较前面所讲的同源建模、二级结构预测和折叠识别等方法，从头预测的方法目前并没有得到大范围的应用。

蛋白质结构预测的策略
第一步：判断目标序列中是否包含关键性的特征：
跨膜片段
查寻这个蛋白质中可能存在的已知结构域，如用 Interpro、PSI-BLAST之类的工具
第二步：是否能采用比较建模法
当不能用比较建模时，下一步则应该是二级结构预测
对于球蛋白的结构域的预测要比膜蛋白更加准确
二级结构预测完成之后则是进行折叠识别
预测精度通常也要比标准比较建模法低得多
蛋白质结构预测技术评估大赛 (Critical Assessment of Techniques for Protein Structure Prediction，CASP):
/
CASP是一个世界性的蛋白质结构预测技术评比活动。

1994年，第一届CASP在美国马里兰大学生物技术研究所的约翰·莫尔特（John Moult）倡议、组织下举行，此后每两年举行一次。

First Approach mode：
如果没有除序列之外的任何信息，那么可以首先用First Approach mode来决定序列是否能通过同源方法建模。

直接提交序列，SWISS-MODEL将在已知结构蛋白质数据库中搜索它的同源蛋白质，只有当序列相似度大于25%时才会建立结构模型，并返回寻找到的模板结构。

Alignment Interface mode：
如果已经得到了这条蛋白质的同源蛋白质以及它们的多序列比对结果，而且它的同源蛋白中包含了已知结构的蛋白质，那么可以通过Alignment Interface mode直接进行结构建模。

Project(Optimise)mode：
对First Approach mode得到的结构模型进行优化，Project mode利用生物化学信息来修正结构模型上存在的能量不合理区域。

并且Project mode允许用户自行调整，以得到更精确的模型。