蛋白质序列分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

①蛋白质序列的二级数据库
同一蛋白家族的多序列联配可以用来推断结构、功能和家族关键氨基酸残基 的重要信息。因此,将蛋白质的多序列联配结果储存在数据库存储就显得尤 为重要了,存储这些信息的数据库称为蛋白质二级数据库。通过对二级数据 库中序列的比对搜索,可以把一条新的蛋白质序列分配到蛋白质家族中,从 而预测蛋白质功能。
X Any amino acid
• Additional codes
– B Asn/Asp Z Gln/Glu
蛋白质的结构层次
• Primary structure
– the linear sequence of amino acids in a protein
• Secondary structure
Prosite的序列描述模式可以由正则文法描述。例如与丝氨酸蛋白酶 家族有关的两个序列模式如下:
一类是提交一条未知蛋白质序列,通过搜索给出相应的序列模式, 一类是输入一个序列模式,针对特定数据库,如SwissProt、TrEMBL、 PDB等,给出符合该序列模式的蛋白质序列条目
保守残基出现的原因是:维持某种功能或特定结构
多序列联配信息的表示方法有很多种,包括联配本身、一致序列、保守
残基和残基模式、序列轮廓和其它的序列家族的概率模型。 Prosite数据库:基于多序列比较得到的单一保守序列片段,或称序列模体 Prints(蛋白质序列指纹图谱数据库) Blocks(蛋白质序列模块数据库)
• e.g., b-barrels, bab units, Greek keys, etc..
• Tertiary structure
– the overall chain fold that results from packing of secondary structure elements
• Quaternary structure
– the arrangement of separate chains within a protein that has more than one subunit
• e.g., haemoglobin
结构域(domain)
多肽链在二级结构或超二级结构的基础上形成的三级结构局部折叠区是 相对独立的紧密球状实体,被称作结构域(domain)。
核心区域(core region)
在蛋白质中有些区域对于维持蛋白质的结构和功能具有至关重要的作用, 进化过程中变化的非常缓慢,这样的区域称作蛋白质核心区域(core
region)。
结构与功能
蛋白质结构重要位点
一些氨基酸残基对于某些结构的稳定具有关键的作用,这样的关键角 色在蛋白质中显得尤为重要,
序列中的多重保守片段
Profiles(序列概貌数据库)
Pfam(蛋白质序列家族数据库)采用了隐马尔可夫模型 Identify(蛋白质序列识别数据库)
它们的共同特点是都基于多序列比对,不同之处是处理比对结果的原则和方法各有特色
②蛋白质模式(protein patterin)数据库
Prosite数据库:是第一个蛋白质序列二次数据库基于对蛋白质家族中同源序列的 多序列比对得到的保守性区域,与生物学功能有关,酶的活性位点、配体或金属结 合位点等。它实际上是蛋白质序列功能位点数据库。可用来判断该序列包含什么样 的功能位点,从而推测其可能属于哪一个蛋白质家族。
8.2蛋白质序列的同源分析
同源蛋白:生物大分子序列是分子进化的产物,从共同祖先序列进化而来
的蛋白质通常称为同源蛋白
蛋白质同源分析:基于检测的同源蛋白从而外推得到某特定蛋白的某些特
Βιβλιοθήκη Baidu
性的方法称为蛋白质的同源分析 常有的软件有:BLAST等 PSI-BLAST和隐马尔可夫模型(HMMs)
PSI-BLAST(迭代搜索)把查找到的每一击中项作为第二次迭代的查 询序列得到更多的进化关系,第二次及以后的迭代不是对第一次输出的 每一序列执行BLAST,而是所有击中项形成的序列轮廓(家族保守序 列)进行BLAST搜索,查到收敛为止。
– regions of local regularity
• i.e., a-helices, b-strands, -sheets & -turns
• Super-secondary structure
– the packing of secondary structure elements into stable units
生物信息学 bioinformatics
蛋白质序列分析
Analysis of protein sequence
生物工程教研室 孙继政
生物科学学院生物工程教研室
通过预测蛋白质的结构、功能特征分析,可为我们的研究提供指导信息
8.1 温故而知新
蛋白质的组成 • Single- & three-letter amino acid codes
蛋白质同源分析进行蛋白质功能或结构的预测仍然存在困难
相似与同源的问题 直系与旁系同源
计算机程序自动生成的功能注释不少是错误的
有的序列会彼此相似,却不是进化关系或生物功能相近的缘故
8.3蛋白质序列的结构域及结合位点分析
蛋白质的进化过程并不都是从头开始,而是利用现有材料,通过改造,使 其产生新的功能,或者是把几种不同的系统整合到一起,形成更好的新系 统。而这些现有材料,就是蛋白质序列中的“模块” ,他们对应蛋白质分 子中重要的结构或功能区域。这些区域在蛋白质家族中通常是保守的。
– – – – – – – – – – G A L M F W K Q E S Glycine Alanine Leucine Methionine Phenylalanine Tryptophan Lysine Glutamine Glutamic Acid Serine Gly Ala Leu Met Phe Trp Lys Gln Glu Ser P V I C Y H R N D T Proline Pro Valine Val Isoleucine Ile Cysteine Cys Tyrosine Tyr Histidine His Arginine Arg Asparagine Asn Aspartic AcidAsp Threonine Thr
相关文档
最新文档