蛋白质序列
蛋白质序列分析
例子1:利用ExPASy服务器中的ProtScale程 序分析绵羊BMPR-1B蛋白的疏水性。 具体操作: ⑴输入ExPASy-ProtScale,序列框中输入 Uniprot数据库中绵羊BMPR-1B氨基酸序列, 选择Hphob./Kyte&Doolittle,即计算基于K-D法 的蛋白质疏水性,其他程序默认,点击提交。
2. MMDB数据库
分子模型数据库 (MMDB ,Molecular Modeling Database)是一个关于三维生物分子结 构的数据库,是美国生物技术信息中心(NCBI) 所开发的生物信息数据库集成系统的一个部分。 MMDB是来源于PDB三维结构的一部分, 经重新组织和验证PDB三维结构信息,从而保 证在化学和大分子三维结构之间的交叉参考。
⑶TMHMM结果如下
TMHMM 2.0预测结果显示:绵羊BMPR-1B蛋白的 1-126位氨基酸位于细胞膜表面(outside),在127-149 位氨基酸之间形成一个典型的跨膜螺旋区(TMhelix), 150-502位氨基酸位于细胞膜内(inside)。结果与该蛋 白的疏水性区域分析结果一致,表明BMPR-1B蛋白可 能是一个与细胞信号传导有关的膜受体蛋白,与文献 报道BMPR-1B参与TGF-β等信号转导通路一致。
例子:使用SignalP 3.0 server对绵羊
GDF9蛋白进行信号肽预测。 SignalP是一款由丹麦技术大学生物序 列分析中心开发的强大的信号肽检测工 具,主要采用人工神经网络和HMM模型 两种算法,预测蛋白质N端信号肽的有无 及其剪切位点。
具体操作: ⑴打开SignalP 3.0 server服务器 (http://www.cbs.dtu.dk/services/SignalP/),导 入GDF9序列(FASTA格式)。
BIOINF_蛋白质序列分析
蛋白质序列分析电子科技大学 生命科学与技术学院 生物信息学中心周鹏博士/副教授理化性质: 分子量、等电点、氨基酸组成等结构分析:一级结构、二级结构、三级结构功能预测:motif、domain、信号肽、跨膜区、亚细胞定位、GO等一、蛋白序列的获得1. 基因序列翻译推导得到2. 氨基酸测序(多肽)得到3. 双向电泳、质谱分析得到4. 数据库得到SRS(Sequence Retrieval System )序列检索系统胶质纤维酸性蛋白(glial fibrillary acidic protein, GFAP)二、蛋白质理化性质分析三、蛋白质结构分析(一)、二级结构预测二级结构。
– α螺旋,是蛋白质中最常见最典型含量最丰富的二级结构元件.在α螺旋中,每轮卷曲的螺旋包含3.6氨基酸残基,残基侧链伸向外侧,同一肽链上的每个残基的酰胺氢和位于它后面的第4个残基上的羰基氧彼此之间形成氢键。
这种氢键大致与螺旋轴平行。
在水环境中,肽键上的酰胺氢和羰基氧既能形成内部(α-螺旋内)的氢键,也能与水分子形成氢键。
– 不同的氨基酸对α螺旋形成的影响是不同的。
– β折叠是通过肽链间或肽段间的氢键维系。
可以把它们想象为由折叠的条状纸片侧向并排而成,每条纸片可看成是一条肽链, 称为β折叠股或β股(β-strand),肽主链沿纸条形成锯齿状。
需要注意的是在折叠片上的侧链都垂直于折叠片的平面,并交替的从平面上下二侧伸出。
-无规则卷曲(randon coil)无规则卷曲或称卷曲(coil),泛指那些不能被归入明确的二级结构如折叠片或螺旋的多肽区段。
实际上这些区段大多数既不是卷曲,也不是完全无规的,虽然也存在少数柔性的无序片段。
它们也像其他二级结构那样是明确而稳定的结构。
它们受侧链相互作用的影响很大,经常构成酶活性部位和其他蛋白质特异的功能部位如许多钙结合蛋白中结合钙离子的EF 手结构(E-F hand structure)的中央环二级结构预测面临的困难二级结构在不同的溶剂环境中构象可能会不同同一肽段在不同的蛋白质中的结构也不一样预测序列模体和结构域都是通过对相关蛋白质的多序列比对分析而获得的– 线性模体(Linear motif),较短的特定序列模式。
蛋白质序列查法
蛋白质序列查法
蛋白质序列测定主要有以下几种方法:
1. 末端测序法,包括Edman降解法和羧肽酶法等,这种方法是通过测定蛋白质的末端氨基酸序列来推断整个蛋白质的序列。
2. 基于质谱的方法,如鸟枪法蛋白质测序,通过将蛋白质多重水解成小分子肽段,再对经高效液相色谱分离的肽段进行质谱鉴定,根据肽段的质谱信息获取肽段的氨基酸组成和排列顺序,然后将各肽段拼接成完整的蛋白质便可以得到完整样品蛋白的氨基酸组成和排列顺序。
3. 质谱法(Mass Spectrometry),蛋白质或多肽被分解成较小的片段,然后使用质谱仪来测量这些片段的质量/质荷比,从而推断出氨基酸序列。
这通常通过碎片化技术(如碰撞诱导解离或电子转移解离)来实现。
这些方法各有优缺点,可以根据需要选择合适的方法进行蛋白质序列测定。
蛋白质序列分析
蛋白质序列分析日期:目录•蛋白质序列分析简介•蛋白质序列获取与预处理•蛋白质序列分析方法•功能与结构预测•蛋白质序列分析的挑战与展望•案例研究:蛋白质序列分析在生物医学中的应用蛋白质序列分析简介•蛋白质序列分析是指通过算法和软件工具对蛋白质序列进行各种层面的分析,以揭示其结构、功能和进化关系等生物信息。
这种分析可以基于一级结构(即氨基酸序列)以及更高层次的结构(如二级、三级和四级结构)进行。
蛋白质序列分析的定义通过序列分析,可以预测蛋白质的功能,进而理解其在生物体内的角色。
揭示蛋白质功能比较不同物种间同源蛋白质的序列变异,可以推断它们的进化关系。
解析进化关系了解蛋白质的结构和功能,有助于设计针对特定蛋白质的小分子药物。
助力药物设计蛋白质序列分析的重要性基础科学研究:在生物学、生物化学、生物物理学等基础科学领域,蛋白质序列分析是理解和揭示生命活动基本规律的重要手段。
生物工程:在生物工程领域,蛋白质序列分析可用于蛋白质工程、代谢工程等方面,指导工业生产和应用。
医学领域:通过蛋白质序列分析,可以研究疾病的发生发展机制,寻找新的药物靶点和治疗手段。
综上所述,蛋白质序列分析在生命科学研究中扮演着至关重要的角色,其应用场景广泛,意义重大。
蛋白质序列分析的应用领域蛋白质序列获取与预处理常见的蛋白质序列数据库包括UniProt、NCBI的Protein Database (nr)等。
这些数据库收录了大量的蛋白质序列及其相关信息。
常用数据库这些数据库通常提供分类、注释、检索等功能,用户可以根据需要获取特定物种、特定功能或特定实验条件下的蛋白质序列。
数据库特点蛋白质序列数据库简介从数据库中获取蛋白质序列用户可以通过关键词、序列ID、物种信息等方式在数据库中进行检索,获取目标蛋白质序列。
数据格式获取的蛋白质序列通常以FASTA、GenBank等格式提供,这些格式包含了序列的基本信息和序列数据。
在获取到的蛋白质序列中,可能会包含一些非氨基酸字符或特殊符号,需要进行相应的去除或替换。
蛋白质序列分析
/protscale/
利用BioEdit软件分析 软件分析 利用
5. Coil区分析 区分析 蛋白质中由2-7条 螺旋链相互缠绕形成类似麻花状结 蛋白质中由 条α螺旋链相互缠绕形成类似麻花状结 构的总称; 构的总称; 主要存在形式是2-5条相互缠绕形成的平行或反平行 主要存在形式是 条相互缠绕形成的平行或反平行 同寡聚体或异寡聚体; 同寡聚体或异寡聚体; 是控制蛋白质寡聚化的元件,转录因子、骨架蛋白、 是控制蛋白质寡聚化的元件,转录因子、骨架蛋白、 动力蛋白、膜蛋白、酶等; 动力蛋白、膜蛋白、酶等; 七肽重复区。 七肽重复区。 例,使用COILS服务器分析 使用 服务器分析 /software/COILS_form.html
第五章 蛋白质序列分析
蛋白质序列的基本性质分析
理化性质分析,疏水性分析,跨膜区分析,信号肽预测, 理化性质分析,疏水性分析,跨膜区分析,信号肽预测, Coil区分析,亚细胞定位 区分析, 区分析
结构域分析及motif搜索 搜索 结构域分析及 空间结构预测
二级结构及三级结构预测, 二级结构及三级结构预测,结构预测方法评价
模建评 价
比对、模建、 比对、模建、 模板选择
四级结构 模建日志 配合物模 建日志
通过CPHmodels同源模建 同源模建 通过 http://www.cbs.dtu.dk/services/CPHmodels/
(2)折叠识别 ) 原理:将序列“ 原理:将序列“穿”入已知的各种蛋白质折叠子骨架 内,通过目的蛋白序列与已知折叠子的逐一比对,计 通过目的蛋白序列与已知折叠子的逐一比对, 算出未知结构序列折叠成各种已知折叠子的可能性; 算出未知结构序列折叠成各种已知折叠子的可能性; 折叠子一般包括一个或多个蛋白质超家族; 折叠子一般包括一个或多个蛋白质超家族; 每个折叠子的结构内核有确定的结构特征; 每个折叠子的结构内核有确定的结构特征; 基于序列同源性很低的蛋白质都可能存在结构相同的 折叠子进行预测。 折叠子进行预测。 例,通过PHYRE系统进行折叠识别预测 通过 系统进行折叠识别预测 /~phyre/index.cgi (3)从头预测 )
6-蛋白质序列分析
FASTA格式 SWISS-PROT格式 PDB格式
2. 理化特性分析--基于一级结构的预测
理化特性分析
相对分子量、氨基酸组成、等电点、酶切特性、疏水 性等、亲水性,及消光系数等
常用工具
蛋白的功能位点是与其三维结构紧密相关 的,局部区域符合某种pattern不能保证一 定会具有对应的性质,要根据实际情况, 谨慎对待pattern 预测结果。
PROSITE 工具
ScanProsite
搜索蛋白序列是否含PROSITE数据库中存有的模式或是功能位点;搜 索Swiss-Prot中符合某种模式的蛋白以及蛋白三维结构数据库PDB中 含有该模式的蛋白,可察看其三维结构。
2. 蛋白质序列数据库
/
/swissprot/
3. 蛋白质模体及结构域数据库
PROSITE蛋白质家族和结构域数据库 (/prosite/ )
PROSITE数据库收集了有显著生物学意义的蛋白质位点序 列、蛋白质特征序列谱库以及序列模型,
注意问题
不要把所有搜索结果用在比对中 对搜索结果进行手工校正,将显著性不高的序列,非
蛋白质家族的序列剔除掉。
6. 同源建模
如果蛋白质序列有显著的同源序列(相似 性>50%,尤其是与已知结构的蛋白质之间 有显著同源性时,即可进行同源建模
以已知结构的蛋白质为模板进行精确的结构模 型构建
数字表示氨基酸个数。 [AC]-x-V-x(4)-{ED}This pattern is translated as: [Ala or Cys]-any-Val-any-any-any-any-{any but Glu or Asp}
ncbi蛋白质序列
ncbi蛋白质序列
NCBI(National Center for Biotechnology Information)是一个提供生物技术信息的数据库,其中包含了大量的蛋白质序列数据。
要获取特定蛋白质的序列,你可以按照以下步骤进行:
1. 打开NCBI的网站()。
2. 在搜索栏中输入你感兴趣的蛋白质的名称或相关关键词,然后按下回车键进行搜索。
3. 在搜索结果中,你可以点击进入相关蛋白质的页面。
4. 在该页面中,你可以找到蛋白质的序列信息,通常可以在“Sequence”或“Sequence Information”等标签下找到。
5. 如果你需要特定格式的序列数据,比如FASTA格式,你可以在页面上选择相应的选项进行下载或复制。
此外,你还可以使用NCBI提供的工具和数据库来进行更深入的蛋白质序列分析,比如BLAST(Basic Local Alignment Search
Tool)等工具可以用来比对蛋白质序列,了解其在不同物种中的保守性等信息。
总之,NCBI是一个非常强大的资源,可以帮助你获取并分析蛋白质序列数据,希望这些信息能对你有所帮助。
蛋白质序列分析
蛋白质二级结构预测1
预测蛋白质二级结构的算法大多以已知三维 分为三类: 结构和二级结构的蛋白质为依据 ,分为三类: 统计/经验算法 Chou-Fasman法 GOR法 经验算法: 统计/经验算法:Chou-Fasman法、GOR法 物理化学法: 物理化学法:Lim法 法 机器学习法:结合上2种方法的优点 种方法的优点。 机器学习法:结合上 种方法的优点。
X-ray Crystallography
X-ray Crystallography..
From small molecules to viruses Information about the positions of individual atoms Limited information about dynamics Requires crystals
1.同源建模法 2.折叠子识别 3.从头预测法
蛋 白 质 三 级 结 构 分 析 流 程
/people/rob/CCP11BBS/
nnPredict
用神经网络方法预测二级结构,蛋白质 神经网络方法预测二级结构, 方法预测二级结构 结构类型分为全α蛋白、 结构类型分为全α蛋白、全β蛋白和 α/β蛋白 输出结果包括“ (螺旋) 蛋白, α/β蛋白,输出结果包括“H”(螺旋)、 “E”(折叠)和“-”(转角)。这个方法对 (折叠) (转角) 蛋白能达到79%的准确率。 79%的准确率 全α蛋白能达到79%的准确率。 nnPredict网址 网址: nnPredict网址: /~nomi/nn predict.html
PROSEARCH网址: 网址: 网址
http://www.embl-heidelberg.de/prs.html 程序也可以完成。 用Bioedit程序也可以完成。 程序也可以完成
蛋白质序列分析
Compute pI/Mw 计算理论等电点
和分子量
复制粘贴上述93aa的家 蝇defensin氨基酸序列
Theoretical pI/Mw 8.53/9846.29
MW=9844.4 Predicted pI=8.29 氨基酸组成列表
!不同程序预测的结果有差别
ProtParam 计算蛋白质理化 参数常用的工具
蛋白质亲疏水性氨基酸的组成是蛋白质折叠的 主要驱动力。
蛋白质折叠时会形成疏水内核和亲水表面,而 跨膜区多由疏水性氨基酸组成 。
可利用综合性序列分析软件(如DNAMAN) 或 ExPASy上的ProtScale来分析蛋白质的亲疏 水性。
疏水性轮廓
2~18区域,有一典型 的疏水性区域
Primary structure analysis (一级结构分析)
多序列比对结果
昆虫防御素的保守区域
KRATCD
KAVCVC
1、蛋白质序列检索 2、蛋白质序列比对 3、蛋白质基本性质分析 4、蛋白质功能预测 5、蛋白质结构预测
蛋白质序列的基本性质分析是蛋白质序列分析 的基本方面,一般包括: 蛋白质的氨基酸组成 分子量 等电点(pI) 亲疏水性分析 跨膜区分析 信号肽分析
InterProScan Sequence Search
All Resources (A-Z)
Defensin_2,4e-07 (blastp 会自动搜索
CDD)
Conserved Domain Database,CDD 保守结构域数据库
Defensin_2,4e-07 (blastp 会自动搜索
蛋白质家族(family)
具有一个或多个相同结构域的一组同源蛋 白质称为一个蛋白质家族。
蛋白质的fasta序列
蛋白质的fasta序列
蛋白质是生命体中的重要分子,由氨基酸组成。
蛋白质的fasta 序列是指将蛋白质序列按照fasta格式进行存储和呈现的一种方式。
fasta格式是一种用于存储和呈现核酸和蛋白质序列的文本格式,其基本格式为一行序列标识符,后跟一行序列。
在蛋白质fasta序列中,序列标识符通常包括蛋白质名称、描述信息和GI号等信息。
fasta
序列可以方便地用于蛋白质序列比对、结构预测、功能研究等方面。
同时,fasta序列是公共数据库中存储蛋白质序列的重要格式之一,为生命科学研究提供了基础数据支持。
- 1 -。
蛋白质dna序列
蛋白质dna序列蛋白质DNA序列是生物体内蛋白质合成的基础,它决定了蛋白质的结构和功能。
本文将从DNA的结构、蛋白质合成的过程以及蛋白质DNA序列的应用等方面进行介绍。
一、DNA的结构DNA是由核苷酸组成的双链螺旋结构,每个核苷酸由糖、磷酸和一种碱基组成。
碱基共有四种:腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C)。
DNA的两条链通过碱基间的氢键相互连接,其中A和T之间形成两个氢键,G和C之间形成三个氢键。
这种碱基配对规则使得DNA的两条链具有互补性。
二、蛋白质合成的过程蛋白质合成是通过DNA转录成RNA,再通过RNA翻译成蛋白质的过程。
首先,DNA的双链解旋,在DNA的模板链上进行转录,合成一条称为mRNA的单链RNA。
mRNA带着DNA上的遗传信息离开细胞核,进入细胞质中的核糖体。
在核糖体中,mRNA的遗传信息被翻译成蛋白质。
翻译过程中,tRNA带着特定的氨基酸与mRNA上的密码子配对,形成多肽链。
随着mRNA的移动,tRNA逐个释放氨基酸并连在一起,最终合成出具有特定结构和功能的蛋白质。
三、蛋白质DNA序列的应用蛋白质DNA序列具有广泛的应用价值。
首先,通过分析蛋白质DNA序列可以揭示生物体的遗传信息,帮助我们了解基因的功能和调控机制。
其次,蛋白质DNA序列可以用于鉴定物种和个体之间的遗传差异,对生物进化和种群遗传学的研究具有重要意义。
蛋白质DNA序列还可以用于疾病检测和药物研发。
许多疾病的发生和发展与蛋白质的结构和功能异常有关,通过分析蛋白质DNA 序列可以寻找疾病相关基因,并研发相应的治疗方法。
药物研发中,蛋白质DNA序列的分析可以帮助研究人员设计具有特定作用靶点的药物,提高药效和减少副作用。
总结起来,蛋白质DNA序列是生物体内蛋白质合成的基础,对于我们了解生物的遗传信息、研究进化和种群遗传学、开展疾病检测和药物研发等方面都具有重要意义。
通过深入研究蛋白质DNA序列,我们可以揭示生命的奥秘,并为人类的健康和生活质量提供更多可能性。
蛋白质序列编码
蛋白质序列编码
蛋白质序列编码是指将一个蛋白质的氨基酸序列用数字或字母进行编码。
这种编码方式可以用来描述蛋白质的特征和功能,也可以用来进行蛋白质结构预测和功能预测。
常见的编码方式包括BLOSUM 矩阵、PAM矩阵、One-hot编码等。
其中BLOSUM矩阵是通过对已知的同源蛋白质序列进行比对,计算它们之间的相似性来生成的。
PAM矩阵则是通过对不同物种的蛋白质序列进行比对来生成的。
而One-hot 编码则是将每个氨基酸用一个二进制向量来表示,其中只有一个元素为1,其余元素为0。
这种编码方式可以用于机器学习等领域中。
蛋白质序列编码是蛋白质研究和分析的重要组成部分,可以帮助人们更好地理解蛋白质的结构和功能。
- 1 -。
蛋白质序列.
蛋白质序列.蛋白质序列,是生物体内一类重要的有机分子。
它是由氨基酸构成的长链状聚合物,通过肽键连接在一起。
蛋白质在生物体内发挥着多种重要的功能,包括结构支持、代谢调控、信号传递等。
一条蛋白质序列的组成是由20种不同的氨基酸按照一定的顺序排列而成的。
这个顺序决定了蛋白质的结构和功能。
不同的蛋白质序列会导致不同的空间结构,从而决定了它们在生物体内的功能和相互作用方式。
蛋白质序列的研究对于理解生物体内的生命活动具有重要意义。
科学家通过对蛋白质序列的研究,可以揭示蛋白质的功能、结构和相互作用网络。
这对于疾病的诊断和治疗具有重要的指导意义。
蛋白质序列的研究方法主要包括实验方法和计算方法。
实验方法包括蛋白质的分离、纯化和测序技术。
计算方法则利用计算机模拟和算法来预测蛋白质的结构和功能。
这些方法的发展为蛋白质序列研究提供了强有力的工具和手段。
蛋白质序列的研究在生物学、医学和生物工程等领域具有广泛的应用。
在生物学中,研究蛋白质序列可以帮助科学家理解生物体内的基因调控、细胞信号转导和代谢途径等生命过程。
在医学中,研究蛋白质序列可以帮助诊断疾病、设计新药和治疗疾病。
在生物工程中,研究蛋白质序列可以帮助设计和改造蛋白质,用于生物制药和工业生产等领域。
蛋白质序列的研究还面临着一些挑战和难题。
首先,蛋白质序列的空间结构是非常复杂的,预测蛋白质的结构仍然是一个难题。
其次,蛋白质序列的功能是多样的,如何准确预测蛋白质的功能也是一个挑战。
此外,蛋白质序列的大规模数据分析和挖掘也是一个重要的研究方向。
蛋白质序列是生物体内重要的有机分子,对于生命活动具有重要的作用。
通过研究蛋白质序列,可以揭示蛋白质的结构和功能,为疾病诊断和治疗提供指导。
蛋白质序列的研究方法包括实验方法和计算方法,具有广泛的应用前景。
然而,蛋白质序列的研究还面临着一些挑战和难题。
我们期待未来的研究能够解决这些问题,推动蛋白质序列研究的进一步发展和应用。
蛋白质序列中的星号
蛋白质序列中的星号
蛋白质序列中的星号通常表示该位置的氨基酸残基与参考序列或野生型序列不同,即存在突变或变异。
星号的位置和数量可以提供关于蛋白质变异程度的信息。
在一些情况下,蛋白质序列中的星号也可能表示其他信息,例如缺失的氨基酸残基、修饰的氨基酸残基或不确定的氨基酸残基等。
需要注意的是,不同的数据库或软件可能使用不同的符号或注释方式来表示蛋白质序列中的变异或修饰,因此在实际应用中需要结合具体情况进行解释。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蛋白质结构为什么如此重要的?
DNA 序列
转录&翻译
蛋白质序列
折叠
蛋白质结构
氨基酸序列只有折叠成特定的空间结构才具有相 应的活性和相应的生物学功能
为什么要研究蛋白质结构?
生物体中许多重要的功能由蛋白质完成
催化作用、营养物质运输、生长和分化控制和生物
信号的识别和传递等等
分析蛋白质结构、功能及其关系是蛋白 质组计划中的一个重要组成部分
二级结构预测常用方法
Chou-Fasman方法
方法 基于氨基酸疏水性的预测方法 人工神经网络方法 最邻近方法
GOR
Chou-Fasman方法
基于单个氨基酸残基统计的经验参数方法,由 Chou和Fasman在1974 & 1978提出
通过统计分析,获得每个残基出现于特定二级 结构构象的倾向性因子,利用这些倾向性因子 预测蛋白质的二级结构 每种氨基酸残基出现在各种二级结构中的倾向 或者频率是不同的,存在偏好性 准确性在 50-60%之间 /fasta_ww w/chofas.htm
•Cysteine, Cys, C
•Asparagine, Asn, N •Glutamine, Gln, Q •Tryptophan, Trp, W
•Glycine, Gly, G
蛋白质二级结构
a-helix (30-35%) a-螺旋 b-sheet / b-strand (20-25%) b-折叠 Coil (40-50%) 无规则卷曲 Loop 环 b-turn b-转角
X-射线衍射法
慢且费用高 不能应用于 所有的蛋白
二级结构预测
预测的基本依据:每一段相邻的氨基酸残基具 有形成一定二级结构的倾向 蛋白质中约85%的氨基酸残基处于3种基本二级 结构状态(α 螺旋、β 折叠和转角) 二级结构预测的目标是判断每一个氨基酸残基 是否处于α 螺旋、β 折叠和转角(或其它状态) 之一的二级结构态,即三态 通常为蛋白质空间结构预测的第一步
11-21个氨基酸 最常用方法:GOR method (1978) 准确率稍高于60%
存在许多不同的算法:
统计信息(Statistical information) 神经网络(Neural networks) 多变量统计学(Multivariate statistics) 图论(Graph theory) 最邻近方法(Nearest Neighborhood Methods)
已知序列的蛋白质数量与已测定结构的 蛋白质数量的差距正逐步拉大
Swissprot已经有>140000条蛋白质序列 PDB中已知结构的只有其中的约10%
为什么要研究蛋白质结构?
对于未知功能或新发现的蛋白质分子, 通过结构分析,可以进行功能注释,指 导设计进行功能确认的生物学实验 分析蛋白质结构有助于药物设计研究
第一、二代方法存在的问题
预测准确率均小于70% 在预测β 折叠方面很不理想,准确 率只有28-48%,只考虑了局部信息 能够预测的螺旋与折叠都比较短
二级结构预测方法的第三代方法
第三代方法:
通过运用多序列比对显著改善了预测方法 相似序列往往具有相似结构理论在大的相互
作用方面提供了有利线索 序列相似性>30%往往具有相似的蛋白结构 PSI-BLAST (Alstchul et. al. 1997) 强有 力的数据库搜索工具的加入 准确率>70%
•Alanine, Ala, A •Valine, Val, V •Phenylalanine, Phe, F
•Proline, Pro, P
•Methionine, Met, M •Isoleucine, Ile, I •Leucine, Leu, L •Aspartic acid, Asp, D •Glutamic acid, Glu, E •Lysine, Lys, K •Arginine, Arg, R
有助于了解蛋白质相互作用,这对于生 物学、医学和药学都是非常重要 通过实验方法得到蛋白质结构花费高且 耗时长
蛋白质生物学基础
蛋白质
一个蛋白质分子是由有序的氨基酸链折叠 而成的(从30到30000个残基不等)
氨基酸
20种不同的氨基酸
•Serine, Ser, S •Threonine, Thr, T •Tyrosine, Tyr, Y •Histidine, His, H
α螺旋
Β折叠
反平行 β-折叠
平行 β-折叠
蛋白质结构分类Байду номын сангаас
蛋白质3D 结构
转角或卷曲
α 螺旋
Β 折叠
环或转角
蛋白质结构分类
Class (<10) 结构类 Folds (<1000) 折叠子 Superfamily 超家族 序列或结构相似 Family 家族 序列相似性> 25% ~ 30% 同源染色体
二级结构预测方法的第一代方法
第一代方法:
基于单个氨基酸残基统计分析,从有限的数
据集中提取各种残基形成特定二级结构的倾 向,以此作为二级结构预测的依据
最具代表性的方法: Chou-Fasman (1974) 准确率约为50%-60%
二级结构预测方法的第二代方法
第二代方法:
基于氨基酸片段的统计分析,片段的长度通常为
蛋白质结构预测
蛋白质的结构决定其生物学功能
蛋白质的结构由蛋白质序列决定
从数学上讲,蛋白质结构预测的问题是 寻找一种从蛋白质的氨基酸线性序列到 蛋白质所有原子三维坐标的映射
自然界存在的蛋白质数目有限,蛋白质 结构预测是可能的
从实验上测定蛋白质结构
X-射线衍射法 最准确 在体外进行 需要结晶的蛋白 NMR(核磁共振) 较准确 在体内 不需要结晶 限定在小分子量蛋白
二级结构倾向性因子
定义:Pi=Ai/Ti(i=α,β, t, c)
说明:
i表示二级结构态,如α螺旋、 β折叠、转角
和无规则卷曲等 Ti是所有被统计残基处于二级结构态i的比例 Ai是第A种残基处于结构态i的比例 Pi>100表示该残基倾向于形成二级结构i; Pi<100表示倾向于形成其它二级结构