蛋白质序列分析与结构预测

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• Resolution: 0.15 nm • Determining about 13% structures in PDB • Small proteins only (< 250 residues) • Need samples of high purity
Bioinformatics
Problems of Predicting Protein Structure ….-Gly-Ala-Glu-Phe-….
?
FUNCTION
Bioinformatics
….-Gly-Ala-Glu-Phe-….
Bioinformatics

FUNCTION
Bioinformatics
1
蛋白质生物学基础
2
蛋白质结构可视化
3
蛋白质序列特征分析
4
蛋白质结构预测
Bioinformatics
蛋白质结构数据库
PDB (Protein Data Bank): 主要的蛋白质结构库 http://www.rcsb.org/pdb/home/home.do MMDB (Molecular Modeling Database): 分子模型 数据库 http://www.ncbi.nlm.nih.gov/sites/entrez?db=structure PDBe (Protein Data Bank in Europe ): 大分子的相 互作用和结合位点 http://www.ebi.ac.uk/pdbe/
物理化学性质分析软件
ExPaSy ProtParam ▪ 计算蛋白质氨基酸组成、等电点、分子量等 ▪ http://www.expasy.ch/tools/protparam.html WebLogo ▪ 绘制Sequence logo图 ▪ http://weblogo.berkeley.edu/ TMHMM ▪ 计算膜蛋白的跨膜区 ▪ http://www.cbs.dtu.dk/services/TMHMM/
Bioinformatics
RasMol
读取PDB格式文件,显示生物大分子三维结构图 像的软件; 系统的要求很低,应用广,可由Unix、Windows 及Macintosh 平台支持运行。 界面简单,基本操作简单,运行非常迅速。 http://www.openrasmol.org/
Bioinformatics
Bioinformatics
Chou-Fasman
预测三种主要的二级结构:alpha-helix, betasheet,Coil 训练数据:15个已知构象的蛋白质结构,共 2473个氨基酸残基 定义一个蛋白质构象参数 (protein conformational parameters):不同氨基酸残基 在不同二级结构中的重要性 ▪ Pα, Pβ, Pc
If at least 4 residues in the sequential 6 are prefer α-helix ( piα>1), find a helix core. – Extend the core, until the average preference score of this segment is less than 1. – Similar method to judge the β-sheet.
Bioinformatics
Bioinformatics
1
蛋白质生物学基础
2
蛋白质结构可视化
3
蛋白质序列特征分析
4
蛋白质结构预测
Bioinformatics
蛋白质序列分析的主要内容
氨基酸组成分析 ▪ 氨基酸含量统计 ▪ Sequence Logo 图 理化性质分析 ▪ 预测等电点(PI) ▪ 计算分子量(molecular weight, Mw) ▪ 分析疏水性(hydrophobicity) 特殊位点预测:信号肽、跨膜区、…… ……
Bioinformatics
Bioinformatics
Bioinformatics
Bioinformatics
Bioinformatics
Bioinformatics
Bioinformatics
Bioinformatics
Bioinformatics
Bioinformatics
Protein Sequence Analysis and Structure Prediction
Dr. ZOU, Ling-Yun Department of Microbiology
Outline
1
蛋白质生物学基础
2
蛋白质结构可视化
3
蛋白质序列特征分析
4
蛋源自文库质结构预测
Bioinformatics
P(c) 0.57 1.00 1.68 1.26 1.17 0.56 0.44 1.68 0.69 0.58 0.53 1.01 0.67 0.71 1.54 1.56 1.00 1.11 1.25 0.30
Bioinformatics
Judge rule
α-helix – Search the helix core along the sequence.
• Resolution: 0.1nm • Determining most structures: 87% in PDB • Difficult to grow a crystal sometimes
Bioinformatics
▪ Nuclear Magnetic Resonance (NMR)
0.71
Ile
1.00
1.60
Leu
1.34
1.22
Lys
1.07
0.74
Met
1.20
1.67
Phe
1.12
1.28
Pro
0.59
0.62
Ser
0.79
0.72
Thr
0.82
1.20
Trp
1.14
1.19
Tyr
0.61
1.29
Val
1.14
1.65
Chou &Fasman,1974,Bio-chem
Bioinformatics
Adapting the window size to the size of the membrane spanning segment makes the picture easier to interpret
Bioinformatics
Bioinformatics
蛋白质序列(黄)和结构(红)数量比较
Number of entries
250000
200000
150000
100000
50000
0
86 88 90 92 94 96 98 2000 2002 2006
Year
Sequence -- Swiss-Prot:468851 (2009.5)
Structure -- PDB:57835
Bioinformatics
-sheets
Bioinformatics
Coils
Bioinformatics
-domain : 4-helix bundles
Bioinformatics
Beta-domain Up-and-down sheets and barrel
Bioinformatics
Can we use the similar method? √
1. Chou-Fasman predictions: Empirical 2. Garnier, Osguthorpe and Robson (GOR): HMM 3. David T. Jones: PSSM 4. Frishman, Argos: Nearest neighbor methods 5. Sujun Hua: Support vector machine
Bioinformatics
http://www.expasy.ch/tools
Bioinformatics
Bioinformatics
Bioinformatics
1
蛋白质生物学基础
2
蛋白质结构可视化
3
蛋白质序列特征分析
4
蛋白质结构预测
Bioinformatics
Secondary Structure Prediction Problem
Bioinformatics
PDB
Bioinformatics
MMDB
Bioinformatics
蛋白质结构可视化工具
RasMol
Swiss PDBViewer
Cn3D
Bioinformatics
Swiss PDBViewer
界面友好、可同时分析几个PDB文件、可叠加起 来分析结构类似性… 可与Swiss-Model服务器连接,从软件直接连到 Swiss-Model服务器进行理论蛋白立体结构构建。 http://spdbv.vital-it.ch/
▪ Using neural network method to consider this interaction can improve the accuracy to 65%.
Bioinformatics
Neural Network Methods to Predict SSE
▪ The highest accuracy using the traditional method is about 60%.
▪ Interaction between residues is an important factor determining the secondary structure.
(2009.5)
Bioinformatics
Experimental Methods to Detect Structures ▪ Two empirical methods for revealing
positions of atoms in 3-D: ▪ X-Ray Crystallography
Bioinformatics
Cn3D
含义为:“See in 3-D”,是一个生物分子的三维 结构、序列以及序列比对结果的可视化工具。 读取MMDB数据库的数据文件 特定结构查找、结构比对 http://www.ncbi.nlm.nih.gov/Structure/CN3D/cn3 d.shtml
Domains
Bioinformatics
为什么要研究蛋白质结构?
生物体的许多重要功能由蛋白质完成 已知序列的蛋白质数量与已知结构的蛋白质数量 的差距正在拉大 分析蛋白质结构有助于药物设计研究 有助于了解蛋白质相互作用,这对于生物学、医 学和药学都非常重要 ……
Bioinformatics
1
蛋白质生物学基础
2
蛋白质结构可视化
3
蛋白质序列特征分析
4
蛋白质结构预测
Bioinformatics
20 amino acids - the building blocks
Bioinformatics
helices
Ala, Glu, Leu, Met:出现频率高 Pro, Gly, Tyr, Ser: 出现频率低
Bioinformatics
The Preference of Amino Acid
Residue
P(a)
P(b)
Ala
1.45
0.97
Arg
0.79
0.90
Asn
0.73
0.65
Asp
0.98
0.80
Cys
0.77
1.30
Gln
1.17
1.23
Glu
1.53
0.26
Gly
0.53
0.81
His
1.24
Bioinformatics
fi

ni Ni
100 %
氨基酸组成分析
氨基酸含量统计
fi

ni N
100%
氨基酸对含量统计
fij

nij 100 % N 1
Bioinformatics
Sequence Logo
Bioinformatics
理化性质分析:亲/疏水性分析
Bioinformatics
CCOOLLLLEEGGEEOOFF BBAAASSSIIICCCMMMEEEDDDIIICCCAAALLLSSSCCCIIEIEENNNCCCEEESSS TTHHIIRRDD MMIILLIITTAARRRYYYMMMEEEDDDIIICCCAAALLLUUUNNNIIIVVVEEERRRSSSIITITTYYY
? How to predict the SSE from the sequence
Secondary Structure Elements
Bioinformatics
Review: prediction of exon region in DNA
Bioinformatics
Secondary Structure Prediction
相关文档
最新文档