《生物信息学》练习题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、在Genbank中查找以下6个植物蛋白序列:protein1:NP_974673.2; protein2: NP_187969.1; protein3: NP_190855.1; protein4: NP_565618.1; protein5: NP_200511.1; protein6: NP_191407.1 (以FASTA格式)。
(1)用EBI上的ClustalW2工具对其进行多序列比对,分析各蛋白序列之间的同源性。
序列比对结果
比对结果表明:protein1:NP_974673.2和protein4: NP_565618.1的亲缘关系最近。
(2)利用Phylip软件,选择距离法构建其进化树(要求写出具体的建树步骤)。
1.将蛋白序列保存为FASTA格式,存于txt文档;
2.用Clustalx打开txt文本,保存为*.phy文件;
3.用seqboot程序打开phy文件,输出结果文件*_seqboot
4.用protdist程序打开*_seqboot文件,输出为*_protdist文件
5. 用neighbor程序打开*_protdist文件,输出为*_neighbor文件
6. 用consense程序打开*_neighbor文件,输出为*_consense文件
7.用dratree程序打开*_consense文件得到进化树。
(注:由于seqboot软见无法正常运行,因此进化树无法显示)
(3)任意选取其中的一个蛋白进行蛋白质一级序列分析、二级结构预测及三维结构的模拟。
选择protein3: NP_190855.1
一级结构
网址:/tools/protparam.html
Number of amino acids: 456 氨基酸数目
Molecular weight: 51154.5 相对分子质量
Theoretical pI: 8.69 理论 pI 值
Amino acid composition 氨基酸组成
Ala (A) 30 6.6%
Arg (R) 28 6.1%
Asn (N) 15 3.3%
Asp (D) 27 5.9%
Cys (C) 5 1.1%
Gln (Q) 18 3.9%
Glu (E) 28 6.1%
Gly (G) 37 8.1%
His (H) 16 3.5%
Ile (I) 16 3.5%
Leu (L) 42 9.2%
Lys (K) 32 7.0%
Met (M) 5 1.1%
Phe (F) 17 3.7%
Pro (P) 16 3.5%
Ser (S) 46 10.1%
Thr (T) 21 4.6%
Trp (W) 8 1.8%
Tyr (Y) 19 4.2%
Val (V) 30 6.6%
Pyl (O) 0 0.0%
Sec (U) 0 0.0%
(B) 0 0.0%
(Z) 0 0.0%
(X) 0 0.0%
正/负电荷残基数
Total number of negatively charged residues (Asp + Glu): 55
Total number of positively charged residues (Arg + Lys): 60
Atomic composition: 原子组成
Carbon C 2270
Hydrogen H 3531
Nitrogen N 645
Oxygen O 686
Sulfur S 10
Formula: C2270H3531N645O686S10 分子式
Total number of atoms: 7142 总原子数
Extinction coefficients: 消光系数
Extinction coefficients are in units of M-1 cm-1, at 280 nm measured in water.
Ext. coefficient 72560
Abs 0.1% (=1 g/l) 1.418, assuming all pairs of Cys residues form cystines Ext. coefficient 72310
Abs 0.1% (=1 g/l) 1.414, assuming all Cys residues are reduced
Estimated half-life: 半衰期
The N-terminal of the sequence considered is M (Met).
The estimated half-life is: 30 hours (mammalian reticulocytes, in vitro).
>20 hours (yeast, in vivo).
>10 hours (Escherichia coli, in vivo).
Instability index: 不稳定系数
The instability index (II) is computed to be 48.99
This classifies the protein as unstable.
Aliphatic index: 75.26 脂肪系数
Grand average of hydropathicity (GRAVY): -0.554 总平均亲水性
/tools/protscale.html
蛋白质亲疏水性分析
所用氨基酸标度信息
Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys: 2.500 Gln: -3.500 Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu: 3.800 Lys: -3.900 Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900 Tyr: -1.300 Val: 4.200 : -3.500 : -3.500 : -0.490
分析所用参数信息
Weights for window positions 1,..,9, using linear weight variation model:
1 2 3 4 5 6 7 8 9
1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
edge center edge
跨膜结构预测结果(没有跨膜结构)
信号肽分析: