绵羊MHC ClassⅡ基因的生物信息学分析 生物信息学毕业论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
毕业设计(论文)任务书
生命科学学院院生物工程系(教研室)
系(教研室)主任:(签名) 2011 年 1 月 18 日
1 设计(论文)题目及专题:绵羊MHC ClassII基因的生物信息学分析
2 学生设计(论文)时间:自2011年 1月18日开始至 2011 年 6 月 10 日止
3 设计(论文)所用资源和参考资料:
3.1所用资源:万维网上的生物数据库;学校所购买的电子期刊;校图书馆;学院实验室网络;
3.2 参考资料:张阳德编著.生物信息学[M]北京: 科学出版社,200
4.9.金伯泉.细胞和分子免疫学[M].科学出版社,2006,281-30
5. 许忠能.生物信息学[M]. 清华大学出版社,2008,1-4. 杨晶,胡刚,王奎,沈世镒.生物计算——生物序列的分析方法与应用[M].科学出版社,2010,105-111.
4 设计(论文)应完成的主要内容:
4.1获取绵羊MHC ClassII基因核酸与蛋白序列及与其同源的其它物种的序列,进行多序列比对,做出分子进化树,并分析;
4.2对绵羊MHC ClassII分子的疏水区、跨膜区、功能结构域和生物活性位点分析;
4.3预测绵羊MHC ClassII分子的二级结构与三级结构。
5 提交设计(论文)形式(设计说明与图纸或论文等)及要求:
5.1严格按照<<湖南科技大学本科生毕业设计(论文)工作规范>>的写作完成毕业论文,完成不少于8000字信息量的论文;格式正确,包括目录、论文中英文题目及摘要、前言、正文、参考文献、致谢词和附录;
5.2 在实验及论文写作过程中,对数据和结果等要求实事求是,并且要在老师的指导下独立完成。
6 发题时间: 2011 年 1 月 1
7 日
指导教师:(签名)
学生:(签名)
湖南科技大学
毕业设计(论文)指导人评语
[主要对学生毕业设计(论文)的工作态度,研究内容与方法,工作量,文献应用,创新性,实用性,科学性,文本(图纸)规范程度,存在的不足等进行综合评价]
指导人:(签名)
年月日指导人评定成绩:
摘要
从NCBI中获取绵羊主要组织相容性复合体(Major Histocompatibility Complex,MHC)Ⅱ的核苷酸与氨基酸序列,应用生物信息学原理,对绵羊MHCⅡ分子疏水区、跨膜区、结构功能域和生物活性位点等几方面生物学特性进行了分析,预测出该基因的二级结构和三级结构,并将绵羊与其它动物的核苷酸和氨基酸序列进行多序列对比,做出分子进化树。
结果表明,绵羊MHCⅡ分子有一个疏水区和跨膜区;该分子有主要组织相容性复合物蛋白免疫球蛋白信号及N-糖基化位点、蛋白质激酶C磷酸化位点等多个生物活性位点。
绵羊MHC clas sⅡ的氨基酸序列和核苷酸序列与成都麻羊的同源性最高,分别达66%和73%,其次与亚洲水牛和肩蜂牛的同源性也较高,与大黄鱼的同源性最低,分别为25%和51%。
关键词:主要组织相容性复合体Ⅱ类;生物信息学;序列分析
ABSTRACT
Extract Ovis aries from NCBI of nucleotides and Major Histocompatibility Complex class II amino acid sequence, application bioinformatics principle, on Ovis aries MHC class II molecules succoth watershed and transmembrane area, the structure and function domain and biological activity sites aspects of biology characteristic was analyzed to predict the secondary structure and level 3 genetic structure, and the Ovis aries and other animals will be more nucleotide sequence of amino acid sequence and contrast, make more sequence phylogenetic tree. Results show that,Ovis aries MHC class II molecules have a dredging watershed and transmembrane area, the molecules are major histocompatibility complex protein immunoglobulin signal and N - glycosylation sites, protein kinase C phosphorylation sites such multiple bioactive loci sites, Ovis aries MHC class II the sequence of amino acids and nucleotide sequences and the Capra hircus is highest homology of 66% and 73%. Secondly Bubalus bubalis and Bos indicus homology of higher, with the lowest, homology of Larimichthys crocea for 25% and 51% respectively.
Keywords: Major Histocompatibility Complex class II molecules; Bioinformatics; Sequence analys
目录
第一章前言 (1)
1.1 生物信息学简介 (1)
1.2 MHC的相关简介 (1)
第二章材料来源 (4)
第三章分析方法 (5)
3.1 蛋白质序列的获取 (5)
3.1.1 绵羊MHC ClassⅡ基因的核酸和蛋白质序列的获得 (5)
3.1.2 同源序列获得 (5)
3.2 蛋白质的基本性质分析 (5)
3.2.1 疏水性分析 (5)
3.2.2 跨膜区分析 (5)
3.2.3 功能结构域分析 (5)
3.2.4 生物活性位点分析 (5)
3.3 蛋白质结构预测 (5)
3.3.1 蛋白质二级结构的预测 (5)
3.3.2 蛋白质三级结构预测 (5)
3.4 绵羊MHC ClassⅡ系统进化树分析 (5)
第四章结果与分析 (6)
4.1 绵羊MHC ClassⅡ基因的核酸和蛋白质序列 (6)
4.2 绵羊MHC ClassⅡ蛋白质的疏水性和跨膜区分析 (7)
4.2.1绵羊MHC ClassⅡ蛋白质的疏水性分析 (7)
4.2.2绵羊MHC ClassⅡ蛋白质的跨膜螺旋区分析 (8)
4.3 绵羊MHC ClassⅡ蛋白质的功能结构域分析 (9)
4.4 绵羊MHC ClassⅡ蛋白质生物活性位点分析 (11)
4.5 绵羊MHC ClassⅡ蛋白质的二级结构预测 (12)
4.6 绵羊MHC ClassⅡ蛋白质的三级结构预测 (14)
4.7 同源序列对比和系统发生分析 (15)
第五章结论 (21)
参考文献 (22)
致谢 (23)
-ⅰ-
- 0 -
第一章前言
1.1生物信息学简介
生物信息学是一门研究生物和生物相关系统中信息内容和信息流向的综合性系统科学,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义[1]。
它的研究内容包括生物信息的存储于获取、序列比对、测序与拼接、基因预测、生物进化与系统发育分析、蛋白质结构预测、RNA结构预测、分子设计与药物设计、代谢网络分析、基因芯片、DNA计算等。
它还是一门以信息知识为基础的学科,关键资源是知识,关键技术是信息处理。
它为揭示人类及重要动植物种类的基因组信息,继而进行生物大分子结构模拟和药物设计,以及天然生物大分子的改造和基于受体结构的药物分子设计提供依据。
生物信息学不仅对认识生物体和生物信息的起源、遗传、发育与进化的本质具有重要意义,而且可为人类疾病的诊断和防治开辟全新的途径,并为动植物的物种改良提供了坚实的理论基础。
此外通过对影响药物代谢或效应通路、相关基因编码序列的再测序,很可能揭示个体对药物差别的遗传学基础[2]。
生物信息学作为生命科学研究所必需的研究工具,在生命科学实践中越来越显示出它的重要作用,特别是在实验设计、结构分析上,离不开生物信息学的指导[3]。
而生物数据库、相关软件是生物信息学研究与应用的重要资源。
在生物信息学软件中,生物学研究人员用得最多的软件是搜索工具BLAST(Basic Local Alignment Search Tool)[1]。
本文则是对绵羊MHC class II基因进行了生物信息学分析,也多次使用了BLAST软件。
1.2MHC的相关简介
诱导强而迅速排斥反应的抗原称为主要组织相容性抗原或主要移植抗原, 编码这种抗原的基因群称为主要组织相容性复合体(Major Histocompatibility Complex, MHC)。
主要组织相容性复合体是存在于脊椎动物某一染色体上的一群紧密连锁的基因群,编码主要组织相容性抗原,调控细胞间相互识别,并与免疫应答和免疫调节有关,呈高度多态性[4]。
多态性是一个群体的概念,指MHC存在多个基因座位,染色体同一基因座有两种以上的基因型,即可能编码两种以上的产物。
MHC的高度多态基因区,这些连锁的免疫应答基因控制着机体对抗原产生免疫应答的能力。
MHC高度多态性赋於物种极大的应变能力造就了各式各样对抗原(病原体)入侵反应性和易感性不同的个体.使之能对付多变的环境条件及各种病原体的侵袭。
在免疫应答的T-B、T-T、T-APC细胞的相互作用中,T细胞除识别抗原物质外,还必须同时识别与之作用细胞表面的MHC分子,这一现象称为MHC限制性。
不同的物种,不同种属动物都有自身的MHC:如人的MHC通常称HLA基因(hunan leukocyte antigen,HLA)或HLA基因复合体, 称其产物为HLA分子或HLA抗原;称小鼠MHC为H-2;称黑猩猩为ChLA;称狗为DLA;称猪为SLA;称牛为BoLA。
- 1 -
- 2 -
根据主要组织相容性抗原分子结构、分布和功能不同分为Ⅰ、Ⅱ、Ⅲ类分子。
按所含基因的功能不同,一般可将MHC 区域分为Class Ⅰ区、Class Ⅱ区和Class Ⅲ区。
其编码基因也相应地分成三类。
Ⅰ类和Ⅱ类分子是结构相似的细胞膜表面糖蛋白,除作为移植抗原外,还与抗原递呈及某些疾病相关。
Ⅲ类分子包括C2、C4、B 因子和肿瘤坏死因子等多种可溶性蛋白质。
MHC Ⅰ类分子:所有有核细胞及血小板、网织红细胞。
MHC-Ⅱ类分子是异源二聚体,
它的分子的两条链均由MHC-Ⅱ类分
子基因编码,由α链和β链以非共价
键结合的多肽链构成(如图1.1所示),
其中α链分子量为32~34kDa ,有两个
N —连接寡糖;β链为27~30kDa ,有
一个N —连接寡糖。
两条链在整个结构
上彼此相似,由于糖基化作用,α链比
β链略大,α链、β链胞膜外区各有两
个结构域α1、α2及β1、β2,每个结构
域约含90个氨基酸残基。
α链和β链均是跨膜蛋白,C 端为胞浆区。
除α1结构域外,α2、β1和β2每个结构域均含一个二硫键。
胞膜外区(跨膜区和胞浆区)按功能进一步分为肽结合区和免疫球蛋白样区。
MHC -Ⅱ类分子的两条链均由不同的MHC 基因编码,呈多态性。
肽结合区MHC -Ⅱ类分子的α1、β1结构域与免疫球蛋白样区结构域无相似性,是类分子结合抗原肽部位和高度多态性所在。
每个结构域都是有4条β折叠和1个α螺旋组成,α1和β1结构域的β片层共同形成肽结合沟槽的底部,α1和β1结构域的α螺旋共同形成肽结合沟槽的侧壁。
α2和β2结构域属于免疫球蛋白超家族C1型结构,具非多态性,α2和β2结构域是MHC -Ⅱ类分子的非多态部分,也是与CD4分子相互作用的位点。
α2和β2结构域C 端侧各有一个短的连接区,分别连接α2、β2结构域与跨膜区。
跨膜区约含25个氨基酸残基,形成α螺旋将α链和β链固定在细胞膜上。
胞浆区很短,有25~30个氨基酸残基,可能与信号转导有关[5]。
在MH C Ⅱ基因内,第一外显子编码先导顺序或信号顺序,它将新生蛋白带向内质网。
每个约由90个氨基酸组成的细胞外区残基各有一个大外显子跨膜区和胞浆区由几个小外显子编码。
控制MHC 基因转录的许多顺式调节顺序位于编码MHC 分子外显子阅读框架的5’端,这些核苷酸顺序是DNA-结合蛋白的分子靶位,这些DNA-结合蛋白事反式转录调节因子。
MHC 基因转录调节的一般原则与免疫球蛋白基因相似。
MHC Ⅱ类基因启动子序列位于基因编码区5’端上游,转录起始点上游200bp 范围内。
MHC Ⅱ类基因进侧基因启动子部分存在多态性,表现为顺式作用元件DQ ,DP 的多基因家族,是类分子多样性的分子基础,在免疫应答中起关键作用[5]。
图1.1 MHC Ⅱ分子结构图
本文是对绵羊MHC classⅡ分子进行生物信息学分析,应用生物信息学方法找出绵羊MHC classⅡ的核酸和蛋白质序列,对绵羊MHC classⅡ分子疏水区、跨膜区、结构功能域和生物活性位点等几方面生物学特性进行了分析,预测出该基因的二级结构和三级结构,并将绵羊与其它动物的核苷酸和氨基酸序列进行多序列对比和系统分子进化树分析,对绵羊MHC classⅡ的研究做一下基础性工作。
- 3 -
第二章材料来源
绵羊MHC classⅡ基因及其同源的其它物种的核酸和氨基酸序列编码(表2.1)。
表2.1 不同物种MHC classⅡ基因的核酸和蛋白质序列
种类(species)
蛋白质编号
(protein ID)
核酸编号
(nucleotide ID)
绵羊NP-001116870 NM-001123398 褐家鼠CAD86939 AJ554216原鸡AAR14674 AY357254
小家鼠NP-034508 NM-010378 非洲爪蟾蜍NP-001079971 NM-001086502 家猫ACK99138 EU915361 家马XP-001493225 XM-001493175 野驴ABM92287 EF204945
欧洲兔NP-001164589 NM-001171118 欧洲野兔ACN39186 FJ225345
大熊猫XP-002914414 XM-002914368 鹪鹩AAN87894 AY169005
成都麻羊AAR97716 AAR97716 亚洲水牛AAY40169 DQ016629 肩峰牛CAX17688 FM986339 大猩猩AAU87999 AY663403
红毛猩猩ACL00582 EU877227 野猪ABA42968 DQ159895 大西洋鲱CAM34665 AM492999 三文鱼CAD27719 AJ438965 大黄鱼ABV48907 EF681863 人NP-002113 NM-002122 家犬CAH61722 AJ630362
- 4 -
第三章分析方法
3.1 蛋白质序列的获得
3.1.1 绵羊MHC clas sⅡ基因的核酸和蛋白质序列的获得
在NCBI数据库上搜索绵羊MHC clas sⅡ基因的核酸和蛋白质序列。
3.1.2 同源序列获得
利用NCBI上的BLAST程序对比直接获取与绵羊MHC clas sⅡ基因同源的核酸和蛋白质序列。
3.2 蛋白质的基本性质分析
3.2.1 疏水性分析
用位于Expasyde的Protscale[6](/cgi-bin/protscale.pl) 程序对其进行疏水性分析。
3.2.2 跨膜区分析
联网至(http://www.genome.cbs.dut.dk/services/TMHMM-2.0)使用服务器TMHMM-2.0[7]或联网至(/software/TMPRED_form.html)进行跨膜区分析。
3.2.3 功能结构域分析
联网至(/interpro/index.html)用EBI开发的InterProScan[7]进行分析。
3.2.4 生物活性位点分析
利用位于Expasy的Prosite[6](/prosite/)对绵羊MHC clas sⅡ蛋白质进行活性位点分析。
3.3 蛋白质结构预测
3.3.1 蛋白质二级结构的预测
联网至(http://www. /)用PHD[8]对绵羊MHC clas sⅡ进行分析或联网至PSIPRED[8]的网址(/psipred)。
3.3.2 蛋白质三级结构的预测
利用位于SWISS-MODEL[5]的Automated Mode服务器返回到邮件的结果,观察蛋白质的三级结构。
3.4 绵羊MHC clas sⅡ系统进化树分析
联网至(/clustalw/)[6]对所获得的同源蛋白质序列进行比对分析并构建系统进化树。
- 5 -
第四章结果与分析
4.1 绵羊MHC clas sⅡ基因的核酸和蛋白质序列
在NCBI上获取绵羊的蛋白质序列(序列号:NP-001116870):
1 MKKALILRAL ALAAMMSLCG GEDIVADHVG TYGTNVYQTY GASGQFTFEF DGDELFYVDL
61 RKKETVWRLP EFNNITMFEI QSALRNIVMS KRNLDILMKN SNFTPATNDI PEVAVFPKSS 121 VILGIPNTLI CQVDNIFPPV INITWFYNGQ FVAEGVAETT FYPKSDHSFL KFSYLTFVPA 181 SEDFYDCRVE HWGLEEPLVK HWEPKIPTPT SELTETVVCA LGLPMGLMGI VVGTVLILRV
241 RCSGAASRRR RAMSHGLKDG KERKVFISVF AAASGAQDHQ PHAAWCFR 该蛋白质序列由288个氨基酸残基组成。
在NCBI上获取绵羊的核酸序列(序列号:NM-001123398):
1 CATGGGCTGC TCCAACATGA TTTCTCCAGC AGTTCTCTTT AGACCACCTT CCTGGTGAG
G
61 CACCACTTGG AACAGCCACT CCTGAGGAAA CCCTTGGAGG AGGAGGAGGA TGAAGAAAG C
121 TCTGATTCTG AGGGCTCTCG CTCTGGCCGC CATGATGAGC CTGTGTGGAG GTGAAGACA T
181 CGTGGCGGAC CACGTGGGCA CTTACGGCAC AAATGTCTAC CAGACGTACG GCGCCTCTG G
241 CCAGTTCACG TTTGAATTTG ATGGAGACGA GCTCTTCTAC GTGGACCTGA GGAAAAAAG A
301 GACTGTCTGG AGGCTGCCCG AGTTTAACAA TATCACCATG TTTGAAATTC AGAGTGCCC T
361 GAGAAACATT GTTATGTCAA AAAGAAATTT GGACATCTTG ATGAAAAATT CCAACTTTA C
421 ACCTGCCACC AATGACATCC CTGAAGTGGC TGTGTTTCCC AAATCCTCCG TGATCCTGG G
481 GATTCCCAAC ACCCTCATCT GTCAGGTGGA CAACATCTTT CCTCCTGTGA TCAACATCA C
541 TTGGTTTTAC AATGGACAGT TTGTTGCAGA AGGTGTCGCT GAGACCACCT TCTACCCCA A
601 GAGTGACCAC TCCTTCCTCA AGTTCAGTTA CCTCACCTTT GTTCCCGCCA GTGAAGACT T
661 CTATGACTGC AGAGTGGAGC ACTGGGGCCT GGAAGAGCCC CTCGTCAAGC ACTGGGAGC C
721 CAAGATTCCA ACCCCTACAT CAGAGCTGAC AGAGACTGTG GTCTGTGCCC TGGGGCTGC C
781 CATGGGCCTC ATGGGCATCG TGGTGGGCAC TGTCCTCATC CTCCGAGTCC GGTGCTCAG G
841 TGCTGCCTCC AGACGTCGAA GGGCCATGAG TCATGGCCTG AAAGATGGGA AGGAGAGGA A
901 AGTCTTCATT TCTGTTTTCG CTGCAGCATC GGGAGCACAG GACCATCAGC CTCATGCTG C
961 CTGGTGTTTC AGGTGATCAG TCTTTACAAG AAAAGAAAGG CATGGTTCAG GCTCCAGTT C
1021 CCCATCTTGA CCTTGACTGA GACGTGCTCC TTGGTCCATT TCATCACAGA GCTCCTTCC A
1081 CGCCCTCCTG CTCTCCCTGC TGGGGCAGAC TTTATGGAGG AATTTTCCTT CGAAGATCA C
1141 TGACCCTCAC GAATTCTCCC AACTTAGTCT TTGATTCATT GCCTACCTGT CACAGAGAC C
1201 TGGATTGTTC CACC
该核酸序列由1214个碱基组成。
4.2 绵羊MHC clas sⅡ蛋白质的疏水性和跨膜区分析
4.2.1 绵羊MHC clas sⅡ蛋白质的疏水性分析
疏水性是每个氨基酸所固有的特性,即每个氨基酸远离周围水分子,将自己包埋进蛋白质核心的相对趋势。
疏水性氨基酸在蛋白质内部,由于其疏水性的相互作用,在保持蛋白质三级结构的形成和稳定中起着重要作用。
疏水性预测的方法依赖于疏水性的衡量尺度,每个氨基酸根据其一系列的物理特性(例如溶解性、跨越水-汽相时产生的自由能等),被赋予一个数值以代表其疏水性。
组成蛋白质的20种氨基酸各自带有不同极性的侧链基团,氨基酸侧链的疏水性,用从各氨基酸的疏水性减去甘氨酸疏水性之值来表示。
具有较高正值的氨基酸具有较强的疏水性;而具有较低负值的氨基酸则具有较强的轻水性[6]。
利用位于Expasy的Protscale进行疏水性分析,当Window size设置为9时,当氨基酸残基的疏水性值大于2.34时,为明显的疏水区。
单个氨基酸疏水性值:
Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys: 2.500 Gln: -3.500 Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu: 3.800 Lys: -3.900 Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900 Tyr: -1.300 Val: 4.200 : -3.500 : -3.500 : -0.490
MIN: -2.244
MAX: 3.122
图4.1 用Protscale对绵羊MHC clas sⅡ蛋白质进行疏水性分析结果从上图返回的结果我们得知在第234位氨基酸处有最大值3.122,在第258位氨基
酸处有最小值-2.244,在第位231至236位氨基酸的值分别为2.503,2.829,2.941,3.122,2.912,2.601这一区段氨基酸疏水性值大于2.34,所以我们得出结论:该蛋白质序列在
位于231~236位残基之间具有明显的疏水性,从而说明该序列有一个疏水区。
4.2.2 绵羊MHC clas sⅡ蛋白质的跨膜螺旋区分析
膜蛋白是一类结构独特的蛋白质,执行着重要的细胞生物学功能。
蛋白质序列含有
跨膜区,提示它可能作为膜受体起作用,也可能是定位在膜上的锚定蛋白或离子通道蛋白,所以含有跨膜区蛋白往往和细胞的功能状态密切相关,对膜蛋白的跨膜螺旋进行预
测是生物信息学的重要应用[9]。
通常使用单一的预测软件分析的准确性都不太高,综合
不同的软件预测结果并结合疏水性图,可获得较好的预测结果。
使用两种在线网络工具
分析结果分别是:
(1)利用TMHMM软件分析结果如下:
# Sequence Length: 288
# Sequence Number of predicted TMHs: 1
# Sequence Exp number of AAs in TMHs: 21.83121
# Sequence Exp number, first 60 AAs: 0.52936
# Sequence Total prob of N-in: 0.06765
Sequence TMHMM2.0 outside 1 217
Sequence TMHMM2.0 TMhelix 218 240
Sequence TMHMM2.0 inside 241 288
图4.2 用TMHMM对绵羊MHC clas sⅡ蛋白质的跨膜区分析结果根据以上数据和图表显示我们可以得出这样的结论:在位于位于218~240位氨基酸之间存在一个跨膜区。
(2)利用Tmpred软件分析结果如下:
possible models considered, only significant TM-segments used
-----> STRONGLY prefered model: N-terminus outside
3 strong transmembrane helices, total score : 3329
# from to length score orientation
1 4 25 (22) 74
2 o-i
2 121 14
3 (23) 542 i-o
3 217 240 (24) 2045 o-i
------> alternative model
3 strong transmembrane helices, total score : 2867
# from to length score orientation
1 6 24 (19) 899 i-o
2 114 13
3 (20) 505 o-i
3 216 238 (23) 1463 i-o
图4.3 用Tmpred对绵羊MHC clas sⅡ蛋白质的跨膜区分析结果由分析结果和图像显示,可得出这样的结论:绵羊MHC clas sⅡ蛋白质的跨膜区有两种可能,它有三个明显的跨膜区。
一种可能为它的跨膜区一个位于4~25 位氨基酸之间,一个位于121~143位氨基酸之间,另一个位于217~240位氨基酸之间。
另一种可能为它的跨膜区一个位于6~24位氨基酸之间,一个位于114~133位氨基酸之间,另一个位于216~238位氨基酸之间。
总体来看,Tmpred软件预测出三个跨膜区,TMHMM预测出一个跨膜区,显然,对于同一蛋白,两种不同的的方法给出了不同的预测结果,但部分预测结果大致相同。
然而在多数情况下,Tmpred的预测结果比实际情况会稍微长一些或偏一些,基于综上考虑,认为该蛋白仅存在一个跨膜区,位于218~240位氨基酸残基之间,这与疏水性的分析也基本吻合。
4.3 绵羊MHC clas sⅡ蛋白质的功能结构域分析
结构域(StructuralDomain)是生物大分子中具有特异结构和独立功能的区域,特别指蛋白质中这样的区域,是介于二级和三级结构之间的另一种结构层次。
所谓结构域是指蛋白质亚基结构中明显分开的紧密球状结构区域,又称为辖区。
在球形蛋白中,结构域具有自己特定的四级结构,其功能部依赖于蛋白质分子中的其余部分,但是同一种蛋白质中不同结构域间常可通过不具二级结构的短序列连接起来。
蛋白质分子中不同的结构域常由基因的不同外显子所编码。
有些球形蛋白的一条肽链,或以共价键相连的两条或多条肽链在空间结构上可以区分为若干个球状的子结构,其中的每一个球状子结构就被称为一个结构域。
图4.4 用InterProScan对绵羊MHC clas sⅡ蛋白质的功能结构域分析结合Prosite数据库分析:
hits by profiles: [1 hit (by 1 profile) on 1 sequence]
Hits by PS50835IG_LIKE Ig-like domain profile :
USERSEQ1 (288 aa)
111 - 191: score = 11.134
DISULFID 131 187 By similarity [condition: C-x*-C]
hits by patterns: [1 hit (by 1 pattern) on 1 sequence]
Hits by PS00290IG_MHC Immunoglobulins and major histocompatibility complex proteins signature :
USERSEQ1 (288 aa)
185 - 191: YDCRVEH
图4.5 用PROSIT对绵羊MHC clas sⅡ蛋白质的功能结构域分析通过两种不同的数据库发现该蛋白质存在主要组织相容性复合物蛋白免疫球蛋白信号、免疫球蛋白c1位点、免疫球蛋白样结构域、主要组织相容性复合体Ⅱ类样识别抗原、主要组织相容性复合体Ⅱ类样识别抗原蛋白、免疫球蛋白样折叠以及未整合区段。
通过Prosite数据库我们发现在111~191位氨基酸之间存在一个免疫球蛋白样结构域,其期望值是11.134。
其中131~187位氨基酸之间存在二硫化物,起着重要的生理作用。
在185~191位氨基酸之间存在一个主要组织相容性复合物蛋白免疫球蛋白信号。
在InterProScan数据库中发现于126~197位氨基酸段为免疫球蛋白c1位点,27~104 位氨基酸段为主要组织相容性复合体Ⅱ类样识别抗原,105~221位氨基酸段为免疫球蛋白样折叠。
4.4 绵羊MHC clas sⅡ蛋白质生物活性位点分析
Pattern-ID: ASN_GLYCOSYLATION PS00001PDOC00001
Pattern-DE: N-glycosylation site
Pattern: N[^P][ST][^P]
74 NITM
142 NI TW
Pattern-ID: CAMP_PHOSPHO_SITE PS00004PDOC00004
Pattern-DE: cAMP- and cGMP-dependent protein kinase phosphorylation site
Pattern: [RK]{2}.[ST]
62 KKET
Pattern-ID: PKC_PHOSPHO_SITE PS00005PDOC00005
Pattern-DE: Protein kinase C phosphorylation site
Pattern: [ST].[RK]
90 SKR
247 SRR
Pattern-ID: CK2_PHOSPHO_SITE PS00006PDOC00006
Pattern-DE: Casein kinase II phosphorylation site
Pattern: [ST].{2}[DE]
76 TMFE
Pattern-ID: MYRISTYL PS00008PDOC00008
Pattern-DE: N-myristoylation site
Pattern: G[^EDRKHPFYW].{2}[STAGCN][^P]
30 GTYGTN
124 GIPNTL
149 GQFVAE
155 GVAETT
222 GLPMGL
229 GIVVGT
256 GLKDGK
Pattern-ID: IG_MHC PS00290PDOC00262
Pattern-DE: Immunoglobulins and major histocompatibility complex proteins signature Pattern: [FY][^L]C[^PGAD][VA][^LC]H
185YDCRVEH
结果表明,该蛋白质序列含有:2个N-糖基化位点,位于74~77和142~145位氨基酸段;1个A激酶位点,位于62~65为氨基酸段;2个蛋白质激酶C磷酸化位点,分别位于90~92和247~249位氨基酸段;1个酪蛋白激酶II磷酸化位点,分别位于76~79位氨基酸段;7个N-肉豆蔻酰化作用位点,分别位于30~35、124~129、149~154、155~160、222~227、229~234、256~261位氨基酸段;1个主要组织相容性复合物蛋白免疫球蛋白信号,位于185~191位氨基酸段。
4.5 绵羊MHC clas sⅡ蛋白质的二级结构预测
蛋白质的二级结构预测是联系其一级结构和三级结构的桥梁和纽带,并为蛋白质三级结构和功能提供了大量信息,有助于蛋白质突变体的设计,有助于确定蛋白质空间结构与功能。
用PHD预测蛋白质的二级结构,如图4.6。
在该蛋白质序列中,螺旋结构(H)占总序列的18.06% ,折叠结构(E)占总序列的28.47% ,卷曲结构(L)占总序列的53.47%。
由此可见该蛋白质卷曲程度较高。
表4.1 蛋白质二级结构预测组成
结构类型螺旋(H)折叠(E)卷曲(L)所占比列(%)18.06 28.47 53.47
用PHD方法预测如下:
图4.6 蛋白质二级结构预测的PROF 结果
图中缩词说明:
AA:氨基酸序列
OBS _sec:观察到的二级结构(H=螺旋,E=折叠,L=环)
PROF _sec: PROF预测的二级结构
Rel _sec: PROF的可靠性(0=低,9=高)
SUB _sec: PROF预测的结果(“.”意味着对应残基未给出预测结果,因为其可靠性低于5%)
O_3 _acc:所观察到的具有相对溶解性的两种情况:b=0-9% ,i=9-36% ,e=36-100%
P_3 _acc: PROF预测相对溶解性的三种情况:b=0-9%,i=9-36%,e=36-100%
Rel _acc:PROF预测的可靠性(0=低,9=高)
SUB _acc: PROF预测的子集,所有残基期望的平均相关性>0.69
4.6 绵羊MHC clas sⅡ蛋白质的三级结构预测
利用SWISS-MODEL对绵羊MHC clas sⅡ蛋白质的模建结果如下:
Model information:
Modelled residue range: 23 to 202
Based on template: 1es0A (2.60 Å)
Sequence Identity [%]: 67.222
Evalue: 5.45e-72
图4.7 模建质量评价分析
图4.8 模建的蛋白质三级结构图(SWISS-MODEL)由以上分析结果和图像可得出:绵羊MHC class II蛋白质三级结构是基于1es0的A 链模建的,两者序列一致性达到67.222%。
该模建的蛋白质三级结构是由第23~202位氨基酸参与的,其空间结构见图4.8。
图4.7中绿色区域表示合适的空间结构,红色区域表示不合适的空间结构。
4.7 同源序列比对和系统发生分析
利用BLAST程序得出绵羊MHC class II与其它物种的同源性比较,然后利用CLUASTAL2.1软件进行物种之间的多序列对比作出进化树并做出分析。
- 16 -
表4.2 绵羊MHC clas sⅡ与其它物种的同源性比较
动物种类核苷酸相差数目同源性氨基酸相差数目同源性绵羊/褐家鼠288 67.0 144 47.0
绵羊/人295 66.0 148 45.0
绵羊/原鸡324 57.0 162 38.0 绵羊/小家鼠279 68.0 140 48.0
绵羊/非洲爪蟾蜍306 66.0 158 42.0 绵羊/家猫255 77.0 113 57.0
绵羊/家马165 80.0 82 63.0
绵羊/野猪161 82.0 80 64.0 绵羊/大西洋鯡400 56.0 192 26.0 绵羊/三文鱼392 64.0 177 31.0 绵羊/大黄鱼410 51.0 201 25.0
绵羊/野驴192 79.0 91 60.0 绵羊/欧洲兔276 70.0 138 50.0 绵羊/欧洲野兔277 69.0 137 50.0 绵羊/大熊猫222 76.0 116 57.0
绵羊/鹪鹩360 59.0 180 30.0 绵羊/亚洲水牛144 83.0 73 65.0 绵羊/肩蜂牛140 83.0 75 65.0.
绵羊/大猩猩302 64.0 156 44.0 绵羊/红毛猩猩300 63.0 154 44.0 绵羊/成都麻羊122 86.0 60 67.0
绵羊/家犬243 74.0 120 56.0
从以上对比我们可以看出绵羊MHC clas sⅡ的核苷酸序列和氨基酸序列同成都麻羊的同源性最高,核苷酸的同源性为86%,氨基酸的同源性为67%,与大黄鱼的同源性最低,核苷酸的同源性51%,氨基酸的同源性为25%。
CLUSTAL 2.1 multiple sequence alignment(用CLUSTAL 2.1软件进行得多序列比对结果如下):
家猫 VLGFCIMALLMGPQESLA--IKEEHVIIQAEFYLKPDSS----GEFMFDFDGDEIFHVDM 54 家犬 VLGFFIMAFLMGPQESWA--VKEEHVIIQAEFYLTPDPS----GEFMFDFDGDEIFHVDM 54 红毛猩猩 MLGVFIIAVLMSAQESRA--IKEEHVIIQAEFYLNPDQS----GEFMFDFDGDEIFHVDM 54 欧洲野兔 VLGFFIIAILMSPQKSWA--IKEEHVIIQAEYFLSPDDL----GEFMFDFDGDEIFHVDM 54 亚洲水牛 ILGLFIT-VLISLQESWA--IKEDHVIIQAEFYLKPEES----AEFMFDFDGDEIFHVDM 54 肩峰牛 ILGLFIT-VLIGLQESWA--IKENHVIIQAEFYLKPEES----AEFMFDFDGDEIFHVDM 54 褐家鼠 VIRFFFMAVLMSPQKSWA--IREEHTIIQAEFYLSPDQN----GEFMFDFDGDEIFHVDI 54 人 LLGALALTTVMSPCGGED-IVADHVASCGVNLYQFYGPS----GQYTHEFDGDEQFYVDL 55 大猩猩 LLGALALTTVMSPCGGED-IVADHVASCGVNLYQSYGPS----GQFTHEFDGDEQFYVDL 55 成都麻羊 ILGALALTTVMSPSGSED-IVADHIAAYGINVYHSYGPS----GHYTHEFDGDEEFYVDL 55 野猪 MWGAVALTTVMSACGGED-IAADHVASYGLNVYQSYGPS----GYFTHEFDGDEEFYVDL 55
- 17 -
欧洲野兔 ----------------------------------------------------DEQFYVDL 8 小家鼠 ILGVLALTTMLSLCGGEDDIEADHVGTYGISVYQSPGDI----GQYTFEFDGDELFYVDL 56 鹪鹩 IWGILALATTLSPCGGEDDIKADHVGIYGMTMYQSHKPN----GQYIFEFDGDELFYVDS 56 绵羊 ILRALALAAMMSLCGGED-IVADHVGTYGTNVYQTYGAS----GQFTFEFDGDELFYVDL 55 家马 VLGLHTLMTLLSPQEAEA-IKADHMASYGPAFYQSYGAS----GQFSHEFDGEQLFSVEL 55 大熊猫 VLGLHSLMSLLSPHEAGA-IKADHMGSYGPAFYQSYGAS----GQFSHEFDGEQLFSVDL 55 野驴 VLRTLSLAFLLSLRGAGA-IKADHVSTY-AAFVQTHRPT----GEFMFEFDEDEQFYVDL 55 非洲爪蟾蜍 ---MISVCALLVLGLKASDAVTVDYFDYGTDYYQSYGPS----GEYLFLYNENELFHVDL 53 原鸡 LSGAAVPLLLLGVLGGVG-AVLKPHVLLQAEFYQRSEGPDKAWAQFGFHFDADELFHVEL 59 三文鱼 ---------CWQVYAEHK-VLHIDLYISGCSDSD---------GLDMYGLDGEEMWYADF 42 大黄鱼 MMKMIVVLVLSSVHCESADTLQEDLCIFGCSASD---------GEFMYGLDGEETWYADF 52 大西洋鲱 MTLTWILLLLTGIICTETKIVHVDIALVGCTDSD---------GEKMFGLDGEEKGHADF 52
家猫 EKKETVWRLEEFGRFASFE---AQGALANIAVDKANLDILIKRSNNTPNTNEPPEV-TVL 110 家犬 EKKETVWRLEEFGRFASFE---AQGALANIAVDKANLDTMIKRSNHTPNTNVPPEV-TVL 110 红毛猩猩 AKKETVWRLEEFGRFASFE---AQGALANIAVDKANLEIMTKRSNYTPITNVPPEV-TVL 110 欧洲兔 DKKETVWRLKEFGQFASFE---AQGALANIAVDRANLDIMIKRSNHTPDTNVPPEV-TLL 110 亚洲水牛 TKKETVWRLPEFGHFASFE---AQGALANMAVMKANLDIMIKRSNNTPNTNVPPEV-TLL 110 肩峰牛 GKKETVWRLPEFGHFASFE---AQGALANMAVMKANLDIMIKRSNNTPNTNVPPEV-TLL 110 褐家鼠 KKSETIWRLEEFAQFASFE---AQGALANIAVDKANLDIMIKRSNNTPDANVIPEV-TVL 110 人 ERKETAWRWPEFSKFGGFD---PQGALRNMAVAKHNLNIMIKRYNSTAATNEVPEV-TVF 111 大猩猩 ERKETAWRWPEFSKFGGFD---PQGALRNMAVAKHNLNIMIKRYNSTAATNEVPEV-TVF 111 成都麻羊 EKKETVWRLPEFSKFVGFD---PQGALRNMASGKQTLEIMIQSSNSTAATNKVPEV-TVF 111 野猪 EKKETVWRLPLFSKFTSFD---PQGALRNIATAKHNLNILIKRSNNTAAVNQVPEV-TVF 111 欧洲野兔 DKKETIWRLPEFSRFASFD---PQGALGNIATERYNLDIMIKRSNSTAAINEVPEV-TVF 64 小家鼠 DKKETVWMLPEFGQLASFD---PQGGLQNIAVVKHNLGVLTKRSNSTPATNEAPQA-TVF 112 鹪鹩 DKKETVWRIPEFGELTSFD---PQGGLQDIATVKHNLEILTKRSNSTPATNKVPEV-TVL 112 绵羊 RKKETVWRLPEFNNITMFE---IQSALRNIVMSKRNLDILMKNSNFTPATNDIPEV-AVF 111 家马 KKREAAWRLPEFGDLTRFD---PQNGLASIAMIRVHLEVLVERSNRTRAINVPPRV-TIL 111 大熊猫 KKRETVWRLPEFGNFAYFD---PQNGLASIAMIRAHLDVLVERSNRTRATNVPPRV-TVL 111 野驴 DKKETVWHLEEFGRAFSFE---AQGGLANIAILNNNLNITIQRSNYTQAANDPPEV-TVF 111 非洲爪蟾蜍 ESKSVVWTLPGLEKYTSFD---PQGGLQDINIAKYNLDVMMKRPNFTAATNIPPLV-SVY 109 原鸡 DAAQTVWRLPEFGRFASFE---AQGALQNMAVGKQNLEVMIGNSNRSQQDFVTPEL-ALF 115 三文鱼 NKGEGVVALPPFADPFTFP-GFYEGAVGNQGVCKANLAVNIKAYKNPEEKIDPPHS-SIY 98 大黄鱼 VRGKGVEPQPSFVDHVSYVEGTYEGAVGALAACKQNLKYHIKPFKDFPVERDPPSSPMIY 112 大西洋鲱 TKGKFIMTLPEFADPFKYEEGAYEGAVRDKEVCKQNLQVAIQAYKSPAEAEAPPMS-SIY 111 :: .: . : : :..: . *
家猫 SNSPVELGEPNILICFIDKFSPPVINVTWLRNGKPVTTGVSETVFLPRE-DHLFRKFHYL 169 家犬 SNTPVELGEPNILICFIDKFSPPVINVTWLRNGNPVTTGVSETIFLPRE-DHLFRKFHYL 169 红毛猩猩 TNSPVELREPNVLICFIDKFTPPVVNVTWLLNGKPVTTGVSETVFLPRE-DHLFRKFHYL 169 欧洲兔 PSSPVELGEPNVLICFIDKFSPPVINVTWLRNGNPVTMGVSETVFLPRD-DHLFRKFHYL 169 亚洲水牛 PNKPVELGEPNTLICFIDKFSPPVISVTWLRNGKPVTDGVSQTVFLPRN-DHLFRKFHYL 169
- 18 -
肩峰牛 PNKPVELGEPNTLICFIDKFSPPVISVTWLRNGKPVTDGVSQTVFLPRN-DHLFRKFHYL 169 褐家鼠 PKSPVNLGEPNILICFIDKFSPPAVNVTWLRNGQPVTKGVSETVFLPRE-DHLFRKFHYL 169 人 SKSPVTLGQPNTLICLVDNIFPPVVNITWLSNGQSVTEGVSETSFLSKS-DHSFFKISYL 170 大猩猩 SKSPVTLGQPNTLICLVDNIFPPVVNITWLSNGHSVTEGVSETSFLSKS-DHSFFKISYL 170 成都麻羊 SKSPVMLGQPNTLICHVDNIFPPVINITWLRNGHSVIEGTSETSFLSKD-DHSFSKISYL 170 野猪 PKSPVMLGQPNTLICHVDNIFPPVINITWLKNGHSVTEGFSETSFLSKN-DHSFLKISYL 170 欧洲野兔 SKAPVRLGQPNTLICLVDNIFPPVINISWLINGHSVTEGVFETSFLSKS-DHAFLKIVYL 123 小家鼠 PKSPVLLGQPNTLICFVDNIFPPVINITWLRNSKSVADGVYETSFFVNR-DYSFHKLSYL 171 鹪鹩 PKSPVLLGQPNTLICFVDNIFPPVINITWLKNSKSITDGVYETSFLSNS-DHSFHKMVYL 171 绵羊 PKSSVILGIPNTLICQVDNIFPPVINITWFYNGQFVAEGVAETTFYPKS-DHSFLKFSYL 170 家马 PKSRVELGQPNVLICIVENIFPPVINITWLRNGQTITEGVAQTSFYSQP-DHMFRKFHYL 170 大熊猫 PKFRVELGQPNVLICIVDNIFPPVINITWLRNGQIVSEGVAQTSFYSQP-DHLFRKFCYL 170 野驴 PKEPVALGQPNTLICHIDKFFPPVLNVTWLCNGEPVTEGVAESLFLPRT-DYSFHKFHYL 170 非洲爪蟾蜍 ITKPVVLGEPNILICCVTNIFPPVMNTTWIKNGEKITVGFSQTSFLPAQ-DHSFRRLHYL 168 原鸡 PAEAVSLEEPNVLICYADKFWPPVATMEWRRNGAVVSEGVYDSVYYGRP-DLLFRKFSYL 174 三文鱼 PRDDVDLGVENTLICHVSGFHPAPVRVRWTRNNQNLTEGVRLSTPYPNA-DFTLNQFSSL 157 大黄鱼 TKDDVELGEEDVLLCHVTGFSPAPVKVYWTKNGVNVTEGTSINAPHPNK-DGSYRQTSRL 171 大西洋鲱 PRHEVKVGTVNTLICYIAGFYPPRLTVRWTRNNKNVTQGVSSSQLRLNVNDLSFNQFFTL 171 : * : * : : *:* : *. * *. :
家猫 PFLPSTEDVYDCKVEHWGLDEPLLKHWEFDAPTPLPETTENVVCALGLIVGLVGIIVGTI 229 家犬 PFLPSAEDVYDCKVEHWGLDEPLLKHWEFEPPTPLPETTENVVCALGLIVGLVGIITGTI 229 红毛猩猩 PFLPSTEDVYDCKVEHWGLDEPLLKHWEFDAPSSLPETKENVVCALGLIVGLVGIIIGTI 229 欧洲兔 PFLPSTEDVYDCKVEHWGLEEPTLKHWEFEARTPLPETTENVVCALGLVVGLVGIIVGTI 229 亚洲水牛 PFLPTTEDVYDCKVEHLGLNEPLLKHWEYEAPSPLPETTENAVCALGLIVALVGIIAGTV 229 肩峰牛 PFLPTTEDVYDCKVEHLGLNEPLLKHWEYEAPAPLPETTENAVCALGLIVALVGIIAGTI 229 褐家鼠 TFLPSVEDYYDCEVDHWGLEEPLRKHWEFEEKTLLPETKENVLCVLGLFVGLVGIVVGIV 229 人 TFLPSADEIYDCKVEHWGLDQPLLKHWEPEIPAPMSELTETVVCALGLSVGLMGIVVGTV 230 大猩猩 TFLPSADEIYDCKVEHWGLDEPLLKHWEPEIPAPMSELTETVVCALGLSVGLAGIVVGTV 230 成都麻羊 TFLPSDDDIYDCKVEHWGLEEPLLKHWEPEIPAPMSELTETVVCALGLTVGLVGIVVGTI 230 野猪 TFLPSDDDFYDCKVEHWGLDKPLLKHWEPEIPAPMSELTETVVCALGLIVGLVGIVVGTV 230 欧洲野兔 TFLPSADDIYDCRVEHWGLEKPLLRHWEPEIPAPMSELTETVVCALGLAVGLVGIIVGTI 183 小家鼠 TFIPSDDDIYDCKVEHWGLEEPVLKHWEPEIPAPMSELTETVVCALGLSVGLVGIVVGTI 231 鹪鹩 TFIPSDDDVYDCKVEHWGLDEPVLKHWELDVTAPMSELPETVVCALGLSVGIVGIVVGTI 231 绵羊 TFVPASEDFYDCRVEHWGLEEPLVKHWEPKIPTPTSELTETVVCALGLPMGLMGIVVGTV 230 家马 TFVPSADDFYDCKVEHWGLAEPFLRHWEPQVPILPPDITETLICVLGLAIGLVSFLVGTI 230 大熊猫 TFVPFADDMYDCKVEHWGLEEPLLRHWEPQVPLPVPDTTETLICALGLALG----LVGTI 226 野驴 TFVPSAEDYYDCRVEHWGLDQPLLKHWEAQEPIQIPETTETVLCALGLVLGLVGIIVGTV 230 非洲爪蟾蜍 AFIPNEHDIYTCEVEHWGLEKPTRRVWKHDVPTPISEAYQNAICALGLAVGIIGIIAGVM 228 原鸡 PFVPQRGDVYSCAVRHWGAEGPVQRMWEPEVPEPPSESSATLWCAVGLAVGIAGIAAGTA 234 三文鱼 PFTPEEGDIYGCTVEHKGLAEPLTRIWEPEVIQP--SVGPAVFCGVGLTVGLLGVAAGTF 215 大黄鱼 EFTPQLGDVYSCTVKHLSLQHPLTMFWDVEVKQP--GVGPAVFCGLGLTVGLLGVAAGTF 229 大西洋鲱 NFTPQEGDMYTCTVEHQALEGPMTREFDVEVSEP--SLGPSVFCGVGLTLGLLGVATGTF 229 * . * : * * * : * * * * . * :. .
- 19 -
家猫 FIIKGMRKVNAGERR-GP------------------------------------------ 246 家犬 FIIKGMRKVKAGERR-GP------------------------------------------ 246 红毛猩猩 FIIKGVRKSNAAERR--------------------------------------------- 244 欧洲兔 FIIKGVHKGNATERR-GT------------------------------------------ 246 亚洲水牛 FIIKGVRKANTAERR-GP------------------------------------------ 246 肩峰牛 FIIKGVRKANTVERR-GP------------------------------------------ 246 褐家鼠 LIIKGLRKRNAVERRQGA------------------------------------------ 247 人 FIIQGLRS-VGASRHQGP------------------------------------------ 247 大猩猩 FIIQGLRS-VGASRHQGP------------------------------------------ 247 成都麻羊 LIIRGLRS-GGPSRHQGP------------------------------------------ 247 野猪 FIIQGLRS-GGPSRHQGS------------------------------------------ 247 欧洲野兔 LIIRGLRS-SGASRQQGP------------------------------------------ 200 小家鼠 FIIQGLRS-GGTSRHPGP------------------------------------------ 248 鹪鹩 FIIQGLRS-GGTSRHPGP------------------------------------------ 248 绵羊 LILRVRCS-GAASRRRRA------------------------------------------ 247 家马 LLIISTCL-SGAPRRRGP------------------------------------------ 247 大熊猫 LLIRGMCL-SSARRYRGP------------------------------------------ 243 野驴 LIIKSLRS-GRDPRAQGP------------------------------------------ 247 非洲爪蟾蜍 LIIKGMKQ-SAAQGRSQR------------------------------------------ 245 原鸡 LILRAVRR-NAANRQPGL------------------------------------------ 251 三文鱼 FLIKGNQCN--------------------------------------------------- 224 大黄鱼 FLIKGNECS--------------------------------------------------- 238 大西洋鲱 FLVKGNQCN--------------------------------------------------- 238 * :** :. * ::: (“*”号代表保守性极高的残基位点;“:”号代表保守性略低的残基位点)
重建系统发生树的方法有很多,各有优缺点。
因此在实际操作中,往往需要根据自
己的研究需要联合使用不同的购树方法以获得最佳分析结果。
距离建树方法根据一些尺
度计算出双重序列的距离,然后抛开真是数据,只是固定的距离建立进化树[9]。
由这些动物氨基酸序列的多序列比对从而做出分子进化树用TREEVIEW打开如下
图,从图中也可反映出它们进化关系的远近。
我们所构建出来的进化树只是对真实的进
化关系的评估或者模拟。
如果我们采用了一种适当的方法来对其进行评估,那么所构建
的进化树就会接近真实的“进化树”。
因为所要比较的序列氨基酸差别大,所以在构建此
进化树时,采用了距离依靠法,即进化树的拓扑形状由两两序列的进化距离决定的,进
化树的枝条的长度代表着进化距离。
- 20 -。