蛋白质3D建模-酶与底物分子模拟对接-autodock
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蛋白质3D建模-酶与底物分子模
拟对接-autodock
摘要
多环芳烃(polycylic aromatic hydrocarbons,PAHs)是一类典型的芳香烃类有机污染物,其种类繁多,常见的共有16种。
近年来多环芳烃的污染已经引起人们的高度重视,随着对PAHs 微生物降解研究的深入,已经发现大量在耗氧条件下对四环以下PAHs有降解能力的细菌,但微生物对五环及五环以上PAHs的降解能力较低,为了提高菌群的PAHs底物范围,对其降解途径中的关键酶进行分子改造具有非常重要的意义。
萘双加氧酶(Naphthalene dioxygenase,NDO)是多环芳烃降解途径中的关键酶,。
本论文通过计算机模拟的方式研究不同来源的萘双加氧酶与多环芳烃的相互作用规律,考察影响其活性中心口袋大小的关键氨基酸,为使用定点突变等基因工程技术提高萘双加氧酶的降解效率提供参考。
本实验从数据库下载了9种来源不同的萘双加氧酶的α亚基氨基酸序列,采用3种方式进行同源建模,经过3种方法对模型进行评价,选取质量最好的一组模型与16个PAHs分子进行对接。
通过比较这些不同菌种来源的NDO与PAHs的对接结果,寻找影响其相互作用的关键氨基酸。
实验结论如下:通过同源模建及模型评价,发现工具Phyre2获得的模型质量相对较好;使用Autodock Tools(ADT)将模型与PAHs进行对接后获得了不同来源NDO与PAHs相互作用的特征曲线,PAHs 环数的多少会显著影响NDO与PAHs的结合能力;通过对对接结果的统计,发现来自Rhodococcus sp.的萘双加氧酶(Q9X3R9)和PAHs的结合能最低,结合能力最强。
通过统计9种不同来源的NDO活性中心18个氨基酸的突变情况和偏移量发现,相对于实验室的JM-2序列,比较保守的氨基酸包括N205、F206、D209、H212、H217、G255、V264、D368、G208。
而这些不同来源的BDO活性中心氨基酸组成差异主要发生于V213、L257、H301、N303、T316、L364、A412七个位置,其变异性较强,结构位置不稳定,
对七个氨基酸进行改造,增大NDO的活性口袋,能增强酶对高环PAHs的结合能力,为NDO的分子改造提供参考。
关键词:萘双加氧酶;同源建模;分子对接;活性中心;蛋白设计
Molecular simulation of the interaction of naphthalene dioxygenase
and polycylic aromatic hydrocarbons
Abstract
Polycyclic aromatic hydrocarbons (PAHs) are a class of typical aromatic hydrocarbons organic pollutants which include 16 common congeners.In recent years,pollution due to PAHs has aroused great attention,as the research of biological degradation of PAHs presently, lots of microbe strains have been found with different abilities of degrading PAHs.Naphthalene dioxygenase (NDO) is a key enzyme in biologically degrading of PAHs. It can oxygenate a benzene ring of polycyclic aromatic hydrocarbons, and then metabolizes PAHs with the synergistic effect of other enzyme. In this paper, we mainly research molecular simulation of the interaction of naphthalene dioxygenase and polycylic aromatic hydrocarbons. We expect to understand the key animo acids in the active pocket.which can serve as a reference to improve the degradation efficiency of NDO using Site-direct mutagenesis or other gene engineering technology in the future. Results: in this experiment, we first download many amino acids s equences of α-subunit of Naphthalene dioxygenase derived from different strains and obtained 3D models by homology modeling, then chose the best model through different model assessing methods and ran molecular docking with 16 PAHs congeners. Conclusion:Through homology modeling and model assessing, the quality of model created by Phyre2 are found better; According to the docking results of model with PAHs using Autodock Tools(ADT), we draw the characteristic curve of interaction between PAHs and NDO which derived from different strains, and it reveals the numbers of the benzene ring observably effect on the combination; By the statistics of the docking results we find that the NDO(Q9X3R9) which from Rhodococcus sp. has the
前言
多环芳烃(Polycyclic Aromatic Hydrocarbons PAHs)是一类含有两个或两个以上苯环或者杂环的有机化合物。
是煤、石油、烟草、木材等有机物在不完全燃烧产生的状态下都能够产生多环芳烃。
产生的多环芳烃对土壤、空气和水体造成污染,由于这类物质具有脂溶性的特点,水溶性很差,几乎不能自然降解,即使极低浓度的污染物经年累积,也会达到有害浓度。
同时,由于多环芳烃能够通过食物链或者直接被人体摄入,尤其是大环多环芳烃,如苯并芘【α】和苯并【α】蒽,具有极强的致癌性。
近年来,有关对PAHs污染土壤的修复问题一直是研究热点。
修复PAHs污染一般有物理、化学、生物的方法,其中生物降解法具有环保、花费较低和不会造成二次污染的优势,被认为是最具有前景的PAHs污染方法。
在多环芳烃的降解过程中有一种至关重要的酶---萘双加氧酶。
萘双加氧酶是一个多组分酶系统,包括由phnAc和phnAd组成的铁硫蛋白酶,由phnAa构成的还原酶(reductase)和phnAb构成的铁氧化还原酶(ferredoxin)。
还原酶组分从NAD(P)H中释放电子,然后把电子转移到铁氧化还原酶。
铁氧化还原酶然后再将电子转移到加氧酶。
最终,加氧酶组分负责催化PAHs的双羟基化反应。
其中,加氧酶组分phnAc(α)和phnAd(β),是α3β3的四级结构,六聚体,蘑菇状。
3个大亚基构成蘑菇的伞盖,3个小亚基构成蘑菇的伞柄。
phnAc作为α亚基包含两个区域:Rieske区域和催化区域。
Rieske区域中心是由2个Fe和2个S构成,其中一个Fe和His82、His103配位,另一个和Cys80、Cys100配位。
催化区域活性中心由1个Fe构成,这个Fe与三个保守残基His207、His212和Asp360配位相连。
而phnAd(β)作为小亚基,它的主要作用是稳定结构。
Rieske 加氧酶系统是催化PAHs降解的关键步骤---苯环的加氧,所以微生物降解PAHs的能力很大程度上取决于萘双加氧酶的催化活性。
并且萘双加氧酶的催化产物顺式二醇也是很重要的工业原料。
本文通过序列对比和同源模建,构建出萘双加氧酶的三维结构,研究不同菌种来源的萘双加氧酶与PAHs的相互作用,寻找其活性中心起关键
作用的氨基酸,为萘双加氧酶的分子改造提供依据和参考。
实验方案为:从数据库下载了9种不同菌种来源的萘双加氧酶的α亚基氨基酸序列,进行同源建模,经过不同方法评价,选取结果最好的一组模型和16个PAHs同类物进行分子对接,分析对接结果,寻找影响其相互作用的关键氨基酸。
并以提高酶对PAHs的底物范围为目的,依据酶与底物的作用规律对实验室的酶进行分子改造,为NDO的定向改造提供参考。
1.文献综述
1.1微生物降解多环芳烃的研究现状
1.1.1 多环芳烃的理化性质
多环芳烃(Polycyclic Aromatic Hydrocarbons PAHs)是一类含有两个或两个以上苯环或者杂环的有机化合物。
是有机物在不完全燃烧产生的状态下产生的是一种重要的环境污染物,迄今发现有200多种,常见的一共是16种,如图1.1。
其中有相当部分具有致癌性,如苯并[α]芘、苯并[α]蒽等。
PAHs分布广泛,且由于结构的差异和环数的差异,使得他们在理化性质和环境毒性方面有很大的差别,一般为固体,易升华,熔点较高(萘为80℃),沸点更高(萘为218℃),且随着环数的增加而增加。
水溶性较差,极具脂溶性。
此外,PAHs在生物体内有很强的积聚性,并能通过食物链富集,是强烈的致癌剂。
图1.1 常见的多环芳烃(PAHs)结构
Fig1.1 structure formula of common PAHs
1.1.2 PAHs降解菌株的来源
目前发现的能降解PAHs的生物种类包括细菌、真菌、藻类和植物等。
其中研究较为成熟的降解PAHs的主要细菌有假单胞菌属,鞘氨醇单胞菌属和红球菌属,另外还包括:Pseudomons fluoresens;Mycobacterium sp; Haemophilus sp; paenibacillus sp. 在耗氧条件下参与降解的主要酶类包括双加氧酶,脱氢酶,异构酶、醛缩酶等。
其中的关键酶是第一个双加氧酶-萘/菲双加氧酶[1]。
1.1.3主要的萘双加氧酶的种类
微生物的萘双加氧酶为Rieske型萘双加氧酶。
其催化PAHs降解反应的第一步——苯环的加氧,是整个降解反应的限速步骤,因此细菌的降解能力很大程度上决定于萘双加氧酶的催化活性。
萘双加氧酶利用一分子氧,在还原型辅酶NAD(P)H辅助下,
催化底物双加氧形成顺式二醇。
反应方程式如下:
Naphthalene + NAD(P)H + H++O2 (+)-cis-(1R,2S)-dihydroxy-1,2-dihydronaphthalene + NAD(P)+
整个酶系统包括三个组分:由phnAc和phnAd组成的末端氧化酶,由phnAa构成的铁氧化还原蛋白还原酶和phnAb构成的铁氧化还原蛋白。
铁氧化还原蛋白还原酶首先将NAD(P)H 氧化成NAD(P)+,将捕获的两个电子储存在核黄素上,随之发生构像的变化,并先后与2个铁氧化还原蛋白形成电子传递复合体,当铁氧化还原蛋白还原酶将电子传递给铁氧化还原蛋白的[Fe-S]中心后,铁氧化还原蛋白发生构像变化,与铁氧化还原蛋白还原酶分离,转而与末端氧化酶发生作用,将电子传递到末端氧化酶的[Fe-S]中心,最后电子经过单核铁催化中心,在末端氧化酶的作用下,消耗一个氧分子,实现底物的双加氧作用,生成带有羟基的化合物。
其中,加氧酶组分phnAc(α)和phnAd (β),是α3β3的四级结构,六聚体,蘑菇状。
3个大亚基构成蘑菇的伞盖,3个小亚基构成蘑菇的伞柄(图1.2)。
phnAc作为α亚基包含两个区域:Rieske区域和催化区域。
Rieske区域中心是由2个Fe和2个S构成,其中一个Fe和His82、His103配位,另一个和Cys80、Cys100配位。
催化区域活性中心由1个Fe构成,这个Fe与三个保守残基His207、His212和Asp360配位相连。
而phnAd(β)作为小亚基,它的主要作用是稳定结构[2]。
目前已报道的有晶体结构的NDO来自假单胞菌Pseudomonas sp. NCIB 9816-4和Rhodococcussp strain NCIMB12038,他们的关键氨基酸和晶体结构类似,本论文以NCIB 9816-4为例,描述该类酶的结构特点:
图1.2 萘双加氧酶的α3β3六聚体晶体结构[1] Fig1.2 Crystal structure of naphthalene
dioxygenase α3β3 hexamer [1]
A B
图1.3 萘双加氧酶的α3β3六聚体晶体结构中的单核Fe催化中心和(A)Rieske [2Fe-2S]中心(B)[1] Fig1.3 Mononuclear iron catalytic domain (A) and Rieske [2Fe-2S] center (B) in crystal structure of naphthalene dioxygenase α3β3 hexamer [1]
①Rieske [2Fe-2S]结构域:由4个β折叠(3~15β折叠片)构成。
两个β折叠成三明治,夹在β14-β15-β3和β13-β6-β5之间。
两个发卡结构,卡住[2Fe-2S]中心。
第一个由β7、β8形成,第一个Fe离子配基在loop中(β7、β8)
第二个由β10、β11、β12形成,第二个Fe离子配基在β10、β11之中。
配位基团:Fe1是由Cys81和Cys101配位。
Fe2是由His83和His104配位(图1.3B)。
②催化结构域
是由9股反向平行的β股折叠构成。
β折叠的顺序从帽子顶开始是24-25-17-18-19-20-21-22-16。
且折叠股之间有密切的联系。
活性中心的Fe是由His208、His213和Asp362、H2O形成配基(图1.3A)。
形状类似于一个歪曲的八面双锥体,且丢失了一个配基。
Asn201是一个状态不稳定的配基,与底物结合的时候消失,构象变化。
一个α亚基和另一个α亚基之间通过氢键和Asp205进行电子传递。
③活性中心布置
活性中心到酶表面由一道峡谷,即活性中心的入口。
Gorge上方有两个环状结构,掩盖了部分入口。
通道最窄的的地方包括两个组氨酸和Asn201,Phe202和Phe352,并且都是疏水氨基酸。
Fe下方的活性中心口袋线性排列着Asp316、Val326、Asn363、Met366、Tyr103和一个保守的盐桥在Lys314和Glu359之间。
在Gorge上方有残基Ala206、Val209、Leu217、Asn297、Leu307和Trp358。
催化活性中心的Fe2+是通过Rieske 中心从铁氧化还原蛋白获得电子再生[3]。
Rhodococcussp strain NCIMB12038与Pseudomonas sp. NCIB 9816-4同源性仅为30%,但NCIMB12038也包括两个金属中心,Rieske domain和活性中心,铁原子的配位基团类似,且除表1.1所示几个关键氨基酸不同外,其它关键氨基酸皆相同。
另外,二者结构最大的区别是NCIB 9816-4的N-端是meandering loop,C-端是α螺旋,而NCIMB12038的N-端是α螺旋,C-端是无α螺旋[4]。
表1.1 Rhodococcussp strain NCIMB12038与Pseudomonas sp. NCIB 9816-4萘双加氧酶的不同关键氨基酸[4]
Table 1.1 the Amino acid difference in the catalytic domain between Rhodococcussp strain NCIMB12038 and Pseudomonas sp. NCIB 9816-4[4]
Pseudomonas sp. NCIB 9816-4
Rhodococcussp strain NCIMB12038
V209 T217
F307 L307
F368 W358
H295 N297
另外,目前已经获得晶体结构且同属于Rieske型双加氧酶的来自于鞘氨醇单胞菌属Sphingobium yanoikuyae B1的联苯双加氧酶和Pseudomonas sp. NCIB 9816-4的相似度为43.5%,但由于活性中心入口处周围侧链的差异,导致其底物入口变大;并且在形成的活性中心的21个残基中,有六个残基不同(表1.2),使其活性中心容积变大。
这些结构差异导致Sphingobium yanoikuyae B1能催化五个苯环的大的多环芳烃化合物,
且能利用联苯或多环芳烃萘、菲、蒽作为它们的唯一碳源。
表1.2 Sphingobium yanoikuyae B1与NCIB 9816-4相比活
性中心氨基酸差别[5]
Table 1.2 the Amino acid difference in the catalytic domain between Sphingobium yanoikuyae B1 and NCIB
9816-4[5]
NDO-OB1 NDO-P
Thr308 Ser310
Leu356 Trp358
Phe224 Leu223
Phe235离活性中心较远;Leu223的侧链体积小。
Ros的活性中心入口类似一个倒置的漏斗,一个狭窄的孔通往一个宽阔的大厅[5]。
1.1.4 萘双加氧酶对PAHs降解情况
通过对NDO-P 降解PAHs 数据的了解,我们可以充分了解酶对不同环数的多环芳烃的降解能力,针对最难以降解的底物进行研究。
降解数据见表1.3[6]。
表1.3 NCIB 9816-4降解PAHs 的情况Table 1.3 the survey of PAHs degraded by NCIB
9816-4
cis-Dihydr odiol Stereoch
stry ative yield (%)
Naphthale ne
(+)-1
R,2S
10
0%
Anthracen e
(+)-I
R,2S
10
0%
Phenanthr ene
(+)-3
S,4R
90
%
Acenaphth ylene
cis-
1,2
70
%
Fluorene
3S,4
R
85
%
1.2同源建模发展情况
1.2.1同源建模的意义
蛋白质三维结构数据的测定法法包括:X-ray、NMR和同步辐射光源。
X射线的特点是可做大蛋白结构分析、需要蛋白结晶,但是多数蛋白无法结晶,所以能够用X射线测出晶体结构的蛋白非常少。
而NMR无需结晶,但只能做中、小蛋白质,序列范围为几百个氨基酸残基。
上述方法各有优缺点,导致不是每一条新发现的蛋白质的三维结构都能够被精确测定。
但是实验室对酶和蛋白的研究又急需新蛋白的三维数据。
由于DNA数据的增速(见图1.4),远远大于蛋白质结构数据的增速(见图1.5)。
通过DNA序列预测出来的蛋白质数量和已测定结构的蛋白质数量(PDB数据库)之间的差距越来越大,我们希望蛋白质结构测定的速度能够跟上蛋白质序列产生的速度。
图1.4 UniprotKB/swiss-prot 蛋白质数据增加
情况
Fig1.4 the increase of protein in
UniprotKB/swiss-prot database
图1.5 PDB数据库中蛋白质结构数据增加情况Fig1.5 The increase of protein structure in PDB
1.2.2同源建模的概念
在这种情况下,随着近年来信息技术的兴起,蛋白质结构预测技术的发展,运用计算机技术获得蛋白三维结构已经成为比较成熟的方法。
同源建模技术具体是指在已经存在晶体结构的蛋白质中寻找与目标序列同源性较高(一般>30%)的蛋白作为模板,模拟构建目标序列的三维结构。
其基本原理是任何一对蛋白质,如果两者的序列等同部分超过30%,则它们具有相似的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠区域的一些细节部分有所不同[7~9]。
1.2.3 同源建模的一般流程
同源建模的一般流程为[10]:
⑴搜索结构模型的模板
利用Blast工具,将目标序列在蛋白质结构数据库(PDB)进行同源搜索,寻找与目标序列有较高同源性的蛋白质,选择同一性较高,分辨率较高且与底物形成复合物的结构作为模版。
⑵序列比对
通过目标序列与模板序列的比对确定目标序列的保守结构,使其残基匹配,比对中允许插入和删除操作。
⑶建立模型
建立模型分三个部分,第一个是模型骨架建立,通过比对,使用模板结构中匹配残基的骨架;第二个是蛋白质的侧链建立,用构建的骨架与已知数据库进行比对,寻找相同的片段,借此从数据库中提取局部结构数据;第三个是蛋白环区的建立,环区是指二级结构之间的区域,经验性方法是从已知结构的蛋白质中寻找一个最有的环区,使用其结构数据。
另一种方法是从头计算,一句量子化学原理计算其能量最低结构。
⑷优化模型
上述步骤得到了的初步结构模型,需要进行优化、改进,让模型内部重要区域或者整个模型的键长和键角处于合理位置,是对接结果更接近事实。
具体方法:分子力学、分子动力学、模拟退火等。
⑸模型评价
我们采用多种方式建模,所建结果就需要用不同的方法去评价,从而确定最终对接使用的模型。
不同的评价方法从不同的角度去评价模型的质量,我们根据需要选择。
目前有很多服务器和网站提供模型的评价,评价结果可以作为模型合理性的参考数据。
1.3 蛋白质和蛋白质结构数据库
1.3.1蛋白质结构数据库
⑴PDB( /pdb/home/home.do)
蛋白质结构数据库PDB是世界唯一的生物大分子3D结构数据仓库,包含蛋白质和核算。
这些生物大分子是在所有生物中发现的,包括细菌,酵母,植物其他动物和人。
理解一个分子的结构有助于理解它是怎样工作的。
这些知识能够帮助推断一个分子的结构在人类疾病中扮演的脚色,还能帮助开发药物。
仓库中的数据包括小蛋白、小片段DNA到复杂的分子机器例如核糖体。
PDB是免费的,数据库在每周三更新。
PDB在1971由布鲁克海文国家实验室建立,1998年结构生物信息合作研究室管理(RCSB)PDB。
PDB收集的数据包含X-ray和核磁共振(NMR)产生的数据。
同时PDB还支持了一个网站,访问者可以来执行简单的查询搜索功能。
使用PYMOL等三维结构显示工具可以按照PDB的格式现实生物大分子的三维结构。
⑵MMDB (/sites/entrez?db=structure)
分子模型MMDB 是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。
与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等。
还提供生物大分子三维结构模型显示、结构分析和结构比较工具。
⑶SCOP http(/scop/)
SCOP数据库( /scop/)的目标是提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。
SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。
可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次是家族、超家族和折叠:
(1)家族:具有明显的进化关系
(2)超家族:具有远源进化关系,具有共同的进化源
(3)折叠类:主要结构相似
SCOP 还提供一个非冗余的ASTRAIL 序列库,这个库通常被用来评估各种序列比对算法。
此外,SCOP 还提供一个PDB-ISL 中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。
⑷PROSITE ( http://www.expasy.ch/prosite/)
PROSITE ( http://www.expasy.ch/prosite/)是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。
PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。
PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。
在特殊情况下,目标序列与已知结构的蛋白质的整体序列相似性很低,但是由于功能的需要保留了许多与功能密
切相关的序列模式,就可以通过它搜索到隐含的功能motif。
1.3.2蛋白质数据库
⑴PIR (/)
PIR是国际上最大得公共蛋白序列数据库。
它是为了帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组而建立的。
它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。
包含超过535698条蛋白质序列(至2012.04)。
所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。
除了蛋白质序列数据之外,PIR还包含以下信息:
(1)蛋白质名称、蛋白质的分类、蛋白质的来源;
(2)关于原始数据的参考文献;
(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;
(4)序列中相关的位点、功能区域。
PIR提供三种类型的检索服务:
一是基于文本的交互式查询,用户通过关键字进行数据查询。
二是标准的序列相似性搜索,包括BLAST、FastA等。
三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。
(2)UniprotKB/Swiss-Prot(http://www.expasy.ch/sprot/sprot-top.html)Swiss-Prot是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过人工注释的。
SWISS-PROT数据的不同来源:
(1)从核酸数据库经过翻译推导而来;
(2)从蛋白质数据库PIR挑选出合适的数据;
(3)从科学文献中摘录;
(4)研究人员直接提交的蛋白质序列数据
在SWISS-PROT中,数据分为核心数据和注释两大类。
核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)。
注释包括:
(A)蛋白质的功能描述;
(B)翻译后修饰;
(C)域和功能位点,如钙结合区域、ATP结合位点等;
(D)蛋白质的二级结构;
(E)蛋白质的四级结构,如同构二聚体、异构三聚体等;
(F)与其它蛋白质的相似性;
(G)由于缺乏该蛋白质而引起的疾病;
(H)序列的矛盾、变化等。
1.4序列比对
1.4.1 序列对比的意义
序列比对,是生物信息学的核心研究内容之一,也是各种序列分析任务的基本方法。
在生物学研究过程中,为了确定新测序列的生物属性,经常需要进行序列同源性分析,就是将新序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其他序列间的同源性大小。
这是理论分析方法中最关键的一步。
完成这一工作通常使用序列比对的方法。
不仅如此,在蛋白质结构预测等,序列比对也是最为重要的一种方法。
序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失以及序列重组等遗传变异过程分别演化而来。
序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。
一般认为蛋白质的结构和功能比序列具有更大的保守型,如果序列之间的相似性超过30%,它们很可能就是同源的。
1.4.2原理和方法
序列的比对方法可以按不同的标准进行划分,目前,已知的序列比对方法很多,包括全局序列比对,局部序列比对.根据参与比对序列的数目,可以把序列比对分为两序列比对和多序列比对。
最重要的是打分函数和空位罚分。
(1)全局序列比对(Global Alignment)
全局序列比对:对序列进行全程扫描,考察两条序列整体之间的相似性情况,在给定得分值的情况下进行序列比较。
全局序列比对利用了动态规划的思想,在给定的两条序列全部长度上进行比对,得到全长序列最优比对.两条序列在全局范围内,只有两个字母是完全匹配的,其他位置都没有好的匹配,说明这两条序列经过全局比对,没有大的相似性。
(2)局部序列比对(Local Alignment)
局部序列比对:当两条序列进行比对时,找出待比对序列中的某一子片段的最优比对,但是这个最优比对,不一定是全局最优比对的片段.许多蛋白质在全局范围内并不具有相似性,就需要在局部范围里考虑,在大多数情况下,使用局部比对是较为合理的,这种比对方法可能会揭示一些匹配序列段,而本来这些序列段是被一些完全不相关的残基所淹没的。
因此如果使用全局比对,很可能会掩埋一些局部的相似性。
(3)两两序列比对(Pairwise Sequence Alignment)
两两序列比对:就是把两条未知的序列进行排列,通过字母的匹配(Match),删除(Delete)和插入(Insert)操作,使得两条序列达到同样长度,在操作的过程中,尽可能保持相同的字母对应在同一个位置。
但是,在比对中通过加入空格,就可以得到比较好的比对生物序列比对第一章序列比对另外,也可以得到另~种比较合理的比对。
(4)多重序列比对(Multiple Alignment)
在序列比对时,两两比对远远不能满足当今生物研究的需要,难以找出多条序列的共性,就要求我们进行多重序列比对。
多重序列比对:就是参加比对的序列数目不止两条,通过字母的匹配(Match),删除(Delete)和插入(Insert)操作,通过比对找出多条序列的共性。
与序列两两比对不同,多重序列比对的目标是找出多条序列的共性多重序列比对,是生物信息学研究一个主要的方法,随着DNA测序方法的快速发展,将未知的序列同整个数据库的已知序列进行比对,从而找出相似序列,就成了最常用的方法。
同时多序列比对还可以辅助检查一个序列家族中的全局相似性和进化亲缘关系。
通过序列的多重比对,找出相对保守的子序列,就是家族的特征序列。
当遇到一条未知序列时,通过比对,判断这条序列是不是属于这个家族。
字母的排列,构建多个动态规划矩阵,由于实际数据利用多维的动态规划矩阵进行序列比对相当困难,因此就需要利用好的算法来降低复杂度[12]。
1.4.3 算法和工具
算法基本上都是基于动态规划思想的。
相对于两两序列的算法,多序列比对算法发展的还不够成熟,比较常用的有隐马尔可夫模型。
FASTA是第一个被广泛应用的序列比对和搜索工具包,包含若干个独立的程序。
FASTA为了提供序列搜索的速度,会先建立序列片段的―字典‖,查询序列先会在字典里搜索可能的匹配序列,字典中的序列长度由ktup参数控制,缺省的ktup=2。
FASTA 的结果报告中会给出每个搜索到的序列与查询序列的最佳比对结果,以及这个比对的统计学显著性评估E值。
FASTA工具包可以在大多提供下载服务的生物信息学站点上找到。
BLAST是现在应用最广泛的序列相似性搜索工具,相比FASTA有更多改进,速度更快,并建立在严格的统计学基础之上。
NCBI提供了基于Web的BLAST服务,用户可以把序列填入网页上的表单里,选择相应的参数后提交到数据服务器上进行搜索,从电子邮件中获得序列搜索的结果。
BLAST包含五个程序和若干个相应的数据库,分别针对不同的查询序列和要搜索的数据库类型。
其中翻译的核酸库指搜索比对时会把核酸数据按密码子按所有可能的阅读框架转换成蛋白质序列。
目前使用最广泛的多序列比对程序是CLUSTALW(它的PC版本是CLUSTALX)。
CLUSTALW是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列。