应用SAS软件分析CagA蛋白序列可变区的多态性
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第27卷第11期
南京医科大学学报2邮7年¨月
annotadn咕bec锄e 船q“e n c e&1h e characte强of repeat璺equenceg in v“且bk region 0f cagA am elucidaled the Wh01e 11l ei r
枷陀m昌0nable,moI;e sy耻em撕c andm【此special d啪befo他Becau鸵oftIle cha ra ct e五n ic si ll—y mo rp hi sm of ca gA p“nein 咖uences an d tlleir礼60nshiP“fh cytomxici【y,m rtIleⅢ驼archneedtobe doneb㈣d帆this studyt oun cover咖re咖k cIl larb i01晒calm ech明i sm&
[Key words] ca gA;da ta Jllining;polymorphis咖
[Act且univ M e d Nanjing.2007,27(11):122l·1227]
近十多年来.由于分子生物学技术的发展,各日):以“H elic oba cter pvlon AND CagA”关键词,检索公共生物信息库中积累了各物种上千万个基因、蛋N cBI蛋白数据库(hl lp:∥www.n cbi|nl m.nih90v/白的序列。
在这浩瀚如海的数据中挖掘有用知识,entrez/query.fc酊?CMD=search&DB=protein)获蛋白找出最有价值的信息.发现数据中存在的关系和规序列I 230条。
检索欧洲swiss-pm们mIⅡble蛋白数则.是生物信息学研究的主要内容。
据库[1ibs=(swiss.pmt tremble)-geneName:+cagA+]&幽门螺杆菌(^kf】!c06础w P—orf,H.p加丌f)与胃[Hbs-0r酗ni sm:
helicob acter pylo d]获575条序列。
检十二指肠疾病关系密切”】.是最早完成基因组全序索日本DDBJ蛋白数据库[(uNIPROT dadrel哪e
列测序的物种之一,在且p订D矗其致病机制中,其分dadnew p db)-All Text:he lic oba cte一]&[A llT ex七pylo ri+] 泌的毒力因子毒素相关基因(c”otoxjn ass o ci a t e d g e ne&[.AllTexc:AN胪]&[A加kx£:cagA+]获1 526条序A,ca异A)表达的蛋白CagA是日.P咖一最重要的毒列。
下载成文本文件(包括氨基酸序列及相关描力因子之一。
在Ca异A蛋白序列研究中发现,序列述),剔除非Can序列,用sAS 9.0读取构建CagA
中存在可变区,可变区巾存在重复EPIYA(谷氨酸一蛋白序列数据仓库.基因收录号、蛋白收录号、蛋白
脯氨酸一异亮氨酸一酪氨酸一丙氨酸)基序(motif),重序列及相关注释列作不同的变量。
复卜6次不等。
在宿主细胞内EPIYA序列中Y(酪1.2方法氨酸)可被磷酸化,磷酸化Ca酷蛋白与SHP.2结合1.2.1C《A序列的筛选后,强烈干扰细胞的信息传导通路,引起细胞骨架3个数据库下载的c矩A序列共有2278
个,首重构.呈蜂鸟样改变,同时导致细胞离散及浸润性先需要甄别、筛选,因为同一菌株在数据库中存在生长“1.从而使ca蛆具有致病性,EPIYA基序则重复登记(序列相同)或先后登记(序列长短
不同)。
被认为是Hp怕^的重要毒性标志之一。
同时cagA ①蛋白序列号相同者选其一:同一序列存在多个数
的生物学活性受E PI YA基序数及其间隔的氨基酸据库中.但蛋白序列号是相同的,因此,应用SA s功序列的影响,因此不同菌株的c矩A由于可变区类能剔除多余的序列号相同的序列(余700个);②氨型不同,毒性可能存在较大差异,并可能与HPyfD矗基酸序列完全相同者选其一:由于多次重复提交,致病性强弱有戈『71。
但目前对可变区多态性的认识同一序列有多个蛋白序列号,以整个蛋白序列作为仍停留在零碎、非系统的基础上。
一个字符串,比较后有相同者去除(去除117个);
在can研究中世界各地测定了大量的不同菌(爹同一菌株多个序列的选取:先选取全长序列,无全
株的C矩A序列。
现已有数百株,数千个序列之多,通长序列则选取3’端部分序列。
共选取486个序列。
过这些序列的研究与挖掘.有望进一步深入了解C醒A1.2.2C口A序列的整理加工可变区的结构特征。
然而数据挖掘技术是关键”1,本可变区内E P IY A重复次数及多态性的识别
与研究采用生物信息学软件序列分析比较与统计学提取各蛋白序列作为字符串,在E P I Y A前后插入软件数据加工整理技术相结合的方法,尝试对数百标识符号.按提取衍生变量,如第1个EPIYA基
序株的C罐A序列可变区进行统计分析,从而达到较称为Rl,第2为R3,第3为R5,后以此类推。
如变全面把握ca异A序列可变区多态性的目的,为序列量有空缺,提取相应序列片段作比对,观察是否为多态性与致病性的关系的进一步研究奠定基础。
氨基酸的突变、替换、缺失所导致,如有则记录并增
加为新的识别符。
再在其两侧插入标识符号。
重新1资料和方
法
运行提取衍生变量.反复多次直至将EPIYA及其突1.1资抖变体完全识别出来。
对于元EPlYA基序的序列,经
弟27卷第11期
2007年11月
徐顺福等:应用sAs 软件分析cazA 蛋白序列可变区的多态性 ·1223
端多变区进行研究分析。
仅有5 7端部分序列者不在研 E KLF GNS NNN NNG LKH NT)一般部位于第1个 究范围内.剔除后所剩序列366个(包括本实验事提 EP IY A 之前.在多变区偶有位于第2个EP IY A (3/ 交的3株序列ABM90639、ABM97494、ABM97495)。
10)与第3个EPIYA(6/10)之前。
KK(K(Q)VNKKK .
2个EP IYA 基序之间的间隔序列的识别与提 1’GOvA sPE)序列大多为14(12一16)粕,主要位于第 取2个EPIYA 基序之间的序列第1个称为R2.第 1个EPlYA 之.后。
R3c(QVAKKVNA KlDRLNQI A-
2个为R 4,第3为R 6,后以此类推。
随着E P IY A 重
SCLGGVGOAAGFPLKRHDKVDDLSKVGRSVSP)、R- 复次数及多态性的识别与提取,R2、R4 变量则 3D(OVAKKVSAKIDOLNEAlSAINRKIDRINKIASA- 相
应被识别、提取。
在最后1个E P IY A 基序后的序 GK GV G GF s GA GR S AS P )序列长49(45—50)a a 。
主要 列.与其他间隔序列比对后,可发现5’端一部分为 位于第2个EPIYA 之
后。
R4c(TIDDLcGPFP LK — 间隔序列外,3’大部分则各菌株基本相同,未再见有
RHDKV DDLS KVGL S)、R4D(TIDF DEAH OAGF Pl .R- 重复序列。
R S AA VN D Ls K VG Ls )序列长29(部分26)龃,主要位 确定可变区范围 如上所述.在CaEA 序列3’ 于第3个及第4个EPIYA 之后。
在R3c 与R4c 序 端最后1个E PI YA 基序及间隔序列以外,还有1个 列中均有一“F P L K R H DK v D E LI K V G ”基序。
这一基 相对保守区域.将其称为3’端未端保守区。
问隔序列 序是c 嘏A 分型中西方株特征序列之一,西方株
另 后的第1个氨基酸为R (精氨酸,以标准株26 695
一特征序列是R 4c 序列前8个氨基酸 为例,相当于第l ooo 氨基酸)在不同菌株中均存 “11DDLGGP”。
在
R3D 、R4D 序列中没有上述特点, 在。
非常保守.可以看作是3’端未端保守区的开始。
R 3D
序列与R 3C 序列相比“F P L K RH D KV D E u . 依据文献,将第1个E P I Y A 基序的上游5’端序列定
K VG ”序列变成“K I A S A GK G v G GF s G AG ”。
R 4D 序列
为保守区。
介于2个保守区则为C 矩A 的可变区。
在
366个有1株(BA B87471.3’端部分序列)序列末端
表l 卯株CagA 蛋白全长序列收
录号
T a b l Aeo e 商加m 蛐be r of CagA
pl —岫
∞mpleIe
未出现保守区起始标志(R )即结束,其可能不完整, 靶quen∞0f97对rai 弛
因此纳入分析统计的序列只有365条.其中97
条 为完整序列,268条为3’端部分序列(各株序列号见 表l 、2)。
1.3统计学方法
经上述方法将C 《A 序列可变区分解按序排列 后.可直观地观察各序列EPIYA 基序及其间隔序列 多态性特征(图1),并可进行统计分析。
对蛋白序列 比对分析采用软件Bio Ed it 7.O .数据整理、加工、分 析及统计采用软件S A S 9.0。
统计学方法采用f 检 验,P<0.05统计学有显著性差异。
表2 2胡株CagA 蛋白3’端部分序列收录
号
T a b 2
Acc 酬叫Ⅱ哪ber o f C a g A prot 血3’te 珊
inal
2结
果
2.1
可变区EPIYA 重复次数厦多态性分析 pa 哺al 辨qu 蛐唧0f 268 s“.ah B
EP IY A 基序除了E P I Y A 外,还有其他9种突变 型,9种突变型中Y (酪氨酸)均未被替换或缺失。
这
9种突变型占所有EPllfA 基孝的7.、渤(B6/n97),。