两种HLA分型方法对比

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

doi:10.19369/ki.2095-9737.2019.08.001
两种HLA分型方法对比
原应博】,方铭2
(1.黑龙江八一农垦大学,黑龙江大庆163319'.集美大学,福建厦门361021)
摘要:对比两种HLA分型方法的准确率,通过使用polysolver方法和研究出的新方法这两种方法对100个个体的全基因组外显子测序数据(WES)进行分型,然后将两种方法的分型结果与这100个个体的sanger一代测序结果进行比较,找到新方法的优点和不足,并且为动物MHC基因研究提供算法基础$经过新方法的开发以及优化,最终与polysolver方法的结果进行比较,得出结论,发现研究的新方法与polysolver分型方法相比准确率相对较高,且运行时间相对较短$两种方法均只能对HLA—类分子进行分型,这一点在将来实验中会进一步改进$
关键词:HLA分型;polysolver;分型新方法;高通量测序数据
中图分类号:Q81文献标识码:A文章编号2095—9737(2019)08—0001—06
Comparison of Two HLA Typing Methods
Yuan Yingbo1,Fang Ming2
(1.Heilongjiang Bayi Agricultural UniversKy,Heilongjiang Daqing163319 ,China;2.JiMei UniversKy,Fujian Xiamen361021,China)
Abstract:Comparing the accuracy of two HLA typing methods,we typed the whole genome exon sequencing data(WES)of 100individuals by using the polysolver method and the new method developed.Then we compared the results of the two methods with those of the Sanger generation of these100individuals,and found that the new method is somewha t inade­quate.Moreover,it also provides an algorithmic basis for animal MHC gene research.After the development and optimiza-tionofthenew method,theresultsofthenew methodarecompared withthoseofthepolysolver method.Wefoundthat theaccuracyofthenew methodisrelativelyhigherthanthatofthepolysolvertypingmethod,andtherunningtimeisrela-tively shorter.Both methods can only classify HLA I—class,which will be further improved in the future.
Key words:HLA typing;polysolver;the new typing method;
MHC区域是人类基因组中基因最密集的区
域之一,位于人类6号染色体的短臂上(1)$而人类白细胞抗原(HLA)基因是MHC区域中研究最多的基因,它编码负责抗原肽在适应性免疫应答中呈递的细胞表面蛋白[2]$
人类白细胞抗原(HLA)基因与许多自身免疫
和感染性疾病表型相关,是区别自身和非自身之免疫学中的因,而的
库(—5)。

由于HLA基因在免疫学中的关键作用,HLA分型在临床背景下被广泛用于器官和造血干细胞移植中的供体和受体的匹配[6—7)$因此,确highKhroughpuKsequencingdaKa
定HLA基因的等位基因状态(HLA分型)对于群体测序项目中进行样品的免疫遗传表征检测是非常重要的$然而,HLA基因具有超多态性和序列性,的HLA基因一
性的$
目前用于HLA等位基因的高分辨率分型的金标准,基于序列的分型(SBT),使用Sanger测序或HLA基因的靶向扩增,然后进行下一代测序。

在现中使用的金标准为sanger测序的结果$现对两种HLA分型方法进行简单的比对,分别是polysolver和另一种新开发的算法。

两种方
收稿日期2019—03—22
基金项目:国家自然科学基金面上项目(31672399和31872560)$
第一作者简介:原应博(1993—),男,黑龙江八一农垦大学生命科学技术学院2017级硕士研究生$通讯作者简介:方铭(1979—),男,教授,博士研究生导师,E—mail:fangming618@
法均对100个个体的全基因组外显子测序数据(WES)进行HLA分型,通过与金标准对比来比对他们的结果。

Sachet A Shukla等()的poly­solver方法与新方法首先都是将WES数据与国际免疫遗传学数据库(IMGT)中的已知HLA基因文库对齐提高读数的精确性[10],之后使用no-voalign软件进行对齐,polysolver方法后续使用贝叶斯方法进行分型,而新方法对对齐之后的数据建立比对矩阵,通过一对等位基因在测序时匹配的read片段个数综合之后进行迭代比对的方法进行分型。

通过两种不同的方法对实验个体的测序数据进行分型,对分型结果进行比对,验证新方法的实验结果,同时比较两种方法的优劣,为动物MHC基因研究提供算法基础$
1两种方法介绍
1.1背景介绍及方法来源
主要组织相容性复合体(major histocompati­bility complex,MHC)是一组编码动物主要组织相容性抗原的基因群的统称(1)$人类的MHC位于人的6号染色体短臂上,小鼠的MHC位于小鼠的17号染色体上$MHC的长度大约为4X 106bp$人类的MHC也叫做HLA(human leuko­cyte antigen,HLA)复合体$小鼠的MHC则被称为H%2基因。

由于MHC的多基因特性,依据其编码分子的结构、组织分布与功能差异,可分为MHC I类、MHC II类、MHC III类基因,分别编码MHC I类分子、MHC II类分子、MHC III类分子(2)$人类的MHC通常被称为人类白细胞抗原(human lymphocyte antigen,HLA,以下简称HLA),位于第6染色体短臂6p21.31区域,占人 类基因组的1/30(3%14]$HLA基因主要分为四种类型,如表1$
通过改进HLA分型技术,不仅有利于快速准确地找到合适供者,大大地提高骨髓库的使用率,使其更好的服务于患者,而且可以为HLA的科学研究与技术创新提供基础性的数据支持,并且通过一系列的改进和完善,也可以为动物MHC基因研究基础$
表1HLA基因类型
HLA基因类型存在位置I型HLA—A、HLA—B和HLA—C广泛存在与各种组织细胞中
#型HLA—DP、HLA—DQ和HLA—DR存在于B细胞、巨噬细胞和活化T细胞中$型补体系统,包括C2和C4位点存在于血清中
%型可能是一些分化抗原
存在于细胞、细胞性T细胞和白细胞中
!!技术的不%HLA分技术%也逐渐从传统的血清学分型和细胞学分型转变为DNA分型(5)$传统的血清学分型主要借助的是微量淋巴细胞毒试验或称为补体依赖的细胞毒试验(6)$细胞学分型主要是通过纯合分型细胞(ho­mozygote typing cell,HTC)及预致敏淋巴细胞试验(PLT)对HLA分型[17%19]$DNA分型方法主要分为两种:基于核酸序列识别的方法和基于序列分子构型的方法(0)$
但是,由于传统的血清学方法、细胞学方法和DNA分型方法均需要动手实验,操作一系列的实验器材,调整所需要的一系列实验试剂,这一过程较于用软件分较和时,并且如在实验中作,者实验试
差,的是大的,
实验的工作量,浪费了宝贵的时间。

所以,如果采用软件分方大大人的作量,并且节省大量时间和实验所需材料。

基于此,笔者研发了一种新型的分型方法,致力于减少HLA分型的工作量以及工作时间$同时,将这种方法与Sachet A Shukla等的polysolver方法进行对比。

Polysolver的方法主要采用贝叶斯分类方法对HLA进行分型。

这两种方法均可以对HLA一类基因分$
在时,一金作
量结果的指标,在HLA分型中,PCR—SBT测序方法是现世界卫生组织(WHO)推荐的HLA分型方法的“金标准”(1)$而PCR—SBT测序方法就是的一方$者用Sanger ,100体的分作
金$
方的基因组
序数据,对于实验的操作以及前期数据的收集均,并且于实验的较也差,因,方$
1.2方法介绍
1.2.1数据来源
实验主大基因,在其
供的众多全基因组外显子测序数据中随机抽取100体作实验的主体。

同时,由华大基因100的sanger作为金$同时,由华大基因服务支持本次实验的顺利进行及结果比较$
国际免疫遗传学数据库(IMGT)提供多件(MSA),多件合并作,以构建HLA等位基因的全长基因组(2)$ IMGT,国际免疫学,是一于所有脊椎动物物种的免疫球蛋白、T细胞受体和主要组织相容性复合体的整合数据库,由Mane—Paule Lefranc,法国科学研究中心、法国蒙彼利埃第二大学发起并共同[23]$IMGT包括-数据库:LIGM—DB(面向免疫球蛋白和TcR)和MHC/HLA—DB。

IMGT由专家注释的序列和比对表组成(2)$LIGM—DB包含了来自78种物种的超过19000个免疫球蛋白和TcR序列。

MHC/HLA—DB包含了I类和II类HLA比对表$一个为免疫球蛋白、TcR和MHC序列比对而开发的IMGT工具DNAPLOT也是可用的$ IMGT与EMBL数据库紧密合作$IMGT的目标是建立一免疫学的通用J,包括序列、寡核昔酸引物、基因和免疫球蛋白、TcR和MHC分子的其,并一个图形化的用好的(10,22)$IMGT将对医学研究(自身免疫病、艾滋病、白血病、淋巴瘤)、治疗方法(抗体学)、基因组多样性和基因组化研究$因,国免疫学$
1.2.2Polysolver方法介绍
Polysolver方法首先将WES数据与MHC区域的,其中的HLA 基因,然novoalign软件将筛的HLA与IMGT中的HLA基因,在HLA基因上,最贝叶斯,在每个HLA基因上的测序数据、的大小以及每个种族的各位基因的先验该基因的似然值,较,彳一位基因类型,然一位基因位基因类型,从而得到该个体的HLA基因分$如1所示$
Polysolver
Align m ent>HLA Infe r e n ee
图1polysolver流程图
1.2.3新方法介绍
笔者方法构建了一个数据库。

为了更大限度的检索的HLA读数,笔者基于IMGT 中的多件(MSA)构建
HLA等位基因的全长基因组[24]$
新方法的主要步骤包括两步,首先,对在WES中HLA较的$在这一步中,笔者软件将WES数中的MHC区域,之的区域与之前构建好的IMGT参孝
的精度。

笔者在第一步中使用samtools 和Novoalign两个软件进行比对,设定好参数使每HLA读是最佳的(5—26)$
然,HLA其分$在这一步中,彳上一步的HLA统计,统计每一个HLA所比对上的reads个数以及read类,其统构建一HLA基因
与片段(reads)的关系矩阵,其中列名为reads 名称,行名为HLA基因名称,对应的矩阵位点如果是0,则表明该read未比对到对应的HLA上,如果是1则表明该read比对到相应的HLA,如表2所示$之迭的方分型$表2HLA与测序片段关系矩阵(例)
Readl Read2Read3Read4Read5 hla0101110
hla0210111
hla0301010
迭代匹配的方法如下所示:
(1)根据关系矩阵,尽心简单的统计获得比对在每一个HLA基因的read个数,通过排序比较,一个比对read个数最多的HLA基因,从而到一位基因的第一个基因,假设为A$以表1为例,三个hla中hla01号有3个read比对上,hla02号有4个,hla03号有2个,那么此时A 则hla02$
(2)笔者根据A,通过关系矩阵和穷举法,使A与每一个HLA基因进行比较,即关系矩阵的每一较,比较方A
所在的行与选定
的行进行统计,统计出两行均为1的列的个数,即均比对到HLA上read的个数,假X,以及独有1的列数,即仅到HLA 的read的,假B1,通过求B1与1/2的X 的和在有A验影响的条件下,厅HLA的比对的read个数,假定为sumread。

比较每一次统计的sumread结果,筛选出一对等位基因,从而得到另一个基因,假设为B。

此时初步分型结果为A,B。

(3)根据步骤(2)得到另一个基因B,采用步骤(2)的方法,得到选定的基因C。

如果基因C与A 不同,重复步骤(2),得到基因D,此时分
B,D,进入步骤(4)。

如果此时基因C与基因A相同,那么分B,C,即B,A。

(4)根据步骤(3)的分到的另一个基因为D,迭复步骤(3),得到最后的分型结果。

步骤(2)的公式如下示,
A1前一个HLA独有的read个数,
B1通过前一个HLA来推断的第二个HLA独有的read个数X正在推断的两个HLA类型共有的read个数
sumread两个HLA共有的read加权个数
sumr e ad=B1+XX0.5
图2算法公式
新方法流程图如下示:
图3新方法流程图13相关软件环境介绍
两种方法据需要在linux环境下运行,要用到samtools软件,novoalign软件,GATK软件以及pe r l软件,其中Pe r1需要biope r1、math::base-cacl、POSIX等一些模块来运行。

采用samtools 软件对全基因组式转换以及初步的数据比对;使用novoalign软件对samtools软件的处理一步的和筛选,使之更加准确;GATK全称是The Genome Analysis Toolkit,是Broad Institute开发的用于二代重测序数据分析的一款软件,里面包很多有用的主与变异的查找,基因分型且对于数据质量保证高度重视(1)。

软件的主体是由perl 语言写的,需要用到其中关于处理以及生物信息格式文件的处理模块$以上的组合,实现软件的运行$
1.4两种方法的简单使用
首先在LINUX环境中将所需要的依赖环境配置好,同时的软件安装到服务器上$软件的测试用全基因组
试和调试,是软件可以正常运行$配置好运行环境以及测试文件可以运行之后,就可以试验试$
两种方法使用的时候均需要输入WES测序数据。

通过写脚本使实验数据可以批量运行,由于使用的华大基因的服务器,可以将测试任务递交到后台自动运行,要注意服务器的承载限度,递交任务之后继续优化程序同时静待分型结果,polysolver分型结果输出在winnerhla.txt文件中%方的分在besthla.txt中$
2两种方法比较
通过对100个个体的进行分型,分型结果统计如表3$
表3分型结果统计表
测试个体数
polysolver分型

新方法迭代分型

HLA.A100100100
HLA.B1009393
HLA.C1009798
平均值10096.6797.00正—96.67%97.00%从表3笔者可以发现在对HLA的A类分子分型的时候,方法的分正确$在HLA的B类分分的时候%方
均出现错误,笔者初步判断错误是由于纯合子或者测序数据与数据库版本不匹配造成的,后续通过进一步实验来查明原因$在对HLA的C类分子进行分型的时候‘polysolver方法正确97个,而新开发的方法正确为98个,有了改进$在HLA 分型中,由于HLA分子种类繁多,其分型的难度也是一定的,仅仅改进一个个体也是很大的改进$假如基础实验个体不仅仅有100个,而是上万个甚至百万个的时候,这个改进可以大大降低分型错$
汇总以上三种分子的分型结果,笔者可以发现,采用新方法迭代分型的话正确率平均值为97%高于使用polysolver分型的96.67%$
在时间方面,由于软件的运行时间会受服务器状态的影响,实验采用的服务器由华大基因提供天津超算的接口,而服务器不仅仅只有一个人在用,并且服务器运行程序越多运行越慢,对时间的影响比较严重$因此,考虑到服务器的运行状态及其承载限度,对时间并未做详细的统计$但是在运行过程中,笔者粗略的比对了一下运行时间,根据表现来比较,新方法相较于polysolver方法要快一点$
3结论与讨论
较,方在上polysolve 方法要好一点,在为HLA—C分型时,新方法相较于polysolve方改$在运时方面,根据两个方法的表现,新方法要略快与poly­solve r方法,运行时间会随服务器型号以及服务器的运行状态来决定$因此,在运行时间方面的比较未作详细统计$
方改分,HLA分的
率得到了提升,尽管只有零点几的百分点,但是对于HLA分型来说是一个很大的改进,同时为HLA分型的软件方法又添加一项技术支持$但是,Polysolver方法与新方法都仅仅只能对HLA I—class进行分型,同时输入的数据要求为全基因组外显子测序数据。

针对该项不足,笔者对新方法正在进行改进,未来可以对HLA基因的#—class也可以分型$而且polysolver方法的数据库无法更新。

新方法的数据库需要手动更新,针对手动更新这一点正在改进,将来可以自动更新$ HLA分型仍然是现在医学的难题,特别是在现在短读长测序依旧盛行的时代。

虽然三代测序可以有效解决HLA的测序,但现阶段成本较低的依旧是以iilumina为首的测序分型。

当前市面的一些HLA分型开源软件基本可以分为两种,一种是基于WGS、WES、target—seq的软件,包括xh-la、SOAP—HLA、optitype等。

另一种是基于SNP芯片的软件,包括SNP2HLA、eHLA等,基于snp的分型准确率需要参考人群专一,比如中国北方汉族和中国南方汉族都不能用一个参考数据训练$而且分型的准确率较差,不能具有实用价值,一般只能分到四位$
相对于其他分型软件,新方法主要采用迭代较的方%不的改较的验%并
且反过来验证前一次推断的结果,从而使得分型的结果更加准确。

并且,可以根据IMGT官网最新数据来更新HLA等位基因数据库。

同时可以为动物MHC基因研究提供算法基础,通过更改数据库等操作实现为动物等其他物种分型$
参考文献:
Cao Hongzhi,Wu Jinghua,Wang Yu,et al An inte­grated tool to study MHC region:accurate SNV de-tectionand HLA genestypinginhuman MHCregion using targeted high—throughput sequencing[J].PloS one,2013,8(7):e69388.
[2]Dilthey Alexander T,Gourraud Pierre—Antoine,
MentzerAlexanderJ%etal3High—Accuracy HLA
TypeInferencefrom Whole—GenomeSequencingDa­
ta Using Population Reference Graphs[J].PLOS
Computational Biology201612(10):e10051513 [3]International Multiple Sclerosis Genetics Consortium%
Beecham Ashley H,Patsopoulos Nikolaos A,et al A-nalysisofimmune—relatedlociidentifies48newsus-ceptibilityvariantsfor multiplesclerosis[J]3Nature Genetics201345:1353—13603
[4]The Australo—Anglo—American Spondyloarthritis
Consortium%the We l come TrustCase ControlCon-
sortium%Evans David M%etal3Interactionbetween ERAP1and HLA—B27in ankylosing spondylitis im-
plicatespeptidehandlinginthemechanismforHLA—
B27in disease susceptibility[J].Nature Genetics% 201143:761—767.
[5]Genetic Analysis of Psoriasis Consortium%the We l-
comeTrustCaseControlConsortium%Strange Amy% etal.A genome—wideassociation studyidentifies new psoriasis susceptibility loci and an interaction be­tween HLA—C and ERAP1[J].Nature Genetics% 201042:985—990.
[6]Morishima Yasuo,Sasazuki Takehiko,Inoko Hidetoshi,
et al The clinical significance of human leukocyte an­
tigen(HLA)a l elecompatibilityinpatientsreceiving
a marrow transplant from serologically HLA一A,
HLA—B,and HLA—DR matched unrelated donors Blood,2002,99(11):4200—4206.
[7)Lee Stephanie J,Klein John,Haagenson Michael,et
al3High—resolutiondonor—recipientHLA matching contributestothesuccessofunrelateddonor marrow transplantation[J).Blood,2007,110(13):4576―45833
()张瑞丽,杜国栋,杨玉梅,等.一种新的HLA分型方法的介绍生物医学工程与临床.2017(1):103—1053
()Shukla Sachet A,Rooney Michael S,Rajasagi Mohi-ni%prehensiveanalysisofcancer—associat-ed somatic mutations in class I HLA genes[J).Nature Biotechnology%201533(11):1152—1158.
[10)Robinson James,Halliwell Jason A,McWilliam
Hamish,et al.The IMGT/HLA database[J].Nu­
cleic acids research%2013%41(Database issue):
D1222—D12273
(1)Rammensee H,Bachmann J,Emmerich N P,et al.
SYFPEITHI:database for MHC ligands and peptide
motifs]J).Immunogenetics,1999,50(3—4):213―
2193
[12)Pamer Eric,Cresswell Peter.Mechanisms of MHC
class I—restricted antigen processing[J).Annual Re-
viewofImmunology199816(1):323—3583 [13)Althaf Mohammed Mahdi,Kossi Mohsen El,Jin Jon
Kim,et al Human leukocyte antigen typing and
crossmaKch:Acomprehensivereview[J).WorldJour-
nalofTransplanKaion20177(6):339—348.
[14)Horton R,Wilming L,Rand V,et al Gene map of
theextended human MHC[J)3Nature Reviews Ge­
netics20045(12):889—8993
(5)刘川.HLA基因分型方法的进展实验与检验医
学201129(3)261—2623
[16)Chapuis A G RobertsI M ThompsonJ A etal3
T—Ce l Therapy Using Interleukin—21—Primed
CytotoxicT—Ce l LymphocytesCombined WithCy-
totoxic T一Cell Lymphocyte Antigen一4Blockade
ResultsinLong—Term Ce l PersistenceandDurable Tumor Regression[J)3Journal of Clinical Oncology
O f icialJournalofthe American Society of Clinical Oncology201634(31)3
(7)付东杰.HLA的分子生物学检测的临床分析医
2014(10)245—2463
(8)邹森,洪坤学.基于二代测序技术的HLA基因分型
进展检验医学与临床.2017,14(1)=144—146.
(9)匡国杰,许晓光,肖漓,等•肾移植受者抗HLA抗体
的研究进展[C)全国免疫学学术大会,2015.
(0)Alcantara Montero A,Sanchez Carnerero C I,Ibor
VidalPJ et al3CDC guidelines for prescribing opi-
oidsforchronic pain(J)3Semergen3201743(4):
e533
(21)3PCR—SSP/PCR—SBT
—HLA高分辨等位基因分型比较()中山大学学报
(医学科学版).2006,23(s1):21—24.
(22)JamesRobinson Wa l er Ma t hewJ PeterParham
et al.IMGT/HLA and IMGT/MHC:sequence data-
basesforthestudy ofthe major histocompatibility complex(J)Nucleic Acids Research200331(1):
311—314
(23)Giudice l i V Chaume D Lefranc G etal IMGT
(C)TheinternationalImMunoGeneTicsdatabase
2003
(24)James Robinson Kavita Mistry Hamish Mc Wil­
liam etal TheIMGT/HLA database(J)Nucleic
AcidsResearch2013409(1):43
(25)LiHeng HandsakerBob Wysoker Alec et al The
SequenceAlignment/Map(SAM)FormatandSAM-
tools(J)Bioinformatics200925(1Pt2):1653—
1654
(6)Schbath Sophie,Martin Veronique,Zytnicki Matthi­
as etal Mapping Readsona GenomicSequence: An Algorithmic Overview anda PracticalCompara-tiveAnalysis(J)Journal of Computational Biology A Journal of Computational Molecular Ce l Biology
2012,19(6):796—813.。

相关文档
最新文档