全基因组关联分析的原理和方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
全基因组关联分析(Genome-wide association study;GWAS)是应用基因组中数以百万计的单核苷酸多态性(single nucleotide ploymorphism,SNP)为分子遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。
随着基因组学研究以及基因芯片技术的发展,人们已通过GWAS方法发现并鉴定了大量与复杂性状相关联的遗传变异。近年来,这种方法在农业动物重要经济性状主效基因的筛查和鉴定中得到了应用。
全基因组关联方法首先在人类医学领域的研究中得到了极大的重视和应用,尤其是其在复杂疾病研究领域中的应用,使许多重要的复杂疾病的研究取得了突破性进展,因而,全基因组关联分析研究方法的设计原理得到重视。
人类的疾病分为单基因疾病和复杂性疾病。单基因疾病是指由于单个基因的突变导致的疾病,通过家系连锁分析的定位克隆方法,人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因,这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量,从而产生了符合孟德尔遗传方式的疾病表型。复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。目前已经鉴定出的与人类复杂性疾病相关联的SNP位点有439个。全基因组关联分析技术的重大革新及其应用,极大地推动了基因组医学的发展。(2005年, Science杂志首次报道了年龄相关性视网膜黄斑变性 GWAS结果,在医学界和遗传学界引起了极大的轰动,此后一系列GWAS陆续展开。2006年, 波士顿大学医学院联合哈佛大学等多个研究机构报道了基于佛明翰心脏研究样本关于肥胖的 GWAS结果 (Herbert等. 2006);2007年, Saxena等多个研究组联合报道了与 2型糖尿病( T2D )关联的多个位点, Samani等则发表了冠心病 GWAS结果( Samani 等. 2007); 2008年, Barrett等通过 GWAS发现了 30个与克罗恩病( Crohns ' disrease)相关的易感位点; 2009年, W e is s等通过 GWAS发现了与具有高度遗传性的神经发育疾病——自闭症关联的染色体区域。我国学者则通过对 12 000多名汉族系统性红斑狼疮患者以及健康对照者的GWAS发现了 5个红斑狼疮易感基因, 并确定了 4个新的易感位点( Han 等. 2009)。截至 2009年 10月,已经陆续报道了关于人类身高、体重、血压等主要性状, 以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种威胁人类健康的常见疾病的 GWAS结果, 累计发表了近万篇论文, 确定了一系列疾病发病的致病基因、相关基因、易感区域和 SNP变异。)标记基因的选择:
1)Hap Map是展示人类常见遗传变异的一个图谱 ,第 1阶段完成后提供了4个人类种族 [ Yoruban ,Northern and Western European , and Asian ( Chinese and Japanese) ]共 269个个体基因组,超过 100万个SNP (约
1 SNP / 3kb )及连锁不平衡区域 ( linkage disequilibrium, LD )关
系的图谱。第二阶段增加了其它的人类种族数据。基于 Hap Map可以选
择 500 000到1 000 000个覆盖全基因组的 SNP。
2)基因组拷贝数变异 ( copy number variations ,CNV )是 20世纪 80年代发现的在人类基因组中存在的多种类型的染色体数目和结构变异。
是指与参考序列相比,基因组中∃1 kb的 DNA 片段插入、缺失和 /或
扩增,及其互相组合衍生的复杂染色体结构变异。与 SNP相似,部分 CNV
在不同人群中以不同频率分离并具有显著性差异, 并可能影响基因表达
和表型改变,因此 CNV也是一种引起疾病或增加复杂疾病发病风险的重
要遗传变异。
GWAS采用的研究方式与传统的候选基因病例—对照(case-control)关联分析一致, 即如果人群基因组中一些 SNP与某种疾病相关联, 理论上这些疾病相关 SNP等位基因频率在某种疾病患者中应高于未患病对照人群。
动物重要经济性状即复杂性状GWAS分析方法的原理是,借助于SNP分子遗传标记,进行总体关联分析,在全基因组范围内选择遗传变异进行基因分型,比较异常和对照组之间每个遗传变异及其频率的差异,统计分析每个变异与目标性状之间的关联性大小,选出最相关的遗传变异进行验证,并根据验证结果最终确认其与目标性状之间的相关性。
GWAS的具体研究方法与传统的候选基因法相类似:
1)单阶段方法,即选择足够多的样本,一次性地在所有研究对象中对目标SNP进行基因分型,然后分析每个SNP与目标性状的关联,统计分析关联强度和OR值(计算出的OR值等于1时,则该因素的疾病发生不起任何作用;大于1时,该因素为危险因素;小于1时,该因素为保护因素。)。
2)目前GWAS研究主要采用两阶段方法/多阶段方法。
第一阶段用覆盖全基因组范围的SNP进行对照分析,统计分析后筛选出较少数量的阳性SNP进行。可以以个体为单位,也可以采用DNA pooling的方法(后者可大大降低及基因分型的成本和工作量)。。但是 DNA pooling的基因分型结果与对所有个体进行基因分型的结果仍有一定差异, DNA pooling估计的等位
基因频率标准差在 1 % ~ 4% 的范围, 因而若单独以 DNApooling来估计等位基因频率, 那么这种误差对全基因组的病例—对照研究的检验效能 ( power of test)有重要影响。
第二阶段或随后的多阶段中采用更大样本的对照样本群进行基因分型,然后结合两阶段或多阶段的结果进行分析。这种设计需要保证第一阶段筛选与目标性状相关SNP的敏感性和特异性,尽量减少分析的假阳性或假阴性,并在第二阶段应用大量样本群进行基因分型验证。
结果的统计和分析:
1)在GWAS用于病例-对照研究设计时,比较病例和对照组中每个 SNP等位基因频率差别多采用 4 格表的卡方检验 ( chi-square test ) ,并计算
OR及其 95%的可信区间 ( confidence interval , CI) ,归因分数
( attributable fraction , AF)和归因危险度 ( attributable risk , AR ); 同时需对如年龄、性别等主要混杂因素采用 Logistic回归分析,
以基因型和混杂因素作为自变量,研究对象患病状态为因变量进行分析。
2)GWAS用于研究随机人群的SNP与某一数量性状关联时 (如身高、体重、血压等) ,主要应用单因素方差分析 ( one-way ANOVA )比较 SNP位点 3
种基因型与所研究的数量性状水平的关系,需要调整混杂因素时则采用
协方差分析( analysis o f covariance)或线性回归
引起结果误差的主要原因有人群分层和多重假设检验调整。无论是 GWAS两阶段/多阶段设计, 还是采用 Bonferroni校正等遗传统计方法, 都难以解决人群分层及多重比较导致的假阳性或假阴性问题。GWAS不能仅凭 P 值判断某个 SNP
是否与疾病真正关联, 多种族、多群体、大样本的重复验证研究(replication)才是提高检验效能、确保发现真正疾病关联 SNP的关键。
【例】全基因组关联分析在乳腺癌易感位点筛选的应用
2007 年 6 月,乳腺癌关联协作组 ( Breast Cancer Association Consortium,BCAC) 首先报告了乳腺癌 GWAS 的结果,该研究共包括三个阶段: 第一阶段: 408 例家族性乳腺癌患者和400 名对照,266 722 个 SNP;
第二阶段: 3990 例乳腺癌患者和3916 名对照,12 711 个SNP;
第三阶段: 22 例病例-对照研究,合计21 860 例患者和22 578 名对照,
30 个 SNP。研究结果最终发现了5 个乳腺癌的易感性位点,4 个
位于已知基因: FGFR2 ( rs2981582) 、TNRC9 /LOC643714