全基因组关联分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
25
研究方式
多阶段研究多为两阶段研究
694个体→
923个体→
26
两阶段研究
第一阶段的分析可以是以个体为单位,
也可以采用DNA pooling的方法,筛选出 较少量的阳性SNP
注意:要保证SNP的敏感性和特异性
后者简单,但误差大,其估计的等位基因 的频率标准差在1%—4%之间,对检验效 能有重要影响
联。在已实施的100余项GWAS和几千例患者样本的分析 结果发现,许多基因变异都是罕见的基因变异而不是关 键基因,有一些变异仅仅与疾病危险因子、诱发因子、 影响因子有关,而不是疾病直接相关联的基因
37
反思
在疾病/性状的发生过程中,基因是重要的,但不是 唯一的,除了基因以外,还有RNA、蛋白质等;除 了基因变异以外,还有转录、翻译、表观 (epigenetics)、构象、调节和功能的变化等。 最近国际基因组研究团队在冷泉港开会,研究、调 整、部署下一阶段基因组计划。提出应以“外显子” 为全基因组分析的中心。因为已发现多数与疾病相 关联的基因变异都发生在外显子,而且外显子数量 少,功能明确,分析相对容易、经济。
40
资料扩展
工作人员正在蓝色幽暗的“车间”内操作检测设备。 CG公司的基因组测序工作完全由机器人完成。
41
资料扩展
5月19-21日,由国际知名的自然出版集团(Nature Publishing Group)与安徽医科大学共同主办的2011年度全 基因组关联分析研究国际论坛(2011 Genome Wide AssociationStudy)在安徽医科大学隆重举行。此次论坛的 主题是“全基因组关联研究2011:机遇与挑战” (GWAS2011:Opportunity and challenge)。 专家代表紧紧围绕全基因组关联研究在发现常见疾病易感基 因应用过程中出现的常见问题、技术难点及其发展方向,以 及对全基因组关联研究推动转化医学进程进行了深入而广泛 的研讨。
35
局限性
36
反思
“所有的改变 , 即使是最令人期待的, 也有令人惆怅的 一面, 我们抛在脑后的一切仍如影随形”—阿纳托尔 · 法 朗士 (Anatole France, 1844~1924) 组关联研究(每人份的花费预计高达数百万美元 )
所得的结果庞杂无序,大多数的基因变异与疾病并不关
现在发现这种全基因组分析是高出低收 :昂贵的全基因
27
两阶段研究
第二阶段采用更大的样本对第一阶段筛
选出的阳性SNP进行分析 注:应用大样本人群甚至在多种人群中进行
基因分型验证
28
遗传统计分析
GWAS比较每个SNP等位基因频率差别多采用4格表的卡方检验,同时需对如年 龄、性别等主要混杂因素采用Logistic回归分析 。
在GWAS中,人群分层(population stratification)和多重假设检验调整 (multiple testing adjusting) 是引起研结果分析误差的最主要原因
全基因组关联分析
引言
概念
全基因组关联分析—— 英文名字叫Genomewide association study简 称——GWAS 全基因组关联分析—— 是指在人类全基因组范 围内找出存在的序列变 异,即单核苷酸多态 性(SNP),从中筛选 出与疾病/性状相关的
SNPs。
2
引言
概念
全基因组范围内的SNP
15
CNV
2006年11月23日,一个国际研究小组在Nature(2006, 444: 444)上发表研究报告称,通过分析270名亚洲、非洲和欧 洲健康者的DNA样本,发现了约2900个基因(至少占人类基因 总数的10%)含有特异DNA片段拷贝数变异(CNV)。研究者认 为,这些变异会影响基因活性,造成疾病易感性的个体差异。 此前学术界认为人类个体间基因组序列一致性达99.9%,该研 究结果对此提出了置疑。另外,随着第一代人类基因组拷贝数 变异图谱的完成,人们审视疾病与基因的关系又多了一种视角, 除了检测单核苷酸多态性(SNP),或者显微镜检染色体异常外, 还可对中间长度(数百万核苷酸)的DNA片段变异进行评价。
42
小结
GWAS的概念
与传统关联分析方法的比较
单基因性状 家系连锁分析
研究基础
表型选择 研究对象——SNP与CNV 技术支持
GWAS研究成果
研究方式 未来发展展望——反思
例如:胰岛素基因启动子中的遗传变异增加Ⅰ型糖尿病风险
通过统计分析遗传因素和性状/复杂疾病关联
确定与特定性状 /复杂性疾病关联的功能性位 点存在一定难度——同义突变、不在ORF等。
33
局限性
大部分常见遗传变异可能通过单独或联合作用
轻度增加疾病发生风险,而这些变异仅可解释 部分人群中因遗传引起的表型变异。
38
反思
所得的结果庞杂无序,大多数的基因变异与疾病并不关
联。在已实施的100余项GWAS和几千例患者样本的分析 结果发现,许多基因变异都是罕见的基因变异而不是关 键基因,有一些变异仅仅与疾病危险因子、诱发因子、 影响因子有关,而不是疾病直接相关联的基因 流行病学家JohnIoannidis说:“大多数已发表的研究都是 错误的。” 他认为,太多的科学家们急功近利地寻找种种基因变异与 某一疾病发生风险之间的关系,而杂志社又急于发表描述这类 关系的研究论文。
11
研究基础
基因组单倍体图谱计划(International Human HapMap Project) 的实施和基因连锁不平衡
12
遗传标记的选择
SNP
基于单倍型图谱( HapMap) 可以选择 五十万 到 一百 万个覆盖全基因组的SNP用于GWAS。
CNV
基因组拷贝数变异 ( copy number variations, CNV )
病例必须携带导致疾病的遗传因素 选择覆盖全基因组的SNP或CNV 研究样本量达到足够的检验效能 采用高效可靠的数据分析方法以及进行
重复验证检验等条件
22
研究方式
23
研究方式
24
百度文库
研究方式
GWAS GWAS目前分为单阶段研究和多阶段研究 目前分为单阶段研究和多阶段研究
单阶段研究即选择足够的样本 , 一次性在所有 研究对象中对选中的SNP进行基因分型 ,然后 分析每个 SNP与疾病的关联 , 在早期 GWAS 多使用
3
引言
概念
全基因组范围内的SNP对某一 复杂疾病/性状的影响——关联
身高间的差异
4
背景
单基因遗传
利用家系连锁分析的定位
克隆方法,发现了大量单基 因疾病,如囊性纤维化病、 亨廷顿病性痴呆
囊性纤维化病
亨廷顿病性痴呆
5
背景
单基因遗传性状
6
背景
单基因遗传性状
7
背景
家系连锁分析的定位克隆
单基因家系连锁分析
是指与参考序列相比 ,基因组中 ≥1 kb 的 DNA 片段插入 、缺失 和 /或扩增 ,及其互相组合衍生的复杂染色体结构变异
13
SNP
单倍型,是单倍体基因型的简称,在遗传学上是指在同一染色体上进 行共同遗传的多个基因座上等位基因的组合
14
CNV
2004年, Iafrate 等和Sebat等首次描述了人类基因组CNV, 2006年 Redon 等确定了覆 盖12% (300 Mb) 人类基因组的1 447个CNV区域(CNV region, CNVR) CNV 可能通过数量作用和质量作用两种机制引起的基因剂量改变导致表型改变 , 所以CNV全基因组关联分析(CNV association analysis) 可能更容易检测到致病遗传变 异
结论:GWAS不能仅凭 P 值判断某个 SNP 是否与
疾病真正关联 , 多种族、多群体、大样本的重复 验证研究(replication)才是提高检验效能、确保发 现真正疾病关联SNP的关键 。
32
局限性
SNP在 RNA 的转录或翻译效率上发挥作用 ,可能在基因表达上产生短暂的或依 赖时空的多种影响 ,刺激调 节基因的转录表达或影响其 RNA 剪接方式 。因此 , 研 究者在找寻疾病相关变异时 ,应同时注意到编码区和调控区位点变异的重要性 。
39
资料扩展
美国加州一个与硅芯片相关的潜力大产业正在这 里兴起,那就是基因组测序技术产业。一家名为“整 合基因”(Complete Genomics,CG)的公司专为科 学家提供外包的测序服务,更绝的是,在这家公司里 做测序的,并不是研究人员,而是一排排的机器人
目前CG公司只针对研究者和制药公司开放,个人 还没法购买他们的服务。在这里,每对基因组测序要 价9500美元,如果购买1000对以上,则每对价格降为 5000美元。这个价格是随着基因组测序技术突飞猛进 而急剧下降的,要知道,十年前,第一对人类基因组 序列完成时,其价格是以十几亿美元计量的。
10
研究基础
单核苷酸多态性(SNP)和拷贝数变异
(CNV)—GWAS的主要对象
随着人类基因组单体型计划的完成,收录了成千上百万的 SNP,SNP是人类基因组中最常见的遗传变异,现已被用 作第三代遗传标识。 CNV是指与参考序列相比 ,基因组中 ≥1 kb 的 DNA 片段插 入、缺失和 /或扩增 ,及其互相组合衍生的复杂染色体结构 变异。发现了成千上万的基因组拷贝数变异 (copy number variations, CNV ) ,它们能显著影响基因的表达。
8
背景
但对于复杂疾病,连锁分析的作用非常有限。
9
研究基础
进行 GWAS时 ,选择的表型定义要准确和精确
应尽可能选择那些可定量反映疾病危险程度的指标、可用于分 析疾病临床亚型的特征 ,或可用于诊断和鉴别诊断疾病的表型
特征。
缺血性脑卒中可能涉及 血栓脱落或者脑动脉粥 样硬化等不同的发病机 制,但 在人群中却常常同 时出现而难以区分
18
成果
“GWAS第一次高潮”
于人类身高、体重、血压等主要形状,以及视 网膜黄斑、乳腺癌、前列腺癌、白血病、冠心 病、肥胖症、糖尿病、精神分裂症、风湿性关 节炎等几十种疾病GWAS的结果。累计发表了 近万篇论文(9900篇)。确定了一系列疾病发病 的致病基因、相关基因、易感区域和单核苷酸 多态性(SNP)的变异,取得了很大成绩。
截止到2010年12月,已经陆续报导和公布了关
19
成果
截止到2010年12月GWAS发现的与人类性状或复杂疾病关联SNP位点(p<5×10-8)
不同颜色圆点代表不同性状或疾病
20
成果
“GWAS第一次高潮”
GWAS方法学(如研
究设计、统计分析、 结果的解释)也取 得了极大的进步
21
进行 GWAS时需满足
16
CNV
CGH 检测 31例 肝癌 DNA 变异 频率 结果 图.
染色体左侧的线条表示DNA丢失的范围;右侧的线条表示DNA增加的范围,粗线条表 示扩增.
17
研究基础
基因分型技术和遗传信息学的发展
近年来,基因分型技术不断进步,分型成本 显著降低,以基因芯片技术为代表的超高通 量分型技术更是得到了飞速的发展 全基因组测序商业化和公司之间的竞争使得基 因组测序成本越来越低
29
人群分层
人群分层是导致许多大样本研究出现假阳性或假
阴性结果的一个主要原因
如Campbell等(2005)采用欧裔美国人研究与身高表型 乳糖酶基 因型的关联 ,其结果在其他人群难以重复的 原因即是受研究对象在不同地域存在极大差异引起 的人群分层影响
人群分层产生的问题即使在研究对象是 同一种族人 群时也仍然存在 ,而且现有的研究方法 尚未能有效地
解决此类问题
一种可能的策略是采用基于家系的关联研究 ,该方法可以避免 人群分层对关联分析结果的影响
30
群体分层
31
二、多重假设检验
如果采用较为宽松的多重假设检验方法就可能导致 I 类
错误 ,出现大量的假阳性关联 ;
但是如果采用最为严格 Bonferroni校正 , 则又可能导致过
度校正 ,结果使假阴性概率增加 ,而与疾病真正关联的 SNP难以发现 。
34
局限性
最后 , GWAS是一种发现符合常见疾病 -常见变异假
说 ( common disease common variant hypothesis) 相关 位点的方法 ,其可以确定相关位点但不能直接确定基 因本身 ,且在任何特定人群中 GWAS都不能方便地识 别罕见的风险等位基因位点(下图)