全基因组关联分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
通过统计分析遗传因素和性状/ 通过统计分析遗传因素和性状/复杂疾病关联 确定与特定性状 /复杂性疾病关联的功能性位 复杂性疾病关联的功能性位 点存在一定难度——同义突变、不在ORF等。 存在一定难度——同义突变、不在ORF等。
33
局限性
大部分常见遗传变异可能通过单独或联合作用 轻度增加疾病发生风险,而这些变异仅可解释 部分人群中因遗传引起的表型变异。
基因分型验证
28
遗传统计分析
GWAS比较每个 比较每个SNP等位基因频率差别多采用 格表的卡方检验,同时需对如年 等位基因频率差别多采用4格表的卡方检验 比较每个 等位基因频率差别多采用 格表的卡方检验, 性别等主要混杂因素采用Logistic回归分析 。 龄、性别等主要混杂因素采用 回归分析
人群分层(population stratification)和多重假设检验调整 (multiple 在GWAS中,人群分层 中 人群分层 和 testing adjusting) 是引起研结果分析误差的最主要原因
34
局限性
最后 , GWAS是一种发现符合常见疾病 -常见变异假 GWAS是一种发现符合常见疾病 说 ( common disease common variant hypothesis) 相关 位点的方法 ,其可以确定相关位点但不能直接确定基 其可以确定相关位点但不能直接确定基 因本身 ,且在任何特定人群中 GWAS都不能方便地识 GWAS都不能方便地识 别罕见的风险等位基因位点(下图) 罕见的风险等位基因位点(下图)
21
进行 GWAS时需满足 GWAS时需满足
病例必须携带导致疾病的遗传因素 选择覆盖全基因组的SNP或 选择覆盖全基因组的SNP或CNV 研究样本量达到足够的检验效能 采用高效可靠的数据分析方法以及进行 重复验证检验等条件
22
研究方式
23
研究方式
24
研究方式
GWAS目前分和 GWAS目前分为单阶段研究和 多阶段研究 GWAS目前分为单阶段研究和多阶段研究
囊性纤维化病
亨廷顿病性痴呆
5
背景
单基因遗传性状
6
背景
单基因遗传性状
7
背景
家系连锁分析的 家系连锁分析的定位克隆
单基因家系连锁分析
8
背景
但对于复杂疾病,连锁分析的作用非常有限。
9
研究基础
进行 GWAS时 ,选择的表型定义要准确和精确
应尽可能选择那些可定量反映疾病危险程度的指标、 应尽可能选择那些可定量反映疾病危险程度的指标、可用于分 定量反映疾病危险程度的指标 析疾病临床亚型的特征 ,或可用于诊断和鉴别诊断疾病的表型 或可用于诊断和鉴别诊断疾病的表型 特征。 特征。
16
CNV
CGH 检测 31例 肝癌 DNA 变异 频率 结果 图.
染色体左侧的线条表示DNA丢失的范围;右侧的线条表示DNA增加的范围,粗线条表 示扩增.
17
研究基础
基因分型技术和遗传信息学的发展
近年来,基因分型技术不断进步, 近年来,基因分型技术不断进步,分型成本 显著降低, 基因芯片技术为代表的超高通 显著降低,以基因芯片技术为代表的超高通 量分型技术更是得到了飞速的发展 全基因组测序商业化和公司之间的竞争使得基 因组测序成本越来越低
SNPs。 SNPs。
2
引言
概念
全基因组范围内的 全基因组范围内的SNP
3
引言
概念
全基因组范围内的SNP对某一 全基因组范围内的SNP对某一 复杂疾病/性状的影响 的影响——关联 复杂疾病/性状的影响——关联
身高间的差异
4
背景
单基因遗传
利用家系连锁分析的 利用家系连锁分析的定位 克隆方法,发现了大量单基 克隆方法,发现了大量单基 因疾病,如囊性纤维化病、 亨廷顿病性痴呆
19
成果
截止到2010年12月GWAS发现的与人类性状或复杂疾病关联SNP位点(p<5× 截止到2010年12月GWAS发现的与人类性状或复杂疾病关联SNP位点(p<5×10-8)
不同颜色圆点代表不同性状或疾病
20
成果
“GWAS第一次高潮” GWAS第一次高潮”
GWAS方法学(如研 GWAS方法学(如研 究设计、统计分析、 结果的解释)也取 得了极大的进步 得了极大的进步
缺血性脑卒中可能涉及 血栓脱落或者脑动脉粥 样硬化等不同的发病机 制,但 在人群中却常常同 时出现而难以区分
10
研究基础
单核苷酸多态性(SNP)和拷贝数变异 单核苷酸多态性(SNP)和拷贝数变异 (CNV)—GWAS的主要对象 (CNV)—GWAS的主要对象
随着人类基因组单体型计划的完成,收录了成千上百万的 随着人类基因组单体型计划的完成, SNP,SNP是人类基因组中最常见的遗传变异 SNP,SNP是人类基因组中最常见的遗传变异,现已被用 是人类基因组中最常见的遗传变异, 作第三代遗传标识。 作第三代遗传标识。 CNV是指与参考序列相比 CNV是指与参考序列相比 ,基因组中 ≥1 kb 的 DNA 片段插 入、缺失和 /或扩增 ,及其互相组合衍生的复杂染色体结构 变异。发现了成千上万的基因组拷贝数变异 变异。发现了成千上万的基因组拷贝数变异 (copy number variations, CNV ) ,它们能显著影响基因的表达。 它们能显著影响基因的表达。
单阶段研究即选择足够的样本 , 一次性在所有 研究对象中对选中的SNP进行基因分型 研究对象中对选中的SNP进行基因分型 ,然后 研究对象中对选中的SNP进行基因分型 ,然后 SNP与疾病的关联 分析每个 SNP与疾病的关联 , 在早期 GWAS 多使用
25
研究方式
多阶段研究多为两阶段研究 多阶段研究多为两阶段研究
局限性
SNP在 RNA 的转录或翻译效率上发挥作用 ,可能在基因表达上产生短暂的或依 赖时空的多种影响 ,刺激调 节基因的转录表达或影响其 RNA 剪接方式 。因此 , 研 究者在找寻疾病相关变异时 ,应同时注意到编码区和调控区位点变异的重要性 。
例如:胰岛素基因启动子中的遗传变异增加Ⅰ 例如:胰岛素基因启动子中的遗传变异增加Ⅰ型糖尿病风险
694个体 694个体→ 个体→
923个体 923个体→ 个体→
26
两阶段研究 第一阶段的分析可以是以个体为单位, 也可以采用DNA pooling的方法,筛选出 也可以采用DNA pooling的方法,筛选出 较少量的阳性SNP 较少量的阳性SNP
注意:要保证SNP的敏感性和特异性 要保证SNP的敏感性和特异性 注意:要保证SNP的敏感性和特异性
29
人群分层
人群分层是导致许多大样本研究出现假阳性或假 阴性结果的一个主要原因
如Campbell等(2005)采用欧裔美国人研究与身高表型 等 采用欧裔美国人研究与身高表型 乳糖酶基 因型的关联 ,其结果在其他人群难以重复的 其结果在其他人群难以重复的 原因即是受研究对象在不同地域存在极大差异引起 的人群分层影响 人群分层产生的问题即使在研究对象是 同一种族人 群时也仍然存在 ,而且现有的研究方法 尚未能有效地 解决此类问题 一种可能的策略是采用基于家系的关联研究 ,该方法可以避免 人群分层对关联分析结果的影响
15
CNV
2006年11月23日,一个国际研究小组在Nature(2006, 444: 444)上发表研究报告称,通过分析270名亚洲、非洲和欧 洲健康者的DNA样本,发现了约2900个基因(至少占人类基因 总数的10%)含有特异DNA片段拷贝数变异(CNV)。研究者认 为,这些变异会影响基因活性,造成疾病易感性的个体差异。 此前学术界认为人类个体间基因组序列一致性达99.9%,该研 究结果对此提出了置疑。另外,随着第一代人类基因组拷贝数 变异图谱的完成,人们审视疾病与基因的关系又多了一种视角, 除了检测单核苷酸多态性(SNP),或者显微镜检染色体异常外, 还可对中间长度(数百万核苷酸)的DNA片段变异进行评价。
35
局限性
36
反思
“所有的改变 , 即使是最令人期待的, 也有令人惆怅的 即使是最令人期待的, 一面, 我们抛在脑后的一切仍如影随形”— 一面, 我们抛在脑后的一切仍如影随形”—阿纳托尔 ·法 朗士 (Anatole France, 1844~1924) 1844~1924) 现在发现这种全基因组分析是高出低收 :昂贵的全基因 组关联研究(每人份的花费预计高达数百万美元 ) 所得的结果庞杂无序,大多数的基因变异与疾病并不关 联。在已实施的100余项GWAS和几千例患者样本的分析 联。在已实施的100余项GWAS和几千例患者样本的分析 结果发现,许多基因变异都是罕见的基因变异而不是关 键基因,有一些变异仅仅与疾病危险因子、诱发因子、 影响因子有关,而不是疾病直接相关联的基因
14
CNV
2004年, Iafrate 等和Sebat等首次描述了人类基因组CNV, 2006年 Redon 等确定了覆 盖12% (300 Mb) 人类基因组的1 447个CNV区域(CNV region, CNVR) CNV 可能通过数量作用和质量作用两种机制引起的基因剂量改变导致表型改变 , 所以CNV全基因组关联分析(CNV association analysis) 可能更容易检测到致病遗传变 异
全基因组关联分析
引言
概念
全基因组关联分析—— 全基因组关联分析—— 英文名字叫Genome英文名字叫Genomewide association study简 study简 ——GWAS 称——GWAS 全基因组关联分析—— 全基因组关联分析—— 是指在人类全基因组范 围内找出存在的序列变 异,即单核苷酸多态 SNP), 性(SNP),从中筛选 出与疾病/ 出与疾病/性状相关的
CNV
基因组拷贝数变异 ( copy number variations, CNV )
是指与参考序列相比 ,基因组中 ≥1 kb 的 DNA 片段插入 、缺失 和 /或扩增 ,及其互相组合衍生的复杂染色体结构变异
13
SNP
单倍型,是单倍体基因型的简称,在遗传学上是指在同一染色体上进 行共同遗传的多个基因座上等位基因的组合
18
成果
“GWAS第一次高潮” GWAS第一次高潮”
截止到2010年12月,已经陆续报导和公布了关 截止到2010年12月,已经陆续报导和公布了关 于人类身高、体重、血压等主要形状,以及视 网膜黄斑、乳腺癌、前列腺癌、白血病、冠心 病、肥胖症、糖尿病、精神分裂症、风湿性关 节炎等几十种疾病GWAS的结果。累计发表了 节炎等几十种疾病GWAS的结果。累计发表了 近万篇论文(9900篇 近万篇论文(9900篇)。确定了一系列疾病发病 的致病基因、相关基因、易感区域和单核苷酸 多态性(SNP)的变异,取得了很大成绩。 多态性(SNP)的变异,取得了很大成绩。
后者简单,但误差大,其估计的等位基因 后者简单,但误差大, 的频率标准差在1%—4%之间 的频率标准差在1%—4%之间 之间, 的频率标准差在1%—4%之间,对检验效 能有重要影响
27
两阶段研究
第二阶段采用更大的样本对第一阶段筛 选出的阳性SNP进行分析 选出的阳性SNP进行分析 注:应用大样本人群甚至在多种人群中进行
11
研究基础
基因组单倍体图谱计划(International 基因组单倍体图谱计划(International Human HapMap Project) 的实施和基因连锁不平衡
12
遗传标记的选择 SNP
基于单倍型图谱( 基于单倍型图谱( HapMap) 可以选择 五十万 到 一百 个覆盖全基因组的SNP用于 用于GWAS。 万个覆盖全基因组的SNP用于GWAS。
结论:GWAS不能仅凭 P 值判断某个 SNP 是否与 GWAS不能仅凭
疾病真正关联 , 多种族、多群体、大样本的重复 验证研究(replication)才是提高检验效能、确保发 验证研究(replication)才是提高检验效能、确保发 现真正疾病关联SNP的关键 现真正疾病关联SNP的关键 。
32
30
群体分层
31
二、多重假设检验
如果采用较为宽松的多重假设检验方法就可能导致 I 类 错误 ,出现大量的假阳性关联 ; 但是如果采用最为严格 Bonferroni校正 , 则又可能导致过 Bonferroni校正 度校正 ,结果使假阴性概率增加 ,而与疾病真正关联的 SNP难以发现 SNP难以发现 。