关联分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、关联分析的理论基础
❖3、关联研究的理论基础
连锁不平衡—关联分析的理论基础
Chromosome
SNP1
SNP2 疾病位点
连锁不平衡区域
SNP3
SNP4
二、关联分析中SNP位点的质量控制
❖1、最小等位频率控制
▪ 最小等位基因频率:MAF(Minor Allele Frequency): 最小等位基因频率通常是指在给定人群中的不常见的等位基
Column Sum 78
Aa 22.5 22.5 45
aa Row Sum
38.5
100
38.5
100
77
200
Observed Matrix:
cases controls Column Sum Expected Matrix:
cases controls Column Sum
三、关联检验
AA
Aa
例: Observed Matrix:
AA
Aa
cases
8
26
aa Row Sum
66
100
controls
70
19
11
100
Column Sum
78
45
77
200
Dominant Model:
因发生频率,例如TT,TC,CC三个基因型,在人群中C的频率 =0.28,T的频率=0.72,则等位基因C的频率为最小等位基因频率 ,MAF=0.28。
▪ 在关联研究中,较小的MAF将会使统计效能降低,从而造成假阴 性的结果。通常情况下要求 MAF<0.01或0.05
注: 1、通常MAF>0.01或0.05的SNP称为common SNP; MAF<0.01或0.05 的SNP称为rare SNP 2、常见疾病,常见变异假说。
一、关联分析的理论基础
❖3、关联研究的数据类型
(1)基于无关个体的关联分析 ▪ 基于无关个体的关联分析病例对照研究设计:主要用来研究质量性
状,即是否患病。 ▪ 基于随机人群的关联分析:主要用来研究数量性状。
( 2)基于家系数据的关联分析 ▪ 在研究基于家系的样本时,采用传递不平衡检验(TDT)等
注: 1、家系数据分析遗传标记与疾病数量表型和质量表型的关联可以排除人 群混杂对于关联分析的影响,但其在发现阳性关联的检验方面不如相同样 本量的病例对照研究有效。 2、当前的人口状况使得大规模的家系数据很难获得,目前的研究中casecontrol研究居多,也是本次课的重点。
❖2、关联检验的模型
(1)Genotypic Model
❖ Hypothesis: all 3 different genotypes have different effects
AA vs. Aa vs. aa
三、关联检验
Genotypic Model的卡方检验: Null Hypothesis: Independence
allcells
E
39
22.5
38.5
39
22.5
38.5
三、关联检验
❖2、关联检验的模型
(2)Dominant Model
Hypothesis: the genetic effects of AA and Aa are the same (assuming A is the minor allele)
Chi-squared Test Statistic:
2
(O E)2
all cells
E
O is the observed cell counts E is the expected cell counts, under null
hypothesis of independence
三、关联检验
(1)连锁分析(linkage analysis):考察两个基 因座的位置是否临近,通过对一些基因数据的分 析来寻找一些感兴趣的基因位置,也称为基因作 图(genetic mapping)。两个连锁的基因座上的 等位基因更易于作为一个单位由父母传递给后代, 即更易于共分离。
二、连锁与连锁不平衡的关系
关联分析
2012
连锁不平衡
1 连锁不平衡的基本概念及度量
2
连锁与连锁不平衡的关系
一、连锁相不平衡的基本概念及度量
1、连锁不平衡的基本概念
连锁平衡(linkage equilibrium) :两个基因座的等位基因组 合的频率等于组成组合的等位基因各自频率的积 ,不存 在优势组合,称为连锁平衡.
连锁不平衡(linkage disequilibrium;LD):两个位点的 某两个等位基因不是独立出现的,则称这两个位点处于连 锁不平衡状态。
AA + Aa vs. aa
三、关联检验
Dominant Model 的卡方检验: Null Hypothesis: Independence
H 0 : ij i. . j
AA+Aa
aa
cases
nAA + nAa
naa
controls
mAA + mAa
maa
df = 1
三、关联检验
A2B2
A1
B1
A1B1
一、连锁相不平衡的基本概念及度量
两个强关联的情况:
A1
B1
A1 B1
(1)
(2)
(1) (2)
D=P(A1B1)- P(A1)P(B1)=P(A1)(1-P(B1))= P(A1)P(B2) D=P(A1B1)- P(A1)P(B1)=P(B1)(1-P(A1))= P(B1)P(A2)
一般情况下,某个SNP在所有样本中的分型成功 率(call ratio)要控制在75%以上,否则不能通过质 量控制,该SNP将从分析数据中去掉。
二、关联分析中SNP位点的质量控制
❖4、样本的基因型缺失比控制
对于基因组范围内关联分析而言,对于一个需要检 测的样本,一般情况下,某个样本所对应的所有SNP的 分型成功率要控制在75%(或95%)以上,否则不能通 过质量控制,该样本将被从分析数据中去除。
注:连锁只与两个位点有关,而连锁不平衡是与两个位点上的等位基因 有关。
一、连锁相不平衡的基本概念及度量 2、连锁不平衡的度量 D
一、连锁相不平衡的基本概念及度量
连锁不平衡参数:
D PA1B1 PA1PB1 PA2B2 PA2 PB2 (PA1B2 PA1PB2 ) (PA2B1 PA2 PB1)
一、连锁相不平衡的基本概念及度量
D D Dmax
Dmax min PA1PB2, PA2PB1
Dmax max PA1PB1, PA2PB2
D0
D0
一、连锁相不平衡的基本概念及度量
3、连锁不平衡的度量 r 2
r
D
pA1 pA2 pB1 pB2
r 2 取值范围[0-1],LD程度逐渐增加
SNP SNP1 SNP2 SNP3 SNP4
A T (0.2) A (0.17) G (0.43) C (0.33)
a G (0.8) T (0.83) C (0.57) T (0.67)
当我们检测该SNP位点与疾病的关系时,我们不知道等位以何种 方式起作用(等位、基因型、显性、隐性)。
三、关联检验
二、关联分析中SNP位点的质量控制
❖2、 Hardy-Weinberg平衡控制
Hardy-weinberg平衡定律: 在理想状态下,各等位基因的频率和等位基因的基
因型频率在遗传中是稳定不变的,即保持着基因平衡。
注:H-W检验p值显著性水平0.001或1E-6
Байду номын сангаас
二、关联分析中SNP位点的质量控制
❖3、 SNP分型成功比例控制
卫星DNA 重复序列) ▪ 第三代遗传标记:单核苷酸多态性标记(single nucleotide
polymorphisms , SNPs)
一、关联分析的理论基础
❖2、第三代遗传标记的发展现状
人类基因组中,约1500万的SNP,遍布全基因组,由于其分布广 、密度高、检测技术手段成熟,伴随和HapMap计划的完成和 1000genome计划的开展,目前已被广泛应用于复杂疾病风险位点的 检测中。
一、连锁相不平衡的基本概念及度量
四、例题:
| D ' | | 0.3 (0.6)(0.6) | 0.375, min((0.6)(0.6), (0.4)(0.4))
r2 (0.3 (0.6)(0.6))2 0.0625. (0.6)(0.4)(0.6)(0.4)
二、连锁与连锁不平衡的关系
1
1
F
2
1
…
2
2
1
M
2
2
…
1
3
0
F
1
2
…
2
4
1
F
1
1
…
2
5
0
M
0
-9
…
1
sample id case/control
genotypes
三、关联检验
❖2、关联检验的模型
假定: 某个SNP位点有两个基等位A、a, 形成三个基因型:AA、Aa、aa。
开始检测之前A、a地位相同,我们假定A为 minor allele,对两个等位加以区别。
hypothesis of independence
三、关联检验
例:
Observed Matrix:
AA Aa
cases
8
26
controls
70
19
Column Sum 78
45
aa Row Sum
66
100
11
100
77
200
Expected Matrix:
AA
cases
39
controls
39
一、关联分析的理论基础
❖1、关联研究中的遗传标记
复杂疾病是由遗传因素与环境因素共同作用的结果,探索影响复 杂疾病发生、发展的遗传因素,是遗传学的重要任务。研究人员期 望从疾病个体和正常个体的比较中来发现基因组上的差别,进而寻 找引起疾病的基因。
用来发现基因组差异的三代遗传标记: ▪ 第一代遗传标记:限制性酶切片段长度多态性标记(RFLP) ▪ 第二代遗传标记: DNA 重复序列的多态性标记(包括小卫星、微
8
26
70
19
78
45
aa Row Sum
66
100
11
100
77
200
AA
Aa
aa Row Sum
39
22.5
38.5
100
39
22.5
38.5
100
78
45
77
200
2
(O E)2 (8 39)2 (26 22.5)2 (66 38.5)2 (70 39)2 (19 22.5)2 (11 38.5)2
二、关联分析中SNP位点的质量控制
❖5、孟德尔错误控制
对于家系数据的分析而言,父代-子代之间满足孟德 尔遗传,对于那些孟德尔错误出现次数超过指定次数 (1次或2次)的SNP,将被从数据分析中去除。
三、关联检验
❖1、数据类型(病例-对照研究)
假定某个SNP有两个等位A、a,则存在3个基因型AA、 Aa和aa。我们可以进行如下编码:
AA
cases
nAA
controls
mAA
Aa
aa
nAa mAa
naa maa
df = 2
三、关联检验
Chi-squared Test Statistic:
2
(O E)2
all cells
E
O is the observed cell counts E is the expected cell counts, under null
注:连锁分析与关联分析的区别: 连锁分析中,连锁描述两个位点的位置关系,
可通过重组率来度量,需要重组的数据,因此需 要家系资料。
关联分析的基础—连锁不平衡,描述的是群体 中两个位点上的等位基因的关联性,需要群体数 据。
关联分析
1
关联分析的理论基础
2 关联分析中SNP位点的质量控制
3
关联检验
4 全基因组范围内关联分析GWAS
从技术发展的水平上可将SNP的关联分析分为: ▪ 候选基因关联研究:某个基因或某个区域内进行SNP的检测与分析。
主要检测手段为PCR等低通量技术手段。 ▪ 全基因组范围内关联研究: 全基因组范围内几十万SNP的检测与分
析。主要检测手段为SNP芯片与新一代测序技术等高通量技术手段。
注:2005年,Science杂志报道了第一项具有年龄相关性的黄斑变性GWAS研 究,标志着全基因组范围内关联研究时代的开始。
1、理解连锁与连锁不平衡
连锁,是位于同一条染色体上的基因(或位点)连在一起的伴同遗传的现象 与连锁相对应的概念是交换。 连锁不平衡,是不同座位上等位基因连锁状态的描述,指这些等位基因在 同一条染色体上出现的频率大于随机组合的预期值 与连锁不平衡相对应的概念是连锁平衡。
二、连锁与连锁不平衡的关系
3、连锁分析与关联分析简介
Genotype AA Aa aa
Coding 2 1 0
三、关联检验
单位点SNP数据编码:
individual affection gender SNP
1
1
F
2
2
1
M
2
3
0
F
1
4
1
F
1
5
0
M
0
sample id case/control
genotypes
三、关联检验
多位点SNP数据编码:
individual affection gender SNP 1 SNP 2 … SNP n