全基因组范围内SNP关联分析(GWAS)技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
chr6
3
chr6
4
AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT
chr6
突变率低,一次突变,遗传+自然选择使得等位扩增,snp多为二态
一、单核苷酸多态及数据格式
注:
(1)理论上讲,SNP既可能是二等位多态性,也可能是3个或4个等位多 态性,但实际上,后两者非常少见,几乎可以忽略。
(O E ) 2 (8 39) 2 (26 22.5) 2 (66 38.5) 2 (70 39) 2 (19 22.5) 2 (11 38.5) 2 E 39 22 . 5 38 . 5 39 22 . 5 38.5 allcells
chr6
dbSNP &array:
AGATA[A/C]GGCTAAAC
GTTTTTAA[A/G]CCCCTT
PCR data
or
PCR和芯 芯片技术
or
PCR
A/C SNP1
A/G SNP2
1
AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT
关联检验
Genotypic Model的卡方检验: Null Hypothesis: Independence
H 0 : ij i. . j
AA cases controls nAA mAA Aa nAa mAa df = 2 aa naa maa
关联检验
Chi-squared Test Statistic:
Hale Waihona Puke Baidu
等位
1:A
1:A
2: G
野生型和突变型
SNP数据说明:
一、单核苷酸多态及数据格式
格式1:ped格式snp data+info data SNP data file
一、单核苷酸多态及数据格式
SNP info file
SNP数据说明:
一、单核苷酸多态及数据格式
SNP data file SNP info file
2
关联检验
关联检验的模型
2、Dominant Model Hypothesis: the genetic effects of AA and Aa are the same (assuming A is the minor allele)
AA + Aa vs. aa
关联检验
Dominant Model 的卡方检验: Null Hypothesis: Independence
1、最小等位频率控制
最小等位基因频率:MAF(Minor Allele Frequency): 最小等位基因频率通常是指在给定人群中的不常见的等位基 因发生频率,例如TT,TC,CC三个基因型,在人群中C的频率 =0.28,T的频率=0.72,则等位基因C的频率为最小等位基因频率 ,MAF=0.28。 在关联研究中,较小的MAF将会使统计效能降低,从而造成假阴 性的结果。通常情况下要求 MAF<0.01或0.05
对于家系数据的分析而言,父代-子代之间满足孟德 尔遗传,对于那些孟德尔错误出现次数超过指定次数 (1次或2次)的SNP,将被从数据分析中去除。
关联分析的理论基础
关联研究的理论基础
连锁不平衡—关联分析的理论基础
SNP1 Chromosome 连锁不平衡区域
D PA 1 B 1 PA 1 PB 1 PA 2 B 2 PA 2 PB 2 ( PA 1 B 2 PA 1 PB 2 ) ( PA 2 B 1 PA 2 PB 1 )
Row Sum 100 100 200
关联检验
Observed Matrix: AA cases controls Column Sum Expected Matrix: AA cases controls Column Sum 39 39 78 Aa 22.5 22.5 45 aa 38.5 38.5 77 Row Sum 100 100 200 8 70 78 Aa 26 19 45 aa 66 11 77 Row Sum 100 100 200
H 0 : ij i. . j
单核苷酸多态的测定及数据格式
(1)PCR (2)SNP芯片 (3)新一代测序技术
1
AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT
chr6
2
AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT
一、单核苷酸多态及数据格式
格式2:GWAS data format sample
SNP
二、关联分析
二、关联分析
复杂疾病遗传关联分析:
复杂疾病是由遗传因素与环境因素共同作用的结果,探索影响复 杂疾病发生、发展的遗传因素,是遗传学的重要任务。研究人员期 望从疾病个体和正常个体的比较中来发现基因组上的差别,进而寻 找引起疾病的基因。
cases controls Column Sum
Expected Matrix:
AA 8 70 78
Aa 26 19 45
aa 66 11 77
Row Sum 100 100 200
cases controls Column Sum
AA 39 39 78
Aa 22.5 22.5 45
aa 38.5 38.5 77
chr6
3
AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT
chr6
4
AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT
关联分析中SNP位点的质量控制
4、样本的基因型缺失比控制
对于基因组范围内关联分析而言,对于一个需要检 测的样本,一般情况下,某个样本所对应的所有SNP的 分型成功率要控制在75%(或95%)以上,否则不能通 过质量控制,该样本将被从分析数据中去除。
关联分析中SNP位点的质量控制
5、孟德尔错误控制
chr21
2
AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT
chr21
3
AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT
SNP1 A A A T A T T T 疾病 SNP2 A T A T A T A T 正常
目的: 寻找哪些SNP与 疾病相关?
关联非因果
关联分析的类型
关联研究的数据类型
1、基于无关个体的关联分析 基于无关个体的关联分析病例对照研究设计:主要用来研究质量性 状,即是否患病。 基于随机人群的关联分析:主要用来研究数量性状。 2、基于家系数据的关联分析 在研究基于家系的样本时,采用传递不平衡检验(TDT)等
(2)占所有已知多态性的90%以上。 (3)SNP数目: 目前,测得大约1500~3000 万个SNP 位点(平均约每100~200 bp ) 存在一个单碱基突变。
一、单核苷酸多态及数据格式
(4)从对生物的遗传性状的影响上来看,SNP又可分为2种: 同义SNP(synonymous SNP),即SNP所致的编码序列的改变并不影响其所 翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同。 非同义SNP(non-synonymous SNP),指碱基序列的改变可使以其为翻译的 蛋白质序列发生改变,从而影响了蛋白质的功能。
chr21
4
AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT
chr21
1 2 3 4
C/A A/A C/C A/A
PCR和芯 片技术, 将染色体 割裂,导致 恢复原来 真实相形困难 2:C
A/G A/G G/G A/A
一、单核苷酸多态及数据格式
人类基因组中3000万的SNP,遍布全基因组,由于其分布广、密度 高、检测技术手段成熟,伴随和HapMap计划的完成和1000genome计划 的开展,目前已被广泛应用于复杂疾病风险位点的检测中。
我们的目的: 寻找哪些SNP标记与疾病相关—关联分析
一、单核苷酸多态及数据格式
(O E ) E all cells
2
2
O is the observed cell counts E is the expected cell counts, under null hypothesis of independence
关联检验
例:
Observed Matrix:
注: 1、通常MAF>0.01或0.05的SNP称为common SNP; MAF<0.01或0.05 的SNP称为rare SNP 2、常见疾病,常见变异假说。
关联分析中SNP位点的质量控制
2、 Hardy-Weinberg平衡控制
Hardy-weinberg平衡定律: 在理想状态下,各等位基因的频率和等位基因的基 因型频率在遗传中是稳定不变的,即保持着基因平衡。 P(AA)=p2 P(Aa)=2pq P(aa)=q2
个体 1
序列 AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT chr6
2
AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT
当我们检测该SNP位点与疾病的关系时,我们不知道等位以何种 方式起作用(等位、基因型、显性、隐性)。
关联检验
关联检验的模型
1、Genotypic Model Hypothesis: all 3 different genotypes have different effects
AA vs. Aa vs. aa
注:H-W检验p值显著性水平0.001或1E-6
关联分析中SNP位点的质量控制
Hardy-Weinberg平衡检验例
关联分析中SNP位点的质量控制
3、 SNP分型成功比例控制
一般情况下,某个SNP在所有样本中的分型成功 率(call ratio)要控制在75%以上,否则不能通过质 量控制,该SNP将从分析数据中去掉。
注: (1)家系数据分析遗传标记与疾病数量表型和质量表型的关联可以排除 人群混杂对于关联分析的影响,但其在发现阳性关联的检验方面不如相同 样本量的病例对照研究有效。 (2)当前的人口状况使得大规模的家系数据很难获得,目前的研究中 case-control研究居多。
关联分析中SNP位点的质量控制
注:发表此类paper,质量控制要占一段。
SNP2 疾病位点
SNP3
SNP4
D
D D
m ax
r
D p A1 p A 2 p B1 p B 2
r
2
关联检验
关联检验的模型
假定: 某个SNP位点有两个基等位A、a, 形成三个基因型:AA、Aa、aa。
开始检测之前A、a地位相同,我们假定A为 minor allele,对两个等位加以区别。 SNP SNP1 SNP2 SNP3 SNP4 A T (0.2) A (0.17) G (0.43) C (0.33) a G (0.8) T (0.83) C (0.57) T (0.67)
基本内容
1 2 3 4 单核苷酸多态及数据格式 GWAS关联分析技术 SNP单倍型分析技术 SNP数据分析软件操作
一、单核苷酸多态及数据格式
一、单核苷酸多态及数据格式
单核苷酸多态性 (single nucleotide polymorphism,SNP) 主要是指在基因组水平上由单个核苷酸的变异所引 起的DNA序列多态性。它是人类可遗传的变异中最常见 的一种。