关联分析策略

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

8
Chromosome 20
6
6
6
6
LOD Score
LOD Score
LOD Score
LOD Score
LOD Score
20 40 60 80 100
4
4
4
4
2
2
2
2
0
0
0
0
0
20
40
60
80
100
120
0
20
40
60
80
100
120
0
20
40
60
80
100
120
0
0
2
4
6
20
40
60
80
Map Position (cM)
Whole Genome linkage analysis
STR: ~400 Positive locus/loci found(single point LOD score) multipoint LOD score RESOURCE: Genehunter(Whitehead Institute, USA) 、Marshfield Genetic Database marker information: (http://research.marshfieldclinic. org/genetics/) 、Cyrillic
Alike, But Not the Same
Humans share many basic characteristics, but there is a wide range of variation in human traits Most human traits are influenced by multiple genes and environmental factors
the straw that broke the camel's back
什么导致多基因疾病?
质量性状与数量性状
质量性状
不易受环境条件影响,多由单个基因决定的性状 表现为有或无,相对性状之间的差异很明显,中 间无过渡类型,在群体中的分布是不连续的
数量性状
易受环境条件影响,由多个基因协同作用、而非 单一基因作用决定的表型或性状 数量性状变异在群体中的分布是连续的,不同个 体之间没有质的量的不同
Epistasis
If G, then no B
Disease only A + B
Disease only AA and/or BB
Cordell, Human Molecular Genetics, 2002
全基因组关联分析(GWAS)
全基因组关联分析(GWAS)
Cases
Controls
Map Position (cM)
Map Position (cM)
Map Position (cM)
Map Position (cM)
8
Chromosome 21
8
Chromosome 22
6
LOD Score
LOD Score
10 20 30 40 50
4
2
0
0
0
2
4
6
10
20
30
40
50
60
Map Position (cM)



Adjustment p value 对环境混淆危险因素进行调整后的p 值 Odds ratio 相对优势比,衡量风险等位基因的效 应大小 Association Correction 针对关联分析中样本多重比较及数据 顺序问题,对p值进行矫正
数据核对
Age of cases, age at the first diagnosis. Age of controls, age at the time of enrollment. Data for age are shown as mean ± standard deviation.
相关计算概念
• Statistical Power 统计效率检测,样本大小是否 足够检测 • Hardy-Weinberg disequilibrium test 哈迪-温伯格不平衡检测,用于检 测样本是否来自于随机婚配人群 • Observational p value 观测性P值,初步得出SNP是否与疾 病相关
Markers associated with diseases
基于SNP的关联分析资源
web:Google、NCBI 、UCSC、HapMap、Wikipedia, etc. software:Haploview、SNPbrowser、PLINK、 SAS、 SPSS, etc.
数据获得
分型策略
发病阈值
当一个个体的易 患性超过一定限 度后才会表现为 患病,这个限度 即为发病阈值
阈值实质上反映了在某种环境条件下患病所 必需的致病基因最低数量
再现风险
在一个家族中发现了一例某种遗传 病之后,其余亲属中再出现同种疾 病的概率 再现风险主要与两个因素有关: ① 遗传率 ② 亲缘关系的远近
特点
每种病的发病率一般高于1/1000 家族聚集倾向,无明显遗传方式 随亲属级别降低,发病风险迅速下降 近亲婚配时,子女患病风险增高,但不如常染 色体隐性遗传显著 种族差异
2
2
0
0
0
0
0
50
100
150
0
50
100
150
0
50
100
150
0
0
2
4
6
50
100
150
Map Position (cM)
Map Position (cM)
Map Position (cM)
Map Position (cM)
Map Position (cM)
8
8
8
8
Chromosome 11
Chromosome 12
遗传性疾病
同卵双胞胎间2型DM 发病的高一致性
环境性疾病
同一种族在不同生存 环境中,2型DM发 病危险性具有明显差 异性 与工业化进程、饮食 习惯显著相关
家族聚集性
不同种族间2型DM发 病率的巨大差异
Case: diabetes mellitus type 2
2型DM患者 >1.8亿人,至 2030年将增加1 倍
Whole Genome linkage analysis
FBAT
8 8 8 8
Chromosome 1 Chromosome 2 Chromosome 3 Chromosome 4
8
Chromosome 5
6
6
6
6
LOD Score
LOD Score
LOD Score
LOD Score
LOD Score
Map Position (cM)
FBAT
15q22-25 SNP rs1800588 基因/位置 LIPC/promoter F value 5.05
QTDT 分析 P value 0.0067
rs690 rs11638634
LIPC/exon 4 N/A
1.72 0.58
0.1791 0.5576
Genotyping loci covering Whole genome ( SNPs : ~2.5M) Detection of genetic markers Associated with disease
Validation of association in Various populations
N Engl J Med, 2007
16个2型DM相关基因
DIAGRAM Consortium
40多个临床和基础医学中心 >7万患者遗传数据 新发现6个遗传学差异,每个能单独地、轻 度地增加患糖尿病的危险;对于足够不幸 的遗传所有6个变异的人,患病危险是平均 的2-3倍
Nat. Genet.,2008
20
40
60
80
100
120
Map Position (cM)
Map Position (cM)
Map Position (cM)
Map Position (cM)
Map Position (cM)
8
8
8ຫໍສະໝຸດ Baidu
8
Chromosome 16
Chromosome 17
Chromosome 18
Chromosome 19
15q22-25 SNP rs1800588 基因/位置 LIPC/promoter F value 5.05
QTDT 分析 P value 0.0067
rs690 rs11638634
LIPC/exon 4 N/A
1.72 0.58
0.1791 0.5576
G×G interaction
Involvement of two or more genes: Plink、原理同regression Opposite direction of actions from different genes 互作之后效能抵消 Epistasis(上位效应)
多基因复杂疾病研究策略
多基因复杂疾病关联分析策略
什么是多基因疾病?
受多个基因和环境因素双重影响 引起的疾病
遗传因素、环境因素和多基因疾病
5-10%
G
80-90% G X E
5-10%
E
Major Concepts
易患性 发病阈值 再现风险
易患性
遗传基础和环境 因素共同作用决 定一个个体患某 种多基因遗传病 的可能性大小
FBAT
RESOURCE: GENEHUNTER (Whitehead Institute, Cambridge, Massachusetts, USA)
Marshfield Genetic Database marker information: (http://research.marshfieldclinic.org/genetics/) SNP数量性状连锁不平衡分析 (QTDT2.5.1, http://www.sph.umich.edu/csg/abecasis/QTD T/)
探寻遗传因素的策略
• Genome-wide or single locus – Family-based linkage analysis – Family-based association study (FBAT) – G×G & G×E – Unrelated case-control association
Chromosome 13
Chromosome 14
6
6
6
6
LOD Score
LOD Score
LOD Score
LOD Score
LOD Score
4
4
4
4
2
2
2
2
0
0
0
0
0
20
40
60
80
100
120
140
0
50
100
150
20
40
60
80
100
0
20
40
60
80
100
120
0
2
4
6
8
Chromosome 15
主效基因与微效基因
主效基因 控制质量性状的基因 微效基因 数量性状的遗传是由多基因系统控制, 其表型是多个基因共同作用表型的影响 比较微小,这类基因即为微效基因
多因子遗传:人类遗传的数量性状都是 受多个基因共同控制的,每个基因对 表型起着“微效作用”,再加上环境 因素的作用,所表现性状各异 数量性状是可以真实遗传的,并同时 受到遗传和非遗传因素控制
• SNP分型 Genotyping 验证方法 质控体系(QC) 核对 • 数据整理 Data Acquiring 按照分析软件制作数据 表格
Tag SNP挑选
r2有很好的取样特性,样本量和 r2的乘积就是所观察到的关联水平尾概率 对应的卡方值。在检测 SNPs 和致病位点之间的关联时,如果要达到同样的 统计效力,所需用的样本量要增大 1/r2倍。例如,假设 SNP1 与疾病相关, 我们对它附近的 SNP2 位点进行基因分型,它们之间 LD 系数为 r2 = 0.5。为 了达到与 SNP1 位点检测同样的统计效力,必须把样本量增加 2 倍; 与 D’相比,在同样长度的染色体范围内,r2往往要更低,这个特性能够帮 助我们得到更高精度的基因定位。另外,r2较 D’受样本量和等位基因频率 的影响较小(但是影响仍然存在)
Map Position (cM)
8
8
8
8
Chromosome 6
Chromosome 7
Chromosome 8
Chromosome 9
8
Chromosome 10
6
6
6
6
LOD Score
LOD Score
LOD Score
LOD Score
LOD Score
0 50 100 150
4
4
4
4
2
2
0 50 100 Map Position (cM) 150 200
4
4
4
4
2
2
2
2
0
0
0
0
0
50
100
150
200
250
300
0
50
100
150
200
250
0
50
100
150
200
0
0
2
4
6
50
100
150
Map Position (cM)
Map Position (cM)
Map Position (cM)
Case: diabetes mellitus type 2
非胰岛素依赖型糖尿病 --显著的胰岛素抵抗为主伴有胰岛 素相对不足,或有胰岛素分泌不足 为主伴有或不伴有胰岛素抵抗所致 的糖尿病
Case: diabetes mellitus type 2
2型DM患者的血糖水平倾向于升得很高 血液中过多的葡萄糖常损伤血管和神经, 并可导致失明、肾病、心脏病、中风, 以及足部坏死等严重后果
相关文档
最新文档