人类遗传统计基础—术语、概念、基础统计培训

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
离率τ=1/4。按最大似然方法估计τ, 再与1/4比较。一般计算复杂,借助计算 机程序实现。
◆图距x:位点间的遗传距离,可转换成
θ
◆遗传图谱:已知图距的基因排列
x∝θ: θ=6% → x=6cM(Morgan) (1cM=1000kb, 1kb=1000核苷酸对)
◆图距函数:x与θ的关系
Haldane:x=-0.5ln(1-2θ) 0≤θ<0.5
计分离率τ,比较与期望分离率的吻合 度
常染色体显性遗传:单基因,等位基因A/a, 婚A配致型病,p(AAA)=p≈0,A各a 婚配孟aa德尔患τ病率:
AA*AA
1
0
0
1
AA*Aa
1/2
1/2
0
1
AA*aa
0
1
0
1
Aa*Aa
1/4
1/2
¼
3/4
Aa*aa
0
1/2
½
½
aa*aa
0
0
1
0
最可能出现的婚配型是Aa*aa,一个子 女患病一个不患病信息量最大,通 常假定为Aa*aa型,患病子女数X服 从二项分布b(n,τ) ,欲检验τ=1/2, 计算 χ2 =4[∑ri-n/2 ]2/n ν=1
参与遗传机制的基因可以是1个、2个、 几个和多个。遗传性状可以是定量、定 性的。对定性形状,假定存在一个定量 的“易感性”,当其超过阈值时“发 病”(多基因阈值性状)。
一些估算遗传度的公式:
◇双生子资料:h2=2(ρMZ-ρDZ) ◇父母子女资料:h2=2ρ父子 ◇亲属(无父母)资料: ANOVA=>ρL => h2
遗传漂变: 有限群体中,除迁移、选择和突变
外,基因库中仅部分个体贡献下一代配子, 这种因抽样产生的随机性导致下一代基因频 率变化。
有效群体:群体中生育年龄个体数。
有效群体大小:N=4MF/(M+F) 例:达到生育年龄男性50,女性200 N=4× 50× 200/(50+200)=160
ABO血型基因型与表现型
基因(gene):完成特定功能的一段核苷酸序列。 基因座(locus):基因在染色体上的位置 等位基因(alleles):同一位点上可能出现的基
因,例如ABO血型基因
基因型(genotype):同一位点上两个等位基因
的组合
纯合体(homozygote): 如A/A 杂合体(heterozygote): 如A/O 表现型(phenotype):基因型控制的性状
重组(recombination) :奇数次互换 导致一个重组
重组率θ(recombination fraction) :
● 无连锁→θ=1/2 ● 连锁 →θ<1/2 ● 连锁分析需家系资料 ● 亲体须双杂合体才可能有信息 ● 男女亲体θ不同
◆回交(backcross)/测交 (testcross)Aa× AA/aa
★ MLE的单调变换仍是MLE (例如Ӫ2 →θ2 )
★ MLE一般是有偏的 ★ MLE一致(渐近无偏)、渐近正态
假设检验
实例:3例死亡1例,一般病死率57% →
“疗效好”。 1/3<0.57 ?
以0.57为真病死率,100个n=3的样本:
d/n
N样本 病例数 病死数
3/3
19
57
57
2/3
41
科研工作一般步骤:
★ 研究者的科学假设H ★ 进行试验得到样本数据S ★ 根据S对H的支持程度做出推断
假设检验——概率意义的“反证法”
★ 先设立H的对立假设H0 (H记为H1) ★ 把H0下的样本空间Ω划分为拒绝域R
表现型 频率
表现型
基因型
A1 A2 A1B A2B B O 频率
1 0 0 0 0 0 0.0441 1 0 0 0 0 0 0.0294 0 0 1 0 0 0 0.0252 1 0 0 0 0 0 0.2772 0 1 0 0 0 0 0.0049 0 0 0 1 0 0 0.0084 0 1 0 0 0 0 0.0924 0 0 0 0 1 0 0.0036 0 0 0 0 1 0 0.0792 0 0 0 0 0 1 0.4356
孟德尔第二定律(自由组合):不同染色体 上的等位基因传递独立:
P{→AB|AaBb}=P{→A|Aa}× P{→B|Bb}
哈代—温伯格平衡:无迁移、选择、突变,
群体中的基因频率和基因型频率保持不变。
P(A)=p , P(B)=q , P(O)=r 全部:(p+q+r)2 (近交系数F一般<0.005)
0.06)2-2(0.060.66)2 =0.41
◇ 对max≤95%的多态性定义,有:
H ≥ 0.10, PIC ≥ 0.10 ◇ 突变率∝ H/(1- H)
似然函数
◆似然函数L:观察到手头样本F的概率。 对二项分布,p(A)=p, p(a)=1-p, 观察到 “k/n”(记为F)的概率为: P(p,F)= P(p,n,k)= Cnkp k (1-p) (n-k) 例如n=4,k=1,p=0.3, P(p,F)= C41 0.3 0.73 = 0.4116
对或两对以上基因的控制,各对基因彼 此间没有显性隐性关系,每对基因对表 型的效应都很小,各对基因的作用有积 累效应。
多基因遗传的特征:1)纯合亲本->F1
的表型一般是双亲的中间类型。2)F2 个体的表型平均值大体上与F1相近,但 变异幅度显著增加。3)含有环境效应。 环境因子数目越大,变异越接近正态分 布。4)当双亲不是极端类型时,其子 女可分离出高于高亲值或低于低亲值的 类型,称超亲遗传。
对上述二项分布例子(n=4,k=1,θ =p):
L(θ,F) = L(p,F) = Cnkp k (1-p) (n-k) = 4p(1-p)3
Ln[L(p,F)] = ln(4)+ln(p)+3ln(1-p) 令 {მ ln[L(p,F)]/მp}=1/p-3/(1-p)=0 ⇒
1=4p ⇒ θ 的MLE为0.25。
人类遗传统计基础—— 术语、概念、基础统计
2004年10月,北京
常用术语与概念
染色体(chromosome,46条,23对同源染
色体(homologous chromosome))
有丝分裂(mitosis): DNA复制形成姐妹染色单
体(chromatid)→姐妹染色单体分开进入新细胞。
减数分裂(miosis): DNA复制形成姐妹染色单
基因频率(allele frequency):人群中一个 等位基因占该位点全部基因的比例
基因型频率(allele frequency):人群中特 定基因型占该位点全部基因型的比例
基因多态性(polymorphism):一个位点上 等位基因频率中最大值不超过95%
孟德尔第一定律(独立分离):得到父母2 等位基因之一的概率为1/2
表现型与基因型并非一一对应关系。
单基因性状:由单个基因控制的性状。 这些性状之间的差别明显,一般没有中 间过渡类型,呈不连续变异(质量差异), 称 为 质 量 性 状 ( qualitative character)。如单眼皮/双眼皮,卷舌, 用手习惯,卷发/直发,血友病、色盲 等。单基因性状属于孟德尔式遗传。
0.3507 0.0973 0.0252 0.0084 0.0828 0.4356 1
隐性(recessive)
表现型 基因型 基因型
显性(dominant) 共显性(codominant) A
频率
AA
P2
AO 2pr
B
BB
q2
BO 2qr
O
OO
r2
AB AB 2pq
交叉(crossover)、互换:减数分裂中 同源染色体配对4条染色单体之间, 一次减数分裂至少一次交叉
◇ 考虑近交:(1-F)H 一般 F<0.005 ◇ a个等概:H=1-Σpi2 =1-1/a
a=1/(1-H), 例:H=0.9, a≥10
2. 多态信息量PIC
PIC =1-Σpi2 -ΣΣ2(pi pj ) 2
ABO基因频率0.28,0.06,0.66
PIC=1-0.282-0.062-0.662-2(0.28
123
82
1/3
32
96
32
0/3
8
24
0
合计
100
300
171
总病死率=171/300=57% ,但1/3样本有32 个,0/3样本8个,共40个,占40%
→ 样本可能是这40%中之一 → 结论有问题 ★ 想证实疗效好(H) ★ 收集数据→ 作结论 ? 结论没有考虑数据对H的支持程度
多基因性状:由多个基因共同控制的性
状。这些性状的变异有一系列过渡类型 彼此间只有数量的差别,没有明显质的 界限,呈连续变异。因此,多基因性状 又称为数量性状(quantitative character)。人类性状多是数量性状 (如智力、身高、肤色、冠心病、消化 性溃疡等)。
多基因遗传:一种遗传性状的表达受两
如果 p=0.4
P(p,F)= C41 0.4 0.63 = 0.3456 ◆ L随F和分布(参数)而变
似然函数与最大似然估计
◆分布常参数化为θ,似然函数写成L(θ,F) 二项分布, θ=p, F表示为(n,k) L(θ,F)= P(p,n,k)=Cnkp k (1-p) (n-k)
F已知,L(θ,F)是θ的函数,“给定θ下的概 率”。
ρL=(MSb-MSw)/[MSb+(n-1)MSw] h2=2ρL ◇流行资料(prevalence data):根据人群 患病率Bp和患者直系亲属患病率Bo计算,
h2=2Bp[t-X(Bo)]/f(t)
t=X(Bp), X(y)=Φ-1(1-y), f(t)=φ(t)
分离分析: 检验家庭数据的遗传模式。估
◆杂交(intercross)
(仅对2 alleles适用) ◆重组体(recombinant)
◆非重组体 (nonrecombinant)
◆有连锁信息的条件:至
少一个亲体为双杂合个体
(double heterozygote)
遗传度(heritability):遗传因素在性状表 现中所起作用的大小。如果性状变异完 全由环境因素造成,遗传度等于零。如 果性状变异完全取决于遗传因素,则其 遗传度为100%。
x=∞
其他
Kosambi: x=0.5tanh-1(2θ)
1-3位点,x12+x23→ θ13→x13
◆连锁群:1→2 →3 →...
◆多态性程度:
1. 杂合率(hiterozygosity)
H =1-Σpi2 pi :第i个allele频率 Hu=H• n/(n-1)
ABO基因频率0.28,0.06,0.66 H=1-0.282-0.062-0.662=0.48
n: k个家庭子女总数, ri: 家庭i患病子 女数
n: k个家庭子女总数, ri: 家庭i患病子 女数
例: 乳光齿质症,亲本之一患病,共调 查112子女,其中52人患病,
χ2 =4[52-112/2 ]2/112=0.5714 0.3<p<0.5
该病可能属常染色体显性遗传(单基 因)
常染色体隐性遗传: 单基因,孟德尔分
基因型 A型
A/A
1
A/B
0
A/O
1
B/B
0
B/O
0
O/O
0
表现型
B型 AB型 O型
0
0
0
0
1
0
Baidu Nhomakorabea
0
0
0
1
0
0
1
0
0
0
0
1
白人4种ABO基因的基因型与表现型频率 (基因频率a1:0.21, a2:0.07, b:0.06, o:0.66)
基因 型
a1/a1 a1/a2 a1/b a1/o a2/a2 a2/b a2/o b/b b/o o/o
体→同源染色体配对(四倍体)、交换→“同源 染色体”分开进入新细胞→“姐妹染色单体” 分开形成配子进入新细胞。
单倍型(haplotype):一条染色体上不同基因座上
来自同一个亲体的基因排列。
遗传密码:DNA链上不同的碱基排列。为了
编码20种氨基酸,需要最少3个碱基组成1个 序列片段,称三联体密码(tripletcode)。每个 三联体(如AAA)在mRNA上的副本(UUU)称 为一个密码子(codon)。地球上所有生物都具 有统一的遗传密码。同一氨基酸可有好几个 密码,密码子的专一性主要由前两个碱基决 定。64个密码中61个都对应了相应的氨基酸, 其中一个(AUG,对应甲硫氨酸的唯一密码) 兼具起始密码功能,另有3个终止密码(UAA、 UAG和UGA)。
◆ θ 的最大似然估计:使L(θ,F)最大化的θ. 对上θ (p述) 例子0.2(n=4,0k.=31, 二0项.5分布0,θ.6=p):
L(θ,F) 0.4096 0.4116 0.2500 0.1526
最大似然估计
◆ MLE的计算:对[მL(θ,F)/მθ]=0求

一般,令
{მ ln[L(θ,F)]/მθ}=0
相关文档
最新文档