中性检验相关知识
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(六)检验分子水平自然选择的方法
在选择主义与中性主义的争论中,中性理论提出了很多的假设,其中的许多涉及到群体内等位基因频率分布,以及种内-种间遗传变异的关系。因此,可以利用统计学模型来验证中性学说的正确性,即把中性理论作为统计学检验的零假设(null hypothesis),非中性选择作为选择性假设(alternative hypothesis),如果这个零假设被显著地拒绝(significantly rejected),那么中性假设将被认为是不合适的(Kimura and Ohta 1971)。
关于在分子水平验证选择的方法,Garrigan和Hedrick(2003)认为可以按照种群的当前世代,种群的短期历史和物种的长期演化历史三种时间尺度来划分为三类。然而,选择是一个长期作用的过程,种群的当前世代体现出来的临时状态无法真实反映选择的作用;并且这种时间尺度的划分也不利于寻找种内-种间遗传变异所反映的选择信号。Nielsen(2005)则把选择检验分为群体遗传学检验(population genetic approaches)和比较数据检验(comparative data approaches)。Biswas和Akey(2006)从基因组学的角度出发,将选择检验的方法分为种内多态性,种内多态性与种间分歧,和种间检验三类。事实上,不论如何划分,不同的检验方法都有不同的数据类型作为检验对象。因此,在这篇综述里我将按照数据类型的不同对目前常用的统计检验方法进行整理和归纳。
(1)基于群体内等位基因频率分布的中性检验
在核酸的碱基测序时代之前,群体遗传多样性的研究手段主要是对遗传标记的电泳图谱进行分析,其中等位基因的杂合度(allele heterozygosity)曾经是一个普遍用于描述遗传多样性的指标。以某单一等位基因位点为例,在一个个体数为1000的群体里,如果其中50个个体在该位点是杂合子,那么我们可以简单地把(Ho)=50/1000=0.05作为该位点的表观杂合度;说明该种群在以这个位点为遗传标记时得到的遗传多样性程度不高,即仍有95%的个体是纯合子。这种评估方式适用于小片段的蛋白质或核酸序列(如几十或者几百个氨基酸或碱基),但不适用于较长片段的研究。事实上,在自然状态下,核酸水平上的变异是比较丰富的,尤其从大片段的尺度来看。例如比较两条长度为10,000 bp的等位基因,如此长度的序列几乎可以肯定他们是杂合的,因为序列越长,里面的变异越丰富,那么可以想象该位点在群体里杂合度Ho接近1。因此,在对核酸序列进行群体遗传多样性分析时,考虑两条序列间存在多少差异所获得的遗传多样性信息要远远大于判断他们是纯合子还是杂合子(Li 1997)。
在后来发展起来的群体遗传学研究中,有三个重要指标被运用于评估核酸遗传多样性(Nei 1987; Li 1997)。第一个是∏,即将所研究群体的所有核酸序列中任意两条不同序列的碱基差异数取平均值;这个指标对等位基因频率依赖很大。第二个是K,即分离位点数(number of segregating sites),现在也被称为SNP(single nucleotide polymorphism),是指所有序列排列比对后存在变异的碱基位点数目;这个指标依赖于等位基因数目而与等位基因频率无关。第三个是Na,即等位基因数(number of alleles)。此外,有一个非常关键的反映种群动态的参数θ将以上三个指标在数学上联系起来;这里θ=4N eμ,其中N e为有效种群大小,μ为每一代的序列突变率(Watterson 1975; Tajima 1983)。有两种公认的θ估值,一个
是Watterson估值(Watterson’s estimator, θW),把θ与K联系起来,即θW=K/a,其中a=[1+1/2+1/3+ ??? +1/(n–1)](Watterson 1975);另一个是Tajima估值(Tajima’s estimator, θT),即θT=∏(Tajima 1983)。从理论上说,在中性条件下,应当有θT=θW=4N eμ的平衡状态。因此,Tajima(1989)设计了D值检验(Tajima’s D),即D=[(θT–θW)/Var(θT–θW)],通过统计学模型来验证中性突变假说。Tajima’s D值检验的作用原理是(Tajima 1989):在原有的平衡状态中
(θT=θW=4N eμ),所以D=0。但是,如果群体中存在许多低频率的等位基因(稀有等位基因),可以期望K/a不断增大而∏并未受到严重影响,因为后者主要是由高频率等位基因决定的。于是有θT<θW,则D<0。相反,当群体中是中等频率的等位基因占主导时,可以期望∏增大而K/a不受影响;这时θT>θW,D>0。Tajima (1989)把过多低频率等位基因的存在归咎为定向选择时,选择性清除下选择性清除会削弱原有等位基因的在群体中的频率,而使新等位基因以低频率补充进来成为稀有等位基因。相反,如果是中等频率的等位基因占主导,则可能是平衡选择的结果,或者是种群大小在经历瓶颈时使稀有等位基因丢失。因此,当Tajima’s D显著大于0时,可用于推断瓶颈效应和平衡选择;当Tajima’s D显著小于0时,可用于推断群体规模放大和定向选择。由于平衡选择与定向选择都属于正选择的范畴,因此,只要D值显著背离0,就可能是自然选择的结果;而当D值不显著背离0时,则中性零假说则不能被排除。
之后,Fu和Li(1993)提出了与Tajima’s D略为不同的方法来检验中性进化,即Fu and Li’s D & F test。他们考虑的是可以获得外类群的情况,因而对一组给定的等位基因序列可以构建一颗有根树。在这棵树上,总突变数为y,内部分枝突变数为y i,外部分枝的突变数目为y e,则y=y i+y e。这里y和y e的数学期望值分别为E(y)=a*θ,E(y e)= θ,其中a=[1+1/2+1/3+ ??? +1/(n–1)]。如果发生了选择作用,那么外部分枝突变数将会偏离期望值,而内部分枝突变数并未受到严重影响。因此,可根据与Tajima’s D类似的策略,构建统计模型来验证中性零假说。此外,Fay和Wu(2000)构建了H检验(Fay and Wu’s H test),用以测试高频率变异与中等频率变异的差异。他们认为在中性占主流的状态下,并不期望会出现很多高频率的变异,因而仅仅根据少数存在的高频率的变异就可以推断“搭车效应”。在果蝇的一些低频重组的区域中,H检验观察到了许多高频率变异,因此,Fay 和Wu(2000)推断果蝇中的这些高频变异可能是由于“搭车效应”时正选择保留了有利变异并使其以高频率在群体中存在。
到目前为止,Tajima’s D,Fu and Li’s D & F test和Fay and Wu’s H test,可能是针对群体内的等位基因频率被运用得最广泛的中性检验模型(Nielsen 2005)。
D> 0 suggests either a recent population bottleneck or some form of balancing selection.
D< 0 suggests either population expansion or purifying selection. A quick check in Web of
Science reveals that the paper in which Tajima described this approach [4] has been cited