分子标记遗传图谱的构建方法---完整

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分子标记遗传图谱的构建
检测出的每个分子标记反映的都是相应染色体座位上的遗传多态性状态。

为了有效地分析利用分子标记所提供的遗传信息,人们希望知道不同分子标记在染色体上的相对位置或排列情况,也就是要构建分子标记的遗传连锁图谱。

利用DNA标记构建遗传连锁图谱在原理上与传统遗传图谱的构建是一样的。

其基本步骤包括:选择适合作图的DNA标记;根据遗传材料之间的DNA多态性,选择用于建立作图群体的亲本组合;建立具有大量DNA标记处于分离状态的分离群体或衍生系;测定作图群体中不同个体或株系的标记基因型;对标记基因型数据进行连锁分析,构建标记连锁图。

至今为止,已构建了许多植物的高密度分子标记连锁图。

本章侧重介绍利用DNA标记构建分子遗传连锁图谱的原理与方法。

第一节作图群体的建立
要构建DNA标记连锁图谱,必须建立作图群体。

建立作图群体需要考虑的重要因素包括亲本的选配、分离群体类型的选择及群体大小的确定等。

一、亲本的选配
亲本的选择直接影响到构建连锁图谱的难易程度及所建图谱的适用范围。

一般应从四个方面对亲本进行选择,首先要考虑亲本间的DNA多态性。

亲本之间的DNA多态性与其亲缘关系有着密切关系,这种亲缘关系可用地理的、形态的或同工酶多态性作为选择标准。

一般而言,异交作物的多态性高,自交作物的多态性低。

例如,玉米的多态性极好,一般自交系间配制的群体就可成为理想的RFLP作图群体;番茄的多态性较差,因而只能选用不同种间的后代构建作图群体;水稻的多态性居中,美国康乃尔大学S.D.Tanksley实验室1988年发表的RFLP连锁图谱是以籼稻和爪哇稻之间的杂交组合为基础构建的(McCouch et al. 1988)。

在作物育种实践中,育种家常将野生种的优良性状转育到栽培种中,这种亲源关系较远的杂交转育,DNA多态性非常丰富。

第二,选择亲本时应尽量选用纯度高的材料,并进一步通过自交进行纯化。

第三,要考虑杂交后代的可育性。

亲本间的差异过大,杂种染色体之间的配对和重组会受到抑制,导致连锁座位间的重组率偏低,并导致严重的偏分离现象,降低所建图谱的可信度和适用范围;严重的还会降低杂种后代的结实率,甚至导致不育,影响分离群体的构建。

由于各种原因,仅用一对亲本的分离群体建立的遗传图谱往往不能完全满足基因组研究和各种育种目标的要求,应选用几个不同的亲本组合,分别进行连锁作图,
以达到相互弥补的目的。

第四,选配亲本时还应对亲本及其F1杂种进行细胞学鉴定。

若双亲间存在相互易位,或多倍体材料(如小麦)存在单体或部分染色体缺失等问题,那末其后代就不宜用来构建连锁图谱。

二、分离群体类型的选择
根据其遗传稳定性可将分离群体分成两大类:一类称为暂时性分离群体,如F2、F3、F4、BC、三交群体等,这类群体中分离单位是个体,一经自交或近交其遗传组成就会发生变化,无法永久使用。

另一类称为永久性分离群体,如RI、DH群体等,这类群体中分离单位是株系,不同株系之间存在基因型的差异,而株系内个体间的基因型是相同且纯合的,是自交不分离的。

这类群体可通过自交或近交繁殖后代,而不会改变群体的遗传组成,可以永久使用。

构建DNA连锁图谱可以选用不同类型的分离群体,它们各有其优缺点,因此应结合具体情况选用。

(一)F2代群体
F2群体是常用的作图群体,迄今大多数植物的DNA标记连锁图谱都是用F2群体构建的。

不论是自花授粉植物,还是异花授粉植物,建立F2群体都是容易的,这是使用F2群体进行遗传作图的最大优点。

但F2群体的一个不足之处是存在杂合基因型。

对于显性标记,将无法识别显性纯合基因型和杂合基因型。

由于这种基因型信息简并现象的存在,会降低作图的精度。

而为了提高精度,减小误差,则必须使用较大的群体,从而会增加DNA标记分析的费用。

F2群体的另一个缺点是不易长期保存,有性繁殖一代后,群体的遗传结构就会发生变化。

为了延长F2群体的使用时间,一种方法是对其进行无性繁殖,如进行组织培养扩繁。

但这种方法不是所有的植物都适用,且耗资费工。

另一种方法是使用F2单株的衍生系(F3株系或F4家系)。

将衍生系内多个单株混合提取DNA,则能代表原F2单株的DNA组成。

为了保证这种代表性的真实可靠,衍生系中选取的单株必须是随机的,且数量要足够多。

这种方法对于那些繁殖系数较大的自花授粉植物(如水稻、小麦等)特别适用。

(二)BC1群体
BC1(回交一代)也是一种常用的作图群体。

BC1群体中每一分离的基因座只有两种基因型,它直接反映了F1代配子的分离比例,因而BC1群体的作图效率最高,这是它优于F2群体的地方。

BC1群体还有一个用途,就是可以用来检验雌、雄配子在基因间的重组率上是否存在差异。

其方法是比较正、反回交群体中基因的重组率是否不同。

例如正回交群体为(A ×B)×A,反回交群体为A×(A×B),则前者反映的是雌配子中的重组率,后者反映的是雄配子中的重组率。

虽然BC1群体是一种很好的作图群体,但它也与F2群体一样,存在不能长期保存的问题。

可以用F2中使用的类似方法来延长BC1群体的使用时间。

另外,对于一些人工杂交比较困难的植物,BC1群体也不太合适,因为一是难以建立较大的BC1群体,二是容易出现假杂种,造成作图的误差。

顺便一提,对于一些自交不亲和的材料,可以使用三交群体,即(A×B)×C。

由于存在自交不亲和性,这样的三交群体中不存在假杂种现象。

(三)RI群体
RI(重组自交系)群体是杂种后代经过多代自交而产生的一种作图群体,通常从F2代开始,采用单粒传的方法来建立。

由于自交的作用是使基因型纯合化,因此,RI群体中每个株系都是纯合的,因而RI群体是一种可以长期使用的永久性分离群体。

理论上,建立一个无限大的RI群体,必须自交无穷多代才能达到完全纯合;建立一个有限大小的RI群体则只需自交有限代。

然而,即使是建立一个通常使用的包含100~200个株系的RI群体,要达到完全纯合,所需的自交代数也是相当多的。

据吴为人等(1997)从理论上推算,对一个拥有10条染色体的植物种,要建立完全纯合的RI作图群体,至少需要自交15代。

可见,建立RI群体是非常费时的。

在实际研究中,人们往往无法花费那么多时间来建立一个真正的RI群体,所以常常使用自交6~7代的“准”RI群体。

从理论上推算,自交6代后,单个基因座的杂合率只有大约3%,已基本接近纯合。

然而,由于构建连锁图谱时涉及到大量的DNA标记座位,因而虽然多数标记座位已达到或接近完全纯合,但仍有一些标记座位存在较高的杂合率,有的高达20%以上(李维明等2000)。

尽管如此,实践证明,利用这样的“准”RI群体来构建分子标记连锁图谱仍是可行的。

在RI群体中,每一分离座位上只存在两种基因型,且比例为1:1。

从这点看,RI群体的遗传结构与BC1相似,也反映了F1配子的分离比例。

但值得注意的是,当分析RI群体中
两个标记座位之间的连锁关系时,算得的重组率比例并不等于F1配子中的重组率,这是因为在建立RI群体的过程中,两标记座位间每一代都会发生重组,所以RI群体中得到的重组率比例是多代重组频率的积累。

不过,从理论上可以推算出,RI群体中的重组比例(R)与F1配子中的重组率(r)之间的关系为:R=2r/(1+2r)。

因此,用RI群体仍然可以估计重组率,亦即RI群体仍然可以用于遗传作图。

RI群体的优点是可以长期使用,可以进行重复试验。

因此它除了可用于构建分子标记连锁图外,特别适合于数量性状基因座(QTL)的定位研究。

但是,考虑到构建RI群体要花费很长时间,如果仅是为了构建分子标记连锁图的话,选用RI群体是不明智的。

另外,异花授粉植物由于存在自交衰退和不结实现象,建立RI群体也比较困难。

(四)DH群体
高等植物的单倍体(Haploid)是含有配子染色体数的个体。

单倍体经过染色体加倍形成的二倍体称为加倍单倍体或双单倍体(DH)。

DH群体产生的途径很多,亦因物种不同而异,最常见的方法是通过花药培养,即取F1植株的花药进行离体培养,诱导产生单倍体植株,然后对染色体进行加倍产生DH植株。

DH植株是纯合的,自交后即产生纯系,因此DH群体可以稳定繁殖,长期使用,是一种永久性群体。

DH群体的遗传结构直接反映了F1配子中基因的分离和重组,因此DH群体与BC1群体一样,作图效率是最高的。

另外,由于DH群体跟RI群体一样,可以反复使用,重复试验,因此也特别适合于QTL定位的研究。

DH群体直接从F1花粉经培养产生,因而建立DH群体所需时间不多。

但是,产生DH 植株有赖于花培技术。

有些植物的花药培养非常困难,就无法通过花培来建立DH群体。

另外,植物的花培能力跟基因型关系较大,因而花培过程会对不同基因型的花粉产生选择效应,从而破坏DH群体的遗传结构,造成较严重的偏分离现象,这会影响遗传作图的准确性。

因此,如果是以构建分子标记连锁图为主要目的的话,DH群体不是一种理想的作图群体。

三、群体大小的确定
遗传图谱的分辨率和精度,很大程度上取决于群体大小。

群体越大,则作图精度越高。

但群体太大,不仅增大实验工作量,而且增加费用。

因此确定合适的群体大小是十分必要的。

合适群体大小的确定与作图的内容有关。

大量的作图实践表明,构建DNA标记连锁图谱所
需的群体远比构建形态性状特别是数量性状的遗传图谱要小,大部分已发表的分子标记连锁图谱所用的分离群体一般都不足100个单株或家系。

而如果用这样大小的群体去定位那些控制农艺性状尤其是数量性状的基因,就会产生很大的试验误差。

从作图效率考虑,作图群体所需样本容量的大小取决于以下两个方面:一是从随机分离结果可以辨别的最大图距,二是两个标记间可以检测到重组的最小图距。

因此,作图群体的大小可根据研究的目标来确定。

作图群体越大,则可以分辨的最小图距就越小,而可以确定的最大图距也越大。

如果建图的目的是用于基因组的序列分析或基因分离等工作,则需用较大的群体,以保证所建连锁图谱的精确性。

在实际工作中,构建分子标记骨架连锁图可基于大群体中的一个随机小群体(如150个单株或家系),当需要精细地研究某个连锁区域时,再有针对性地在骨架连锁图的基础上扩大群体。

这种大小群体相结合的方法,既可达到研究的目的,又可减轻工作量。

作图群体大小还取决于所用群体的类型。

如常用的F2和BC1两种群体,前者所需的群体就必须大些。

这是因为,F2群体中存在更多种类的基因型,而为了保证每种基因型都有可能出现,就必须有较大的群体。

一般而言,F2群体的大小必须比BC1群体大约大一倍,才能达到与BC1相当的作图精度。

所以说,BC1的作图效率比F2高得多。

在分子标记连锁图的构建中,DH群体的作图效率在统计上与BC1相当,而RI群体则稍差些。

总的说来,在分子标记连锁图的构建方面,为了达到彼此相当的作图精度,所需的群体大小的顺序为F2>RI>BC1和DH。

第二节图谱构建的理论基础
一、染色体遗传理论
1903年W. S. Sutton和T. Boveri分别提出了遗传因子位于染色体上的理论,他们将染色体看作是孟德尔基因的物理载体。

该理论亦称为Sutton-Boveri染色体遗传理论,其基本要点如下:(1)体细胞核内的染色体成对存在,其中一条来自雌亲,一条来自雄亲,成对染色体的两个成员是同源的。

(2)每条染色体在个体的生命周期中均能保持其结构上的恒定性和遗传上的连续性,因而在个体的发育过程中起着一定的作用。

(3)在减数分裂中,同源染色体的两个成员相互配对,随后又发生分离,走向细胞的两极,从而形成两个单倍体性细胞。

二、基因重组和连锁理论
连锁图谱构建的理论基础是染色体的交换与重组。

在细胞减数分裂时,非同源染色体上的基因相互独立、自由组合,同源染色体上的基因产生交换与重组,交换的频率随基因间距离的增加而增大。

位于同一染色体上的基因在遗传过程中一般倾向于维系在一起,而表现为基因连锁。

它们之间的重组是通过一对同源染色体的两个非姊妹染色单体之间的交换来实现的。

假设某一对同源染色体上存在A-a,B-b两对连锁基因,现有两个亲本P1和P2,它们的基因型分别为AABB和aabb,两亲本杂交产生AaBb双杂合体。

F1在减数分裂过程中应产生4种类型的配子,其中两种为亲型配子AB和ab,两种为重组型配子Ab和aB。

由于A-a和B-b位于同一染色体上,要产生重组型配子必须在这两个基因的连锁区段上发生交换。

重组型配子所占的比例取决于减数分裂细胞中发生交换的频率。

交换频率越高,则重组型配子的比例越大。

重组型配子最大可能的比例是50%,这时在所有减数分裂的细胞中,在两对基因的连锁区段上都发生交换,相当于这两对基因间无连锁,表现为独立遗传。

重组型配子占总配子的比例称为重组率,用r表示。

重组率的高低取决于交换的频率,而两对基因之间的交换频率取决于它们之间的直线距离。

重组率的值变化于完全连锁时的0%到完全独立时的50%之间。

因此重组率可用来表示基因间的遗传图距,图距单位用厘摩(centi-Morgan,cM)表示,1cM的大小大致符合1%的重组率。

三、图谱制作的统计学原理
(一)两点测验
如果两个基因座位于同一染色体上且相距较近,则在分离后代中通常表现为连锁遗传。

对两个基因座之间的连锁关系进行检测,称为两点测验。

在进行连锁测验之前,必须了解各基因座位的等位基因分离是否符合孟德尔分离比例,这是连锁检验的前提。

在共显性条件下,F2群体中一个座位上的基因型分离比例为1:2:1,而BC1和DH群体中分离比例均为1:1;在显性条件下,F2群体中分离比例为3:1,而BC1和DH群体中分离比例仍为1:1。

检验DNA 标记的分离是否偏离孟德尔比例,一般采用 2检验。

只有当待检验的两个基因座各自的分离比例正常时,才可进行这两个座位的连锁分析。

在DNA标记连锁图谱的制作过程中,常常会遇到大量DNA标记偏离孟德尔分离比例的异常分离现象,这种异常分离在远缘杂交组合的分离群体及DH和RI群体中尤为明显。

目前在水稻中已发现了十余个与异常分离有关的基因座位,这些基因座位可能影响配子生活力和竞争力,导致配子选择,从而产生异常分离。

异常分离会使连锁的检验受到影响,一些本来不存在连锁的标记由于各自的异常分离,可能误导得出连锁的结论,而另一些本来连锁着的标记也有可能由于异常分离而无法检测到连锁。

发生严重异常分离的标记一般不应用于连锁作图。

将分离比的检验与连锁检验相结合,是实际分析过程中解决异常分离的常用方法。

两个连锁座位不同基因型出现的频率是估算重组值的基础。

在一般的遗传学教材中,重组值的估计是根据分离群体中重组型个体占总个体的比例来估计的。

这种估计方法无法得到估计值的标准误,因而无法对估值进行显著性检验和置信区间估计。

采用最大似然法进行重组率的估计可解决这一问题。

最大似然法以满足其估计值在观察结果中出现的概率最大为条件。

在人类遗传学研究中,由于通常不知道父母的基因型或父母中标记基因的连锁相是相斥还是相引,因而无法简单地通过计算重组体出现的频率来进行连锁分析,而必须通过适当的统计模型来估算重组率,并采用似然比检验的方法来推断连锁是否存在,即比较假设两座位间存在连锁(r < 0.5)的概率与假设没有连锁(r = 0.5)的概率。

这两种概率之比可以用似然比统计量来表示,即L(r)/L(0.5),其中L()为似然函数。

为了计算方便,常将L(r)/L(0.5)取以10为底的对数,称为LOD值。

为了确定两对基因之间存在连锁,一般要求似然比大于1000:1,即LOD>3;而要否定连锁的存在,则要求似然比小于100:1,即LOD<2。

在其它生物遗传图谱的构建中,似然比的概念也用来反映重组率估值的可靠性程度或作为连锁是否真实存在的一种判断尺度。

(二)多点测验
两点测验是最简单,也是最常用的连锁分析方法。

然而,在构建分子标记连锁图中,每条染色体都涉及到许多标记座位。

遗传作图的目的就是要确定这些标记座位在染色体上的正确排列顺序及彼此间的遗传图距。

所以,这里涉及到一个同时分析多个基因座之间连锁关系的问题。

这个问题看似简单,其实挺复杂,因为对于m个连锁座位,就有m!/2种可能的排列顺序。

例如,若m = 10,则共有1,814,400种可能。

要从这么多种可能中挑选出正确的顺
序,确实没那么容易。

这项工作用两点测验方法是难以完成的,因为它每次只能分析两个座位间的连锁关系。

由于两点测验估得的重组率存在误差,因此,根据比较不同座位之间重组率大小来确定座位的排列顺序是不可靠的,很可能存在错误。

为了解决这个问题,就必须同时对多个座位进行联合分析,利用多个座位间的共分离信息来确定它们的排列顺序,也就是进行多点测验。

在事先未知各基因座位于哪条染色体的情况下,可先进行两点测验,根据两点测验的结果,将那些基因座分成不同的连锁群,然后再对各连锁群(染色体)上的座位进行多点连锁分析。

与两点测验一样,多点测验通常也采用似然比检验法。

先对各种可能的基因排列顺序进行最大似然估计,然后通过似然比检验确定出可能性最大的顺序。

在每次多点测验中,不能包含太多的座位,否则可能的排列数会非常大,即使使用高速的计算机,也要花费很长的时间。

在一条染色体上,经过多次多点测验,就能确定出最佳的基因排列顺序,并估计出相邻基因间的遗传图距,从而构建出相应的连锁图。

对于在两点测验中没能归类到某个连锁群(染色体)的基因座,可在各连锁群的连锁图初步建成之后,再尝试定位到某个连锁群上。

但在构建分子标记连锁图的实际研究中,往往总有一些标记无法定位到染色体上。

造成这种现象的原因,主要可能是在测定标记基因型时存在错误。

(三)交换干扰与作图函数
随着间距的增加,两个基因座之间便可能在两处同时发生遗传物质的交换,即双交换。

在染色体某区段上发生的双交换,其实际频率往往少于由单交换概率相乘所估得的理论值。

这是因为一个位置上所发生的交换会减少其周围另一个单交换的发生,这种现象称为交叉干扰。

干扰的程度可用符合系数C表示,符合系数C为实际双交换值与理论双交换值的比值。

理论双交换值是指两个相邻的单交换同时独立发生的概率。

其中r1和r2分别为两个相邻染色体区段发生单交换的概率。

符合系数C的值变动于0~1之间。

当C=0时,表示完全干扰,没有双交换发生;当C=1时,表示没有干扰,两单交换独立发生。

一般而言,两单交换的位置相距越远,则彼此干扰的程度就越低,符合系数就越大。

要计算两个相距较远的基因座之间的图距时,如果中间没有其它基因座可利用,则两个基因座之间实际发生的双交换就不能被鉴别出来,因此,采用一些数学方法进行矫正是必要的,否则,从重组率估计出的图距就会比真实图距小。

这种矫正可通过作图函数来实现。

在C=1的假定下,图距x与重组率r之间的关系服从Haldane作图函数:
x=-(1/2)ln(1-2r)
其中x以M为单位。

这里M读作Morgan(摩尔根),它是用著名遗传学家摩尔根的姓命名的,并取第一个字母表示。

1M=100cM(厘摩),1cM为一个遗传单位,即1%的重组率。

根据Haldane作图函数,20%的重组率相当于图距为-(1/2)ln(1-2×0.20)= 0.255M,即25.5cM。

Haldane作图函数的不合理之处在于假定了完全没有交叉干扰。

为了将交叉干扰的因素考虑进去,一种比较合理的假设是,双交换符合系数与重组率之间存在线性关系,即C=2r。

该式表示,C值随r的增加而增加,干扰相应减弱。

当r=0.5(即没有连锁)时,C=1(即没有干扰)。

根据这一假设推导出了如下作图函数(Kosambi作图函数):
根据上式可以算出,当r=0.2时,x=21.2cM。

可见Kosambi作图函数算出的图距比Haldane 作图函数的小。

由于Kosambi作图函数比Haldane作图函数更合理,因此它在遗传学研究中得到了更广泛的应用。

第三节DNA标记分离数据的数学处理
一、分离数据的收集与数字化
从分离群体中收集分子标记的分离数据,获得不同个体的DNA多态性信息,是进行遗
传连锁分析的第一步。

通常各种DNA标记基因型的表现形式是电泳带型,将电泳带型数字化是DNA标记分离数据进行数学处理的关键。

下面以RFLP为例来说明将DNA标记带型数字化的方法。

假设某个RFLP座位在两个亲本(P1,P2)中各显示一条带,由于RFLP是共显性的,则F1个体中将表现出两条带,而F2群体中不同个体的带型有三种,即P1型、P2型和F1(杂合体)型。

可以根据习惯或研究人员的喜好,任意选择一组数字或符号,来记录F2个体的带型。

例如,将P1带型记为1,P2带型记为3,F1带型记为2。

如果带型模糊不清或由于其它原因使数据缺失,则可记为0。

假设全部试验共有120个F2单株,检测了100个RFLP标记,这样可得到一个由100(行)×120(列)的、由简单数字组成的RFLP数据矩阵。

进行DNA标记带型数字化的基本原则是,必须区分所有可能的类型和情况,并赋与相应的数字或符号。

比如在上例中,总共有4种类型,即P1型、F1型、P2型和缺失数据,故可用4个数字1、2、3和0分别表示之。

如果存在显性标记,则F2中还会出现两种情况。

一种是P1对P2显性,于是P1型和F1型无法区分,这时应将P1型和F1型作为一种类型,记为4。

另一种情况正好相反,P2对P1显性,无法区分P2型和F1型,故应将它们合为一种类型,记为5。

对于BC1、DH和RI群体,每个分离的基因座都只有两种基因型,不论是共显性标记还是显性标记,两种基因型都可以识别,加上缺失数据的情况,总共只有3种类型。

因而用3个数字就可以将标记全部带型数字化。

在分析质量性状基因与遗传标记之间的连锁关系时,也必须将有关的表型数字化,其方法与标记带型的数字化相似。

例如,假设在DH群体中,有一个主基因控制株高,那么就可以将株系按植株的高度分为高秆和矮秆两大类,然后根据亲本的表现分别给高秆和矮秆株系赋值,如1和2。

将质量性状经过这样的数字化处理,就可以与DNA标记数据放在一起进行连锁分析。

DNA标记数据的收集和处理应注意以下问题:(1)应避免利用没有把握的数据。

由于分子多态性分析涉及许多实验步骤,很难避免出现错误,经常会遇到所得试验结果(如X-光片)不清楚等问题。

如果硬性地利用这样没有把握的数据,不仅会严重影响该标记自身的定位,而且还会影响到其它标记的定位。

因此,应删除没有把握的数据,宁可将其作为缺失数据处理,或重做试验。

(2)应注意亲本基因型,对亲本基因型的赋值(如P1型为1,P2。

相关文档
最新文档