关联分析在核心种质中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

植物遗传资源学报2007,8(3):366~372Journa l o f P l ant G enetic R esources

关联分析在作物种质资源分子评价中的应用

王荣焕,王天宇,黎 裕

(中国农业科学院作物科学研究所,北京 100081)

摘要:发掘优异基因资源是作物种质资源分子评价的重要部分,对作物育种尤其是分子育种具有非常重要的实践意义。基于连锁不平衡(LD )的关联分析是基因发掘也是等位基因发掘的有效途径。本文系统介绍了关联分析的基本理论、策略、特点及应用现状,并探讨了其在作物种质资源新(等位)基因发掘中的发展趋势及展望。可以预见,与传统QTL 作图及功能基因组学相整合的关联分析必将大大加快我国作物种质资源的研究进程,实现我国种质资源优势向基因资源优势的转变。

关键词:作物种质资源;连锁不平衡;关联分析;基因发掘;等位基因发掘

收稿日期:2007 01 31 修回日期:2007 05 09

基金项目: 863 项目(2006AA102188);国家自然科学基金项目(30571133)作者简介:王荣焕,河北衡水人,在读博士

通讯作者:王天宇,黎裕,Te:l 010 ********;E m ai:l yu l @i m ai.l caas .net .cn

Application of Association Analysis i n

M olecular Eval uation of Crop Ger mplas m Resources

WANG Rong huan,WANG T ian yu,LI Yu

(Ins titute of C rop Science ,Chinese A cade my of A gricult ural Sciences ,B eij i ng 100081)

Abstract :Gene d i s covery and allele m i n i n g are i m portant i n mo lecular evaluati o n o f crop ger m p las m resources and are of great practical sign ificance i n crop breed i n g ,especially i n m o lecular breedi n g .L i n kage d isequili b rium (LD) based assoc iation ana lysis is an effective approach to fi n d ne w genes and favorab le alleles .In th is paper co m prehensi v e l y basic theories ,strateg ies ,characteristics and current successful applications o f assoc iation ana l y sis i n

crops w ere revie w ed .The trends and prospects of association ana l y sisw ere a lso proposed .It i s concluded thatw ith t h e integ ration of traditionalQTL m app i n g and functional geno m ics ,assoc iation analysis w ill certainly accelerate the m o lecu lar evaluati o n of crop ger m plas m resources .

K ey w ords :C rop ger m p las m resources ;LD;Association ana lysis ;Gene d iscovery ;A lle le m ining 作物种质资源的鉴定评价是作物种质资源研究的重要组成部分。近20年来,随着基因组学和分子生物学的迅猛发展,在分子水平上对种质资源进行评价已成为国内外的研究热点。从广义上来讲,对作物种质资源的分子评价主要包括遗传多样性分析、分子身份证构建和基因发掘等。

基因发掘是种质资源分子评价的重要内容。广义的种质资源基因发掘包括两部分重要内容,一是在特异种质资源中找到控制目标性状的基因(含数量性状位点,QTL);二是找到不同种质资源中同一基因的不同等位基因,并对其功能和效应进行鉴定。狭义的基因发掘仅指前一部分内容,又称为基因发

现(gene d iscovery),后一部分内容则可称为等位基因发掘(allele m i n i n g )。目前发现新基因的方法主要包括基于遗传作图和图位克隆的方法、基于比较

基因组学的方法、基于基因表达的方法、基于突变体的方法、基于生物信息学技术的方法、基于蛋白组学和代谢组学的方法等[1]

;发现新等位基因的方法则

主要是基于连锁不平衡(linkage disequ ilibri u m,LD )

的关联分析方法。

关联分析(association analysis),亦被称为LD 作图(LD m app i n g)或关联作图(associati o n m app i n g ),是一种基于LD 的将标记或候选基因的遗传变异(等位基因变异)与目标性状表型联系起来的分析

3期王荣焕等:关联分析在作物种质资源分子评价中的应用

方法[2,3]。本文将对关联分析的统计学原理、策略、

特点及其应用现状和前景做一系统介绍。

1 关联分析的统计学原理

关联分析以连锁不平衡为基础。关联分析最初

普遍应用于人类疾病,特别是A lzhei m er病[4]和膀胱

纤维症[5]的研究中,仅是在近年来才开始应用于植

物的研究中,其主要原因之一是人们对许多植物物

种基因组中的LD结构缺乏了解所致[6]。

1 1 连锁不平衡的遗传学意义

连锁不平衡,亦被称为等位基因关联(allelic as

soc iation),指的是一个群体内不同位点等位基因之

间的非随机关联,包括两个标记间或两个基因或两

个QTL间或一个基因/QTL与一个标记位点间的非

随机关联[3,6]。如果两个不同位点的等位基因一起

出现的频率比理论上同时出现频率高时,那么这两

个位点处于LD状态。鉴于非连锁的位点同样能够

处于LD状态,因此,用配子相不平衡(ga m etic phase

disequ ilibri u m,GPD)或简称配子不平衡(ga m etic d is

equ ilibri u m)更确切些,即相关联的等位基因在配子

阶段一定是共同出现的。关联分析方法只是LD应

用的一种[3],其检测的是某群体内处于LD状态的

一些标记或候选基因的遗传变异即等位基因变异与

特定表型显著关联的频率是否比期望的要更高[6]。

1 2 连锁不平衡的度量

所有LD统计的是实际观测到的位点间的单倍

型频率与期望单倍型频率之间的差异(D)。连锁不

平衡的度量依研究位点的性质和数目而异。在实际

应用中,经常计算的是两个等位基因的两位点间的

LD水平。

假设有两个连锁的位点A(其等位基因分别为

A、a)和B(其等位基因分别为

B、b),4个等位基因

的频率分别为 A、 a、 B、 b,4种单倍型AB、aB、Ab

和ab的频率分别为 AB、 a B、 Ab和 ab,则D a b=

( A B- A B)。对于只有两个等位基因的位点,有

多种统计方法可以用来衡量两位点间的LD水

平[7],但最常用的是 2和D [8,9]。 2和D 的计算

公式分别为:

2=

(D ab)2 A a B b

|D |=

(D a b)2

m i n( A b, a B)

for D ab<0

|D |=

(D a b)2

m i n( A B, a b)

for D ab>0

D 仅包括样本的重组史,敏感度较高,即使对于

在实际应用中的稀有等位基因的D 值可能会很大,

意味着其具有较高的LD水平[10]。另一方面,D 虽

然能更准确地估测重组差异,但当样本较小时发现

低频率4种等位基因组合的可能性将大大减小,因

此不适宜研究较小样本。与之相比, 2既包括样本

的重组史又包括突变史,并且可提供标记是否能与

QTL相关的信息,因此关联分析中通常采用 2表示

群体的LD水平[11]。

2和D 是两个位点间LD的度量。对于具有

大量标记的基因组某区域内LD的分布状况,通常

用LD衰退图和LD矩阵两种形象化的方式来表示。

LD衰退图以位点间的LD对遗传距离作图来表示

一个区域内的LD分布情况,同时也便于比较不同

物种中的LD水平。LD矩阵是某基因内或某染色

体上多态性位点间LD的线性排列。另外,也可以

通过对该区域内反映两两位点间LD水平的 2或

D 的均值来表示该区域内的LD水平[10]。

2 关联分析的策略

关联分析主要包括两种策略[6],即基于全基

因组扫描和基于候选基因的关联分析。两种策略

的技术路线分别见图1和图2。全基因组扫描方

法中,通常采用一定数量分布于基因组染色体上

的标记对所选材料进行基因型鉴定;而基于候选

基因的关联分析仅涉及到对目标候选基因所进行

的序列分析。了解所研究目标群体的基因组LD

模式有利于我们选择适宜的关联分析方法。对于

具有高度LD水平的群体而言,全基因组扫描是最

好的关联分析方法,因为采用这种方法可以减少

所需标记的数量;而较低LD水平的群体适宜采用

基于候选基因检测的高分辨率作图方法。关联分

析的步骤如下。

第一步:种质材料的选择。种质资源的选择对

发掘优异等位基因非常关键。为了能够检测到最多

的等位基因,所选材料应尽可能地包括某物种全部

的遗传变异。对于已构建了核心种质的物种而言,

核心种质是进行关联分析的最佳选择。种质材料的

选择同样也决定了关联分析的分辨率。具有高度多

样性的种质材料能够包括历史上曾经发生过的更广

泛的重组事件,因此这样的群体具有较高的关联分

析分辨率。

第二步:群体结构分析。通过运用基因组范围

内的大量独立遗传标记(如SSRs、SNPs、RFLPs或

367

相关文档
最新文档