农业基因分型技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
农业基因组学的基因分型技术面临关键抉择对于某些应用而言,基于测序的基因分型在开展遗传变异研究时提供了比芯片更低成本的选择
简介
如今的农业基因组学研究人员可选择多种技术来收集遗传信息。基于芯片的SNP筛查方法一直是分析多个动植物的基因组区域并将其与性状相关联的首选方法。随着测序成本不断下降,利用新一代测序(NGS)技术的新方法也被开发出来,以开展基因分型研究。我们使用基于新一代测序的基因分型(NGG)这个术语来涵盖利用NGS技术的基因分型方法。NGG包括了目标片段测序,降低代表性文库测序和基于杂交的方法来发现SNP和基因分型,这些往往同时用于许多个体或样本。本篇应用聚焦深入探讨了不同的NGG方法,它们的优势,以及传统芯片技术在未来将扮演的角色。
芯片为农业基因组学的基因分型铺平道路
在八十年代后期,研究人员开始鉴定某些物种中的特定DNA区域,这些区域影响了表型性状。他们的努力很快换来了准确且经济高效的遗传检测的开发,这些检测可确定样品中这些区域的基因型。用户友好的PCR型标记,如短串联重复片段(STR或SSR),最终被这些基因分型研究所选择的单核苷酸多态性(SNP)所取代。SNP不仅以高丰度存在于基因组中,而且在特定群体的高密度筛查时,它们也实现了遗传区域从父母向子女转移的高效追踪。如今,基于SNP的分析通常用于鉴定性状标记关联,开展基因组选择、亲子鉴定和分子标记辅助选择1。
优化标记密度以检测性状关联是开发基因分型工具时的主要挑战之一。性状关联依靠重组单元(单体型区块)的检测,这让定向“多样性群体”的标记密度优化变得很关键,这样才能以合理的成本对每个样品开展基因分型。
打造可靠的基因分型芯片涉及到多个关键步骤,包括最初的SNP 发现、多样性评估以及SNP选择2,3,之后将经过过滤的一组高质量SNP部署在高密度基因分型平台上,如Infinium分析。每个样品的成本通常限制了SNP芯片在科研应用中的使用,因筛查群体很小。
然而,对于多个农业应用,基因分型能带来深远的好处,包括育种群体的筛查4。通过遗传筛查,农民和家畜饲养者可立即获得反馈,以便做出更好的育种决定,并加速他们的投资回报(ROI)。每个样品成本较低的基因分型工具让在大规模群体上开展常规遗传筛查成为可能,而具有吸引力的ROI也抵消了技术的实施成本。测序进展可带来更经济高效的基因分型测序技术的快速发展带来了更高的通量和每个样品的更低成本,这使得NGG成为一种经济高效的农业基因组学工具,适合基因型筛查、遗传作图、纯度检测、回交系筛查、单体型图谱构建,以及关联作图和基因组选择的开展5,6,7。NGG方法还在不断增多,每一种都带来了测序所拥有的基本好处,包括降低偏好性,除SNP之外变异(小的插入、缺失和微卫星)的鉴定,以及在缺乏参考基因组时开展样品间比较分析的能力(表1)。
基于序列的基因分型方法
对于小型基因组(如果蝇)或关注度高的研究物种(如拟南芥),基因分型和变异筛查可利用相对于参考序列的全基因组测序(WGS)方法来完成。对于大型基因组和资金有限的研究,基于序列的基因分型(或NGG)方法已被开发出来(表2)。
对于开展成本低于WGS的方法而言,NGG的进展最为明显。较低成本操作的开发主要是由农作物研究人员推动的,这支持了基因组学辅助育种和基因组选择中的应用8,14。
表层测序
低覆盖度或可扩展/调节的表层测序已被小麦染色体系证实在SNP发现中很有效,有助于详细的多样性分析、分子标记辅助选择和测序法基因分型9,22。它具有很多优势,包括已经确立的样品制备步骤,信息学应用程序分析流程,无需与参考比较而检出序列中的SNP,以及最大限度避免假阳性的冗余检查(SGSAutoSNP)9。通过重新运行样品测序,还能调节产生的数据量,从而增加序列覆盖度。
富集
通过PCR或杂交探针的使用,目前有一系列方法可分离特定的基因组片段用于测序,这些方法要么去除不想要的组分(目标富集),要么选择想要的目标(定向pull down)10,11。它们致力于目的区域的测序,提供足够的测序覆盖重叠,以便可靠地检出SNP。尤其在植物中,这些方法避免将测序空间浪费在重复区域或其他不想要的基因组区域上10。
基于PCR的方法
目前已有多种基于PCR的基因分型方法被开发出来,包括PCR 扩增子的直接测序,长距离PCR测序(其中片段在文库制备中已剪切),以及分子倒置探针的使用,它们靶定长的区域,在扩增之前用连接酶环化。这些方法为分散标记和样品多重分析(每
基因分型成本低(现在)NGG方法通常使用自制的样品制备和多重分析。
每个样品的成本低于30美元。低多样性的群体(如棉花)将比高多样性的群体(如玉米)表现出更少的多态性。因此,对低多样性物种而言,每个数据点的成本将较高19。
定向的富集方法和限制性酶切方法都需要微调覆盖度,以达到最佳的成本效益。
基因分型成本更低(未来)NGG方法已准备好利用未来的测序进步。随着测序步骤确定、发表并分享,数据管理
的一致性、样品和基因库的追踪将对优化资
源很关键18。
由于每个个体的步骤高度多重且较低覆盖
(如表面测序),故每个实验必须考虑杂合
子检测的模糊耐受性。
数据分析方法,尽管在不断改善,但与芯片
的数据分析方法相比仍不够简单。这对于物
种遗传信息有限的新用户而言可能是个障碍
(即无参考基因组)。
低确认偏好对于亲本背景不同于参考的品系或SNP发现群体
而言,确认偏向,特别是高密度物种,代表了芯
片基因分型中的挑战。测序方法有着较低的经验
知识负担。基于杂交的Pull down或扩增子方法有可能产生某种偏好。若目标品系的限制性位点保守,则限制性位点关联分析方法在此程度上是没有偏向的5,14。
通过多倍体物种的测序实现更宽动态范围的检测与芯片方法相比,测序带来的更高等位基因剂量
检测水平让多倍体物种中多个基因组的等位基因
检测灵敏度提高。
对于每个物种的步骤,测序数据的过滤标准
可能需要调整。
Illumina GenomeStudio®软件如今支持自动
的多倍体检出。
深入了解未知基因组信息的非模式基因组一些测序步骤,如依赖限制性酶切位点的步骤,
可在缺乏参考基因组时完成5。
转录组序列或重叠群(如> 10 kb)可作为
某些测序应用的推定参考。
在使用与定向物种相距较远的参考(如使用
牛作为鲸的参考)时,稀有变异会存在高错
配率的风险,导致高MAF SNP的偏向。
个流动槽或通道中多个样品)带来了挑战,多重分析旨在利用NGS的通量,从而最大限度降低成本。其他挑战还包括准确优化多重反应条件,以便均一地捕获所有定向区域10,12。现在已有多个商业化的PCR方法有助于实现最佳的多重反应条件,包括Illumina TruSeq® Custom Amplicon。
基于杂交的方法
基于杂交的方法包括固相基质以及液相杂交方法,利用寡核苷酸特异性与互补序列结合并分离。为了充分利用测序能力并优化成本,这些方法依靠用同一探针组富集的多重样品。固相杂交在样品制备后完成,其中已杂交的基因组区域保留,而未杂交的区域被洗掉。更常用的液相杂交方法一般利用生物素化的探针或RNA诱饵来捕获目标。杂交捕获在异源四倍体的基因分型中有优势,因为它能够区分同源基因组13。
定向富集
定向富集方法是模式基因组(如牛或水稻)的理想选择,这些基因组的目标区域序列已知,如功能丧失标记或分子标记辅助选择中所用的性状关联。它们是SNP发现和重组断裂点精细作图的强大方法。例如,研究小麦的研究人员利用序列捕获分析对2.2 Mb的外显子区域进行定向重测序,鉴定出4,000个SNP和129个插入缺失,可区分培育和野生的小麦13。
基于序列的基因分型方法一直在发展,这主要是由降低成本的需求推动的。因此,随着更多基因组被拼接好并成为参考,经济高效的定向和富集方法将越来越重要,让研究人员能够选择他们的目的标记。这有望成为NGG的下一个浪潮。
限制性酶方法:RE-GBS、RAD-Seq和ddRADSeq
NGG经济性上的最大进步是利用限制性酶方法来实现的,它们降低了后续测序中文库的代表性。限制性酶GBS(RE-GBS)、限制性位点关联测序(RADSeq)以及ddRADSeq方法利用限制性酶来产生测序片段,带来了全基因组代表性的少量数据,它们可比对、比较并筛查,从而发现SNP变异5,8,14,17。NGS兼容的