农业基因分型技术

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

农业基因组学的基因分型技术面临关键抉择对于某些应用而言，基于测序的基因分型在开展遗传变异研究时提供了比芯片更低成本的选择
简介
如今的农业基因组学研究人员可选择多种技术来收集遗传信息。

基于芯片的SNP筛查方法一直是分析多个动植物的基因组区域并将其与性状相关联的首选方法。

随着测序成本不断下降，利用新一代测序（NGS）技术的新方法也被开发出来，以开展基因分型研究。

我们使用基于新一代测序的基因分型（NGG）这个术语来涵盖利用NGS技术的基因分型方法。

NGG包括了目标片段测序，降低代表性文库测序和基于杂交的方法来发现SNP和基因分型，这些往往同时用于许多个体或样本。

本篇应用聚焦深入探讨了不同的NGG方法，它们的优势，以及传统芯片技术在未来将扮演的角色。

芯片为农业基因组学的基因分型铺平道路
在八十年代后期，研究人员开始鉴定某些物种中的特定DNA区域，这些区域影响了表型性状。

他们的努力很快换来了准确且经济高效的遗传检测的开发，这些检测可确定样品中这些区域的基因型。

用户友好的PCR型标记，如短串联重复片段（STR或SSR），最终被这些基因分型研究所选择的单核苷酸多态性（SNP）所取代。

SNP不仅以高丰度存在于基因组中，而且在特定群体的高密度筛查时，它们也实现了遗传区域从父母向子女转移的高效追踪。

如今，基于SNP的分析通常用于鉴定性状标记关联，开展基因组选择、亲子鉴定和分子标记辅助选择1。

优化标记密度以检测性状关联是开发基因分型工具时的主要挑战之一。

性状关联依靠重组单元（单体型区块）的检测，这让定向“多样性群体”的标记密度优化变得很关键，这样才能以合理的成本对每个样品开展基因分型。

打造可靠的基因分型芯片涉及到多个关键步骤，包括最初的SNP 发现、多样性评估以及SNP选择2,3，之后将经过过滤的一组高质量SNP部署在高密度基因分型平台上，如Infinium分析。

每个样品的成本通常限制了SNP芯片在科研应用中的使用，因筛查群体很小。

然而，对于多个农业应用，基因分型能带来深远的好处，包括育种群体的筛查4。

通过遗传筛查，农民和家畜饲养者可立即获得反馈，以便做出更好的育种决定，并加速他们的投资回报（ROI）。

每个样品成本较低的基因分型工具让在大规模群体上开展常规遗传筛查成为可能，而具有吸引力的ROI也抵消了技术的实施成本。

测序进展可带来更经济高效的基因分型测序技术的快速发展带来了更高的通量和每个样品的更低成本，这使得NGG成为一种经济高效的农业基因组学工具，适合基因型筛查、遗传作图、纯度检测、回交系筛查、单体型图谱构建，以及关联作图和基因组选择的开展5,6,7。

NGG方法还在不断增多，每一种都带来了测序所拥有的基本好处，包括降低偏好性，除SNP之外变异（小的插入、缺失和微卫星）的鉴定，以及在缺乏参考基因组时开展样品间比较分析的能力（表1）。

基于序列的基因分型方法
对于小型基因组（如果蝇）或关注度高的研究物种（如拟南芥），基因分型和变异筛查可利用相对于参考序列的全基因组测序（WGS）方法来完成。

对于大型基因组和资金有限的研究，基于序列的基因分型（或NGG）方法已被开发出来（表2）。

对于开展成本低于WGS的方法而言，NGG的进展最为明显。

较低成本操作的开发主要是由农作物研究人员推动的，这支持了基因组学辅助育种和基因组选择中的应用8,14。

表层测序
低覆盖度或可扩展/调节的表层测序已被小麦染色体系证实在SNP发现中很有效，有助于详细的多样性分析、分子标记辅助选择和测序法基因分型9,22。

它具有很多优势，包括已经确立的样品制备步骤，信息学应用程序分析流程，无需与参考比较而检出序列中的SNP，以及最大限度避免假阳性的冗余检查（SGSAutoSNP）9。

通过重新运行样品测序，还能调节产生的数据量，从而增加序列覆盖度。

富集
通过PCR或杂交探针的使用，目前有一系列方法可分离特定的基因组片段用于测序，这些方法要么去除不想要的组分（目标富集），要么选择想要的目标（定向pull down）10,11。

它们致力于目的区域的测序，提供足够的测序覆盖重叠，以便可靠地检出SNP。

尤其在植物中，这些方法避免将测序空间浪费在重复区域或其他不想要的基因组区域上10。

基于PCR的方法
目前已有多种基于PCR的基因分型方法被开发出来，包括PCR 扩增子的直接测序，长距离PCR测序（其中片段在文库制备中已剪切），以及分子倒置探针的使用，它们靶定长的区域，在扩增之前用连接酶环化。

这些方法为分散标记和样品多重分析（每
基因分型成本低（现在）NGG方法通常使用自制的样品制备和多重分析。

每个样品的成本低于30美元。

低多样性的群体（如棉花）将比高多样性的群体（如玉米）表现出更少的多态性。

因此，对低多样性物种而言，每个数据点的成本将较高19。

定向的富集方法和限制性酶切方法都需要微调覆盖度，以达到最佳的成本效益。

基因分型成本更低（未来）NGG方法已准备好利用未来的测序进步。

随着测序步骤确定、发表并分享，数据管理
的一致性、样品和基因库的追踪将对优化资
源很关键18。

由于每个个体的步骤高度多重且较低覆盖
（如表面测序），故每个实验必须考虑杂合
子检测的模糊耐受性。

数据分析方法，尽管在不断改善，但与芯片
的数据分析方法相比仍不够简单。

这对于物
种遗传信息有限的新用户而言可能是个障碍
（即无参考基因组）。

低确认偏好对于亲本背景不同于参考的品系或SNP发现群体
而言，确认偏向，特别是高密度物种，代表了芯
片基因分型中的挑战。

测序方法有着较低的经验
知识负担。

基于杂交的Pull down或扩增子方法有可能产生某种偏好。

若目标品系的限制性位点保守，则限制性位点关联分析方法在此程度上是没有偏向的5,14。

通过多倍体物种的测序实现更宽动态范围的检测与芯片方法相比，测序带来的更高等位基因剂量
检测水平让多倍体物种中多个基因组的等位基因
检测灵敏度提高。

对于每个物种的步骤，测序数据的过滤标准
可能需要调整。

Illumina GenomeStudio®软件如今支持自动
的多倍体检出。

深入了解未知基因组信息的非模式基因组一些测序步骤，如依赖限制性酶切位点的步骤，
可在缺乏参考基因组时完成5。

转录组序列或重叠群（如> 10 kb）可作为
某些测序应用的推定参考。

在使用与定向物种相距较远的参考（如使用
牛作为鲸的参考）时，稀有变异会存在高错
配率的风险，导致高MAF SNP的偏向。

个流动槽或通道中多个样品）带来了挑战，多重分析旨在利用NGS的通量，从而最大限度降低成本。

其他挑战还包括准确优化多重反应条件，以便均一地捕获所有定向区域10,12。

现在已有多个商业化的PCR方法有助于实现最佳的多重反应条件，包括Illumina TruSeq® Custom Amplicon。

基于杂交的方法
基于杂交的方法包括固相基质以及液相杂交方法，利用寡核苷酸特异性与互补序列结合并分离。

为了充分利用测序能力并优化成本，这些方法依靠用同一探针组富集的多重样品。

固相杂交在样品制备后完成，其中已杂交的基因组区域保留，而未杂交的区域被洗掉。

更常用的液相杂交方法一般利用生物素化的探针或RNA诱饵来捕获目标。

杂交捕获在异源四倍体的基因分型中有优势，因为它能够区分同源基因组13。

定向富集
定向富集方法是模式基因组（如牛或水稻）的理想选择，这些基因组的目标区域序列已知，如功能丧失标记或分子标记辅助选择中所用的性状关联。

它们是SNP发现和重组断裂点精细作图的强大方法。

例如，研究小麦的研究人员利用序列捕获分析对2.2 Mb的外显子区域进行定向重测序，鉴定出4,000个SNP和129个插入缺失，可区分培育和野生的小麦13。

基于序列的基因分型方法一直在发展，这主要是由降低成本的需求推动的。

因此，随着更多基因组被拼接好并成为参考，经济高效的定向和富集方法将越来越重要，让研究人员能够选择他们的目的标记。

这有望成为NGG的下一个浪潮。

限制性酶方法：RE-GBS、RAD-Seq和ddRADSeq
NGG经济性上的最大进步是利用限制性酶方法来实现的，它们降低了后续测序中文库的代表性。

限制性酶GBS（RE-GBS）、限制性位点关联测序（RADSeq）以及ddRADSeq方法利用限制性酶来产生测序片段，带来了全基因组代表性的少量数据，它们可比对、比较并筛查，从而发现SNP变异5,8,14,17。

NGS兼容的
扩增子测序基于PCR通常用在宏基因组学应用中，其中16S片段被靶定。

需要耗费大量劳力来扩增并标记多个目标，
以优化测序覆盖。

目前难以扩展，利用测序通量来降低每个样品的成本。

LR-PCR基于PCR长距离PCR（<35 kbp，一般在3-10 kbp）可用于靶定区域，随后需要剪切进行文库制备。

挑
战包括样品/片段的等摩尔合并。

将扩增子重叠增加到最少100 bp可解决末端覆盖度往往下降
的问题12,19。

基于PCR基于杂交的Pull down或扩增子方法有可能产生某种偏好。

若目标品系的限制性位点保守，则
限制性位点关联分析方法在此程度上是没有偏向的5,14。

WGR/Genome Skimming 全基因组全基因组重测序（WGR），包括DNA剪切和修复以及接头连接。

低深度或genome skimming 的全基因组测序适合细胞器（质体基因组，线粒体或rDNA）、系统发育/分类，或比较分析。

可提供低拷贝数细胞核位点的部分序列，便于PCR引物或探针的设计，用于后续的杂交型基因
组缩减方法22。

OS-Seq基于杂交寡核苷酸选择性测序是一种定向基因组重测序，其中Illumina Genome Analyzer流动槽中的寡
核苷酸引物经过修饰，作为捕获和测序基质21。

芯片杂交捕获
（带或不带COt1）基于杂交片段文库与固定探针杂交。

非特异杂交物被去除，而靶定的DNA被洗脱并测序。

与PCR扩增相比节省劳力。

后续可使用一块目标特异的芯片，以便在复杂度下降的样品中富集目标11,12。

液相杂交捕获
（带或不带COt1）基于杂交特异探针旨在靶定测序文库中的目的区域。

相对模板过量的探针使得杂交高于芯片方法。

更适合可扩展的通量13。

CRoPS限制性酶切使用AFLP及新一代测序的复杂度降低。

利用两个或多个遗传多样性样品的标记文库实现SNP
发现。

使用甲基化敏感的限制性酶以5-10倍冗余度测序。

鼓励使用纯合系来实现定位在低或
单拷贝基因组序列中的SNP的选择16。

RADSeq限制性酶切用限制性酶消化基因组DNA，并连接一个带条形码的接头，以便兼容粘性末端。

带有不同条形
码的DNA样品被合并，经随机剪切，大小选择（300-700 bp），并在末端补平后连接第二个接头。

Y-接头确保只有RAD标记在PCR步骤中扩增5。

Cornell GBS限制性酶切采用未改进的接头（即无5’磷酸基团和叉），去除片段大小选择。

通过利用单孔的基因组
DNA消化和接头连接，酶学和纯化步骤的数量减少。

使用甲基化敏感的酶，以避免植物基因组
的重复区域14。

改进的Cornell GBS 限制性酶切对最初的Cornell GBS方法进行改进，使用两种互补的酶（一种“稀有的”酶和一种“常用的”
酶）和一个Y接头，其中接头1和接头2位于每个片段的相对末端8。

ddRADSeq限制性酶切依赖RADSeq的概念，但去除随机剪切。

直接利用大小选择来回收随机分布在基因组中的数量
可调区域。

提供一种索引、计算分析工具包，和轻量级的数据管理工具，以便于数百个个体的
多重分析。

通过去除随机剪切和后续的末端修复，显著降低成本17。

GR-RSC限制性酶切基于限制性位点保守性的基因组缩减。

包括用稀有和常用的限制性酶对DNA进行两次消化，用5’
生物素标记稀有的切割位点并利用磁珠分离，利用PCR添加条形码序列，样品经等摩尔合并后
通过凝胶分离进行大小选择23,24。

MSG限制性酶切多重NGS操作，包括片段大小选择步骤，以便以大部分定位应用中足够的分辨率同时确定多个
样品的重组断裂点。

融合WGS和RADSeq。

使用一种比RADSeq更常用的酶，在单个步骤中
实现接头与大量基因组片段的连接。

就测序方向而言，片段定位是随机的。

在接头连接之前无
需DNA剪切或修复15。

DArTSeq限制性酶切基于基因组复杂度的下降，利用限制性酶以及测序20。

片段文库实现了大规模并行且多重的样品测序，有助于在大规模群体中快速发现并对数千个SNP进行基因分型。

RE-GBS的操作最初是在农作物（如玉米和小麦）中建立的，有着成本上的优势，也适合应用在无基因组背景知识的物种上。

RE-GBS特别适合应用于群体或亲缘关系相近样品的作图，如基因组选择的候选区域。

如果群体比预想中更为分散或是新物种，则RE-GBS操作需要优化，以便自定义覆盖度，并最大限度减少丢失的数据。

例如，定向样品内的高分散度可导致数据丢失，下游分析复杂化，而低分散度可导致检测到的SNP数量较少。

RE-GBS的优点很多，让物种特异应用的操作开发很值得8。

与芯片方法相比的确认偏好减少，能够同时发现和确定多态性，以及产生宝贵的遗传信息时每个样品的成本低（< 30美元，不包
RADSeq的操作改进主要集中在增加多重反应的量，以便降低成本，并排除操作流程中的昂贵步骤，如随机剪切和下游的末端修复。

排除随机剪切的方法包括MSG15、CRoPS16和ddRADSeq17。

ddRADSeq方法已被用于细化大小选择，回收随机分布在基因组中的“数量可调区域”，而每个样品的文库制备成本为5美元，起始DNA量低至100 ng 17。

这种方法也执行一种两个索引的组合多重系统（n*m个个体使用n+m个索引），一种序列过滤分析工具包，以及通过Google Docs界面获得的样品追踪数据管理工具。

高通量的数据管理和样品追踪对于在育种和种质追踪中任一种样品筛查方法的执行都很关键18。

确定测序深度
高通量芯片（包含从数千个样本中得到的几百万个SNP位点）多年来一直用于基因型筛查，通过优化探针设计，杂合子检测率超过99.99%。

对于杂合性的检测，NGG方法取决于测序深度，而深度增加导致每个样品的成本增加。

当目标是检测替代等位基因固定的亲本系时，杂合子不频繁，且后果少。

因此，多重分析可以很高，且每个样品的覆盖度低至1x，以满足计划目标。

对于需要杂合子检测的应用，丢失或不明确基因型可通过更深度的重测序或使用“软”二进制分配信息学方法15来克服，这些方法有助于丢失基因型的推算。

与所选择的的NGG方法无关，标记密度、序列深度以及多重分析的程度等因素之间也有折衷。

在RE方法中，靶定的标记越多（如4个碱基相对6个碱基的酶切），创建的片段越多，则需要的测序也越多。

希望改进后能降低测序成本，且读取更长，多重分析个体之间的覆盖均一。

所有这些将实现基因组区域与性状之间的更快关联，且每个样本的成本更低，也使得农业物种的分子标记辅助育种得以改善。

芯片的价值
尽管芯片不再是唯一的解决方案，但芯片方法仍适合筛查应用，特别是注释清楚的基因组，其中的性状关联和功能丧失变异已知。

例如，许多农业研究群体需要工具来进行已知标记的常规检测，以及一致的高通量数据分析，其中批量定价带来的每个样品的成本使得天平向芯片方法倾斜，而不是NGG方法。

当整个群体覆盖一种常用工具时，我们有机会利用多样的数据组，并开发下游的推算方法和专有的自定义或Add On内容。

例如，较低密度的芯片（< 50,000个SNP + 插入缺失）可作为基本内容，来构建专有的Add On集合，以便将公开和私有的标记内容混合在单张芯片上构建一张专有芯片。

望的表型性状相关联的SNP，研究人员可利用它们来改善畜牧养殖和农作物产量。

测序技术的快速发展也在推动低成本的基于测序的基因分型方法的开发，它们将让农业基因组学研究人员能够以前所未有的水平研究家畜、农作物和生物学系统。

NGG方法带来了基因组范围的视图，提供了加速农业研究所需的特异性、重复性和效率，可推进高价值性状筛查方法的开发，并使这些方法在现实世界中被快速采用。

参考文献
1. Batley, J. and D. Edwards (2007). SNP applications in plants. In Oraguzie NC, Rikkerink EHA,
Gardiner SE, and Silva HN (Eds.), Association Mapping in Plants, 95-102. New York, New York, USA: Springer.
2. Wang DG, Fan JB, Siao CJ, Berno A, Young P, et al. (1998) Large-scale identification,
mapping, and genotyping of single-nucleotide polymorphisms in the human genome. Science 280:1077-1082.
3. Van Tassell CP, Smith TPL, Matukumalli LK, Taylor JF, Schnabel RD, et al. (2008) SNP
discovery and allele frequency estimation by deep sequencing of reduced representation libraries. Nature Methods 5:247-252.
4. Boichard D, Chung H, Dassonneville R, David X, Eggen A, et al. (2012) Design of a low-
density SNP array optimized for imputation. PLoS One 7:e34130.
5. Baird NA, Etter PD, Atwood TS, Currey MC, Shiver AL, et al. (2008) Rapid SNP discovery and
genetic mapping using sequenced RAD markers. PLoS One 3:e3376.
6. Kirst M, Resende M, Munoz P and Neves L. (2011) Capturing and genotyping the genome-
wide genetic diversity of trees for association mapping and genomic selection. BMC Proceedings 5:17.
7. Metzger ML (2010) Sequencing technologies-the next generation. Nat Rev Genet. 11:31-46.
8. Poland JA, Brown PJ, Sorrells ME, Jannink J. (2012) Development of high-density genetic
maps for barley and wheat using a novel two-enzyme genotyping-by-sequencing approach.
PLoS One. 7:e32253.
9. Lorenc MT, Hayashi S, Stiller J, Lee H, Manoli S, et al. (2012) Discovery of single nucleotide
polymorphisms in complex genomes using SGSautoSNP. Biology 1:370-382.
10. Grover CE, Salmon A, and Wendel JF. (2012) Targeted sequence capture as a powerful tool
for evolutionary analysis. Am J of Botany. 99:312-319.
11. Fu Y, Springer NM, Gerhardt DJ, Kai Y, Yeh CT, et al. (2011) Repeat subtraction-mediated
sequence capture from a complex genome. Plant J 62:898-909.
12. Mamanova L, Cofffey AJ, Scott CE, Kozarewa I, Turner EH, et al. (2010) Target Enrichment
strategies for next-generation sequencing. Nat Methods 7:111-118.
13. Saintenac C, Jiang D, and Akhunov ED (2011) Targeted analysis of nucleotide and copy
number variation by exon capture in allotetraploid wheat genome. Genome Biol 12:R88. 14. Elshire RJ, Glaubitz JC, Sun Q, Poland JA, Kawamoto K, et al. (2011) A robust, simple
genotyping-by-sequencing (GBS) approach for high diversity species. PLoS One 6:e19379.
15. Andolfatto P, Davison D, Erezyilmaz D, Hu TT, Mast J, et al. (2011) Multiplexed shotgun
genotyping for rapid and efficient genetic mapping. Genome Res 21:610-617.
16. Van Orsouw NJ, Hogers RC, Janssen A, Yalcin F, Snoeijers S et al. (2007) Complexity
reduction of polymorphic sequences (CRoPS): a novel approach for large-scale polymorphism discovery in complex genomes. PLoS One 2:e1172.
17. Peterson BK, Weber JN, Kay EH, Fisher HS, and Hoekstra HE. (2012) Double digest RADSeq:
an inexpensive method for de novo SNP discovery and genotyping in model and non-model species. PLoS One. 7:e37135.
18. McCouch SR, McNally KL, Wang W, and Sackville Hamilton R. (2012). Genomics of gene
banks: A case study in rice. Am. J. of Bot. 99:407-423.
19. Cronn R, Knaus BJ, Liston A, Maughan PJ, Parks M, et al. (2012) Targeted enrichment
strategies for next generation plant biology. AM J of Bot 99:291-311.
20. Sansaloni C, Petroli C, Jaccoud D, Carling J, Detering F, et al. (2011) Diversity arrays
technology (DArT) and next generation sequencing combined: genome-wide, high throughput, highly informative genotyping for molecular breeding of Eucalyptus. BMC Proceedings 5:P54.
21. Myllykangas S, Buenrostro JD, Natsoulis G, Bell JM, and Ji HP (2011) Efficient targeted
resequencing of human germline and cancer genomes by oligonucleotide-selective sequencing. Nat Biotechnol. 29:1024-1029.
22. Huang X, Feng Q, Quian Q, Zhao Q, Want L, et al (2009) High-throughput genotyping by
whole-genome resequencing. Genome Res. 19: 1068-1076.
23. Maughan PJ, Yourstone SM, Jellen EN, an Udall JA. (2009) SNP discovery via genomic
reduction, barcoding and 454-pyrosequencing in Aramanth. Plant Genome 2:260-270.
24. Maughan PJ, Yourstone SM, Byers RL, Smith SM, Udall JA (2010) Single-nucleotide
polymorphism genotyping in mapping populations via genomic reduction and next-generation sequencing: proof of concept. Plant Genome 3:166-178.
25. Gore MA, Wright MH, Ersoz ES, Bouffard P, Szekeres ES, et al. (2009) Large-scale discovery
of gene-enriched SNPs. Plant Genome 2:121-133.
26. Deschamps S, la Rota M, Ratashak JP, Biddle P, Thureen D, et al. (2010) Rapid genome-wide
single nucleotide polymorphism discovery in soybean and rice via deep resequencing of reduced representation libra6ries with the Illumina Genome Analyzer. Plant Genome 3:53-68.
27. Hardenbol P, Baner J, Jain M, Nilsson M, Namsaraev EA, et al. (2003) Multiplexed genotyping
with sequence-tagged molecular inversion probes. Nat Biotechnol 21:673-678.
28. Hardenbol P, Yu F, Belmont J, Mackenzie J, Bruckner C, et al. (2005) Highly multiplexed
molecular inversion probe genotyping: over 10,000 targeted SNPs genotyped in a single tube assay. Genome Res. 15:269-275.
29. Dahl F, Gullberg M, Stenberg J, Landgren U, Nilsson M. (2005) Multiplex amplification
enabled by selective circularization of large sets of genomic DNA fragments. Nucleic Acids Res 33:e71.
30. Straub SCK, Parks M, Weitemier K, Fishbein M, Cronn RC, et al (2012) Navigating the tip of
the genomic iceberg: next-generation sequencing ofr plant systematics. AM J Botany 99:349-364.。