动植物重测序
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。
基于全基因组重测序技术,人们可以快速进行资源普查筛选,寻找到大量遗传变异,实现遗传进化分析及重要性状候选基因的预测。
随着测序成本降低和拥有参考基因组序列物种增多,全基因组重测序成为动植物育种和群体进化研究迅速有效的方法。
简化基因组测序技术是对与限制性核酸内切酶识别位点相关的DNA进行高通量测序。
RAD-seq(Restriction-site Associated DNA Sequence)和GBS(Genotyping-by-Sequencing)技术是目前应用最为广泛的简化基因组技术,可大幅降低基因组的复杂度,操作简便,同时不受参考基因组的限制,可快速鉴定出高密度的SNP位点,从而实现遗传进化分析及重要性状候选基因的预测。
简化基因组技术尤其适合于大样本量的研究,可以为利用全基因组重测序技术做深度信息挖掘奠定坚实的基础。
全基因组重测序和简化基因组测序技术可广泛应用于变异检测、遗传图谱构建、功能基因挖掘、群体进化等研究,具有重大的科研和产业价值。
产品脉络图
动植物
重
测序
建库测序
单个性状家系群体
自然群体
SNP/InDel/SV/CNV/转座子基因组DNA
有效SNP
性状定位群体
进
化
群体进化(基于简化基因组测序) 群体进化(基于全基因组重测序) 变异检测(基于简化基因组测序)
SNP检测/SSR检测
遗传图谱全基因组关联分析(GWAS)
功能基因挖掘变异检测(基于全基因组重测序) QTL定位
BSA性状定位多个性状
动植物重测序
动植物重测序概述
SNP检测、注释及统计
基因组DNA
350 bp小片段文库
HiSeq PE150测序
数据质控
与参考基因组比对
利用全基因组重测序技术对某一物种个体或群体的基因组进行测序及差异分析,可获得SNP、InDel、SV、CNV、PAV、转座子等大量的遗传多态性信息,建立遗传多态性数据库,为后续揭示进化关系、功能基因挖掘等奠定基础。
基于全基因组重测序技术进行变异检测,可在全基因组范围内精确检测多种变异,与传统的分子标记和芯片相比,具有周期短、密度高、检测全面、性价比高等技术优势。
诺禾致源使用的检测软件及参数为国际高影响因子文章通用标准,对获得的变异进行全方位评估以确保变异准确、验证率高。
变异检测(基于全基因组重测序)
技术路线
技术参数
DNA样品量: ≥3 μg
测序策略:每个个体测序深度10-30X,推荐深度SNP、InDel(≥10X),SV(≥20X),CNV(≥30X)
转座子(≥20X)。
项目周期:SNP检测周期为30天;全部变异检测周期为40天,个性化分析时间需根据项目实际情况进行评估。
变异检测
变异分析
InDel检测、注释及统计
SV检测、注释及统计
CNV检测、注释及统计
转座子检测、注释及统计
该研究对43个牛关键个体(代表Fleckvieh种群68%多态性)进行二代测序,测序深度为4.17-24.98X,平均深度
7.46X。
与参考基因组比对,检测出1700万个多态性位点,91,733个变异在18,444个基因编码区中,且46%为非同义突变。
非同义突变中,575个变异可能与转录提前终止相关,3个变异出现在OMIA数据库中并与特定表型相关。
结果表明,通过对能代表种群主要多态性的关键个体进行低、中深度测序,能够高效、准确地获得该物种大量多态性信息。
案例二 牛种群关键个体中低深度测序评估基因组多态性[2]
图1 Red-1水稻基因组的变异特征图3 变异注释
[1] Cheng Z, Lin J, Lin T, et al . Genome-wide analysis of radiation-induced mutations in rice (Oryza sativa Molecular BioSystems, 2014, 10(4): 795-805.
[2] Jansen S, Aigner B, Pausch H, et al . Assessment of the genomic variation in a cattle population by re-sequencing of key animals at low to medium coverage [J]. BMC genomics, 2013, 14(1): 446.
图2 SNPs、Indels 和SVs三种变异类型相关基因的WEGO聚类
限制性内切酶酶切HiSeq PE150测序
数据质控
与参考基因组比对Tag聚类、局部组装
SNP检测及统计
参考基因组已知参考基因组未知
利用RAD-seq或GBS技术对某一物种个体或群体的基因组进行测序及差异分析,获得SNP遗传多态性信息,开发分子标记,建立遗传多态性数据库,为分子遗传育种研究、揭示进化关系、功能基因挖掘等奠定基础。
简化基因组技术不受参考基因组限制,基于SNPs的分子标记技术性价比高、稳定性好,在基因组中分布广泛,特别适合大样本量的分析。
诺禾致源具有稳定的简化基因组实验和分析流程,以及严格的质量控制标准,检测的变异准确性好、验证率高。
变异检测(基于简化基因组测序)
技术路线
技术参数
基因组DNA
RAD文库构建GBS文库构建
变异分析
SNP检测、注释及统计变异分析InDel检测、注释及统计
简化基因组技术RAD-seq GBS
DNA样品量建库测序深度参考基因组周期≥3 μg EcoR I酶切+随机打断组装样本≥5X,比对样本≥1X ≥2 μg
Mse I、EcoR I、Nla III、Hae III等单酶或组合酶切Tag数≥10万,平均8X/Tag
有无参考基因组均可
标准分析为40天,个性化分析需根据项目实际情况进行评估
变
异
检
测
图1 301株精选大豆品系的GBS分型结果
案例二 GBS技术对大豆育种群体进行基因分型和基因组预测[2]
随着基因分型技术的进步,如GBS技术,使分子遗传育种的周期和费用大幅下降。
该研究评估了GBS技术在大豆育种中的应用前景,结果表明GBS技术在大豆育种选择中具有重要潜力(图1)。
参考文献
[1] Bus A, Hecht J, Huettel B, et al. High-throughput polymorphism detection and genotyping in Brassica napus using next- generation RAD sequencing [J]. BMC genomics, 2012, 13(1): 281.
[2] Jarquín D, Kocak K, Posadas L, et al. Genotyping by sequencing for genomic prediction in a soybean breeding population [J]. BMC Genomics, 2014, 15:740.
基因组DNA
HiSeq PE150测序
与参考基因组比对
SNP 频率差异分析
目标性状相关区域定位
候选基因功能注释
350 bp小片段文库
数据质控
SNP检测及注释
针对研究的目标性状,选择表型极端差异的亲本构建家系。
利用混池分组分析法(Bulk Segregant Analysis, BSA),对该家系目标性状表型极端的子代分别混合成的两个样本池进行测序,同时对亲本进行测序,检测与性状相关联的位点并注释,研究基因控制目标性状的机制。
诺禾致源已完成多种动植物BSA性状定位项目,具有丰富的项目经验。
BSA性状定位
技术路线
技术参数
DNA样品量:≥3 μg
测序策略:亲本:10X/个 子代:20X/池
项目周期:标准分析时间40天,个性化分析需根据项目实际情况进行评估
适用范围: 1) 单倍体、二倍体或多倍体物种(有参考基因组序列) 2) 家系群体(F 2、RILs、DH等家系群体)
BSA 性状定位
本研究采用BSA混样策略,对10株极端性状的样品(F 2子代群体)混合的DNA池,及其亲本进行基因组重测序,通过全基因组扫描SNP,分析频率差异,检测F 2群体早花性状的QTL,找到了一个位于早花QTL 群体,SSR标记构建的遗传图谱进行QTL定位。
两种策略结合,将Ef1.1案例二 QTL-seq定位黄瓜早花重要农艺性状[2]
图1 水稻耐盐性突变基因的鉴定
图2 黄瓜早花性状在亲本和F 1代的表现及子代极端池SNP-index差异
参考文献
[1] Takagi H, Tamiru M, Abe A, et al . MutMap accelerates breeding of a salt-tolerant rice cultivar [J]. Nature biotechnology, 2015.
[2] Lu H, Lin T, Klein J, et al . QTL-seq identifies an early flowering QTL located near Flowering Locus T in cucumber [J Theoretical and applied genetics, 2014, 127(7): 1491-1499.
]
350 bp小片段文库功能基因挖掘是对地方驯化品种中不同品种或品系及其野生型,采用对DNA样品混池后建库,或者对所有单个个体DNA样品进行建库的方法,通过全基因组重测序,运用生物信息学方法全基因组范围内扫描变异位点,检测驯化性状相关的基因区域及其功能基因。
诺禾致源拥有资深的信息分析团队,项目经验丰富,功能基因挖掘为我公司首推产品。
功能基因挖掘
技术路线
基因组DNA
DNA样品混池DNA样品不混池
HiSeq PE150测序数据质控
与参考基因组比对
SNP检测及注释
选择消除分析
驯化性状相关区域定位
候选基因功能注释
技术参数
建库方式适用范围周期建库策略多个个体DNA混池测序单个个体建库自然群体DNA样品量≥3 μg DNA池样本数目≥20个/池具有性状差异的有参个体
每个群体≥8个个体60天
20X/池
测序策略5X/个
功
能基
因
挖
掘
图1 候选驯化区域的选择性清除分析
案例二 基于全基因组重测序探究狗对淀粉类食物的适应性的关键基因[2]
狗被认为是狼驯化的产物,两者在行为和形态上存在极大差异。
研究者应用二代测序技术,对分布于世界各地的7个品种的狼(12只)和14个品种的狗(60只)采用混合测序(Pooling)方式进行了全基因组重测序,共混合6个池,平均每个池测序6X。
通过选择消除分析方法,挖掘到狗驯化过程中受到人工选择,导致现代狗行为和形态与狼存在差异
图2 37个候选驯化区域的选择性清除分析
[1] Li , Tian , Yeung , et al. Whole-genome sequencing of Berkshire (European native pig) provides insights into its origin and domestication [J]. Nature Scientifc Reports, 2014, 4(4).
[2] Axelsson E, Ratnakumar A, Arendt M L, et al. The genomic signature of dog domestication reveals adaptation to a starch-rich diet [J]. Nature, 2013, 495(7441): 360-364.
基于全基因组重测序技术对已有参考基因组序列的物种进行个体或群体的全基因组测序,利用高性能计算平台和生物信息学方法,检测单核苷酸多态性位点(SNP),并计算多态性标记间的遗传连锁距离,绘制高密度的遗传图谱。
通过与表型性状进行关联分析,利用获得的强关联性标记进行下游基因的精细定位,从而进行遗传进化分析及重要性状候选基因预测,对该物种的分子育种研究具有重大的指导意义。
诺禾致源自主研发的ScMap [1]构建遗传图谱软件可完美匹配高通量测序数据,使遗传重组率计算更准确,图距更真实,并已发表高影响因子文章,得到行业内认可。
遗传图谱(基于全基因组重测序)
技术路线
技术参数
DNA样品量:≥3 μg
测序策略:
亲本: 测序深度10~30X/个体
子代: 测序深度4~5X/个体
项目周期:标准分析周期为75天,个性化分析需根据项目情况进行评估
适用范围:
1) 适用于所有作图群体(F 1、F 2、BC 1;RILs、DH等)
2) 群体大小在100个以上
遗传标记开发及筛选
基因组DNA
HiSeq PE150测序
数据质控
与参考基因组比对
群体SNP检测及注释
遗传图谱构建及质量评估
QTL定位(需结合表型数据)
遗传图谱350 bp小片段文库
图 减数分裂期间同源染色体之间的片段交叉重组(crossover) 事件
. Probing meiotic recombination and aneuploidy of single sperm cells by whole genome sequencing [J]. Science, 2012, 338(6114): 1627-1630.
利用简化基因组技术(RAD-seq或GBS),对某物种家系样本进行测序,获得酶切位点附近的基因序列信息。
运用生物信息学方法,开发SNP标记,并计算标记间的遗传连锁距离,绘制高密度的遗传图谱。
基于简化基因组技术的图谱构建,能够降低基因组的复杂度,数据量低,操作简便,节约成本,特别适合大样本量研究。
目前,RAD-seq和GBS技术已广泛应用于遗传图谱构建。
诺禾致源对两项技术进行了全面升级,拥有稳定的实验、分析流程和丰富的项目经验。
遗传图谱(基于简化基因组技术)
技术路线
技术参数
遗
传
图
谱HiSeq PE150
基因组DNA
数据质控
群体SNP检测和注释
遗传标记开发
遗传标记筛选
遗传图谱的构建
遗传图谱质量评估
QTL定位(需结合表型数据)
限制性内切酶酶切
RAD文库构建GBS文库构建
简化基因组技术RAD-seq GBS
DNA样品量建库
测序深度参考基因组周期
适用范围≥3 μg
EcoR I酶切+随机打断
组装样本≥5X,比对样本≥1X
≥2 μg
Mse I、EcoR I、Nla III、Hae III等单酶或组合酶切
Tag数≥10万,平均8X/Tag
有无参考基因组均可
标准分析周期为75天,个性化分析需根据项目实际情况进行评估适用于所有作图群体(F1、F2、BC1;RILs、DH等),群体大小在100个以上
图1 向日葵遗传图谱
案例二 利用GBS技术构建玉米遗传图谱和QTL定位研究[2]
通过对710份玉米单株进行GBS建库测序,获得1,155,158个SNP,构建了一个含有6533个bin-makers的遗传图谱,遗传图距长度为1396cM。
bin-makers之间的遗传图距从0.1cM到11.5cM,平均遗传图距为0.2cM。
通过对2个已知基因定位,确认了该图谱的高质量和高准确性。
在F2中,评估了雄穗分枝数、穗行数及雌穗长度三个性状,得到10个QTL,其中7个与前人报道的QTL相重叠。
图2 玉米F2作图群体bin-map
针对已有参考基因组的物种,对其各亚种进行全基因组重测序获得基因组信息,通过与参考基因组比对,得到大量高准确性的SNP、InDel、SV等变异信息,讨论群体的遗传结构、遗传平衡和影响遗传平衡的因素,从而从分子层面揭示该物种的进化机制、环境适应性等系列问题。
该技术能精准地得到全基因组内所有遗传信息,最大程度地挖掘出群体内遗传变异。
诺禾具有丰富的群体遗传学项目经验,研究成果发表于Nature Genetics(Li, M, et al. 2013& Zhou, XM, et al . 2014)等。
群体进化(基于全基因组重测序)
技术路线
技术参数
DNA样品量:≥3 μg
测序策略:推荐测序深度≥5X/个体
项目周期:标准分析时间为120天,个性化分析需根据项目实际情况进行评估
适用范围:
1)已有参考基因组序列的物种中不同亚群(自然群体)
2)各亚群间划分明显,同一亚群内的个体有一定代表性
3)每个亚群选取10个样本左右(推荐动物≥10个,植物≥15个)
4)总体不少于30个样本
群
体
进
化
基因组DNA
数据质控与参考基因组比对群体SNP检测、注释及统计
系统进化树构建 连锁不平衡分析 群体遗传结构分析 群体主成分分析 选择消除分析
候选基因GO和KEGG富集
群体遗传多样性分析群体选择分析 种群历史和
有效群体大小 个性化分析构建单体型图谱
HiSeq PE150测序350 bp小片段文库
图1 藏猪及其它猪种的群体遗传结构
案例二 帝王蝶长距离迁飞遗传机制被解密[2]
北美地区的帝王蝶具有迁飞习性,而分布于热带地区的帝王蝶及其近缘种不具有迁飞特性。
该研究从涵盖当今世界上主要的帝王蝶分布区域中,选取了包括迁飞型和非迁飞型的22个地理种群、5个近缘种的101只班蝶属蝴蝶进行了全基因组重测序和群体遗传学分析。
结果表明,现存的帝王蝶起源于北美地区,且祖先属于迁飞型,打破了先前认为包括鸟类等在内的迁飞物种均是热带起源的普遍认知。
其次,利用群体遗传学分析对全基因组进行精细扫描发现,与飞行相关的肌肉发育进化是帝王蝶实现长距离迁飞的主要适应性选择。
图2 帝王蝶样本分布及系统进化树
参考文献
[1] Li M, Tian S, Jin L, et al. Genomic analyses identify distinct patterns of selection in domesticated pigs and Tibetan wild boars [J]. Nature genetics, 2013, 45(12): 1431-1438.
[2] Zhan S, Zhang W, Niitepo ̃l d K, et al. The genetics of monarch butterfly migration and warning colouration [J]. Nature, 2014.
利用RAD-seq或GBS简化基因组技术,对物种的各亚种个体进行测序,获得酶切位点附近基因序列信息,进而检测大量高准确性的SNP变异信息,以进行群体亲缘关系、群体结构分析等。
目前RAD-seq和GBS两种简化基因组技术在群体分析中已得到广泛应用,其不受参考基因组限制,且极大的简化了基因组,成本大幅降低,尤其适合大样本量或基因组较大物种的群体遗传学研究。
群体进化(基于简化基因组测序)
技术路线
群
体
进
化
构建系统进化树
群体主成分分析
群体遗传结构分析
个性化分析
群体遗传多样性分析SNP检测、注释及统计与参考基因组比对 tag聚类、局部组装
参考基因组已知参考基因组未知
数据质控
限制性内切酶酶切
基因组DNA
GBS文库构建RAD文库构建 技术参数
简化基因组技术RAD-seq GBS
DNA样品量 建库 测序深度 参考基因组 周期≥3 μg EcoR I酶切+随机打断组装样本≥5X,比对样本≥1X ≥2 μg
Mse I、EcoR I、Nla III、Hae III等单酶或组合酶切Tag数≥10万,平均8X/Tag
有无参考基因组均可
标准分析为90天,个性化分析需根据项目实际情况进行评估
适用范围 某一物种中的不同亚群(自然群体); 各亚群间划分明显,同一亚群内的个体有一定代表性 ;
每个亚群选取10个样本左右(推荐动物≥10个,植物≥15个),总体不少于30个样本。
HiSeq PE150测序SNP检测及统计
案例二 GBS技术:一种新型、高效、高性价比的牛的基因分型方法[2]
高通量基因分型方法推动了动物复杂性状的研究,但是高昂成本仍然是动物大规模遗传改良的瓶颈。
作者采用GBS 技术对产7种牛磺酸的47种牛进行基因分型研究,表明GBS技术是一种新型、灵活、高通量、高性价比,并能够对基因组选择或全基因组关联研究提供足够标记密度的分型方法。
图2 最小等位基因频率(MAF)分布
图3 牛系统进化树
参考文献
[1] Jones J C, Fan S, Franchini P, et al. The evolutionary history of Xiphophorus fish and their sexually selected sword: a genome- wide approach using restriction site-associated DNA sequencing [J]. Molecular ecology, 2013, 22(11): 2986-3001.
[2] Donato MD, Peters SO, Mitchell SE,et al. Genotyping-by-Sequencing (GBS): A Novel, Efficient and Cost-Effective Genotyping Method for Cattle Using Next- Generation Sequencing [J]. Plos one, 2013, 8(5).
对已有参考基因组的物种群体进行全基因组重测序,检测分布于全基因组范围内的SNP标记,基于它们与分析性状的连锁不平衡关系,通过各种统计分析方法,获得与这些性状关联的候选基因或基因组区域。
与简化基因组及芯片技术相比,全基因组重测序可以更全面的挖掘基因组的变异信息,开发更多的分子标记,因此可更精确的找到与性状关联的候选基因或基因区域。
全基因组关联分析(基于全基因组重测序)
技术路线
技术参数
DNA样品量:≥3 μg
测序策略:推荐测序深度≥5X/个体
项目周期:标准分析时间为120天,个性化分析需根据项目实际情况进行评估适用范围:
1)已有参考基因组序列的动植物自然群体,建议样本数≥200个
2)样本间无明显的亚群分化(如生殖隔离等)
3)所研究表型性状遗传力较强
全
基
因
组关
联
分
析
构建系统进化树 群体主成分分析
个性化分析连锁不平衡分析
全基因组关联分析
构建单体型图谱
群体分层分析
HiSeq PE150测序
与参考基因组比对
基因组DNA
数据质控
群体SNP检测、统计与注释
(1)性状关联分析
(2)目标性状相关区域基因功能注释350 bp小片段文库
图1 群体分层分析
图2 关联分析曼哈顿图
参考文献
Chen W, Gao Y, Xie W, et al. Genome-wide association analyses provide genetic and biochemical insights into natural variation in rice metabolism [J]. Nature genetics, 2014, 46(7): 714-721.
图3 重要性状GWAS结果
参考文献
Zhou Z, Jiang Y, Wang Z, et al. Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean [J]. Nature Biotechnology. 2015, 33(4):408-414.
利用RAD-seq或GBS技术对某物种群体进行测序和全基因组关联分析(GWAS),与全基因组重测序相比,只获得均匀分布于基因组的酶切位点附近的序列信息,降低了基因组的复杂程度和成本,尤其适合物种基因组大、样本量大的研究项目。
此外,基于RAD-seq和GBS技术的GWAS不受参考基因组的限制,可开发无参考基因组物种性状相关的分子标记,为后期的育种工作奠定基础。
全基因组关联分析(基于简化基因组测序)
技术路线
技术参数
简化基因组技术 RAD-seq GBS
DNA样品量 建库 测序深度参考基因组 周期≥3 μg EcoR I酶切+随机打断组装样本≥5X,比对样本≥1X ≥2 μg
Mse I、EcoR I、Nla III、Hae III等单酶或组合酶切Tag数≥10万,平均8X/Tag
有无参考基因组均可
标准分析为90天,个性化分析需根据项目实际情况进行评估
适用范围 动植物自然群体,建议样本数≥300个;样本间无明显的亚群分化(如生殖隔离等);
所研究表型性状遗传力较强
全基因组关联分析 个性化分析
群体分层分析 构建系统进化树
群体主成分分析
性状关联分析
SNP检测、注释及统计Tag聚类、局部组装
与参考基因组比对参考基因组已知参考基因组未知
数据质控
限制性内切酶酶切
基因组DNA
GBS文库构建
RAD文库构建 (1)性状关联分析(2)目标性状相关区域 基因功能注释
全
基因
组关联分析HiSeq PE150测序
SNP检测及统计
图1 株高相关性状的GWAS结果
图2 花序结构的GWAS结果
参考文献
Morris GP, Ramu P, Deshpande SP, et al. Population genomic and genome-wide association studies of agroclimatic traits in sorghum [J]. Proceedings of the National Academy of Sciences, 2013, 110(2): 453-458.
图3 不同统计模型下与性状关联的标记数目
参考文献
Wallace J G, Bradbury P J, Zhang N, et al. Association mapping across numerous traits reveals patterns of functional variation in maize [J]. PLoS genetics, 2014, 10(12): e1004845.。