基于测序的微生物多样性分析总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于二代高通量测序的环境微生物多样性分析
一般认为土壤、海洋、肠道等生态系统中的微生物数量繁多、种类多样。传统的培养方法只限于对环境样品中极少部分(0.1%-1%)可培养的微生物类群的研究,而变性梯度凝胶电泳(DGGE)、克隆文库等常规的分子生物学方法也因操作复杂、成本高、痕量菌发现困难等因素无法达到深入分析环境微生物多样性的目的。高通量测序技术的出现,极大的促进了对环境中不可培养微生物以及痕量菌的研究,为环境微生物多样性的研究开启了新的研究热潮。
微生物群落中物种的多样性依然是目前研究的重点。对群落结构的研究,将有助于了解种群结构的稳定性,进而了解种群内物种间的相互依赖、相互制约的内在联系,为将来构建功能性种群服务。鉴于微生物群落是一个多物种的集合体,其中高达95%以上的微生物物种无法分离也不能独立培养,拼装出每个独立个体的基因组现在也无法实现,细菌16S 或真菌ITS测序分析依然是现阶段微生物群落多样性和多态性分析的基石。
一、高通量测序背景介绍
高通量测序技术,可以一次对几十万到几百万条DNA分子进行序列测定,使得对PCR扩增产物直接进行序列测定成为可能。极大的促进了对环境中不可培养微生物以及痕量菌的研究,为环境微生物多样性的研究开启了新的研究热潮。目前高通量测序的主要平台代表有Illumina公司的Solexa基因组分析仪(Illumina Genome Analyzer)、罗氏公司(Roche)的454测序仪(Roch GS FLX sequencer)和ABI的SOLiD测序仪(ABI SOLiD sequencer)。微生物多样性分析中,以Illumina 及454测序平台应用最为广泛。
二、工作流程
1 PCR引物的设计
2 PCR扩增条件摸索
3琼脂糖凝胶电泳检测结果
4 全部样品进行PCR
5 PCR产物的凝胶回收及检测
6 PCR产物精确定量(Qubit 2.0 )
将纯化后的PCR产物采用微量荧光核酸定量仪进行精确定量(精确到0.1ng/ul)
7. 将定量后混匀的DNA样本再次进行磁珠法纯化后,进行高通量测序
三、可分析项目
1) 有效序列数据统计
在测序实验中,通常采用多个样品平行测序的方法,即多个样品混合测序。为了能区分样品,各样品中的序列均引入了一段标示其样本来源信息的barcode标签序列。若所测序列中不含有barcode 标签序列,则无法确定其样本来源,进而导致后续生物信息错误或意义不明。因此,仅当原始序列中含有完整的barcode 标签序列时,该条序列才被认可为有效序列。
2)优化序列数据统计
通常情况下,有效序列可以直接用于后续生物信息学分析。在实验过程中,测序产物可能含有非特异性扩增片段,利用特异性引物信息可以将其去除;序列中可能含有模糊碱基(ambiguous)、单碱基高重复区(homologous )以,长度过短的序列(序列长度小于200bp),及PCR过程中产生的一些嵌合体,将这些序列纳入分析范围会降低分析质量,因此修剪、去除(trim)此部分序列,可得到供精准分析的优化序列。在数据去除(trim)时,把maxambig=0,axhomop=8,maxlength=200,及其嵌合体序列去掉,并对数据进行统计,得到优化序列的百分率。
3) OTU生成
根据序列的相似性,将序列归为多个OTU(操作分类单元),以便后续分析。OTU (Operational Taxonomic Units)是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。在生物信息分析中,一般来说,测序得到的每一条序列来自一个菌。要了解一个样品测序结果中的菌种、菌属等数目信息,就需要对序列进行归类操作(cluster)。通过归类操作,将序列按照彼此的相似性分归为许多小组,一个小组就是一个OTU。根据客户指定的相似度(96%、97%或者98%),对所有序列进行OTU 划分并进行生物信息统计分析。
OTU 分析主要步骤
(1) 提取非重复序列,碱基完全一致序列为重复序列;
(2) 与silva 库中的aligned(16S/18S, SSU)核糖体序列比对;
(3) Chimeric 序列检测与去除
(4) 距离计算与OTU 聚类。
4) 多样性分析(Alpha-diversity)
计算菌群丰度(Community richness)的指数有:
(1)Chao:是用chao1 算法估计群落中含OTU 数目的指数,chao1 在生态学中常用来估计物种总数,由Chao (1984) 最早提出。
(2)Ace:用来估计群落中含有OTU 数目的指数,由Chao 提出,是生态学中估计物种总数的常用指数之一,与Chao I 的算法不同。
计算菌群多样性(Community diversity)的指数有:
(1)Simpson:用来估算样品中微生物的多样性指数之一,由Edward Hugh Simpson (1949) 提出,在生态学中常用来定量的描述一个区域的生物多样性。Simpson 指数值越大,说明群落多样性越低。
(2)Shannon:用来估算样品中微生物的多样性指数之一。它与Simpson多样性指数均为常用的反映alpha多样性的指数。Shannon值越大,说明群落多样性越高。
测序深度指数有:
Coverage:是指各样品文库的覆盖率,其数值越高,则样本中序列没有被测出的概率越低。该指数实际反映了本次测序结果是否代表样本的真实情况。
使用软件:mothur及BioLinker自编程序。
5) 稀释性曲线(Rarefaction curve)
稀释性曲线:一般是从样本中随机抽取一定数量的个体,统计出这些个体所代表物种数目,并以个体数与物种数来构建曲线。它可以用来比较测序数量不同的样本物种的丰富度,也可以用来说明样本的取样大小是否合理。分析采用对优化序列进行随机抽样的方法,以抽到的序列数与它们所能代表OTU的数目构建稀释性曲线。稀释性曲线图中,当曲线趋向平坦时,说明取样的数量合理,更多的取样只会产生少量新的OTU,反之则表明继续取样还可能产生较多新的OTU。因此,通过作稀释性曲线,可以得出样品的取样深度情况。
稀释性曲线分析结果默认是在97%相似性水平下划分OUT并制作各样品的稀疏曲线。
6) 分类学分析(Taxonomy)