微生物群落多样性测序与功能分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
微生物群落多样性测序与功能分析
微生物群落测序是指对微生物群体进行高通量测序,通过分析测序序列的构成分析特定环境中微生物群体的构成情况或基因的组成以及功能。借助不同环境下微生物群落的构成差异分析我们可以分析微生物与环境因素或宿主之间的关系,寻找标志性菌群或特定功能的基因。对微生物群落进行测序包括两类,一类是通过16s rDNA,18s rDNA,ITS区域进行扩增测序分析微生物的群体构成和多样性;还有一类是宏基因组测序,是不经过分离培养微生物,而对所有微生物DNA进行测序,从而分析微生物群落构成,基因构成,挖掘有应用价值的基因资源。
以16s rDNA扩增进行测序分析主要用于微生物群落多样性和构成的分析,目前的生物信息学分析也可以基于16s rDNA的测序对微生物群落的基因构成和代谢途径进行预测分析,大大拓展了我们对于环境微生物的微生态认知。
目前我们根据16s的测序数据可以将微生物群落分类到种(species)(一般只能对部分菌进行种的鉴定),甚至对亚种级别进行分析,
几个概念:
16S rDNA(或16S rRNA):16S rRNA基因是编码原核生物核糖体小亚基的基因,长度约为1542bp,其分子大小适中,突变率小,是细菌系统分类学研究中最常用和最有用的标志。16S rRNA基因序列包括9个可变区和10个保守区,保守区序列反映了物种间的亲缘关系,而可变区序列则能体现物种间的差异。16S rRNA基因测序以细菌16S rRNA基因测序为主,核心是研究样品中的物种分类、物种丰度以及系统进化。
OTU:operational taxonomic units (OTUs)在微生物的免培养分析中经常用到,通过提取样品的总基因组DNA,利用16S rRNA或ITS的通用引物进行PCR 扩增,通过测序以后就可以分析样品中的微生物多样性,那怎么区分这些不同的序列呢,这个时候就需要引入operational taxonomic units,一般情况下,如
果序列之间,比如不同的 16S rRNA序列的相似性高于97%就可以把它定义为一个OTU,每个OTU对应于一个不同的16S rRNA序列,也就是每个OTU对应于一个不同的细菌(微生物)种。通过OTU分析,就可以知道样品中的微生物多样性和不同微生物的丰度。
测序区段:由于16s rDNA较长(1.5kb),我们只能对其中经常变化的区域也就是可变区进行测序。16s rDNA包含有9个可变区,分别是v1-v9。一般我们对v3-v4双可变区域进行扩增和测序,也有对v1-v3区进行扩增测序。
•16s rDNA测序首先需要提取环境样品的DNA,这些DNA可以来自土壤、粪便、空气或水体等任何来源。
•提取DNA后需要经过质检和纯化,一般16s rDNA测序扩增对DNA的总量要求并不高,总量大于100ng,浓度大于10ng/ul一般都可以满足要求。如果是来自和寄主共生的环境如昆虫的肠道微生物,提取时可能包括了寄主本身的大量DNA,对DNA的总量要求会提高。微生物菌群多样性测序受DNA提取和扩增影响很大,不同的扩增区段和扩增引物甚至PCR循环数的差异都会对结果有所影响。因而建议同一项目不同样品的都采用相同的条件和测序方法,这样相互之间才存在可比性。
•完成PCR之后的产物一般可以直接上测序仪测序,在上机测序前我们需要对所有样本进行定量和均一化,通常要进行荧光定量PCR。完成定量的样品混合后就可以上机测序。
•16s rDNA测序目前可以采用多种不同的测序仪进行测序,包括罗氏的454,Illumina的MiSeq,Life的PGM或Pacbio的RSII三代测序仪。不同的仪器各有优缺点,目前最主流的是Illumina公司的MiSeq,因为其在通量、长度和价格三者之间最为平衡。MiSeq测序仪可以产生2x300bp的测序读长,一次可以产生15Gb的测序数据远远大于其他测序仪的测序通量。
1. 1
16s rDNA分析基本流程:
2. 2
原始数据处理:
原始测序数据需要去除接头序列,并将双端测序序列进行拼接成单条序列。
根据测序barcode序列区分不同的样本序列。
过滤低质量序列和无法比对到16s rDNA数据库的序列。
3. 3
OTU分类和统计:
OTU(operational taxonomic units) 是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。通常按照 97% 的相似性阈值将序列划分为不同的 OTU,每一个 OTU 通常被视为一个微生物物种。相似性小于97%就可以认为属于不同的种,相似性小于93%-95%,可以认为属于不同的属。样品中的微生物多样性和不同微生物的丰度都是基于对OTU的分析。
使用QIIME(version 1.8.0)工具包进行统计注释。
使用QIIME(version 1.9.0, /qiime/)的ucluster方法根据97%的序列相似度将所有序列进行同源比对并聚类成operational taxonomic units (OTUs)。然后与数据库GreenGenes(version gg_13_8, /cgi-bin/JD_Tutorial/nph-16S.cgi)进行比对,比对方法uclust,identity 0.9 。
然后对每个OTUs进行reads数目统计。
下面的2个表,其中一个表是对每个样本的测序数量和OTU数目进行统计,并且在表栺中列出了测序覆盖的完整度(显示前10个样本)。
另一个表是对每个样本在分类字水平上的数量进行统计,并且在表栺中列出了在每个分类字水平上的物种数目(显示前10个样本)。
可以看到绝大部分的OTU都分类到了属(Genus),也有很多分类到了种(Species)。但是仍然有很多无法完全分类到种一级,这是由于环境微生物本身存在非常丰富的多样性,还有大量的菌仍然没有被测序和发现。
测序数目统计表主要是对每个样本的测序数量和OTU数目进行统计,并且在表格中列出了测序覆盖的完整度(显示前10个样本,如果样本超过10个,请查看结果中otu_stat.txt文件)
其中 SampleName表示样本名称;SampleSize表示样本序列总数;OTUsNumber表示注释上的OTU数目;OTUsSeq表示注释上OTU的样本序列总数。
Coverage是指各样品文库的覆盖率,其数值越高,则样本中序列没有被测出的概率越低。该指数实际反映了本次测序结果是否代表样本的真实情况。
计算公式为:C=1-n1/N 其中n1 = 只含有一条序列的OTU的数目; N = 抽样中出现的总的序列数目。
分类水平统计表主要是对每个样本在分类学水平上的数量进行统计,并且在表格中列出了在每个分类学水平上的物种数目(只显示前10个样本,如果样本超过10个,请查看结果中taxon_all.txt文件)
其中SampleName表示样本名称;Phylum表示分类到门的OTU数量;Class 表示分类到纲的OTU数量;Order表示分类到目的OTU数量;Family表示分类到科的OTU数量;Genus表示分类到属的OTU数量;Species表示分类到种的OTU数量。