高通量测序技术在宏基因组学中的应用

高通量测序技术在宏基因组学中的应用
高通量测序技术在宏基因组学中的应用

高通量测序技术在宏基因组学中的应用

196 中国医药生物技术 2019年6月第8卷第3期 Chin Med Biotechnol, June 2019, Vol. 8, No. 3 DOI:10.3969/cmba.j.issn.1673-713X.2019.03.008

·综述·

高通量测序技术在宏基因组学中的应用

刘莉扬,崔鸿飞,田埂

随着生命科学及研究技术的不断发展,人们对生命现象的了解更加深入。微生物因为

其在工业、农业、医疗卫生、环境保护等各方面的重要地位,被越来越多的研究者关注。

自然状态下,微生物几乎无处不在,无论是在自然环境如土壤、海洋甚至一些极端环境

(如酸矿水)中,还是在人类和动物的皮肤、口腔、肠道中,微生物都与它们所在的环境

相伴相生。除生存环境极为广泛以外,微生物的数量还极为庞大,以人类为例,人类的基

因总数只占人类身上微生物基因总数的 1% 左右[1]

。这些微生物是环境能量、物质代谢的重要中间环节和组成部分,它们有些可以代谢

生成周围其他生物所必需的底物,而有些则会代谢生成毒性物质,导致环境污染,或者宿

主的疾病。因此,对微生物的研究显得极为重要。

微生物的传统研究方法主要是依赖将微生物进行培养和分离(culture-dependent)。然而,到目前为止,绝大多数微生物(99% 以上)不能依靠这样的方式获得,这极大地限

制了人们对微生物的研究。随着测序技术和数据处理分析能力的飞速发展,以及人们对微

生物之间相互依存的共生互利和平衡关系的深入认识,一种可以对环境中所有微生物进行

研究而不依赖培养的新方向——宏基因组学应运而生。

1 宏基因组简介

宏基因组(Metagenome),或称为“元基因组”,于 1998 年由 Handelsman 等[2]

在一篇研究土壤微生物的文章中首次提出,当时的定义是“微生物群落中的所有基因组的

集合”。在此之后,宏基因组的概念渐渐为人们所接受,并涌现了许多针对海洋、土壤、

人类肠道等微生物的典型研究工作[3-6],目前的宏基因组研究主要指对细菌的研究。

宏基因组学研究与传统微生物研究方式的最大区别在于把微生物看成一个整体,摆脱

了对单个微生物培养和分离的步骤,直接对环境中所有的微生物进行研究,进而可以全面

地对所有微生物进行分析。随着宏基因组学研究技术的发展和研究者兴趣的不断增加,对

其研究手段和研究对象的重点也不断发生着变化,大致可以分为三个阶段:①针对 16S rRNA 为主要研究对象的核糖体 RNA 研究;②以环境中所有遗传物质为研究对象;③以环

境中所有转录本为主要研究对象的宏转录组研究。狭义的宏基因组学研究指第二个阶段,

本文提到的“宏基因组学”倾向于广义的概念,即三个阶段的总和。

原核生物的核糖体 RNA,尤其是 16S rRNA,由于其高度保守的序列特性,被当做可

以鉴别物种的微生物系统发育的“分子钟”[7]

。第一代测序读长长、准确率较高,但通

量较低,比较适合对 16S rRNA 进行测序及分析。随着高通量的第二代测序(next generation sequencing,NGS)方法的诞生,由于读长较短,所以从一次测序 16S rRNA

基因全长,到只针对 16S rRNA 中的某一个或某几个高变区进行分析和研究[8-11]。

宏基因组包含着环境微生物的全部遗传信息,相比于 16S rRNA 来说,宏基因组除了

群落中各种微生物的分类信息以外,更包含了所有微生物的基因信息。因此,这种数据更

有助于我们对群落潜在的功能进行深入分析。并且通过对基因组大小进行均一化(normalization),我们可以对群落中的微生物进行相对定量研究[12]。功能基因研究

则可以通过测序序列找到特定环境下富集的功能基因[13]。宏基因组是近年研究的热点,

数据量较为庞大,尤其需要高通量的测序技术和高效的数据处理能力作为依托。

宏转录组数据则包含了环境微生物的全部转录本信息。与宏基因组中研究“可能的”

群落功能、代谢通路差异相比,宏转录组可以实时、实地的对微生物群落的基因表达情况

进行反映[14]。在新一代测序技术出现以前,利用传统测序技术发展出了使用 EST 序列

来发现新基因的方法,比较方便地得到了大量的基因序列的信息[15]。新一代测序技术的

出现,给宏转录组的研究带来了新的机遇,但是由于原核生物的 mRNA 较易分解、rRNA

含量极高,高质量的样本制备比较困难,因此现在的研究仍属于起步阶段[16]。

2 测序技术的发展与高通量测序技术的特点

世界第一台自动化测序仪诞生于 1987 年,由美国 ABI 公司制造,其原理基于

Sanger 测序法[17]。Sanger 测序因其较长的读长(~ 1000 bp)和较高的测序质量

(99.999%),从 20 世纪 90 年代开始,就被广泛应用在生物信息学研究当中,并在人

类基因组计划(human genome program,HGP)[18]中发挥了巨大的作用。但 Sanger 测

序法由于测序通量太低,速度较慢,渐渐不能满足日益增多的数据需求[19]。第二代高

通量测序则避免了 Sanger 测序中所需的繁琐的克隆过程,大大减少了工作量,提高了

效率。随着测序技术的不断发展,单分子测序的技术,如 HeliScope[20]、Picbio[21]

等测序技术逐渐开始发展。但由于技基金项目:国家重点基础研究发展计划(973 计划)(2019CB316504)作者单位:100084 北京,清华大学自动化系清华信息科学与技术国家

实验室生物信息学研究部(刘莉扬、崔鸿飞),生物医学测试中心(刘莉扬、田埂)

通讯作者:刘莉扬,Email:llyjudy@https://www.360docs.net/doc/151688609.html, 收稿日期:2019-03-18

中国医药生物技术 2019年6月第8卷第3期 Chin Med Biotechnol, June 2019, Vol. 8, No. 3 197

术并未十分成熟,测序正确率尚有待提高,而且成本较高,单分子测序技术尚未被广

泛使用。

高通量测序技术是现今应用最广泛的测序技术,其特点是成本低、通量高、速度快,

可以快速产生大量的数据。高通量测序技术的读长普遍较短,目前三个应用较多的主流

平台中, Roche 454 GS FLX Tianium 能测 450 ~ 800 bp,Illumina HiSeq 2000 能测150 bp(单向),其新推出的 MiSeq 平台最长可测至 250 bp(单向),SOLiD 5500xl

能测 75 bp(单向)。它们的测序深度可以在一定程度上弥补读长较短所带来的问题,深

入并且快速的测序过程也使它们得以成为现今应用最广泛的测序技术(表 1)。

进行测序分析。尽管不分析全长序列,由于高通量测序的覆盖深度非常高,对物种多

样性的分析仍十分有利。

由于 16S rRNA 的分析目前已比较成熟,所以已有很多相关的研究,包括人体环境

(如皮肤、口腔、肠道、女性阴道等),自然环境(土壤、海洋等)的各类环境微生物群

落进行分析。2019 年,美国科罗拉多大学的 Fierer 等[25]采集了 51 个健康年轻人的

手部皮肤表面的微生物样本并利用 Roche 454 GS FLX 测序仪对其 16S rRNA 进行了测序,研究了性别、用手习惯(即是否左撇子)、洗手习惯等对手表面细菌群落多样性的影响。2019 年,Lazarevic 等[8]采集了 3 个健康成年人的口腔微生物,对其 V5 区域进行扩

增并用 Illumina 进行测序,把 V5 区域当作分类标志,对人类口腔微生物群落的多样性

进行了分析。同年,Turnbaugh 等[9]采集了 31 对同卵双生和 23 对异卵双生的双胞胎

以及其母亲的粪便样本,进行肠道微生物研究,分析环境、肥胖情况等对人体肠道微生物

的影响。该研究除用 Sanger 测序法测了全长的 16S rRNA 序列以外,还用 454 GS FLX

测序仪对 16S rRNA 的 V2 和 V6 区进行了深度测序,并以此为分类标志进行物种多样性

的分析。除人体微生物的研究以外,环境微生物也是一个大的研究方向。如 2019 年,Roesch 等[10]利用 454 GS FLX 测序技术,对来自西半球的 4 个土壤样本中微生物 16S rRNA 的 V9 高变区进行了测序,并对其生物多样性进行了分析。

值得一提的是,16S rRNA 的应用也可与我国传统中医紧密联系起来。2019 年,清

华大学的 Jiang 等[11]邀请了 19 位患有慢性萎缩胃炎的志愿者,并通过传统的舌苔情况,参照其症状进行判断,将志愿者分为寒症、热证,并与另外 8 位健康志愿者同时进

行舌苔样本的采集,用 Illumina GAIIx 测序平台对其微生物的 V6 高变区进行测序,分

析舌苔微生物群落与寒热症之间的关系,并认为舌苔微生物群落可以作为人体健康状态的

一个标志。

高通量测序技术在基于 16S rRNA 的微生物群落分析中的要点在于产生测序覆盖深度

极深的 16S rRNA 的测序数据,并通过比对或聚类的分析方法,对数据来源的微生物物种

进行分析,并估计微生物群落的物种构成。相信随着高通量测序技术的发展,可测序列长

度会越来越长,更多研

3 高通量测序技术在宏基因组学研究中的应用

3.1 基于 16S rRNA 的微生物群落分析

原核生物的 16S rRNA 基因,由于其具有鉴别物种信息的作用,被广泛地应用在了微生物群落物种多样性的分析上。16S rRNA 的数据库资源较为丰富,如 RDP[22]、Greengene[23]、SILVA[24]等都是一些比较成熟、不断完善并被广泛使用的数据库,并有一些自带的分类工具(比如 RDP 数据库的 RDP classifer 等)便于分析使用。

在鉴定物种方面,两条 16S rRNA 基因的比对差异小于 3%,则可以认为是同一个物种(species);差异小于 5%,则可认为是同一个属(genus);差异小于 10%,则可认为是同一个科(family)。通常研究者将环境微生物群落中的 16S rRNA 区域通过 PCR 进行扩增和测序,并将测得的序列比对到已有的 16S rRNA 数据库中,通过数据库中的海量数据,对每条 16S rRNA 的分类位置进行标定,从而得到微生物群落的物种构成、各个物种的丰度等信息。此外,鉴于已知的 16S rRNA 数据库中信息有限,用比对已有数据库的方法无法对未知的 16S rRNA 进行估计,因此还可以将 16S rRNA 序列聚类成分类操作逻辑单元(operational taxonomic unit,OTU),利用 OTU 的数目、各个 OTU 的序列数来分析估计物种多样性和丰度。此外,第一代测序由于测序长度较长,所以多采用全长的 16S rRNA 测序进行分析。而第二代的高通量测序,由于其读长较短,无法覆盖全长,因此许多研究都对 16S rRNA 的一个或几个高变区

表 1 三大测序平台基本情况比较

测序平台

文库、样测序用化本制备

Roche 454 GS FLX Tianium

emPCR

学试剂

读长(bp)

测序反应测序反应时间(d)

焦磷酸测500 ~ 800 序

0.35

产量(G) 0.8

测序仪价格($)

500 000时间长、读长长,测序试剂贵、错细菌基因组测序,基因组

有利于提高重复序列的比对比例

Illumina HiSeq 桥式 PCR 边合成边2000 SOLiD 5500xl

emPCR

测序边连接边测序

70

7 ~ 14

50 ~ 100

100

4 ~ 10

误率高、单碱基重复检出率低

测序系统

本数量存在瓶颈

595 000双碱基纠正策略提测序时间过长

高了准确度

全基因组测序;宏基因组测序

组装(

优点

缺点

应用

100 ~ 600540 000目前使用最广泛的同时可测序的样全基因组测序;宏基因组

198 中国医药生物技术 2019年6月第8卷第3期 Chin Med Biotechnol, June 2019, Vol. 8, No. 3

究在分析 16S rRNA 时会选择进行全长分析,从而在微生物群落研究中得到精确的结果。 3.2 基于宏基因组的功能基因分析

对 16S rRNA 的测序可以快捷地对环境微生物的群落构成进行深入的分析,除了物种

多样性以外,希望得到更多的信息,比如基因信息等。在原核生物中,已知的物种只占极

少的一部分,对已知物种的功能、代谢等的研究相比于未知微生物依然是微不足道的。只

了解环境微生物的物种信息,远不能满足对于环境微生物群落与环境之间关系的探究,而

且原核生物的变异速度很快,即使是同一个种级别内部的两个菌株在功能上都可能有非常

大的区别[7]。因此研究环境微生物的全基因组就显得非常必要。

在第一代测序的条件下,由于测序速度和成本的限制,对环境内所有微生物的全基因

组进行深度测序并不方便,而高通量测序则使之变成了可能。从环境微生物所有遗传信息中,可以分析和预测出该环境微生物群落可能的功能,其与环境可能的相互作用关系。

针对这种宏基因组的数据的分析,一般分为基于比对(alignment-based)的方法和

不基于比对(alignment-free)的方法。基于比对的方法把测序得到的所有读段比对到已

知的微生物核苷酸数据库上,如 NCBI 的 NT 数据库(利用 Blastp 等工具),或者是蛋

白质 NR 数据库(利用 Blastx 等工具),得到环境微生物在物种或功能基因上的丰度信息,进而结合一些功能基因、代谢通路、信号通路等数据库,对研究者感兴趣的部分进行

分析。事实上,在基于比对的方法中,高通量测序所得的序列较短,而这种短序列直接进

行比对的效果往往不理想

[26]

,并且大量的原始数据进行比

对会耗费很多时间,因此需要在比对前进行序列拼接,将其拼接成较长的序列,提高

分析效率和分析效果。此外,还可以用一些工具对序列进行基因预测(如 Metagene[27]、GeneMark[28]、FragGeneScan[29]等)

。基于比对处理高通量测序的宏基因组数据的应用非常多,2019 年,华大基因在Nature 发表文章,对人体肠道微生物基因组研究计划(MetaHIT)进行了总结[30]。该研

究为研究人体肠道微生物群落与人类健康之间的关系,采集了 124 个欧洲人的粪便样本,其中包括 25 个炎症性肠病(inflammatory bowel disease,IBD)患者和 99 个健康志

愿者的样本,并用 Illumina 测序平台进行了测序,产生了 567.7 G 的测序数据,并对

序列进行了拼接、注释、功能基因的分类、多态性分析等研究。2019 年,华大基因在Nature 发表了一篇研究人体肠道微生物与 II 型糖尿病之间关系的文章[31]。该研究收

集了 345 个中国人的肠道微生物样本,用 Illumina 测序平台对其进行了深度测序,并

在全基因组关联研究(genome wide association studies,GWAS)的基础上,开发了一

种叫做全宏基因组相关联研究(metagenome wide association studies,MGWAS)的方法,对 II 型糖尿病与肠道微生物失调之间的关系进行了深入的研究。

基于比对的方法准确性较高,由于已知的数据库有限,

且比对花费的时间成本非常高。所以,在基于比对的方法之外,也产生了很多不基于

比对的方法和应用。不基于比对的方法大多根据序列特征,以连续 k 个碱基组成的短的

寡核苷酸序列(k 字词、k-mer、k-tuple)作为特征,统计这些特征在序列中出现的频数,并构建所有 4k 个 k 字词的频数(频率)向量。已有研究表明这种 k 字词在微生物基因

组中的出现频率可以分辨微生物的不同物种[32]。基于 k 字词的方法大多数被应用在快

速对测序序列进行物种分类的方面(binning),这种方法的基本思想是将序列的 k 字词

出现频数(频率)向量与数据库中的微生物各个物种的 k 字词向量作比较,将相近的划

归为一组,如 AbundanceBin[33]、MetaCluster[34]等都是基于这种方法进行序列的物种

划分的工具。此外 k 字词的方法也可以应用于分析样本之间的差异。如 Willner 等[35]

于 2019 年发表文章,对 86 个宏基因组样本,分别用长度 k = 2、3、4 的 k 字词进行

了统计,为每个宏基因组样本构建一个 k 字词的频数(频率)向量,并对 86 个样本的

向量进行主成分分析、层次聚类等分析和观察。不基于比对的方法避开了复杂的计算量,

在对于宏基因组的这种以未知物种为主的分析,k 字词分析的优势非常明显,将成为宏基

因组的一个重要的研究方向。

高通量测序在宏基因组分析中的应用,由于分析方法的多样性,要点也不一而同。但

总的来说,基于比对的方法一般需要进行序列拼接、基因预测、基因比对进而对群落的基

因功能进行分析,而不基于比对的方法一般直接对序列特征进行统计。

3.3 基于宏转录组的群落转录调控规律分析

宏基因组可以详细地展示环境微生物群落中的所有遗传信息。为了精确地了解环境中

正在发生的代谢过程,宏转录组的概念越来越多地被研究者们重视起来。相较于单纯的微

生物基因组信息,宏转录组记录了特定时间、特定地点的微生物群落的表达谱。在活的微

生物中,在某个特定时间,也并非全部基因都参与表达,而是随着环境、生长周期的变化,一部分基因有选择地被激活,进行表达。宏转录组学可以实时地记录这些活跃的基因及它

们的表达量。在宏基因组中,一些已经死亡却尚未被分解的微生物的遗传信息依然可以被

检测到,这些微生物本身已经不主动参与到环境的代谢当中,但是由于它们被检测到,从

而对研究的结果产生一定影响。

宏转录组学的主要方法是对环境微生物样本中的 mRNA 进行提取和扩增,反转录成为cDNA 并进行测序。宏转录组的实验难度较大,一方面是由于原核生物的转录和翻译同时

进行,mRNA 几乎没有修饰,容易被降解,半衰期极短(约为分钟量级),因此制备高质

量的样品库是实验成功的关键。另一方面,由于原核生物的 rRNA 占全部 RNA 的比例非

常大(约 70% ~ 90%)[16, 36-37],因此在制备样品时通常需要去掉 rRNA,以降低测序

成本,有效地去除样本中的 rRNA 也成为了一个重要课题。

宏转录组学从 2019 年开始,已经有很多的相关研究,

中国医药生物技术 2019年6月第8卷第3期 Chin Med Biotechnol, June 2019, Vol. 8, No. 3 199

几乎所有的研究都是由高通量测序提供的数据。如 2019 年,Poroyko 等[38]用

454GS

FLX 测序平台对两组小猪(一组为母乳喂养,另一组为配方奶喂养)的肠道微生物进

行了转录组测序;2019 年,Xiong 等[39]对非肥胖者糖尿病(non-obese diabetic,NOD)的老鼠进行研究,设计了 8 种微生物植入无菌老鼠的肠道,培养后以不同试剂盒制备样品,并用 Illumina 平台进行转录组测序。随着实验技术的发展,已经有越来越多的宏转

录组数据相继发表出来。

高通量测序在宏转录组中的应用,要点与在宏基因组分析中的应用类似。但由于技术

尚在摸索之中,现阶段的难点依然在于测序前样品的制备和保存。 3.4 单细胞分离及宏

基因组研究

由于宏基因组研究在组装微生物基因组和研究相似基因序列功能上的局限,当研究深

入到一定的水平以后,研究者又对群体中每一个细菌的作用和不同细菌的相互关联产生兴趣。以单细胞分离、扩增为主要方法的单细胞测序方法应运而生[40-42]。

单细胞宏基因组,是指将环境里所有微生物进行单个细胞的分离,而后通过全基因组

扩增,或者提取 RNA 反转录后进行扩增,来研究群体里单个细胞的基因组和转录组,进

而得到整个群体更加完整的信息。单细胞的研究,在很多方面具有较大的优势,但在技术

上还是遇到了一些问题。微生物群落巨大,分离单细胞本身就是一个非常有挑战性的工作,目前主要应用的方法,是利用流式细胞仪,将细胞通过各种染色方法进行染色,通过各种

染色特性来进行区分,而细胞的染色特征可能因为不同的状态而存在差异,因此存在分离

不纯的问题[42];在扩增技术上目前还没有实现突破,有扩增带来的偏向性(bias),组

装基因组形成了一定的困难[41];随着单分子测序技术的不断发展,未来单分子和单细胞

的结合,必将会为宏基因组研究带来新的突破。

4 结语

高通量测序技术通量高、速度快,适合宏基因组的深度测序研究。已经有相当多的宏

基因组研究工作建立在高通量测序技术上,揭示微生物与环境之间的关系。同时,高通量

测序读长短、数据量大的特点,对于宏基因组数据的处理也是一个挑战,催生出许多宏基

因组特有的算法和工具。随着高通量测序技术的发展,为宏基因组学研究带来更多的机会。未来的高通量测序技术,除了进一步发展其通量高的优势以外,读长也会逐渐增加,同时

测序错误率也会更低,现阶段研究中遇到的问题将逐步得到解决和改善。此外,目标为单

分子测序的第三代测序技术的发展,也会带来全新的数据特点,宏基因组学研究将有更多

的机会和发展空间。

参考文献

[1] Ley RE, Peterson DA, Gordon JI. Ecological and evolutionary forces

shaping microbial diversity in the human intestine. Cell, 2019, 124(4):

837-848.

[2] Handelsman J, Rondon MR, Brady SF, et al. Molecular biological

access to the chemistry of unknown soil microbes: a new frontier for natural products. Chem Biol, 1998, 5(10):R245-R249.

[3] Dusko Ehrlich S, MetaHIT consortium. Metagenomics of the

intestinal microbiota: potential applications. Gastroenterol Clin Biol, 2019, 34 Suppl 1:S23-S28.

[4] Turnbaugh PJ, Ley RE, Hamady M, et al. The human microbiome

project. Nature, 2019, 449(7164):804-810.

[5] Gilbert JA, Meyer F, Jansson J, et al. The Earth Microbiome Project:

Meeting report of the "1 EMP meeting on sample selection and acquisition" at Argonne National Laboratory October 6 2019. Stand Genomic Sci, 2019,

3(3):249-253.

[6] Williamson SJ, Rusch DB, Yooseph S, et al. The Sorcerer II Global

Ocean Sampling Expedition: metagenomic characterization of viruses within aquatic microbial samples. PLoS One, 2019, 3(1):e1456. [7] Woese CR. Bacterial evolution. Microbiol Rev, 1987, 51(2):221-271. [8] Lazarevic V, Whiteson K, Huse S, et al. Metagenomic study of the

oral microbiota by Illumina high-throughput sequencing. J Microbiol Methods, 2019, 79(3):266-271.

[9] Turnbaugh PJ, Hamady M, Yatsunenko T, et al. A core gut

microbiome in obese and lean twins. Nature, 2019, 457(7228):480- 484.

[10] Roesch LF, Fulthorpe RR, Riva A, et al. Pyrosequencing enumerates

and contrasts soil microbial diversity. ISME J, 2019, 1(4):283-290. [11] Jiang B, Liang X, Chen Y, et al. Integrating next-generation

sequencing and traditional tongue diagnosis to determine tongue coating microbiome. Sci Rep, 2019, 2:936.

[12] Frank JA, Sorensen SJ. Quantitative metagenomic analyses based on

average genome size normalization. Appl Environ Microbiol, 2019,

77(7):2513-2521.

[13] Allen HK, Moe LA, Rodbumrer J, et al. Functional metagenomics

reveals diverse beta-lactamases in a remote Alaskan soil. ISME J, 2019,

3(2):243-251.

[14] Gilbert JA, Field D, Huang Y, et al. Detection of large numbers of

novel sequences in the metatranscriptomes of complex marine microbial communities. PLoS One, 2019, 3(8):e3042.

[15] Tartar A, Wheeler MM, Zhou X, et al. Parallel metatranscriptome

analyses of host and symbiont gene expression in the gut of the termite Reticulitermes flavipes. Biotechnol Biofuels, 2019, 2:25. [16] Chappell L. Finding a needle in a haystack. Microbial

metatranscriptomes. Nat Rev Microbiol, 2019, 10(7):446.

[17] Ner SS, Goodin DB, Pielak GJ, et al. A rapid droplet method for

Sanger dideoxy sequencing. Biotechniques, 1988, 6(5):408, 410, 412. [18] Human genome program. Science, 1989, 246(4932):873-874. [19] Shendure J, Ji H. Next-generation DNA sequencing. Nat Biotechnol,

2019, 26(10):1135-1145.

[20] Harris TD, Buzby PR, Babcock H, et al. Single-molecule DNA

sequencing of a viral genome. Science, 2019, 320(5872):106-109. [21] Eid J, Fehr A, Gray J, et al. Real-time DNA sequencing from single

polymerase molecules. Science, 2019, 323(5910):133-138.

[22] Cole JR, Wang Q, Cardenas E, et al. The Ribosomal Database Project:

improved alignments and new tools for rRNA analysis. Nucleic Acids Res, 2019, 37(Database issue):D141-D145.

[23] DeSantis TZ, Hugenholtz P, Larsen N, et al. Greengenes, a

chimera-checked 16S rRNA gene database and workbench compatible with ARB. Appl Environ Microbiol, 2019, 72(7):5069-5072.

[24] Quast C, Pruesse E, Yilmaz P, et al. The SILVA ribosomal RNA gene

200 中国医药生物技术 2019年6月第8卷第3期 Chin Med Biotechnol, June 2019, Vol. 8, No. 3

database project: improved data processing and web-based tools. Nucleic Acids Res, 2019, 41(Database issue):D590-D596.

[25] Fierer N, Hamady M, Lauber CL, et al. The influence of sex,

handedness, and washing on the diversity of hand surface bacteria. Proc Natl Acad Sci U S A, 2019, 105(46):17994-17999.

[26] Prakash T, Taylor TD. Functional assignment of metagenomic data:

challenges and applications. Brief Bioinform, 2019, 13(6):711-727. [27] Noguchi H, Park J, Takagi T. MetaGene: prokaryotic gene finding

from environmental genome shotgun sequences. Nucleic Acids Res, 2019,

34(19):5623-5630.

[28] Zhu W, Lomsadze A, Borodovsky M. Ab initio gene identification in

metagenomic sequences. Nucleic Acids Res, 2019, 38(12):e132. [29] Rho M, Tang H, Ye Y. FragGeneScan: predicting genes in short and

error-prone reads. Nucleic Acids Res, 2019, 38(20):e191.

[30] Qin J, Li R, Raes J, et al. A human gut microbial gene catalogue

established by metagenomic sequencing. Nature, 2019, 464(7285):59- 65.

[31] Qin J, Li Y, Cai Z, et al. A metagenome-wide association study of gut

microbiota in type 2 diabetes. Nature, 2019, 490(7418):55-60. [32] Pride DT, Meinersmann RJ, Wassenaar TM, et al. Evolutionary

implications of microbial genome tetranucleotide frequency biases. Genome Res, 2019, 13(2):145-158.

[33] Wu YW, Ye Y. A novel abundance-based algorithm for binning

metagenomic sequences using l-tuples. J Comput Biol, 2019, 18(3): 523-534.

[34] Wang Y, Leung HC, Yiu SM, et al. MetaCluster 5.0: a two-round

binning approach for metagenomic data for low-abundance species in a noisy sample. Bioinformatics, 2019, 28(18):i356-i362.

[35] Willner D, Thurber RV, Rohwer F. Metagenomic signatures of 86

microbial and viral metagenomes. Environ Microbiol, 2019, 11(7): 1752-1766.

[36] Giannoukos G, Ciulla DM, Huang K, et al. Efficient and robust

RNA-seq process for cultured bacteria and complex community transcriptomes. Genome Biol, 2019, 13(3):R23.

[37] Schmieder R, Lim YW, Edwards R. Identification and removal of

ribosomal RNA sequences from metatranscriptomes. Bioinformatics, 2019,

28(3):433-435.

[38] Poroyko V, White JR, Wang M, et al. Gut microbial gene expression

in mother-fed and formula-fed piglets. PLoS One, 2019, 5(8):e12459. [39] Xiong X, Frank DN, Robertson CE, et al. Generation and analysis of a

mouse intestinal metatranscriptome through Illumina based RNA-sequencing. PLoS One, 2019, 7(4):e36009.

[40] Mason OU, Hazen TC, Borglin S, et al. Metagenome,

metatranscriptome and single-cell sequencing reveal microbial response to Deepwater Horizon oil spill. ISME J, 2019, 6(9):1715- 1727.

[41] Chitsaz H, Yee-Greenbaum JL, Tesler G, et al. Efficient de novo

assembly of single-cell bacterial genomes from short-read data sets. Nat biotechnol, 2019, 29(10):915-921.

[42] Stepanauskas R, Sieracki ME. Matching phylogeny and metabolism in

the uncultured marine bacteria, one cell at a time. Proc Natl Acad Sci U S A, 2019, 104(21):9052-9057.

·协会之窗·

医药生物技术临床应用专业委员会召开换届选举大会

2019 年 5 月 17 日,协会医药生物技术临床应用专业委员会在天津召开了换届选举

大会。会议首先听取了第二届委员会主任委员郝希山院士的工作报告,随后经过两轮民主

选举,产生了新一届委员会共 87 位委员。

天津医科大学肿瘤医院郝希山院士继续连任主任委员一职,副主任委员由中山大学肿

瘤防治中心曾益新院士、第四军医大学细胞工程研究中心陈志南院士、中国医学科学院肿

瘤研究所张叔人教授、复旦大学中山医院、肝癌研究所叶胜龙教授、哈尔滨医科大学免疫

教研室李殿俊教授、南方医科大学珠江医院郭坤元教授、天津医科大学肿瘤医院任秀宝教

授担任,会议还选出了 19 位常务委员。与会委员均表示今后将积极参加分会各项活动,利用分会这个平台,为我国医药生物技术临床应用的发展作出贡献。

由协会主办,天津医科大学附属肿瘤医院承办的个体化医学高峰论坛同期召开。本次论坛主要围绕个体化医学的最新进展,包括个体化医学模式的建立以及在临床诊疗当中的应用现状,分子靶向治疗以及免疫治疗的最新发展动态等进行了深入的研讨。

宏基因组分析和诊断技术在急危重症感染应用的专家共识

宏基因组分析和诊断技术在急危重症感染应用的专家共识 感染是急危重症患者死亡的主要原因之一。近年来,随着新发病原微生物的出现、耐药病原微生物的增多以及免疫抑制宿主的增加,感染的发病率和死亡率仍居高不下,脓毒症(严重感染)患者病死率高达50%[1-3]。最新调查研究发现,中国脓毒症相关性标化死亡率为66.7例/10万人口,全国每年共有脓毒症相关性死亡病例近103万例[3]。重症感染起病急、进展快、病原体复杂,短时间内能否明确致病病原微生物至关重要。 传统的病原微生物检测方法主要包括形态学检测、培养分离、生化检测、免疫学和核酸检测。因操作简单、快速、技术要求不高,同时具有一定的诊断敏感性和特异性,目前仍在临床上广泛使用。但传统的检测方法在敏感性、特异性、时效性、信息量等方面存在局限,而且对于未知或者罕见的病原微生物,无法快速识别。 基于宏基因组新一代测序技术(metagenomics next-generation sequencing,mNGS)不依赖于传统的微生物培养,直接对临床样本中的核酸进行高通量测序,然后与数据库进行比对分析,根据比对到的序列信息来判断样本包含的病原微生物种类,能够快速、客观地检测临床样本中的较多病原微生物(包括病毒、细菌、真菌、寄生虫),且无需特异性扩增[4-8],尤其适用于急危重症和疑难感染的诊断。 为了规范运用mNGS进行病原微生物的诊断、正确解读检测结果和指导治疗,我们组织了急危重病、感染病学和病原微生物学相关领域的专家,制定了本共识。 1 mNGS分析和诊断技术是急危重症感染快速、精准诊疗的发展方向 新一代测序技术是一个开放的分析和诊断系统,目前已经纳入的病原体有8000多种,其中包括3000余种细菌、4000余种病毒、200余种真菌和140种寄生虫,为疑难危重症及罕见病原微生物感染的诊断提供了有效的技术手段。 自2008年成功应用于临床诊断新发病原体感染以来[9-10],目前mNGS技术已经逐步用于临床疑难感染诊断,如华山医院张文宏团队[11]用mNGS协助确诊猪疱疹病毒的跨物种传播,并给予针对性治疗使患者痊愈,深圳市第三人民医院用mNGS确诊了一例罕见阿米巴脑炎[11-12]。 mNGS对脓毒症、免疫抑制宿主并发严重感染、重症肺部感染等疾病具有较高的临床应用价值,能够快速、精准地找到病原体;另外对于抗菌药物治疗方案的制定和治疗效果的评估具有一定的指导作用[9-16]。Long等[17]研究发现血培养联合mNGS诊断细菌或真菌感染,阳性率较单用血培养显著升高。以健康人群为基线,建立每种微生物在正常人群中的分布情况模型,进而计算脓毒症指数来评估检出微生物的核酸数量,Crumaz等[18]发现在脓毒症患者血液标本中病原菌的脓毒症指数绝对值、丰度显著升高,而且其变化与临床治疗效

高通量测序基础知识

高通量测序基础知识简介 陆桂 什么是高通量测序? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。 什么是Sanger法测序(一代测序) Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。 什么是基因组重测序(Genome Re-sequencing) 全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。 什么是de novo测序 de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。 什么是外显子测序(whole exon sequencing) 外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

宏基因组学概述

宏基因组学概述

————————————————————————————————作者: ————————————————————————————————日期: ?

宏基因组学概述 王莹,马伊鸣 (北京交通大学土木建筑工程学院环境1402班) 摘要:随着分子生物学技术的快速发展及其在微生物生态学和环境微生物学研究中的广泛应用,促进了以环境中未培养微生物为研究对象的新兴学科——微生物环境基因组学(又叫宏基因组学、元基因组学,英文名Metagenomics)的产生和快速发展。宏基因组学通过直接从环境样品中提取全部微生物的DNA,构建宏基因组文库,利用基因组学的研究策略研究环境样品所包含的全部微生物的遗传组成及其群落功能.在短短几年内,宏基因组学研究已渗透到各个领域,包括海洋、土壤、热液口、热泉、人体口腔及胃肠道等,并在医药、替代能源、环境修复、生物技术,农业、生物防御及伦理学等各方面显示了重要的价值。本文对宏基因组学的主要研究方法、热点内容及发展趋势进行了综述 关键词:宏基因组宏基因组学环境基因组学基因文库的构建 Macro summary of Metagenomics WangYing,Ma Yi-Ming (BeijingJiaotongUniversity, Institute of civil engineering,)Key words:Metagenome; Metagenomics;The environmental genomics 宏基因组学(Metagenomics)又叫微生物环境基因组学、元基因组学。它通过直接从环境样品中提取全部微生物的DNA,构建宏基因组文库,利用基因组学的研究策略研究环境样品所包含的全部微生物的遗传组成及其群落功能。它是在微生物基因组学的基础上发展起来的一种研究微生物多样性、开发新的生理活性物质(或获得新基因)的新理念和新方法。其主要含义是:对特定环境中全部微生物的总DNA(也称宏基因组,metagenomic)进行克隆,并通过构建宏基因组文库和筛选等手段获得新的生理活性物质;或者根据rDNA数据库设计引物,通过系统学分析获得该环境中微生物的遗传多样性和分子生态学信息。 1.起源 宏基因组学这一概念最早是在1998年由威斯康辛大学植物病理学部门的Jo Handelsman等提出的,是源于将来自环境中基因集可以在某种程度上当成一个单个基因组研究分析的想法,而宏的英文是"meta-",具有更高层组织结构和动态变化的含义。后来伯克利分校的研究人员Kevin Chen和LiorPachter将宏基因组定义为"应用现代基因组学的技术直接研究自然状态下的微生物的有机群落,而不需要在实验室中分离单一的菌株"的科学。 2 研究对象 宏基因组学(Metagenomics)是将环境中全部微生物的遗传信息看作一个整体自上而下地研究微生物与自然环境或生物体之间的关系。宏基因组学不仅克服了微生物难以培养的困难, 而且还可以结合生物信息学的方法, 揭示微生物之间、微生物与环境之间相互作用的规律, 大大拓展了微生物学的研究思路与方法, 为从群落结构水平上全面认识微生物的生态特征和功能开辟了新的途径。目前, 微生物宏基因组学已经成为微生物研究的热点和前沿, 广泛应用于气候变化、水处理工程系统、极端环境、人体肠道、石油污染、生物冶金等领域, 取得了一系列引人瞩目的重要成果。 3 研究方法

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识 ㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组De Novo测序方法有三种: 1. 用Illumina Solexa GA IIx 测序仪直接测序; 2. 用Roche GS FLX Titanium直接完成全基因组测序; 3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx 进行深度测序,完成基因组拼接。 采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。 实验流程: 公司服务内容 1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准 2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。 (2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式 目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。 单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。 图1 Single-read文库构建方法图2 Paired-end文库构建方法

宏基因组测序技术检测方法

宏基因组测序技术检测标准 简介: 宏基因组测序介绍 宏基因组学是以环境样品中的微生物群体基因组为研究对象,通过现代基因组技术手段包括功能基因的筛选和测序分析,对环境中微生物多样性、种群结构、进化关系、功能活性、相互协作关系以及环境之间的关系进行研究的新的微生物研究方法。随着高通量测序技术的发展,为宏基因组学研究提供了新的理想研究方法。高通量测序的方法无需分离环境中各种微生物,也无需构建克隆文库就可以直接对环境中所有微生物进行测序。可以真实客观的反映环境中微生物的多样性、种群结构、进化关系等。目前又可以分为针对16s DNA/18sDNA/ITS测序和针对宏基因组全序列的测序研究。下面就是对这两者的具体介绍。 一、16s DNA/18s DNA/ITS测序 16sDNA是最常用的微生物物种分子鉴定的标签,,通过对样品中16sDNA测序可以鉴定其中微生物物种的丰度和分布情况。目前,普遍使用Roche 454平台来对环境样品进行16s DNA测序。因为16s DNA序列比较相似,读长短的话,难以进行有效的比对,而454平台的平均读长在400bp左右,可以很好的避免此类问题。 二、宏基因组全测序 在这种测序方式中,我们可以假定一个环境中的所有微生物就是一个整体,然后对其中所有的微生物进行测序。这样我们就可以研究样品中的功能基因以及其在环境中所起的作用而不用关心其来自哪个微生物。可以发现新的基因,可以进行基因的预测,甚至有可能得到某个细菌基因组的全序列。此外,该项测序不单可以针对DNA水平,也可以针对全RNA进行基因表达水平的研究。 样品处理:

宏基因组样品收集主要有口腔,下呼吸道痰液,下呼吸道灌洗液,皮肤和粪便。样品采集遵照样品采集规范(人)所规定的操作来进行。尽量留足备份样品。核酸提取: 宏基因组核酸提取主要有两种方法:膜过滤法和直接裂解提取。对于液体样品如痰液,灌洗液两种方法都适用,对于固体样品如粪便宜采用直接裂解的方法。核酸提取后用NanoDrop ND-1000测定,260/280 = , 260/230 = ,电泳检测DNA 应是完整的一条带。 测序Sequencing 1)16S/18S测序: Sanger测序: 用于低通量的16S/18S DNA测序,提取宏基因组后,首先通过PCR将16S/18S 序列扩增出来,再将其连接到克隆载体上,导入感受态细胞,涂平板做蓝白斑筛选,选出阳性克隆提质粒,对质粒进行测序反应,测序反应后纯化后用ABI 3130或ABI 3730进行毛细管电泳测序。 由于其测序准确率比较高,而通量非常低,现通常用做二代测序结果的验证。454 Platform: 454平台主要包括两种测序系统:454 GS FLX+ System和454 GS Junior System。454 GS FLX+ System测序读长可以达到600-1000bp,通量450-700M,GS Junior System测序读长在400bp左右,通量在35M。

宏基因组学的一般研究策略

宏基因组学的一般研究策略 摘要: 宏基因组学是目前微生物基因工程的一个重要方向与热点。它把微生物的总群体特性与基因组学实验手段结合了起来,包括从环境样品中提取总DNA、再用可培养的宿主微生物建立文库及筛选目的克隆和基因。该法是研究不可培养微生物、寻找新的基因和开发新活性产物的重要新途径。它避开了微生物分离、纯化和培养的步骤,大大扩展了微生物资源的利用范围。本文旨在介绍宏基因组学的一般研究方法并结合我们的实验情况,对这一崭新领域中的最新研究策略进行了简要综述。 关键词: 宏基因组学, 不可培养微生物, 文库构建, 文库筛选,研究策略 Strategies for accessing metagenomics for desired applications Abstract: Metagenomics is a new field of microbial genetic engineering. It has the characteristics of microbial ecology and the methodology of genomics. Metagenomics includes genomic DNA isolation, library construction and screening strategies, and can be used in the discovery of new gene and biocatalysts and in the study of uncultured microorganism. Metagenomics can overcome the advantages of isolation and cultivation procedures in traditional microbial method, and thus greatly broaden the space of microbial resource utilization. In this paper, we mainly reviewed the metagenomic methodology, together with the latest advances and novel strategy in this research field. Keywords:Metagenomics; Uncultured microorganism;Library construction;Library screening Research strategies 大自然中蕴藏着无数具有重要价值的微生物及其活性产物,也是新基因及生物学资源的重要源泉,对其进行研究成为微生物学和分子生物学研究的一个重要方向。然而人们现在能够培养与利用的不到环境中总微生物的1%[1]。宏基因组学(metagenomics)是直接从环境样品中提取全部微生物的总DNA, 避开了分离、纯化和培养微生物的过程来构建宏基因组文库,用基因组学的研究策略来研究环境样品中的总微生物的组成及其在群落中的功能等。现在,宏基因组学技术方法已在微生物多样性,微生物细胞间的相互作用,新基因和新型生物催化剂的开发,新的抗生素的开发及环境生态等方面得到了广泛应用[2]。本文旨在介绍宏基因组学的一般实验方法并结合我们的研究情况,对这一崭新领域中的最新研究策略进行了简要综述。深化了我们对这一学科的认识,促进了该学科的进步。 1 宏基因组学研究策略 1.1宏基因组学概要 宏基因组学是Handelsman等于1998年提出的[3], 可见是一门很新的学科,其随着基因组实验手段,生物信息学和测序技术等的日新月异也迅猛发展了起来,这个新学科是以环境样品的总微生物基因组为实验对象,通过测序分析、文库评价、产活性物质及其基因的克隆的获取和基因功能的鉴别,对微生物种群组成与生物量、生态学关系、生物化学关系与环境关系以及功能活性进行研究[4]。其主要过程包括样品和基因的富集和提取; 宏基因组文库的构建; 目的基因的筛选; 目的基因活性产物的表达(图1)。 1.2 微生物及其基因的富集 在文库筛选过程中由于目的基因比例较小, 对环境中微生物的富集不但可提高基因总量,有利于基因的提取,还可增加目的基因的比例,如Kouker 等用橄榄油富集产脂肪酶的微生物收到了很好的效果[5 ],橄榄油不仅可作为底物,还可诱导脂肪酶的合成。目前富集技术主要分为细胞水平和基因水平。其中细胞水平主要是用选择培养基来富集某些微生物, 常

宏基因组测序技术检测方法模板

宏基因组测序技术 检测方法

宏基因组测序技术检测标准 简介: 宏基因组测序介绍 宏基因组学是以环境样品中的微生物群体基因组为研究对象,经过现代基因组技术手段包括功能基因的筛选和测序分析,对环境中微生物多样性、种群结构、进化关系、功能活性、相互协作关系以及环境之间的关系进行研究的新的微生物研究方法。随着高通量测序技术的发展,为宏基因组学研究提供了新的理想研究方法。高通量测序的方法无需分离环境中各种微生物,也无需构建克隆文库就能够直接对环境中所有微生物进行测序。能够真实客观的反映环境中微生物的多样性、种群结构、进化关系等。当前又能够分为针对16s DNA/18sDNA/ITS测序和针对宏基因组全序列的测序研究。下面就是对这两者的具体介绍。 一、16s DNA/18s DNA/ITS测序 16sDNA是最常见的微生物物种分子鉴定的标签,,经过对样品中16sDNA测序能够鉴定其中微生物物种的丰度和分布情况。当前,普遍使用Roche 454平台来对环境样品进行16s DNA测序。因为16s DNA序列比较相似,读长短的话,难以进行有效的比对,而454平台的平均读长在400bp左右,能够很好的避免此类问题。 二、宏基因组全测序

在这种测序方式中,我们能够假定一个环境中的所有微生物就是一个整体,然后对其中所有的微生物进行测序。这样我们就能够研究样品中的功能基因以及其在环境中所起的作用而不用关心其来自哪个微生物。能够发现新的基因,能够进行基因的预测,甚至有可能得到某个细菌基因组的全序列。另外,该项测序不单能够针对DNA水平,也能够针对全RNA进行基因表示水平的研究。 样品处理: 宏基因组样品收集主要有口腔,下呼吸道痰液,下呼吸道灌洗液,皮肤和粪便。样品采集遵照样品采集规范(人)所规定的操作来进行。尽量留足备份样品。 核酸提取: 宏基因组核酸提取主要有两种方法:膜过滤法和直接裂解提取。对于液体样品如痰液,灌洗液两种方法都适用,对于固体样品如粪便宜采用直接裂解的方法。核酸提取后用NanoDrop ND-1000测定,260/280 = 1.8-2.0, 260/230 = 1.8-2.0,电泳检测DNA应是完整的一条带。 测序Sequencing 1)16S/18S测序: Sanger测序: 用于低通量的16S/18S DNA测序,提取宏基因组后,首先经过PCR将16S/18S序列扩增出来,再将其连接到克隆载体上,导

高通量测序RNA-seq数据的常规分析

案例一 虽然RNA-seq早已被大家所熟知,特别是在高通量测序越来越便宜的今天,但是RNA-seq数据的分析仍令多数小菜抓狂。多个软件的使用,参数设置,参考基因组准备,输出结果的解读等等,都让很多初次接触测序数据或者非生物信息专业的人头疼不已。 哈哈,不用怕,有云生信,这都不是事儿!今天我就向大家简单介绍一下如何用云生信做RNA-seq数据的常规分析。不过在此之前,我要稍稍啰嗦一下RNA-seq的常规分析流程,请不要拍砖头。图1是RNA-seq数据从产生到分析的常规分析流程:根据实验设计,提取细胞RNA,并将RNA提交给测序公司,就可以坐等测序数据了。测序公司会根据客户提供的RNA进行建库,上机测序。拿到测序数据后,就到了我们大显身手的时候了。首先,我们要对测序结果做个简单的质量评估,剔除低质量的数据。然后,根据基因组数据(这里我们讲的是基因组数据已知的物种,基因组未知的有套独立的流程,这里不讲),将测序数据组装。根据组装结果,计算基因或转录本的表达量。最后,同芯片数据一样,我们可以根据表达量数据做很多分析,如差异表达分析,网络分析(包括蛋白互作网络,共表达网络等),也可以结合临床数据做分析(如预后,亚型分类、关联,药效等)。 图1. RNA-seq常规分析流程

叨叨完毕,进入正题。 进入尔云后,打开“测序数据处理”模块,我们会看到图2的结果。在这一模块,我们可以完成RNA-seq数据分析的前两步:1、数据质控和过滤低质量数据;2、基因组组装,计算基因表达量。对于上面两部,尔云又根据是双端测序还是单端测序,分了两块。以edgeR 为例,输出的DEGs.txt就是根据我们设定的参数得到的差异表达基因的列表,有geneSymbol, logCPM, PVlue信息。 图2. 测序数据处理模块 质控结束后,尔云会给出全部的质控结果。图3是以demo数据为例的双端测序的质控结果,好多好多呀,可以下了慢慢看。建议主要关注一下xxx_qc_TABLE,该表格是对质控前后的数据统计,反应了测序的好坏。Clean_xxx.fq是质控后的干净的fastq数据,是第2步组装的输入文件。 图3.质控结果 组装完成后,会返回一个expression.txt的表达矩阵文件,该文件是下一步差异表达分析的输入分析。 得到表达矩阵后,我们就可以进入到第3步差异表达数据分析。进入尔云的“差异分析”模块(如下图所示),它针对芯片和测序两种检测技术提供了不同的分析方案。对于RNA-seq

宏基因组测序技术检测方法

宏基因组测序技术检测方法

宏基因组测序技术检测标准 简介: 宏基因组测序介绍 宏基因组学是以环境样品中的微生物群体基因组为研究对象,通过现代基因组技术手段包括功能基因的筛选和测序分析,对环境中微生物多样性、种群结构、进化关系、功能活性、相互协作关系以及环境之间的关系进行研究的新的微生物研究方法。随着高通量测序技术的发展,为宏基因组学研究提供了新的理想研究方法。高通量测序的方法无需分离环境中各种微生物,也无需构建克隆文库就可以直接对环境中所有微生物进行测序。可以真实客观的反映环境中微生物的多样性、种群结构、进化关系等。目前又可以分为针对16s DNA/18sDNA/ITS测序和针对宏基因组全序列的测序研究。下面就是对这两者的具体介绍。 一、16s DNA/18s DNA/ITS测序 16sDNA是最常用的微生物物种分子鉴定的标签,,通过对样品中16sDNA 测序可以鉴定其中微生物物种的丰度和分布情况。目前,普遍使用Roche 454平台来对环境样品进行16s DNA测序。因为16s DNA序列比较相似,读长短的话,难以进行有效的比对,而454平台的平均读长在400bp左右,可以很好的避免此类问题。 二、宏基因组全测序 在这种测序方式中,我们可以假定一个环境中的所有微生物就是一个整体,然后对其中所有的微生物进行测序。这样我们就可以研究样品中的功能基因以及其在环境中所起的作用而不用关心其来自哪个微生物。可以发现新的基因,可以进行基因的预测,甚至有可能得到某个细菌基因组的全序列。此外,该项测序不单可以针对DNA水平,也可以针对全RNA进行基因表达水平的研究。 样品处理: 宏基因组样品收集主要有口腔,下呼吸道痰液,下呼吸道灌洗液,皮肤和粪便。样品采集遵照样品采集规范(人)所规定的操作来进行。尽量留足备份样品。

高通量测序的生物信息学分析

附件三生物信息学分析 一、基础生物信息学分析 1.有效测序序列结果统计 有效测序序列:所有含样品barcode(标签序列)的测序序列。 统计该部分序列的长度分布情况。 注:合同中约定测序序列条数以有效测序序列为准。 图形示例为: 2.优质序列统计 优质序列:有效测序序列中含有特异性扩增引物、不含模糊碱基、长度大于可供分析标准的序列。 统计该部分序列的长度分布情况。 图形示例为:

3.各样本序列数目统计: 统计各个样本所含有效测序序列和优质序列数目。 结果示例为: 4.OTU生成: 根据序列的相似性,将序列归为多个OTU(操作分类单元),以便后续分析。 5.稀释曲线(rarefaction 分析) 根据第4条中获得的OTU数据,做出每个样品的Rarefaction曲线。本合同默认生成OTU相似水平为0.03的rarefaction曲线。 rarefaction曲线结果示例:

6.指数分析 计算各个样品的相关分析指数,包括: ?丰度指数:ace\chao ?多样性指数:shannon\simpson ?本合同默认生成OTU相似水平为0.03的上述指数值。 多样性指数分析结果示例: 注:默认分析以上所列指数,如有特殊需要请说明。 7.Shannon-Wiener曲线 利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线,反映各样本在不同测序数量时的微生物多样性。当曲线趋向平坦时,说明测序数据量足够大,可以反映样品中绝大多数的微生物信息。绘制默认水平为:0.03。 例图:

8.Rank_Abuance 曲线 根据各样品的OTU丰度大小排序作丰度分布曲线图。结果文件默认为PDF格式(其它格式请注明)。 例图: 9.Specaccum物种累积曲线(大于10个样品) 物种累积曲线( species accumulation curves) 用于描述随着抽样量的加大物种增加的状况,是理解调查样地物种组成和预测物种丰富度的有效工具,在生物多样性和群落调查中,被广泛用于抽样量充分性的判断以及物种丰富度( species richness) 的估计。因此,通过物种累积曲线不仅可以判断抽样量是否充分,在抽样量充分的前提下,运用物种累积曲线还可以对物种丰富度进行预测。

宏基因组学研究方法及应用概述

宏基因组学研究方法及应用概述彭昌文 (山东省济宁学院生物学系 273155) 颜 梅 (山东省曲阜师范大学生命科学学院 273165) 摘 要 本文简要介绍了宏基因组的概念,概述了其原理及应用。 关键词 宏基因组 宏基因组学 环境基因组学 基因文库的构建 迄今,人们对微生物世界的认识基本都来源于对占细菌总种数不到1%的微生物的单个种群的孤立研究结果。然而微生物是通过其群落而非单一种群来执行在自然界物质与能量循环中的作用的,对微生物群落作为整体的功能认识远远落后于对其个体的认识。这种状况不利于全面认识微生物在自然界所扮演的重要角色。为了获得完整的环境微生物基因表达产物,早在1978年许多学者就提出了直接从环境中提取微生物DNA的思路,1998年,AR I A D phar maceutical公司的科学家Handels man等首次提出宏基因组的概念[1]。宏基因组(the genomes of the total m icrobi ota found in nature)是指生境中全部微生物基因的总和[2]。它包含了可培养的和未培养的微生物的基因总和,微生物主要包括环境样品中的细菌和真菌。而宏基因组学就是一种以环境样品中的微生物群体基因组为研究对象,以功能基因筛选和测序分析为研究手段,以微生物多样性、种群结构、进化关系、功能活性、相互协作关系及与环境之间的关系等为研究目的的新的微生物研究方法,也称为微生物环境基因组学、元基因组学或生态基因组学。它主要研究从环境样品获得的基因组中所包含的微生物的遗传组成及其群落功能,为充分认识和开发利用非培养微生物,并从完整的群落水平上认识微生物的活动、最大限度地挖掘微生物资源,提供了可能,已成为国际生命科学技术研究的热点和前沿。 1 宏基因组学的研究方法 宏基因组学的研究过程一般包括从环境样品中提取基因组DNA,克隆DNA到合适的载体,导入宿主菌体,筛选目的转化子等工作,可分为三个步骤。 1.1 宏基因组的提取 在宏基因组筛选过程中,目的基因是整个核苷酸链中的一部分,因此样品前期的富集能够提高筛选命中率。DNA的提取是宏基因文库构建的关键步骤。提取步骤通常需要满足两个条件:既要尽可能提取样品所有微生物的基因,又要保持片段的完整和纯度。目前所开发的DNA提取方法有两种:细胞提取法和直接裂解法。直接裂解法包括物理法(冻融法、超声法、玻璃球珠击打法、液氮碾磨法)、化学法(常用化学试剂有表面活性剂、盐类、有机溶剂等)及酶裂解法。另外,依据提取样品总DNA前是否分离细胞,可以分为原位裂解法和异位裂解法。原位裂解法可以直接破碎样品中的微生物细胞而使DNA 得以释放,由于无需对样品微生物进行复苏,且黏附颗粒上的微生物细胞亦能被裂解,所得DNA能更好地代表样品微生物的多样性。此法操作容易、成本低,DNA 提取率高,但由于机械剪切作用较强,所提取的DNA 片段小(1~50kb),通常适用于构建小片段插入文库(以质粒和λ噬菌体为载体)的DNA提取。异位裂解法则先采用物理方法将微生物从样品中分离出来,然后采用较温和的方法抽提DNA。此法条件温和,可获得大片段DNA(20~500kb),纯度高,但操作繁琐、成本高、得率低,通常适用于构建大片段插入文库(以柯斯质粒或者细菌人工染色体为载体)的DNA提取。1.2 宏基因组文库的构建 宏基因组文库的构建需适宜的克隆载体。通常用于DNA克隆的载体主要包括质粒、黏粒和细菌人工染色体等。质粒一般用于克隆小于10kb的DNA片段,适用于单基因的克隆与表达。黏粒的插入片段可达40kb左右,细菌人工染色体插入片段可达350kb,可用来制备由多基因簇调控的微生物活性物质的完整代谢途径的相关片段文库。1.3 目的基因的筛选 目的基因的筛选方法包括序列分析和功能分析两种。序列分析适用于小片段DNA文库的基因筛选;而功能分析通常适用于大片段DNA文库的筛选。序列分析筛选不依赖于重组基因在外源宿主中的表达,因为所使用的寡聚核苷酸引物是直接通过DNA序列中的保守区域设计的,反映了氨基酸序列的保守性,可获得未知序列的目的基因。该方法对DNA量的要求不高,筛选到新活性物质的可能性较大。序列分析的另一个手段是对宏基因组克隆测序,无论是全部或随机测序都是发现新基因的有效手段。 对于功能分析而言,首先需获得目的克隆,然后通过序列和生化分析对其进行表征。此法能快速鉴定出全新且有开发价值的活性物质,可用于医药、工农业等行业。由于此法检出率较低,工作量较大,且受检测手段的限制,所以常要借助于高通量筛选。 2 宏基因组学的应用 2.1 在生态学方面的应用 当今微生物生态学研究的主要目的之一是将微生物与其所在环境中的代谢过程相联系。应用16s r DNA作为系统发育锚去鉴定属于某种微生物的克隆,然后对基因进行测序,从而获得

宏基因组学概述

宏基因组学概述 王莹,马伊鸣 (北京交通大学土木建筑工程学院环境1402班) 摘要:随着分子生物学技术的快速发展及其在微生物生态学和环境微生物学研究中的广泛应用,促进了以环境中未培养微生物为研究对象的新兴学科——微生物环境基因组学(又叫宏基因组学、元基因组学,英文名Metagenomics)的产生和快速发展。宏基因组学通过直接从环境样品中提取全部微生物的DNA,构建宏基因组文库,利用基因组学的研究策略研究环境样品所包含的全部微生物的遗传组成及其群落功能.在短短几年内,宏基因组学研究已渗透到各个领域,包括海洋、土壤、热液口、热泉、人体口腔及胃肠道等,并在医药、替代能源、环境修复、生物技术,农业、生物防御及伦理学等各方面显示了重要的价值。本文对宏基因组学的主要研究方法、热点内容及发展趋势进行了综述 关键词:宏基因组宏基因组学环境基因组学基因文库的构建 Macro summary of Metagenomics Wang Ying, Ma Yi-Ming (BeijingJiaotongUniversity, Institute of civil engineering,) Key words: Metagenome; Metagenomics; The environmental genomics 宏基因组学(Metagenomics)又叫微生物环境基因组学、元基因组学。它通过直接从环境样品中提取全部微生物的DNA,构建宏基因组文库,利用基因组学的研究策略研究环境样品所包含的全部微生物的遗传组成及其群落功能。它是在微生物基因组学的基础上发展起来的一种研究微生物多样性、开发新的生理活性物质(或获得新基因)的新理念和新方法。其主要含义是:对特定环境中全部微生物的总DNA (也称宏基因组,metagenomic)进行克隆,并通过构建宏基因组文库和筛选等手段获得新的生理活性物质;或者根据rDNA数据库设计引物,通过系统学分析获得该环境中微生物的遗传多样性和分子生态学信息。 1.起源 宏基因组学这一概念最早是在1998年由威斯康辛大学植物病理学部门的Jo Handelsman等提出的,是源于将来自环境中基因集可以在某种程度上当成一个单个基因组研究分析的想法,而宏的英文是"met a-",具有更高层组织结构和动态变化的含义。后来伯克利分校的研究人员Kevin Chen和Lior Pachter 将宏基因组定义为"应用现代基因组学的技术直接研究自然状态下的微生物的有机群落,而不需要在实验室中分离单一的菌株"的科学。 2 研究对象 宏基因组学(Metagenomics)是将环境中全部微生物的遗传信息看作一个整体自上而下地研究微生 物与自然环境或生物体之间的关系。宏基因组学不仅克服了微生物难以培养的困难, 而且还可以结合生物信息学的方法, 揭示微生物之间、微生物与环境之间相互作用的规律, 大大拓展了微生物学的研究思路与方法, 为从群落结构水平上全面认识微生物的生态特征和功能开辟了新的途径。目前, 微生物宏基因组学已经成为微生物研究的热点和前沿, 广泛应用于气候变化、水处理工程系统、极端环境、人体肠道、石油污染、生物冶金等领域, 取得了一系列引人瞩目的重要成果。 3 研究方法 宏基因组学的研究过程一般包括样品和基因(组)的富集;提取特定环境中的基因组 DNA;构建宏基因组 DNA 文库;筛选目的基因;目的基因活性产物表达(图 1)五个步骤。

宏基因组测序讲解

宏基因组测序讲解

宏基因组测序 目的 研究藻类物种的分类,研究与特定环境与相关的代谢通路,以及通过不同样品的比较研究微生物内部,微生物与环境,与宿主的关系。技术简介 宏基因组( Metagenome)(也称微生物环境基因组Microbial Environmental Genome, 或元基因组) 。是由 Handelsman 等 1998 年提出的新名词,其定义为"the genomes of the total microbiota found in nature" , 即生境中全部微小生物遗传物质的总和。它包含了可培养的和未可培养的微生物的基因,目前主要指环境样品中的细菌和真菌的基因组总和。而所谓宏基因组学 (或元基因组学, metagenomics) 就是一种以环境样品中的微生物群体基因组为研究对象,以功能基因筛选和/或测序分析为研究手段,以微生物多样性、种群结构、进化关系、功能活性、相互协作关系及与环境之间的关系为研究目的的新的微生物研究方法。一般包括从环境样品中提取基因组 DNA, 进行高通量测序分析,或克隆DNA到合适的载体,导入宿主菌体,筛选目的转化子等工作。 宏基因组( Metagenome)(也称微生物环境基因组Microbial Environmental Genome, 或元基因组) 。是由 Handelsman 等 1998 年提出的新名词,其定义为"the genomes of the total microbiota found in nature" , 即生境中全部微小生物遗传物质的总和。它包含了可培养的和未可培养的微生物的基因,目前主要指环境样品中的细菌和真菌的基因组总和。而所谓宏基因组学 (或元基因组学, metagenomics) 就是一种以环境样品中的微生物群体基因组为研究对象,以功能基因筛选和/或测序分析为研究手段,以微生物多样

高通量测序及分析

高通量测序与功能分析 微生物群落测序是指对微生物群体进行高通量测序,通过分析测序序列的构成分析特定环境中微生物群体的构成情况或基因的组成以及功能。借助不同环境下微生物群落的构成差异分析我们可以分析微生物与环境因素或宿主之间的关系,寻找标志性菌群或特定功能的基因。对微生物群落进行测序包括两类,一类是通过16s rDNA,18s rDNA,ITS区域进行扩增测序分析微生物的群体构成和多样性;还有一类是宏基因组测序,是不经过分离培养微生物,而对所有微生物DNA进行测序,从而分析微生物群落构成,基因构成,挖掘有应用价值的基因资源。 以16s rDNA扩增进行测序分析主要用于微生物群落多样性和构成的分析,目前的生物信息学分析也可以基于16s rDNA的测序对微生物群落的基因构成和代谢途径进行预测分析,大大拓展了我们对于环境微生物的微生态认知。 目前我们根据16s的测序数据可以将微生物群落分类到种(species)(一般只能对部分菌进行种的鉴定),甚至对亚种级别进行分析, 几个概念: 16S rDNA(或16S rRNA):16S rRNA基因是编码原核生物核糖体小亚基的基因,长度约为1542bp,其分子大小适中,突变率小,是细菌系统分类学研究中最常用和最有用的标志。16S rRNA基因序列包括9个可变区和10个保守区,保守区序列反映了物种间的亲缘关系,而可变区序列则能体现物种间的差异。16S rRNA基因测序以细菌16S rRNA基因测序为主,核心是研究样品中的物种分类、物种丰度以及系统进化。 OTU:operational taxonomic units (OTUs)在微生物的免培养分析中经常用到,通过提取样品的总基因组DNA,利用16S rRNA或ITS的通用引物进行PCR 扩增,通过测序以后就可以分析样品中的微生物多样性,那怎么区分这些不同的序列呢,这个时候就需要引入operational taxonomic units,一般情况下,如

《高通量宏基因组测序技术检测病原微生物的临床应用规范化专家共识》(2020)要点

《高通量宏基因组测序技术检测病原微生物的临床应用规范化专家共识》 (2020)要点 快速准确的微生物鉴定技术始终是临床微生物关注的焦点。传统微生物检验,诸如形态学、培养、抗原抗体及靶向核酸检测等方法在解决疑难及未知病原微生物上存在局限性。新型宏基因组下一代测序(mNGS)技术直接针对样本中所有核酸进行无偏性测序,结合病原微生物数据库及特定算法,检测样本中含有的可能病原微生物序列。随着该技术的社会经济成本不断降低和技术的不断完善,已逐渐从科研走向临床应用,成为临床疑难和未知病原微生物检验的重要手段。利用mNGS技术进行病原微生物检测需经样本前处理、核酸提取、文库制备、上机测序并满足测试的质量控制要求后,采用特定算法软件与专用的病原微生物数据库进行比对,实现对病毒、细菌、真菌、寄生虫及非经典微生物等的检测。mNGS 技术不依赖培养,对常见病原微生物检验阴性、经验治疗失败、不明原因的危急重感染的病原学诊断以及新发突发传染病的病原体发现具有独特价值。 一、临床应用的基本要求 (一)适应证 基于医学决策的mNGS病原微生物检测申请,一般用于传统检验方法未

能给出明确病原学结从而影响患者准确诊疗的感染性疾病、新发突发传染病、验证常规检验结果或排除其他发热疾病。荐临床通过拟诊先行传统微生物检验及聚合酶链反应(PCR)检测拟诊疑似常见病原微生物,不盲目使用mNGS技术。在必要或紧急情况下,如危急重症、疑难感染、群体性感染事件等,可考虑作为一线检测方法。表1列出了mNGS临床应用适应性说明。临床上在选择mNGS 进行病原微生物确认时应注意如下事项。 1. mNGS 检测申请表: 2. 靶向基因测序: 3. DNA测序与RNA测序的选择: 4. mNGS 技术的局限性: (二)标本类型及采集规范 1. 血液及高凝标本: 2. 支气管肺泡灌洗液及痰液:

相关文档
最新文档