高通量转录组测序的数据分析与基因发掘_周华
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
·608·
江西科学
2012 年第 30 卷
DNA 芯片( DNA chip) 、基因表达的系统分析( serial analysis of gene expression,SAGE) 和大规模平 行测序技术( MPSS) 等能够大规模地进行基因差 异表达分析的技术应运而生。而近年来,基于新 一代测序技术的转录组测序( RNA-seq) 成为大规 模研究转录组的一种新的且更为有效的方法。
ZHOU Hua1 ,ZHANG Xin2 ,LIU Teng-yun1 ,YU Fa-xin1*
( 1. The Biology Institute,Jiangxi Academy of Sciences, Horticultural Plant Genetic Improvement Key Lab,Jiangxi Nanchang 330029 PRC;
收稿日期: 2012 - 09 - 11; 修订日期: 2012 - 10 - 12 作者简介: 周 华( 1980 - ) ,女,江西吉安人,在读博士生,助理研究员,主要研究方向: 园林植物遗传育种。 * 通讯作者: 余发新( 1968 - ) ,男,江西九江人,博士,研究员,主要研究方向: 林木遗传育种。E-mail: fxyu2000@ 126. com。
一般分为有参考基因组的重测序的读长定位 和无参考基因组的从头测序组装。
重测序的读长定位: 是指针对有参考序列的 数据组装,首先将读长进行排序,然后将所有测序 读段通过序列映射定位( mapping) 到参考基因组 上,与参考基因组进行比对分析,挑选出匹配好的 所有读长用于后续分析,同时进行读长的基因定 位,用于后续分析。重组装在已具有基因组序列 的模式植 物 中 得 到 了 广 泛 应 用[6,7],目 前 组 装 定 位 软 件 有 BWA、SOAP、SAMtools、MAQ、ZOOM 等。
screening) 、cDNA 代表差异分析( representative difference analysis、RDA) 以及 mRNA 差异显示( differential display) 、表达序列标签( EST) 等技术已 被广泛用于鉴定和克隆差异表达的基因,但是这 些技术不能胜任对大量的植物基因进行全面、系 统的分析,也不能对细胞内基因表达进行准确的定 量研究。于是,cDNA 微阵列( cDNA microarray) 、
相对于传统的 sanger 测序,转录组测序成本 效率高,但其读长较短,特异性测序误差以及缺乏 物理克隆,对序列的组装、分析和序列的准确性提 出了相当大的挑战,同时由于高通量的测序技术, 获得海量的数据,如何从这些数据中找出生物学 信息,尤其是功能基因的发掘,成为这项技术能否 带来新的科学发现的关键[4]。目前,这些问题已 经通过测序方式结合的杂交测序策略,更深度的
用量 生物信
低 息分析
低
低
多
少
高
极高
转录组测序技术被认为是一种在转录水平上 更为精确的测定分析方法,在转录组学的应用上 具有革命性意义[2]。目前,高通量测序主要有 3 种测序平台( 表 2) ,测序原理及序列长度的差异 决定了这 3 种测序仪在不同领域的应用[3],这些 测序技术已经在动植物研究领域中得到了极为广 泛的应用,开创了生物学研究的新时代。
0 前言
转录组 研 究 是 一 个 发 掘 功 能 基 因 的 重 要 途 径,是基因功能及结构研究的基础和出发点。转 录组学相对于基因组学而言,只研究被转录的基 因,研究范围缩小,针对性更强。经典的减法杂交 ( subtractive hybridization ) 、差 示 筛 选 ( differential
连接测序 止合成测序
100 ~ 400
35 ~ 50
35 ~ 100
0. 1 ~ 1
1 ~ 10
1 ~ 10
0. 33
ห้องสมุดไป่ตู้
5 ~8
3 ~5
0. 09
0. 005
0. 003
1 转录组测序的主要方法和步骤
1. 1 数据处理 高通量测序数据以 FASTQ 格式来记录所测
的碱基读段和质量分数。数据产出后,对样品测 序获得的 Reads 进行统计,通过统计各样品 Reads 长度、数量、碱基数以及 GC 含量等指标,评估数 据量是否满足信息分析要求。之后对原始数据进 行质量评估,过滤低质量数据,应用 BLAST、RepeatMasker、Seqclean 或 Crossmatch 等软件遮蔽数 据组中不属于表达的基因的赝象序列,去除镶嵌 克隆,最后获得高质量数据再进行后续分析。 1. 2 数据组装与定位
目前使用的基因功能分类主要有 2 种方法: Gene Ontology ( 简 称 GO) 分 类 和 KEGG 功 能 分 类。GO 是基因功能国际标准化分类体系,把基 因按照其参与生物学过程( biological process) 、构 成细胞的成分( cellular component) 和实现的分子 功能( molecular function) 3 个部分进行分类,适用 于各个物种,能对基因进行限定和描述[13]。KEGG 数据库能够系统分析基因产物在细胞中的代谢途 径以及功能,生物体内,不同基因相互协调行使其 生物学功能,基于 KEGG( Kyoto Encyclopedia of Genes and Genomes) 的分析有助于更进一步分析表 达基 因 中 存 在 哪 些 显 著 性 富 集 的 Pathway 注 释[14,15]。
DOI:10.13990/j.issn1001-3679.2012.05.035
第 30 卷 第 5 期 2012 年 10 月
江西科学
JIANGXI SCIENCE
Vol. 30 No. 5 Oct. 2012
文章编号: 1001 - 3679( 2012) 05 - 0607 - 05
高通量转录组测序的数据分析与基因发掘
转录组测序( RNA-seq) 是利用大规模测序技 术直接对 cDNA 序列进行测序,产生数以千万计 的 reads 数量,从而使得一段特殊的基因组区域 的转录水平可以直接通过比对到该基因组区域的 reads 数来衡量[1]。RNA-seq 是一个高度灵活的 平台,与其他转录组学技术比较,具有以下优点: 通量高、成本低、灵敏度高,可以获得低丰度的表 达基因,不局限于已知的基因组序列信息,适用于 未知基因组序列的物种,不需要克隆的步骤,操作 简单,应用领域广( 表 1) 。
从头测序组装( De novo sequence assembly) : 从头测序组装是将各测序读长按顺序拼接成连叠 群( contig) ,再组装成支架( scaffle) ,最后将支架 中间空隙的部分 gap 进行填洞,最终组装成连续 的较长的序列,再通过与模式植物进行比对分析 ( BLAST) ,确定基因序列。从头组装对于无参考
第5 期
周 华等: 高通量转录组测序的数据分析与基因发掘
·609·
序列以及短序列的组装提供了一个有效的方法, 能够快速获得表达基因。
Roche /454 技术因产生的读长较长,相对容 易进行从头组装,但对 Illumina 以及 SOLID 技术 由于读长较短,如何将短读长拼接成一个较长的 序列,在拼 接 策 略 上 存 在 相 当 大 的 难 度[7],近 年 来研究者们针对该问题,设计了各种适用于 Illumina 的组 装 软 件,取 得 了 较 好 的 拼 接 效 果[8,9]。 自 2010 年在发表在 Nature 杂志上的运用 de novo 测序 ( Illumina 技 术 ) 得 到 熊 猫 的 全 基 因 组 序 列[10],至今已在大量非模式动植物中通过 3 种测 序平台互相结合的方法,进行从头测序组装得到 单一序列[11,12]。目前从头组装最常用的软件有: SOAPdenovo、Velvet、Oases、Abyss、ALLPATH 等。 1. 3 基因注释及分类
测序,以及运用新的组装方法和生物信息学工具 解决[5]。
表 2 3 种高通量测序平台比较
测序平台
测序 原理 平均读长 ( bp) 数据量 ( Gb / run) 运行时间 ( day / run) 测序成本 ( ¥ /b)
Roche /454 焦磷酸
合成测序
ABI / Solid Illumina / Solexa 双碱基编码 可逆性链终
周 华1 ,张 新2 ,刘腾云1 ,余发新1*
( 1. 江西省科学院生物资源研究所,江西省观赏植物遗传改良重点实验室,江西 南昌 330029; 2. 南京市林业站,江苏 南京 210036)
摘要: 高通量转录组测序( RNA-seq) 是在转录组水平上进行深度测序的一项技术,为真核生物转录组学的研
表 1 RNA-seq 与其他转录组学技术比较
方法
芯片 SAGE 和 MPSS RNA-seq
原理 信号 分辨率
杂交 荧光模 拟信号 5 ~ 100 bp
Sanger 测序 高通量测序
数字化
数字化
信号
信号
1 bp
1 bp
通量
0. 1 ~ 1 Gb 1 ~ 10 Mb 1 ~ 15 Tb
背景
高
起始 RNA 多
究开创了新平台,但同时测序所得到的海量数据的生物信息学分析成为科研工作者的一大挑战。对转录组测
序技术进行了阐述,重点介绍了转录组测序后的数据分析,以及在真核生物尤其是非模式物种中的基因发掘
方法。
关键词: 转录组测序; 数据分析; 基因发掘
中图分类号: Q987
文献标识码: A
Data Processing and Gene Discovery of High-throughput Transcriptome Sequencing
基因注 释,是 基 于 假 设“同 源 等 于 功 能 相 似”,利用生物信息学方法,将未知基因序列在公 共数据库进行相似性搜索比对,通过与数据库中 已 注 释 基 因 的 同 源 性,来 推 测 未 知 基 因 的 功 能。 目前已注释的核酸数据库主要有: GenBank( NCBI) 、EMBL、DDBJ,蛋 白 质 数 据 库 主 要 有: SWISS - PROT、TrEMBL。采用的搜索比对软件主要有 BLAST、FASTA 等。
2. Nanjing Forestry Bureau,Jiangsu Nanjing 210036 PRC)
Abstract: High-throughput transcriptome sequencing ( RNA-seq) is a recently developed approach to transcriptome profiling that uses deep-sequencing technologies. It provided a novel platform for eukaryotic transcripome researches,but the bioinformatics analysis of sequencing data became the challenge of scientific worker. In this review,we described the researches process of high-throughput transcriptome sequencing technology,focusing on sequencing data analysis and gene discovery of different species,especially of non-model species. Key words: Transcriptome sequencing,Data processing,Gene discovery
2 转录组测序的基因发掘
2. 1 利用比对和注释发掘基因 通过测序所得到的大量的 EST 序列,进行处
理拼接后得到 Unigene,通过与多个公共数据库的 比对和注释,运用 BLAST 等软件,可从中获得有 参考注释功能的候选基因或进行新基因的发掘。 该种方法主要用于已知基因组信息或无基因组信