EST或转录组分析
转录组分析流程范文
转录组分析流程范文转录组分析是一种用于研究特定生物体或组织中的全部转录本的方法。
它通过测量RNA分子在特定时间点和条件下的表达水平,揭示了基因转录的调控机制,功能注释和转录本的表达图谱,并为找到新的基因和功能注释提供了线索。
下面是一个常用的转录组分析流程,包含预处理、质控、序列比对、表达定量和差异分析等步骤。
1.数据预处理:数据预处理主要包括质量控制和去除低质量序列。
在高通量测序中,原始的测序数据通常包含低质量碱基、接头序列和多聚A/T等噪声。
质控工具如FastQC可以用于评估测序数据的质量,根据其结果,采用切割、修剪、过滤和去除低质量序列来提高数据质量。
2.序列比对:序列比对是将预处理后的测序数据与参考基因组进行比对的过程。
常用的比对工具包括Bowtie、BWA和STAR等。
这一步的目的是将测序数据映射到参考基因组上,以确定每个读取序列的起始位置。
3.表达定量:表达定量是将比对得到的序列转化为表达量的过程,它衡量了每个转录本的相对丰度。
常用的表达定量工具包括HTSeq、Cufflinks和Salmon 等。
这些工具通过计算每个转录本对应的读取数来估计其表达水平,并生成基因表达矩阵。
4.差异表达分析:差异表达分析是比较不同条件下的基因表达量,以确定哪些基因在不同条件下的表达水平发生了显著变化。
常用的差异表达分析工具包括DESeq2、edgeR和limma等。
这些工具通过统计学方法来鉴定不同条件之间的显著差异,并生成差异表达基因列表。
5.功能注释:功能注释是对差异表达基因进行生物学功能注释的过程。
常用的功能注释工具包括DAVID、GOseq和KEGG等。
这些工具通过富集分析、与已知数据库的比对和基因网络分析等方法,帮助研究人员了解差异表达基因的功能和参与的生物学过程。
6.结果可视化:结果可视化是将转录组分析结果以图形化的形式呈现,以帮助研究人员理解和解释数据。
常见的结果可视化工具包括Heatmap、Venn图、火山图和基因网络图等。
转录组分析_R
• 基因功能注释 • 基因结构分析 • 鉴定出大量新转录本 • 可变剪接鉴定 • 基因融合鉴定
Genome Res 2010
无参考基因组生物信息分析
• Unigene功能注释 • Unigene的GO分类 • Unigene代谢通路分析 • 预测编码蛋白框(CDS) • Unigene表达差异分析 • Unigene在样品间的差异GO分类和Pathway
有参考基因组序列生物信息分析
• 基因结构优化 • 鉴定基因可变剪接 • 预测新转录本 • SNP 分析 • 基因融合鉴定
有参考基因组序列信息分析流程
Reads 在基因组上的分布
基因结构优化
通过转录组测序鉴定出酵母3’ 和5’ UTR区域 (Nagalakshmi, U. et al.,2008)
富集性分析
De novo reads组装流程
Unigene GO 分类
Unigene COG 功能分类
基因表达差异分析
N1:total tag Number in sample A N2:total tag Number in sample B X :Gene expression level in sample A y :Gene expression level in sample B Reference: Audic S. et al. The significance of
3’-
…-5’
5’-
GTATTTTC GGC AC AG
A
G
A
C
T C
T TG
Cycle 1:按顺序加入反应试剂
合成第一个碱基
清除未反应的碱基和试剂
激发碱基荧光并收集荧光信号
去除阻断基团和荧光基团
水产动物基因转录组学研究进展
水产动物基因转录组学研究进展摘要:我国作为最大的发展中国家和传统的农业大国,农业有着巨大的应用空间和广阔的发展前景。
而在农业中,水产方面又是一大类重要的发展方面。
近年来,水厂养殖相关技术不断更新发展,我国的水产行业发展水平日新月异,而在相关研究中,分子生物学与水产的结合吸引了更多人的目光。
本文将就分子生物学与水产养殖的结合进行综述,主要方面为外界环境条件改变、饲料营养成分改变对基因表达的影响以及转录组学技术在水产动物研究中的应用。
关键词:水产养殖;分子生物;基因表达;转录组学1 基因转录组学在水产动物研究中的应用近年来,转录组学技术及其在水产动物中的研究备受研究者的广泛关注。
转录组学技术主要有基于杂交技术和测序技术为基础的两大类技术; 两类技术在水产动物的转录组学研究中均得到了广泛运用。
以下就近年来水产动物在免疫应答、生长发育、生物进化和毒理学方面的转录组学研究进展进行整理。
转录组学、基因组学和蛋白质组学等各种组学技术在揭示水产动物抗病免疫、生长发育、系统进化和生物毒理过程及相应机理方面的研究中越来越重要。
通过组学研究,可以深刻理解水产动物各种生命活动规律的内在联系和分子机制,并根据相应结果进一步运用到抗病育种、药物筛选、种质资源保护和环境监测等多个研究领域。
转录组学是研究特定细胞、组织或器官在特定生长发育阶段或某种生理状况下所有转录本的科学。
这所有的转录本就称之为转录组,包括编码蛋白质的mRNA和非编码RNA( rRNA,tRNA和其他ncRNA)。
与基因组相对稳定不同的是,转录组是随着生长发育阶段、生理状态和外界环境的改变而变化的。
因此,转录组分析成为研究生物生长发育、应激生理、抗病免疫等作用机制的有力工具。
依据转录组学技术原理的不同,可以将其划分为两类技术,一种是基于杂交的转录组学技术,如利用cDNA微阵列(cDNA microarray) 和DNA宏阵列( DNA macroarray) 进行检测的转录组学技术; 一种是基于测序的转录组学技术,如cDNA 文库或表达序列标签( expressed sequence tags,EST) 文库测序技术,基因表达系列分析( serial analysis of gene expression,SAGE) 技术和大规模平行测序( massively parallel signature sequencing,MPSS) 技术,以及近年来发展起来的下一代高通量测序技术( next generation sequencing,NGS) ,即RNA测序( RNA sequencing,RNA-seq) 技术等。
EST介绍
表达序列标签(expressed sequence tags,ESTs)是指从不同组织来源的cDNA序列。
这一概念首次由Adams等于1991年提出。
近年来由此形成的技术路线被广泛应用于基因识别、绘制基因表达图谱、寻找新基因等研究领域,并且取得了显著成效。
在通过mRNA差异显示、代表性差异分析等方法获得未知基因的cDNA部分序列后,研究者都迫切希望克隆到其全长cDNA序列,以便对该基因的功能进行研究。
克隆全长cDNA序列的传统途径是采用噬斑原位杂交的方法筛选cDNA文库,或采用PCR的方法,这些方法由于工作量大、耗时、耗材等缺点已满足不了人类基因组时代迅猛发展的要求。
而随着人类基因组计划的开展,在基因结构、定位、表达和功能研究等方面都积累了大量的数据,如何充分利用这些已有的数据资源,加速人类基因克隆研究,同时避免重复工作,节省开支,已成为一个急迫而富有挑战性的课题摆在我们面前,采用生物信息学方法延伸表达序列标签(ESTs)序列,获得基因部分乃至全长cDNAycg,将为基因克隆和表达分析提供空前的动力,并为生物信息学功能的充分发挥提供广阔的空间。
文本将就EST技术的应用并就其在基因全长cDNA克隆上的应用作一较为详细的介绍。
1、ESTs与基因识别EST技术最常见的用途是基因识别,传统的全基因组测序并不是发现基因最有效率的方法,这一方法显得即昂贵又费时。
因为基因组中只有2%的序列编码蛋白质,因此一部分科学家支持首先对基因的转录产物进行大规模测序,即从真正编码蛋白质的mRNA出发,构建各种cDNA文库,并对库中的克隆进行大规模测序。
Adams等提出的表达序列标签的概念标志着大规模cDNA测序时代的到来。
虽然ESTs序列数据对不精确,精确度最高为97%,但实践证明EST技术可大大加速新基因的发现与研究。
Medzhitov等通过果蝇黑胃TOLL蛋白进行dbEST数据库检索,该蛋白已证实在成熟果蝇抗真菌反应中发挥重要作用,通过同源分析的方法,找到相应的人类同源EST(登录号为H48602),这为接下来研究人类TOLL同源蛋白的功能提供了很好的条件。
基于转录组测序的油梨EST-SSR引物开发
基于转录组测序的油梨EST-SSR引物开发应东山;唐浩;韩瑞玺;王文林;王明;王琴飞;汤秀华;张如莲【摘要】利用转录测序技术,开发油梨表达序列标签-简单重复序列(EST-SSRs),为SSR标记在油梨种质资源鉴定、品种选育及遗传连锁图谱构建奠定基础.采用Illumina二代测序的技术,共获得37639条无冗余的序列,对其进行SSR搜索,共获得6419条简单序列重复(SSR).利用Primer 3.0软件设计SSR引物,并以11份油梨种质筛选多态性引物.基于转录组序列开发出的EST-SSR的分布频率为17.05%.在油梨EST-SSR中,单核苷、二核苷和三核苷的重复占主导,占总数的99.07%.单、二、三核苷酸重复单元分别占总SSR的37.47%、31.80%和29.80%;出现频率最高的二核苷酸重复基元是AG/CT,占总数的29.15%,出现最高的三核苷酸重复基元为AAG/CTT,占12.01%.随机选择315个SSR位点合成引物,经11份油梨种质筛选鉴定,227对引物可扩增获得产物,有效扩增率为72.06%;其中34对引物表现出良好多态性,占有效引物的12.78%,占总引物的10.79%.在34对多态性引物中,每对引物扩增等位基因数2~12个.利用高通量测序开发SSR引物有较好的实用性,开发获得的34个具有多态性的油梨SSR标记可用于研究油梨及其相关近缘物种的遗传变异.【期刊名称】《热带作物学报》【年(卷),期】2018(039)012【总页数】6页(P2446-2451)【关键词】油梨;转录组;EST-SSR;引物【作者】应东山;唐浩;韩瑞玺;王文林;王明;王琴飞;汤秀华;张如莲【作者单位】中国热带农业科学院热带作物品种资源研究所/农业农村部华南作物基因资源与种质创制重点实验室/农业农村部热带作物种子种苗质量监督检验测试中心,海南海口 571101;农业农村部科技发展中心,北京 100122;农业农村部科技发展中心,北京 100122;广西南亚热带农业科学研究所,广西龙州 532415;中国热带农业科学院热带作物品种资源研究所/农业农村部华南作物基因资源与种质创制重点实验室/农业农村部热带作物种子种苗质量监督检验测试中心,海南海口 571101;中国热带农业科学院热带作物品种资源研究所/农业农村部华南作物基因资源与种质创制重点实验室/农业农村部热带作物种子种苗质量监督检验测试中心,海南海口571101;广西南亚热带农业科学研究所,广西龙州 532415;中国热带农业科学院热带作物品种资源研究所/农业农村部华南作物基因资源与种质创制重点实验室/农业农村部热带作物种子种苗质量监督检验测试中心,海南海口 571101【正文语种】中文【中图分类】S31油梨(2n=24,Persea americana Mill.)是樟科(Lauraceae)油梨属常绿乔木果树,富含脂肪、热能高,故有“森林黄油”之美称,是重要的热带果树之一。
转录组的研究技术方法及当前
RNA-seq的特点及应用
• 二代测序在转录组的研究上越来越普 遍, 大有替代先前的基因芯片 (microarrays)和基因表 达系列分析技术(serial analysis of gene expression, SAGE)之趋势。由于测序深度的优势, RNA-seq更 能全 面地揭示生物个体在特定时刻和特定组织的全 局基因表达情况, 如 发现新的转录本、了解基 因表达量、挖掘单核苷酸的多态(singlenucleotide polymorphisms, SNPs)、选择性剪接(alternative splicing)和结构性变异(structural variation)。对于 序列信息有 限的非模式生物, RNA-seq更偏重编码 区域。由于相比于基因组, 重 复元件和高GC区比较 少, 使得拼接相对容易, 所以转录组研究在许 多非模 式植物中得到了广泛应用。
研究转录组的基本方法
• 目前研究转录组的方法主要有:(1)基于杂交技术,如cDNA芯片和寡聚核苷 酸芯片;(2)基于测序技术,如早先给予Sanger测序的SAGE(Serial Analysis of Gene Expression)和MPSS(Massively Parallel SignaturEST等的测序 工作已升级为代测序技术,第一代测序技术较Sanger测序技术通量更高,运 行时间更短,测序片段更长;(3)基于新一代高通量测序技术的转录组测序, 现在通常将基于第二代测序技术的转录组测序分析称为RNA-பைடு நூலகம்eq。
(4)高通量测序技术的特点
SAGE及MPSS技术的低通量模式切换至RNA-seq的高通量模式。作为蛋白质组研究 的基础,RNA-seq可以识别比蛋白组高一两个数量级的基因,从而帮助科学家构 建完整的基因表达谱以及蛋白质相互作用网络。RNA-seq对于真核生物的基因表 达调控,癌症等疾病的发生机制和新治疗方案确定,遗传育种等方面的研究具有 不可估量的潜力。
转录组数据分析解读及实例操作-1
Content of transcriptome
1. Genes: expression , alterante splices 2. Noncoding RNA: snoRNA, mRNA-like ncRNA, snRNA, some antisense transcripts, pesudogenes, retrotransposon ,and others functional RNAs 3. Some repeat elements
用于注释基因组的转录组大于100m最好有浓度不同长度不同的绝对定量controlspikein以评估mapping质量测序均匀性和rnaseq定量效果3端5端比值是衡量rna完整性的关键指关标准
1. 至少有两个生物学重复,除非“短时间梯度取样” (overlapping time points with high temporal resolution)不需要 技术重复 2. 对基因注释较好的物种,只定量比较研究,可用reads大于 20M;用于注释基因组的转录组,大于>100M 3. 最好有浓度不同长度不同的绝对定量control (Spike-in),以评 估mapping质量、测序均匀性和RNA-seq定量效果 4. “3端/5端比值”是衡量RNA完整性的关键指标(理想值是1),,样品评估关键指标,rpkm值关键结果完备。
转录组数据分析解读及 实例操作
罗奇斌 中科院基因组研究所 德国慕尼黑工业大学
Second genera+on sequencers
2
3
4
常规分析
5
实验流程
6
分析所需工具
• Bow+e so1ware • SAM tools
转录组测序技术的应用及发展综述
转录组测序技术的应用及发展综述摘要:转录组测序(RNA-Seq)作为一种新的高效、快捷的转录组研究手段正在改变着人们对转录组的认识。
RNA—Seq利用高通量测序技术对组织或细胞中所有RNA 反转录而成cDNA文库进行测序,通过统计相关读段(reads)数计算出不同RNA的表达量,发现新的转录本;如果有基因组参考序列,可以把转录本映射回基因组,确定转录本位置、剪切情况等更为全面的遗传信息,已广泛应用于生物学研究、医学研究、临床研究和药物研发等。
文章主要比较近年来转录组研究的几种方法和几种RNA—Seq的研究平台,着重介绍RNA—Seq 的原理、用途、步骤和生物信息学分析,并就RNA—Seq技术面临的挑战和未来发展前景进行了讨论及在相关领域的应用等内容,为今后该技术的研究与应用提供参考。
关键词: RNA-Seq;原理应用;方法;挑战;发展前景Abstract:Transcriptome sequencing (RNA-Seq) is a kind of high efficiency, quick transcriptome research methods are changing our understanding of transcriptome。
RNA—Seq to use high-throughput sequencing of tissues or cells of all RNA reverse transcription into cDNA library were sequenced, through statistical correlation read paragraph (reads)numbers were calculated from the expression of different RNA transcripts, find new; if the genome reference sequence,the transcripts mapped to genomic, determine the position of the transcription shear condition, more genetic information,has been widely used in biological research,medical research,clinical research and drug development。
转录组分析的思路
转录组分析的思路1.确定实验设计和样本预处理:-在实验设计时,需要根据研究目的选择不同的实验组和对照组,比如疾病组和对照组、药物处理组和非处理组等。
-样本预处理包括RNA提取和质量检测,确保RNA质量好、完整度高,并消除可能的污染。
2.RNA测序和数据处理:- RNA测序方法主要有RNA-Seq和微阵列芯片。
RNA-Seq方法能够对全转录组进行定量和定性分析,而微阵列芯片则可以同时检测上万个基因的表达水平。
在选择方法时需要考虑测序深度和数据量、所需分辨率等因素。
- 进行数据质量控制,如去除低质量的reads和PCR重复。
- 根据测序数据,可以使用不同的软件或方法,如Tophat、HISAT2、DESeq2等,对转录组数据进行比对、定量和差异表达分析。
3.差异表达基因分析:-差异表达基因分析是转录组分析的核心环节。
通过比较实验组和对照组的基因表达水平,可以筛选出差异表达的基因。
- 对于RNA-Seq数据,常使用DESeq2、edgeR、limma等软件进行差异表达基因分析。
- 对于微阵列芯片数据,常使用SAM、limma等软件进行差异表达基因分析。
-通过特征选择和差异分析,可以找出与研究对象相关的基因。
4.功能富集分析和生物学解释:-对差异表达基因进行功能富集分析,可以揭示差异表达基因在细胞过程、分子功能和信号通路等方面的富集情况。
- 常用的功能富集分析工具包括DAVID、GOseq、KEGG、Reactome等。
-通过生物学解释,可以从功能角度解释差异表达基因与研究目的之间的关系。
5.验证转录组分析结果:-通过实验验证转录组分析结果,可以提高分析结果的可靠性。
-常用的实验验证方法包括实时定量PCR(qPCR)、西方印迹、免疫组织化学等。
总结:转录组分析的思路包括实验设计和样本预处理、RNA测序和数据处理、差异表达基因分析、功能富集分析和生物学解释以及验证分析结果。
通过这一系列步骤,我们可以更好地理解基因在特定生物学过程中的表达调控和功能,为后续的研究提供指导。
转录组数据分析方法与应用
转录组数据分析方法与应用随着高通量测序技术的广泛应用,越来越多的转录组数据被生成和收集,这些数据对于研究基因表达调控、发现新基因和新剪接变体、诊断疾病等方面具有重要意义。
因此,转录组数据分析已成为当前生物学研究中的重要方向之一。
而转录组数据分析的常用方法之一就是基于RNA-Seq技术的差异表达分析。
本文将从数据获取、数据预处理、差异表达分析、生物信息学工具及其应用等方面,探讨转录组数据分析的方法和应用。
一、数据获取转录组数据获取的最重要的技术手段是RNA-Seq。
RNA-Seq是一项革命性的技术,通过将参考基因组上的所有转录本进行定量分析,可以获得全转录组的基因表达谱,还可以识别新的基因、新的剪接变异、可变剪接事件等。
RNA-Seq技术最重要的是能够获得高通量的转录本序列信息,但与其他高通量技术相比,不同转录物的表达水平测定的相关性较弱,需要更多的样本。
除了RNA-Seq,核酸芯片技术也被广泛应用于转录组数据的获取。
二、数据预处理在进行差异表达分析之前,对于原始的转录组数据进行完整的质量评估和处理将产生重要的影响。
由于RNA-Seq是一种PCR扩增技术,测序错误率是非常高的,为了避免这些错误对研究的影响,需要对原始数据进行筛选和过滤。
主要的处理过程包括:去除低质量序列、去除未被测到的序列、去除重复序列、去除核酸污染物等。
三、差异表达分析差异表达分析是转录组研究的核心部分,通过比较样本之间的差异来对基因表达谱进行解释。
RNA-Seq数据的分析流程通常包含数据预处理、对数据进行比对和定量、根据基因显著性筛选差异表达基因、寻找差异表达基因与通路、功能的相关性及其下游效应等。
在对数据进行分析之前,需要首先对数据进行标准化处理,以消除影响分析结果的不必要因素。
标准化处理通常包括对数据进行正则化、去批次效应、去OTU效应等。
差异表达分析的步骤:1. 表达定量。
标准化RNA-Seq中的表达量是FPKM或者RPKM。
EST的功能分类与代谢途径的分析
拼接好的序列
找到基因注释 或GO号
BLASTX AmiGO GO分析 MGI GO QuickGO
输入序列
选择数据 库
运行
找到相关 基因注释
下一步登陆 AmiGO网主页
基因术语(blast获 得的region_name ) (乙醇脱氢酶)
运行
–o lesson.out –I T –M BLASUM62 –e 1e-5
大量EST 的功能分类可本地运行 根据Compugen的对应表找到GI 号和GO 号的对应关 系,从而得到各EST 编码的蛋白质的GO号分类信息。 根据GO号与function.ontology、component.ontology 、 process.ontology (ftp:///) 的对应关系,就可以得到我们所需要的信息
EST的功能分类和代谢途径分析
贾
斌
文献检索与数据收集cDNA的构建分析平台的构建随机挑取克隆进行5’或3’端测序 序列前处理
聚类和拼接
EST数据注释 功能分类及代谢途径分析
目标基因的分析及应用
目的: • 能运用GO对基因产物进行功能分类 • 能运用KEGG的进行代谢途径分析
一、EST 的功能分类 (GO)
代谢途径
sequence
Select database
blastx
Highest similarity
5743 Where
component
molecular function
4497 What
biological process
电子传递
6118
Which process
4 ferrocytochrome c + O2= 4 ferricytochrome c + 2 H2O
转录组测序方法简介
转录组测序方法简介2004级博士生朱江转录组广义上指某一生理条件下,细胞内所有转录产物的集合;狭义上指所有mRNA的集合。
蛋白质是行使细胞功能的主要承担者,蛋白质组是细胞功能和状态的最直接描述。
基因组-转录组-蛋白质组是中心法则(DNA-mRNA-Protein)在组学框架下的研究模式。
限于目前蛋白质实验技术的限制,转录组成为研究基因表达的主要手段。
通过特定生理条件下细胞内mRNA的丰度来刻画基因表达水平并外推到最终蛋白产物的丰度是目前基因表达研究的基本思想。
研究转录组的基本方法包括基于杂交的芯片技术和转录组测序方法。
通过转录组测序研究基因表达的理论基础是:通过随机抽样测序,某一转录本的抽样频率在大样本下逼近该转录本在转录组中的相对丰度。
转录组抽样测序不限于预先确定的基因集,可以检测未发现的转录本和可变剪接体,芯片杂交只能研究芯片上既定的基因和转录本。
另外,除去cDNA转化过程中的实验误差两种方法同时存在外,转录组测序方法只涉及到抽样的随机误差,这类噪音可以通过统计分析滤除,而芯片分析在从杂交到荧光扫描的每一步均存在很难进行统计描述的噪音。
随着并行测序技术的发展,测序成本降低,大规模转录组测序将成为转录组研究的重要方法。
转录组测序主要包括EST, SAGE,CAGE, MPSS, PET和全长cDNA测序(表一)。
1991年Adams开创了EST测序,对每个转录本测定400bp-500bp 的标签序列,每个cDNA文库测定数万个EST以刻画所研究的转录组。
至今,EST 数据成为数量最多,涉及物种最广的转录组数据。
NCBI设立了专门的数据库dbEST来存放这些剧烈增长的数据。
由于EST数据仅代表转录本 400bp-500bp的片段,并且只经过single-pass测序,序列质量较低,对于精确刻画基因结构存在很多局限。
1995年Velculescu建立了SAGE测序方法,利用转录本3端第一个CATG位点下游14p长的短标签来标识相应转录本。
转录组学-从发展到生信分析
Gene Ontology 分析
KEGG Pathway分析
KEGG Pathway分析
KEGG Pathway分析
KEGG Pathway分
析
结构变异分析
可变剪切
可变剪切
融合基因
点突变
reads
qPCR验证原理
qPCR验证原理
指数时期,模板的Ct值和该模板的起始拷贝数存在线性关系,所以可以定量。
表达量RPKM/FPKM大于50%);
• 基因测序深度readcount相对较高,
有些研究人员选择readcount大20;
qPCR基本步骤
挑选基因
cDNA
分析
qPCR RNA
分析
分析
火山图
分析
发展
定义
主要技术
3 转录组学技术
应用
具有什么优势?
应用
诊断和疾病分析 01
非编码RNA 05
是什么?
涉及什么技术手段? 3
转录组学技术
应用于什么方面?
具有什么优势?
怎么发展来的?
定义
涉及什么技术手段? 3
转录组学技术
应用于什么方面?
具有什么优势?
定义
转录组学技术是用于研究转录组(其所有RNA转录本的总和)的技术。 生物体的信息内容记录在其基因组的DNA中通过转录表达。mRNA在信息 网络中充当瞬时中介,而非编码RNA则执行其他各种功能。转录组可以快 速捕获细胞中存在的全部转录本的信息。
RIN值:0~10
Illumina 测序
桥式PCR
Illumina 测序
Illumina 测序
Illumina 测序
Illumina 测序
第6章 分子生物学研究方法(下)
④具有良好的机械性能
非特异吸附少
4.2 常用的固相支持物 ①硝酸纤维素膜:优点是吸附能力强,杂交信号本 底低。缺点是DNA分子结合不牢固 ②尼龙膜:优点是结合单链,双链DNA的能力比硝酸 纤维素膜强;缺点:杂交信号本底高 ③化学活化膜:优点:DNA与膜共价结合;对不同 大小的DNA片段有同等结合能力;缺点:结合能 力较上述两种膜低
(2)电转法 利用电场的电泳作用将凝胶中的DNA转移到 固相支持物上。
(3)真空转移法
此法原理与毛细管虹吸法相同,只是以滤膜在下,凝
胶在上的方式将其放臵在一个真空室上,利用真空作用
将转膜缓冲液从上层容器中通过凝胶和滤膜抽到下层真 空室中,同时带动核酸片段转移到凝胶下面的尼龙膜或
硝酸纤维素膜上。
各种转移方法的比较:
6.1.2 RNA选择性剪接技术
RNA的选择性剪接是指用不同的剪接方式从 一个mRNA前 体产生不同的mRNA剪接异构 体的过程。可分为:平衡剪 切、 5’ 选择性剪切、 3’ 选择性剪切、外显子遗漏型剪切及 相互排斥性剪切。常用RT-PCR法研究某个基 因是否存在 选择性剪切。 果蝇 Dscam 基 因可 以通过可变 剪接产生38000多 种 可 能 的 mRNA 异构体
Illumina Solexa 测序 Workflow
Illumina Sequencing Technology
有参考基因组序列生物信息分析
• 基因结构优化
• 鉴定基因可变剪接 • 预测新转录本 • SNP 分析 • 基因融合鉴定
5.4.1 RACE 法克隆基因全长 (Rapid Amplification of cDNA Ends)
4.3 Southern印迹的常用方法 (1)毛细管虹吸印迹法
长江刀鲚选育群体转录组EST-SSR的分布特征分析
第40卷 第5期 渔 业 科 学 进 展Vol.40, No.5 2019年10月Oct., 2019* 上海市科技兴农重点攻关项目[沪农科攻字(2016)第6-2-2号]、上海市科学技术委员会重点科技攻关项目(173****0300)和上海市科学技术委员会重点科技攻关项目(11391901300)共同资助 [This work was supported by the Shanghai Key Scientific and Technological Project on Agriculture from Shanghai Municipal Agricultural Commission (2016-2-2), ShanghaiKeyScientificTechnologicalProjectfromShanghaiScienceandTechnologyCommission(173****0300),and Shanghai Key Scientific Technological Project from Shanghai Science and Technology Commission (11391901300)]. 于爱清,E-mail:********************① 通讯作者:施永海,教授级高级工程师,E-mail:****************收稿日期: 2018-08-02, 收修改稿日期: 2018-08-29DOI: 10.19663/j.issn2095-9869.20180802001 /于爱清, 施永海, 徐嘉波, 陆根海, 张海明, 谢永德. 刘永士. 长江刀鲚选育群体转录组EST-SSR 的分布特征分析. 渔业科学进展, 2019, 40(5): 101–109Yu AQ, Shi YG, Xu JB, Lu GH, Zhang HM, Xie YD, Liu YS. Characteristic analysis of microsatellites in selected Coilia ectenes using a transcriptome dataset. Progress in Fishery Sciences, 2019, 40(5): 101–109长江刀鲚选育群体转录组EST-SSR的分布特征分析*于爱清 施永海①徐嘉波 陆根海 张海明 谢永德 刘永士(上海市水产研究所 上海市水产技术推广站 上海 200433)摘要 本研究利用MISA 软件挖掘长江刀鲚(Coilia ectenes )肌肉和肝脏转录组中的微卫星标记,为刀鲚选育群体的种质资源评估和分子标记辅助育种奠定基础。
EST-基因转录组的测定及分析
EST相关数据库
储存EST原始数据的一级数据库
◆ EMBL ◆ GenBank (dbEST) ◆ DDBJ
对EST进行聚类拼接的二级数据库
◆ UniGene (/UniGene) ◆ TIGR Gene Indices (/tdb/tgi/)
Year
● 93年前ESTs数据收录于GenBank, EBI和DDBJ。 ● ● 1993 年NCBI(National Center of Biotechnology Information)建立了一 个专门的EST数据库dbEST来保存和收集所有的EST数据。 ● 95年中期GenBank 中EST的数目超过了非EST的数目。 ● 现在GenBank中EST的数目已经超过了三千五百万,约占GenBank中 序列数的60%.
EST的应用 4
ESTs与SNPs
来自不同个体的冗余的ESTs可用于发现基因组中转录区域存 在的SNPs。最近的许多研究都证明对ESTs数据的分析可以发现 基因相关的SNPs (Buetow et al., 1999;Garg et al., 1999; Marth et al., 1999; Picoult-Newberg et al., 1999) 。 应注意区别真正的SNPs和由于测序错误( ESTs为单向测序 得来,错误率可达2%)而引起的本身不存在的SNPs。解决这一 问题可以通过: ● 提高ESTs分析的准确性。
1. 去除低质量的序列(Phred)
2. 应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属 于表达的基因的赝象序列(artifactual sequences)。
●载体序列(ftp:///repository/vector)
生物信息学est的含义
生物信息学est的含义
生物信息学中,EST(Expressed Sequence Tag) 是指一段含有RNA 序列的蛋白质编码区 (coding region) 的短读码框 (ORF)。
EST 通常是通过高通量测序技术得到的,该技术通过合成短链 DNA 片段
并对其进行测序,可以获得大量的基因组或转录组序列。
在生物信息学中,EST 序列通常用于构建基因组或转录组数据库,以便对基因组或转录组进行注释和信息分析。
此外,EST 序列也可以用于基因组测序和组装,以及基因预测和编码蛋白质的分析。
因此,EST 序列是生物信息学中非常重要的数据资源之一。
基于转录组序列的小麦ETS-SSR标记筛选与染色体定位
基于转录组序列的小麦ETS-SSR标记筛选与染色体定位杨会;杨在君;魏淑红;廖明莉;杨宇凤;王育伟;王清海;彭正松【摘要】通过小麦转录组序列分析,获得121 210个非重复序列(Unigenes),在10 672(8.8%)个Unigenes中搜索出1-6个重复基元的11 650条EST-SSR信息位点,筛选并设计出308条SSR引物,选取前30对引物进行合成.有效性扩增检测结果表明,20(66.7%)对引物有清晰条带.利用缺体-四体系共定位了14对引物,分别位于13条染色体的21个位点上.研究表明,利用小麦转录组中EST-SSR信息开发新的SSR标记是可行的,开发的新EST-SSR标记可有效用于小麦基因的定位和遗传多样性的分析等.【期刊名称】《西华师范大学学报(自然科学版)》【年(卷),期】2014(035)004【总页数】7页(P315-321)【关键词】转录组测序;EST-SSR;小麦【作者】杨会;杨在君;魏淑红;廖明莉;杨宇凤;王育伟;王清海;彭正松【作者单位】西华师范大学西南野生动植物资源保护省部共建教育部重点实验室,四川南充637009;西华师范大学西南野生动植物资源保护省部共建教育部重点实验室,四川南充637009;西华师范大学西南野生动植物资源保护省部共建教育部重点实验室,四川南充637009;西华师范大学西南野生动植物资源保护省部共建教育部重点实验室,四川南充637009;西华师范大学西南野生动植物资源保护省部共建教育部重点实验室,四川南充637009;西华师范大学西南野生动植物资源保护省部共建教育部重点实验室,四川南充637009;西华师范大学西南野生动植物资源保护省部共建教育部重点实验室,四川南充637009;西华师范大学西南野生动植物资源保护省部共建教育部重点实验室,四川南充637009【正文语种】中文【中图分类】S512.1小麦是世界第一大宗的粮食作物,在我国的整个粮食结构中占据重要地位.随着小麦基因组数据不断增加,分子生物学研究的不断深入,构建高密度的遗传图谱可望实现,但必须要开发出更多的分子标记.在众多类型的分子标记中,简单重复序列(simple sequence repeats,SSRs)在基因组中分布广泛,标记数量丰富,等位基因变异多,信息含量高,表现为共显性遗传,操作简便,技术重复性好[1].自上世纪九十年代初以来,SSR标记就作为一种优良的分子标记被广泛应用于物种的遗传分析.其中,EST-SSR 标记更是由于具有独特的优越性而倍受关注.近年来,EST-SSR已经广泛应用于小麦品种鉴定与分类[2]、种质资源遗传多样性及亲缘关系分析[3]、遗传连锁图谱构建[4]、标记和定位目的基因及用于辅助选择育种[5]等多个领域.SSR标记主要有两种类型:基因组SSR和表达序列标签SSR(EST-SSR).基因组SSR需要构建小片段插入的基因组文库,要求较清楚的序列信息,信息量大,数据收集、筛选和处理繁琐,复杂,工作量大,开发成本较高[6].另一种是通过转录组((Expressed Sequence Tag,EST)获得的序列来筛选SSR信息位点.转录组测序能发现更多新的基因序列,为SSR标记开发和新基因的研究都提供更丰富,目标性更强的资源.随着高通量测序技术的日益成熟和成本的降低,开发EST-SSR的优点逐渐显露出来.EST-SSR来源的转录产物,在相关物种中有很高的通用性,并且,能直接反映基因的表达信息,在植物遗传连锁图谱构建、比较作图、基因定位、遗传多样性评价和指纹图谱构建的研究中具有很高的利用价值[7].因此,在小麦中开发EST-SSR标记有重要的应用前景.潘海涛等[8]利用小麦EST序列数据库,发现6 314个SSR,筛选并合成194个引物对,开发了165个小麦EST-SSR新标记并将21个引物整合到已有小麦遗传图谱上.同时,通过转录组测序已经在萝卜[9]、棉花[10]、柑橘[11]、红豌豆[12]、茶树[13]等植物中开发新的SSR标记、构建遗传图谱并投入到实际应用中.作者从小麦转录组中的 EST 序列中搜索出11650条的SSR候选信息位点,以了解小麦 SSR 信息的发生频率和特点,并根据这些SSR信息位点设计EST-SSR引物.然后进行初步筛选和染色体定位.利用小麦转录组中EST-SSR信息开发新的SSR引物,操作简单,周期短,成本较低,验证了其可行性.同时,为小麦新的SSR分子标记的后续遗传作图、基因分子标记等提供重要资料.1.1 材料用于转录组测序的材料为普通小麦雄蕊同源转化型不育系HTS-1及其正常对照材料CSTP;用于EST-SSR筛选的材料为小麦三雌蕊突变体(TP),以及正常品种(品系)中国春,绵麦45,内麦9号、川麦28,共5个品种.用于染色体定位的材料为一套中国春缺体-四体系,包括 N1AT1D, N1BT1A, N1DT1B, Dt2AS,N2BT2D,N2DT2A, N3AT3B, N3BT3D, N3DT3B, N4AT4D,Dt4BS,Dt4DL,Dt4DS,,N5AT5D, N5BT5D, N5DT5B,N6AT6B, N6BT6A,N6DT6B, N7AT7B, N7BT7A和 N7DT7B,其中Dt2AS,Dt4BS,Dt4BS,Dt4DS为端体系.1.2 小麦 EST-SSR 序列的查找与筛选取抽穗期的HTS-1的雌蕊化雄蕊和正常对照组CSTP的正常雌、雄蕊.通过转录组测序和数据分析获得Unigenes,在这些Unigenes序列中应用SSRIT(simple sequence repeat identification tool)软件在线搜索出EST-SSR信息位点.SSR大于或等于20bp,按照二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸的重复基元的重复次数分别大于或等于10、7、5、4、3的方法筛选出SSR信息位点.再用 Primer Premier 5.0 程序设计引物,EST序列长度大于100;SSR 的引物开始位置和结束位置分别距5′和3′端不少于20bp.引物长度18-24,(G+C)含量30%到70%,退火温度50-65℃,且上游引物与下游引物Tm值不大于5℃.PCR扩增长度100-300bp,尽量避免二级结构.选择软件分析得分较高的引物合成,由上海生物工程公司合成.1.3 DNA提取,PCR和电泳DNA提取材料为新鲜叶片,保存于-70℃冰箱,采用CTAB法提取.PCR 反应体系为(10μL):2×Taq PCR Master Mix,5μL;R,F引物分别0.5μL;DNA样1μL;其余用去离子水补足.PCR反应在反应程序为:第一步:94℃预变性 5 min;第二步:94℃变性30 s, 55-60℃退火30s,72℃延伸 30s,35个循环;第三步:72℃继续延伸5 min;12℃∞.产物用8%非变性聚丙烯酰胺凝胶电泳进行分离.2.1 EST-SSR分布特点在小麦转录组中获得121 210个Unigenes,在10 672(8.8%)个Unigenes中发现11 650个1-6个重复基元的SSR信息位点,其中在883个Unigenes中发现2个或以上的SSR位点,复合形式出现的有443个SSR位点.发现的SSR位点的长度跨度在10-42之间,其中大于20bp的占少数,仅为2.64%.在这11 650个SSR位点中,三核苷酸的重复所占比例最多,为41.05%(表1).其次是一核苷酸和二核苷酸重复序列,分别为30.66和21.32.相对最少的是五核苷酸和六核苷酸,都在1%以下.针对小麦EST的不同类型(表2),其中二核苷酸和三核苷酸占总的62.37%,SSR 引物主要分布在二核苷酸和三核苷酸类型中的EST-SSR设计.在二核苷酸的8种重复类型中,GA/CT和AG/TC类型的重复比例相对较高,分别占SSR总数的6.62%和5.03%.在58种三核苷酸重复类型中,以CCG/GGC类型分布比例最多,占简单重复序列总数的5.60%;而CGC/GCG和CGG/GCC的类型重复序列也相对较多,都在5%左右.在这些类型中,差异明显,反应了转录组EST序列中SSR 信息分布特点.2.2 EST-SSR引物在各品种小麦中扩增分析利用Primer Premier 5.0软件,对符合要求的EST-SSR序列进行SSR引物设计.根据SSR引物筛选原则,筛选出308条ETS-SSR引物对,选取前30对引物进行合成.经过PCR扩增和聚丙烯凝胶电泳和硝酸银染色,在5个品种进行有效性检测中,有24(80%)对引物可以扩增出PCR产物,且有清晰条带.扩增产物大小与预期不符的有4对,所以有效扩增引物为20对(66.7%)(如图1).有效扩增中,有10(33.3%)对引物在各品种间具有多态性.说明EST-SSR在小麦各品种之间具有很好地通用性.2.3 EST-SSR染色体定位在利用22个中国春缺体-四体的染色体定位中,对有效扩增的20对引物进行染色体定位,共定位出14个引物对(见图2和表3)的21个位点.分别定位在13条染色体上,其中定位最多的在A染色体组,共有10个位点定位在A染色体组.有6对引物在中国春和所有缺体-四体系中有相同扩增,可能这些基因在小麦不同的染色体上具有多个重复位点,无法利用缺体-四体定位.同时,表明了小麦基因的复杂性和重复性[14].3.1 小麦转录组EST-SSR信息分布特点在小麦转录组中获得的SSR丰富,共找到11 650条EST-SSR信息位点,1-6个核苷酸的重复基元类型都有出现.在SSR引物开发利用中,Cho[15] 等的研究发现,小麦中小于18核苷酸的SSR多态性显著降低,一核苷酸重复类型很少满足SSR大于等于20bp,所以基本不做引物开发利用.本研究表明SSR出现频率以三核苷酸出现最多,其次是二核苷酸,共占总数的62.37%,明显高于四、五核苷酸重复类型.这与Agata Gadaleta[16]等研究结果一致.前人研究表明,SSR位点出现频率在1.34%-4.1%,二核甘酸和三核甘酸重复基元出现频率最多的分别是GA/CT和AG/TC,CAA/GTT, CGG/GCC, CGC/GCG和GGC/CCG[8、17-19].本研究利用转录组信息检出率为8.8%,明显高于其他,虽然所搜索的方式有一定差异,但也说明了转录组中所含的SSR信息更加丰富.本研究中二核苷酸中GA/CT、AG/TC频率较高,三核苷酸中以CCG/GGC出现频率最高,CGC/GCG和CGG/GCC也相对频率较高.这说明本研究中的转录组SSR重复基元类型足够丰富,足以用于开发SSR位点信息.这一结果与其他一些物种相似.如水稻[20]、大麦[21]、玉米[22]、高粱[23]等植物中二核苷酸和三核苷酸重复类型分别以GA和AG,CCG、GGC、AGG等出现频率最多.SSR标记开发方面,大多数植物应用开发最多的也是三核苷酸、二核苷酸类型.3.2 小麦转录组EST-SSR扩增特点引物筛选共得到308对(2.64%)SSR引物,本文选择了30对引物来用于分析,有效性检测为20对(66.7%)引物,染色体定位了14对引物.许多研究表明EST-SSR的有效扩增率在60%-90%之间[24].本研究所设计的引物扩增率在正常范围之内.在利用EST序列开发SSR引物,由于上下游引物之间可能跨越mRNA的剪切点,如果剪切点处的内含子过大,将造成部分引物扩增条带与预期不符,或者不能得以有效扩增.将14对引物定位在了染色体上,可以在下一步利用重组自交系进行遗传作图,以确定SSR在染色体上的精确位点,完善EST-SSR的信息,为基因定位、比较作图、物种多样性分析和分子辅助标记选择育种提供依据.许多在小麦基因组中不能定位的标记,因SSR标记具有较高的可转移性,可以利用小麦的近缘物种进行定位分析,以禾本科植物基因的共线性为基础[25],进而推断这些基因涉及的小麦染色体.【相关文献】[1]张利达,唐克轩.植物EST-SSR标记开发及其应用.基因组学与应用[J].生物学,2010(29): 534-541.[2]PRASAD M,VARSHNEY R K,ROY J K,et a1.The Use of Mi-crosatellites for Detecting DNA Polymorphism,Genotype Identification and Genetic Diversity in Wheat[J].TAG Theoretical and Applied Genetics,2000,100:584- 592.[3]KROUPIN P Y, DIVASHUK M G, FESENKO I A, et al.Evaluating Wheat Microsatellite Markers for the Use in Genetic Analysis of Thinopyrum, Dasypyrum and Pseudoroegneria Species[J].Data SET Papers in Biology,2012,2013:7167-7168.[4]李小军,徐鑫,刘伟华,等.应用SSR分了标记分析国外种质对我国小麦品种的遗传贡献[J].作物学报,2009,35(5): 778-785.[5]KUMAR S,GOYAL A,MOHAN A, et al . An Integrated Physical Map of Simple Sequence Repeats in Bread Wheat[J] . 2013(7):460-468.[6]程小毛,黄晓霞. SSR标记开发及其在植物中的应用[J].中国农学通报.2011,27(5):304-307.[7]李响,杨楠,赵凯歌,等. 蜡梅转录组 EST-SSR 标记开发与引物筛选[J]. 北京林业大学学报,2013, 35(1):25-32.[8]潘海涛,汪俊君,王盈盈,等. 小麦EST-SSR标记的开发和遗传作图[J] . 中国农业科学,2010,43(3):452-461.[9]LULU ZHAI,LIANG XU,YAN WANG,et al.Novel and Useful Genic-SSR Markers from de Novo Transcriptome Sequencing of Radish[J] . Molecular Breeding,2014,33 (3): 611-624.[10]陈浩东. 达尔文氏棉旱胁迫转录组测序、EST-SSR开发及高密度遗传图谱构建[D]. 中国农业科学院研究生院中国农业科学院棉花研究所.2013,6:31-46.[11]LURO FL,COSTANTINO G,TEROL J,et al. Transferability of the EST-SSRs Developed on Nules Clementine (Citrus clementina Hort ex Tan) to Other Citrus Species and Their Effectiveness for Genetic Mapping[J]. BMC Genomics 2008,9: 287-289.[12]KAUR S, PEMBLETON LW, COGAN NO, et al. Transcriptome Sequencing of Field Pea and Faba Bean for Discovery and Validation of SSR Genetic Markers[J]. BMC Genomics,2012, 13: 104-106.[13]TAN LI-QIANG,WANG LI-YUAN,WEI KANG,et al. Floral Transcriptome Sequencing for SSR Marker Development and Linkage Map Construction in the Tea Plant (Camellia sinensis)[J]. PloS one,2013,8(11):2-5.[14]FARIS J D,FRIEBE B,GILL B S. Wheat Genomics: Exploring the Polyploid Model[J].Curr Genomics, 2002(3):577-591.[15]CHO Y G, ISHII T, TEMNYKH S, et al.Diversity of Microsatellites Derived from Genomic Libraries and GenBank Sequences in rice(Oryza sativa L.)[J]. Theor Appl Genet,2000(100):713-722.[16]AGATA GADALETA,GIACOMO MANGINI,GIUSEPPINA MULè et al.Characterization of Dinucleotide and Trinucleotide EST-Derived Microsatellites in the Wheat Genome. Euphytica, 2007,153 (1):73-85.[17]陈海梅,李林志,卫宪云,等. 小麦EST-SSR标记的开发,染色体定位和遗传作图[J]. 科学通报,2006,50(20): 2208-2216.[18]陈军方,任正隆,高丽锋,等.从小麦EST序列中开发新的SSR引物[J].作物学报,2005(31): 154-158.[19]LI L Z, WANG J J,GUO Y,et al. Development of SSR Markers from ESTs of Gramineous Species and Their Chromosome Location on Wheat [J]. Pro Nat Sci,2008,18: 1485-1490.[20]GAO L F,TANG J F,LI H W,et al. Analysis of Microsatellites in Major Crops Assessed by Computational and Experimental Approaches[J]. Mol Breed,2003,12: 245-261.[21]MCCOUCH S R, TEYTELMAN L, XU Y, et al. Development and Mapping of 2240 New SSR Markers for Rice (Oryza sativa L.)[J]. DNA research,2002,9(6): 199-207. [22]THIEL T,MICHALEK W,VARSHNEY R,et al. Exploiting EST Databases for the Development and Characterization of Gene-derived SSR-markers in Barley (Hordeum vulgare L.)[J]. Theoretical and Applied Genetics,2003,106(3): 411-422.[23]余传涨. 高粱大规模SSR标记的开发以及应用[D]. 浙江师范大学,2010,6,15-16.[24]魏利斌,张海洋,郑永战等. 芝麻 EST-SSR 标记的开发和初步研究[J]. 作物学报,2008,34(12):2077-2084.[25]DEWS K M,GALE M D. Genome Relationships:the Grass Model in Current Research. Plant Cell[J].2000(12): 637-646.。
基于转录组数据开发福建柏EST-SSR标记
基于转录组数据开发福建柏EST-SSR标记苏顺德【期刊名称】《福建林业科技》【年(卷),期】2022(49)2【摘要】福建柏是一种优良的材用树种,主要分布于中国东南部至西南部以及越南北部。
开发表达序列标签-简单序列重复(Expression sequence tags-simple sequence repeat, EST-SSR)分子标记有利于完善福建柏育种策略。
采用转录组测序技术(RNA-seq)进行测序及基于转录组组装的SSR的开发,初步获得109个引物和12个EST-SSR多态性标记。
从3个种群的57个福建柏个体中鉴定的等位基因数目为2~8个。
观测杂合度(Ho)和期望杂合度(He)的范围分别在0~1和0.051~0.775之间,均值分别为0.277和0.420等位基因多态性信息含量的范围在0.139~0.784之间,平均为0.482。
实验结果提供了一套可用于监测福建柏种群动态以及发展育种和遗传保护措施的微卫星标记。
【总页数】6页(P1-6)【作者】苏顺德【作者单位】福建省林业科学研究院、国家林业和草原局南方山地用材林培育重点实验室、福建省森林培育与林产品加工利用重点实验室【正文语种】中文【中图分类】S791.43;S722.3【相关文献】1.基于荧光标记的紫娟茶树转录组EST-SSR标记开发2.基于瓠瓜转录组测序的EST-SSR标记的开发及其应用3.基于转录组测序的青藏扁蓿豆EST-SSR标记开发与验证4.基于刚毛柽柳转录组测序的EST-SSR标记识别与开发5.基于转录组序列的叶用芥菜奶奶青菜EST-SSR标记开发与遗传多样性分析因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Different expression test
Pathway mapping
俞鸿 yuhong19790308@
RNA-seq数据分析
29 俞鸿 yuhong19790308@
俞鸿 yuhong19790308@
数据库相似性检索
俞鸿 yuhong19790308@
EST翻译与ORF预测
俞鸿 yuhong19790308@
功能注释与功能分类
序列相似性比对
BLAST,BLAT NR,UniRef100,Genome sequences,etc.
俞鸿 yuhong19790308@
SNP分析软件
The GS Reference Mapper(454 Life Science) Pyrobayrs
俞鸿 yuhong19790308@
应用实R例oche 454转录组数据分析
Next-generation pyrosequencing of gonad transcriptomes in the polyploid lake sturgeon (Acipenser fulvescens): the relative merits of normalization and rarefaction in gene discovery. Hale MC, McCormick CR, Jackson JR, Dewoody JA. BMC Genomics. 2009 Apr 29;10:203. PMID: 19402907 [PubMed - indexed for MEDLINE]
俞鸿 yuhong19790308@
Map reads onto genomes (Bowtie)
Nat Biotechnol. 2009,27(5):455
Genome Biology 2009, 10:R25
俞鸿 yuhong19790308@
Map reads onto junctions (Tophat)
0.89
MADS
0.06% 0.00% 0.06% 0.34% 0.00% 0.13% 0.10% 0.40% 0.10% 0.13% 0.14%
1.08
Gene identification and expression analysis of 86,136 Expressed Sequence Tags (EST) from the rice genome PMID: 15626331
Domain与motif查找
Interproscan, pfam
GO功能分类与富集Biblioteka 析BLAST2GO, etc.
俞鸿 yuhong19790308@
EST ANALYSIS PIPELINES
俞鸿 yuhong19790308@
SNP分析
基本统计信息
工具
RepeatMasker MaskerAid
去除污染序列
BLAST
Library Lib 1 Lib 2 Lib 3 Lib 4 Lib 5 Lib 6 Lib 7 Lib 8 Lib 9 Mean
STDEV STDEV/Mean
rRNA 0.25% 0.66% 1.99% 0.09% 0.64% 0.40% 0.20% 0.18% 0.35% 0.53% 0.58%
including its non-coding regions; • βN,which estimates the diversity in non-synonymous sites; • βS, which estimates the diversity in synonymous sites.
SNP number SNP出现频率
Non-synonymous and synonymous 其他统计信息
non-
俞鸿 yuhong19790308@
Nucleotide diversity analysis
S is the number of SNPs detected in the contig, L is the contig sequence length and D is the sequencing depth β is useful as a relative measurement to compare the nucleotide diversity between contigs generated within this project. Coding sequence measuring more than 200 bp and an average sequencing depth of at least 10 reads/nt. Three β parameters were calculated for each contig: • βT, which estimates the diversity on the entire contigs,EST/cDNA数据分析开放共赢 关注创新
俞鸿
副总经理
手机:15900766827 E-mail: hyu@
12628609@
1
什么是ESTs?
ESTs(Expressed Sequence tags )是从cDNA文件中随机挑 选单次测序的短序列,提供了全基因组测序的廉价替代方案 。
序列前处理
载体序列屏蔽
无冗余载体序列库
UniVec EMVEC
工具
BLAST Cross_Match
低复杂性区域查找与屏蔽
DUST
重复因素
类型
LINEs(Long interspersed elements) SINEs(Short interspersed elements) LTRs(Long terminal repeat) SSRs(Short simple repeats)
含有同一基因不同的转录形 式,如各种选择性剪接体
每一类中可能包含旁系同源 基因(paralogous expressed gene)的转录本
序列的保真度低
Unigene的聚类方法位于两者之间
stackPACK
聚类与拼接软件
俞鸿 yuhong19790308@
结果统计
Assembies/contigs and singletons number Total length Length distribution Contig depth statistics
俞鸿 yuhong19790308@
Xenobiotics
Best BLAST hit an e-value ≤ 1 × 10-03 and a bit score > 40 was considered a significant match
俞鸿 yuhong19790308@
表达谱分析 交替剪接分析 SSR分析
ESTSeq 2000, SoLid,3730, …
俞鸿 yuh物某发育时期所转录的全部 mRNA 经反转录形成的 cDNA 片段与某种载体连接而形成的克鸿 yuhong19790308@
传统测序转录组测序结果分析
8 俞鸿 yuhong19790308@
ESTs数据质量
Phred scores
q=20, 99% base calling accuracy
俞鸿 yuhong19790308@
Read summary statistics
5 Libraries
Normalized libraries 1-2 Native libraries 3-5
俞鸿 yuhong19790308@
Contig summary
PCAP, not Newbler assembler
Mitoc hondria mRNA 4.90% 0.78% 0.18% 0.31% 0.65% 0.22% 0.30% 0.31% 0.31% 0.88% 1.52%
G3PD 0.56% 0.71% 0.50% 0.78% 0.76% 0.44% 0.55% 0.92% 0.78% 0.67% 0.16%
已
单向测序 双向测序
俞鸿 yuhong19790308@
ESTs测序
传统Sanger测序方法
3730
二代测序
Roche / 454 Genome Sequencer FLX
俞鸿 yuhong19790308@
ESTs的用途
基因查找 补充基因组 表达量比较分析 辅助基因结构的鉴定 交替剪接的分析 SNP分析 蛋白质组学质谱搜库
俞鸿 yuhong19790308@数据库匹配 功能注释 其它分析
fragments mapped
FPKM t
=
Xt Lt M
×109
every 5.2 reads (on average) resulted in a different significant BLAST hit.
俞鸿 yuhong19790308@
Workflow
Data format conversion
Map reads onto the genome (8-10h/sample)
Gene Ontologies
BLAST2GO
俞鸿 yuhong19790308@
SNP detection
877 candidate SNPs
~1SNP/460bp one in every 192 bp in Eucalypt
Indel-type errors Classification statistics
0.24
Ac tin 0.29% 0.20% 0.36% 0.76% 0.50% 0.66% 0.59% 0.62% 0.17% 0.46% 0.21%