转录组测序ppt课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

SUCCESS
THANK YOU
2019/5/5
环境转录组也可以这样做
• 使用RNA-seq手段对实验样本进行转录组分析,关注个体或者组织器 官在不同环境条件下基因表达的动态变化,挖掘生物对逆境适应的分 子机制。
转录组?
• 转录组是特定组织或细胞在某一功能状态下所能 转录出来的所有RNA的总和,包括mRNA和非编码 RNA。
• 转录组(transcriptome)广义上指某一生理条件 下,细胞内所有转录产物的集合,包括信使RNA、 核糖体RNA、转运RNA及非编码RNA;狭义上指所有 mRNA的集合。蛋白质是行使细胞功能的主要承担 者,蛋白质组是细胞功能和状态的最直接描述, 转录组成为研究基因表达的主要手段,转录组是 连接基因组遗传信息与生物功能的蛋白质组的必 然纽带,转录水平的调控是目前研究最多的,也 是生物体最重要的调控方式。
3. DNA成簇(Cluster)扩增
4. 高通量测序(Illumina Genome Analyzer IIx)信息分析流程
生物信息分析
基本信息分析
• 数据量产出:>2Gb per sample • 测序策略:HiSeq2000, PE91 or 101 • 插入片段大小:200 bps • 测序质量控制:Q20% >80
相关概念
• 高通量测序中,每测一个碱基会给出一个相应的质量值, 这个质量值是衡量测序准确度的。Q20与Q30则表示质量值 大于等于20或30的碱基所占百分比。
• Q20值是指的测序过程碱基识别过程中,对所识别的碱基 给出的错误概率。
• 质量值Q20,错误识别概率是1%,即正确率是99%; 质量值Q30,错误识别概率是0.1%,即正确率是99.9%; 质量值Q40,错误识别概率是0.01%,即正确率99.99%; Q“N”0的质量值,就是正确率有N个9的百分比。
• Unigene是UniqueGene的英文缩写,意为广泛通用的基因
数据库,通过电脑对相同基因座(Locus)的收集整理集合 形成一个非冗余的基因数据库。
相关数据库概念
• NR是NCBI里的非冗余蛋白数据库,即NCBI的blastp程序中的NR数据库 ,我们可以 用自己的query序列,blast搜索这个数据库,得到这些query序列的具有序列相似 性的蛋白序列。
All transcripts
转录本
All mRNAs
Total RNA样品检测
• OD260/280:1.8~2.2; • RNA 28S:18S ≥ 1.0; RIN≥7 ; • 样品总量不低于15ug; • 样品浓度:total RNA浓度不低于400ng/ul。
1. 样品RNA准备2. 测序构建 ������ 使用oligo dT微珠纯化mRNA ������ mRNA片段化处理 ������ 反转录反应合成合成双链cDNA ������ 双链DNA末端修复及3’末端加‘A’ ������ 使用特定的测序接头连接DNA片段两 端 ������ 高保真聚合酶扩增构建成功的测序文 库
转录组测序(RNA-Seq)
Jun Yang
RNA-Seq 的技术背景
• RNA-Seq又称转录组高通量测序(transcriptome sequencing)或称为全转录组鸟枪法测序(Whole Transcriptom Shotgun Sequencing WTSS)
• 2005年以来, 以Roche 公司的454 技术、 Illumina 公司的Solexa 技术和ABI 公司的SOLiD 技术为标志的新一代测序技术诞生, 之后 HelicosBiosciences 公司又推出单分子测序 (Single molecule sequencing, SMS)技术。新 一代测序又称作深度测序或高通量测序。
• GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数 据库,旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,
并能随着研究不断深入而更新的语言词汇标准.
相关概念
• 基因的编码区(Coding region),亦称为 “编码序列”(Coding sequence)或 “CDS”(Coding DNA Sequence),是指 mRNA序列中编码蛋白质的那部分序列。CDS 也等同于ORF(open reading frame)是编 码蛋白质的序列,以ATG开始--终止密码子 结束。
• COG是Cluster of Orthologous Groups of proteins(蛋白相邻类的聚簇)的缩
写,即直系同源基因数据库。 COG是对基因产物进行直系同源分类的数据库,每 个COG蛋白都被假定来自祖先蛋白,COG数据库是基于细菌、藻类、真核生物具有完 整基因组的编码蛋白、系统进化关系进行构建的,我们将Unigene和COG数据库进行 比对,预测Unigene可能的功能并对其做功能分类统计,从宏观上认识该物种的基 因功能分布特征。
• NT:NCBI的blast页面,选择nucleotide blast,数据库选others,也就是
(nr/nt).
• SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。
• KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书) 是基因组破译方面的数据库。
• N50 即覆盖50%所有核苷酸的最大Unigene长度或覆盖 50% 所有核苷酸的最大序列重叠群长度。
相关概念
• 高通量测序时,在芯片上的每个反应,会读出一条序列, 是比较短的,叫read,它们是原始数据;有很多reads通 过片段重叠,能够组装成一个更大的片段,称为contig; 多个contigs通过片段重叠,组成一个更长的scaffold; 一个contig被组成出来之后,鉴定发现它是编码蛋白质的 基因,就叫singleton;多个contigs组装成scaffold之后, 鉴定发现它编码蛋白质的基因,叫unigene。
相关文档
最新文档