转录组测序ppt课件

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

SUCCESS
THANK YOU
2019/5/5
环境转录组也可以这样做
• 使用RNA-seq手段对实验样本进行转录组分析，关注个体或者组织器官在不同环境条件下基因表达的动态变化，挖掘生物对逆境适应的分子机制。
转录组？
• 转录组是特定组织或细胞在某一功能状态下所能转录出来的所有RNA的总和，包括mRNA和非编码 RNA。
• 转录组（transcriptome）广义上指某一生理条件下，细胞内所有转录产物的集合，包括信使RNA、核糖体RNA、转运RNA及非编码RNA；狭义上指所有 mRNA的集合。蛋白质是行使细胞功能的主要承担者，蛋白质组是细胞功能和状态的最直接描述，转录组成为研究基因表达的主要手段，转录组是连接基因组遗传信息与生物功能的蛋白质组的必然纽带，转录水平的调控是目前研究最多的，也是生物体最重要的调控方式。
3. DNA成簇（Cluster）扩增
4. 高通量测序（Illumina Genome Analyzer IIx）信息分析流程
生物信息分析
基本信息分析
• 数据量产出：>2Gb per sample • 测序策略：HiSeq2000, PE91 or 101 • 插入片段大小：200 bps • 测序质量控制：Q20% >80
相关概念
• 高通量测序中，每测一个碱基会给出一个相应的质量值，这个质量值是衡量测序准确度的。Q20与Q30则表示质量值大于等于20或30的碱基所占百分比。
• Q20值是指的测序过程碱基识别过程中，对所识别的碱基给出的错误概率。
• 质量值Q20，错误识别概率是1%，即正确率是99%；质量值Q30，错误识别概率是0.1%，即正确率是99.9%；质量值Q40，错误识别概率是0.01%，即正确率99.99%； Q“N”0的质量值，就是正确率有N个9的百分比。
• Unigene是UniqueGene的英文缩写，意为广泛通用的基因
数据库，通过电脑对相同基因座(Locus)的收集整理集合形成一个非冗余的基因数据库。
相关数据库概念
• NR是NCBI里的非冗余蛋白数据库，即NCBI的blastp程序中的NR数据库，我们可以用自己的query序列，blast搜索这个数据库，得到这些query序列的具有序列相似性的蛋白序列。
All transcripts
转录本
All mRNAs
Total RNA样品检测
• OD260/280:1.8~2.2； • RNA 28S:18S ≥ 1.0; RIN≥7 ； • 样品总量不低于15ug； • 样品浓度：total RNA浓度不低于400ng/ul。
1. 样品RNA准备2. 测序构建 �� 使用oligo dT微珠纯化mRNA �� mRNA片段化处理 �� 反转录反应合成合成双链cDNA �� 双链DNA末端修复及3’末端加‘A’ �� 使用特定的测序接头连接DNA片段两端 �� 高保真聚合酶扩增构建成功的测序文库
转录组测序(RNA-Seq)
Jun Yang
RNA-Seq 的技术背景
• RNA-Seq又称转录组高通量测序(transcriptome sequencing)或称为全转录组鸟枪法测序(Whole Transcriptom Shotgun Sequencing WTSS)
• 2005年以来, 以Roche 公司的454 技术、 Illumina 公司的Solexa 技术和ABI 公司的SOLiD 技术为标志的新一代测序技术诞生, 之后 HelicosBiosciences 公司又推出单分子测序 (Single molecule sequencing, SMS)技术。新一代测序又称作深度测序或高通量测序。
• GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库，旨在建立一个适用于各种物种的，堆积因和蛋白质功能进行限定和描述的，
并能随着研究不断深入而更新的语言词汇标准．
相关概念
• 基因的编码区(Coding region），亦称为 “编码序列”（Coding sequence）或 “CDS”（Coding DNA Sequence），是指 mRNA序列中编码蛋白质的那部分序列。CDS 也等同于ORF（open reading frame）是编码蛋白质的序列，以ATG开始--终止密码子结束。
• COG是Cluster of Orthologous Groups of proteins（蛋白相邻类的聚簇）的缩
写，即直系同源基因数据库。 COG是对基因产物进行直系同源分类的数据库，每个COG蛋白都被假定来自祖先蛋白，COG数据库是基于细菌、藻类、真核生物具有完整基因组的编码蛋白、系统进化关系进行构建的，我们将Unigene和COG数据库进行比对，预测Unigene可能的功能并对其做功能分类统计，从宏观上认识该物种的基因功能分布特征。
• NT：NCBI的blast页面，选择nucleotide blast，数据库选others，也就是
（nr/nt）.
• SWISS-PROT是经过注释的蛋白质序列数据库，由欧洲生物信息学研究所(EBI)维护。
• KEGG(Kyoto Encyclopedia of Genes and Genomes，京都基因与基因组百科全书) 是基因组破译方面的数据库。
• N50 即覆盖50%所有核苷酸的最大Unigene长度或覆盖 50% 所有核苷酸的最大序列重叠群长度。
相关概念
• 高通量测序时，在芯片上的每个反应，会读出一条序列，是比较短的，叫read，它们是原始数据；有很多reads通过片段重叠，能够组装成一个更大的片段，称为contig；多个contigs通过片段重叠，组成一个更长的scaffold；一个contig被组成出来之后，鉴定发现它是编码蛋白质的基因，就叫singleton；多个contigs组装成scaffold之后，鉴定发现它编码蛋白质的基因，叫unigene。