原理介绍-动植物基因组组装-新员工培训
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 基因的KEGG注释分析
在生物体内,不同基因之间相互协调共同表达,基于Pathway的分析有助 于更进一步了解基因的生物学功能。KEGG是有关Pathway的主要公共数据库。
3 基因的GO注释分析 GO数据库适用于各个物种,可以对基因和蛋白质进行限定和 描述。通过GO分析,可以把基因按照其参与生物学过程、构成细 胞的成分和实现的分子功能等进行分类。
过滤低质量,测 序接头,NT评估, 数据量统计 确认NT无污染
大文库 clean fq 小文库 Good fq
数据量、Q20、Q30、 GC含量统计 过滤复制,过滤接头
插入片段评估, soap比对效率评估
插入片段评估
过滤后的fq和统计结果
数据处理 调研图 组装及评估 基因组注释
比较基因组学分析 个性化分析
方法一:利用两个物种的基因序列,使用BLAST 进行比对,并通过 MCScanX 寻找 共线性区域,找出直系同源基因,然后利用 PAML中的YN00模块计算同源基因对 的Ka/Ks,寻找受到正向选择的基因。
方法二:利用物种间聚类得到的单拷贝基因对,使用PAML中的CodeML模块对各
物种的基因进行选择压力分析,挑选出受正选择的基因,然后对其进行功能注释 和富集分析。
基因组组装概念
• 基因组denovo组装:在不依赖于参考基因组的情况下,对某
一物种的整套DNA序列进行随机打断、测序,并且从头拼接, 绘制该物种的全基因组序列图谱。通过基因组测序可以获得相 关生物全部DNA序列,是功能基因组研究的基础。 • 测序得到的只是零散的DNA片段的DNA序列信息,组装就是根
一起做为最终的数据库,然后利用RepeatMasker软件基于构建
好的重复序列数据库对基因组进行重复序列的预测
2 流程图
二 基因预测
1 基因预测原理
针对屏蔽重复序列后的基因组,主要采用从头预测、基 于同源蛋白预测、基于Unigene预测3种不同的策略来预测编 码基因,再利用GLEAN软件对预测结果进行整合。具体使用 了Genscan、Augustus、GlimmerHMM、GeneID、SNAP进行从 头预测, GeneWise基于同源蛋白序列预测,PASA和GMAP基 于Unigene的预测。
将read与组装好的基因组进行比对,统计基因组上和 read不一致的碱基占contig总长的比例,即单碱基错误率=组 装错误的位点数/组装得到的contig的总长度。
基因组评估
二 基因区覆盖度评估
将转录组数据(或者EST)与组装的基因组进行比对,统计比上基因 组的转录组(EST)占所有转录组(EST)所占的比例。
数据处理
2 大文库
数据处理
a 大文库一般会比小文库多一个大文库接头同时 大文库插入片段越大,对组装的产生的效果越 好,但复制比例也会越高,用来组装的有效数 据量同时也会越少。 b 公司测的大文库有3K、4K、5K、8K、10K、15K、 17K等
数据处理
二 流程图
数据量不够 加测
原始数据 数 据 处 理
据测序数据之间的重叠,不断延伸,从而恢复为完整的序列信
息的过程。
组装原理示意图
reads→contig→scaffold→chromosome
Pear end Pear end
contig
contig
Mate pair Distance=X
NNN Scaffold
常用的组装软件
• GNOVO
自主研发的基因组组装软件,速度慢,组装效果较好,N50和准确性都比较好, 自由灵活。目前主要适用场合:小基因组组装,文库数据纠错,scaffold组装。
三 基因家族扩张和收缩
根据物种之间的进化关系和基因家族聚类分析,可以 利用CAFE进行基因家族收缩和扩张分析
四 共线性分析
利用预测得到的蛋白序列与近缘物的蛋白序列进行 BLASTP比对,寻找两个物种间同源的蛋白序列。根据同源 的蛋白序列的位置信息,借助MCScanX软件得到基因组间 的共线性区域,研究物种间的进化关系。
速度快,N50较高,但是准确性低。 http://soap.genomics.org.cn/soapdenovo.html
• 其他:Velvet等
• 公司基因组组装策略
Allpath-LG(装contig)→SSPACE(连scaffold)→GapCloser(补gap)
基因组评估
一 单碱基错误率的评估
动植物基因组流程 原理介绍
---王凡
主要分为六个模块
数据处理 调研图 组装及评估 基因组注释
比较基因组学分析 个性化分析
数据处理
一 文库分类
1 小文库
a 小文库数据指的是插入片 段小于1K的文库 b 同时有些小文库会存在 overlap的情况 (overlap=测序长度-插入片段) c 公司目前测的小文库主要 有180 bp 220 bp 500 bp
• Allpath-LG
速度较快,组装效果好,N50和准确性都很高。但是对文库有硬性要求,至少 有一个180bp文库(~40X)和一个大文库。 http://www.broadinstitute.org/software/allpaths-lg/blog/?page_id=12
• SOAPdenovo2
三 Pair图评估
以图的形式,将BAC和reads与基因组的比对结果展示出来,用来评 估组装的准确性。
数据处理 调研图 组装及评估 基因组注释
比较基因组学分析 个性化分析
一 重复序列注释
1 重复序列预测的原理 由于物种间重复序列的保守性相对较低,针对特定的物种 进行重复序列的预测时需要构建特定的重复序列数据库。我们 借助LTR_FINDER、MITE-Hunter、RepeatScout、PILER-DF四个软 件,采用结构预测和从头预测的原理构建基因组的重复序列库, 用PASTEClassifier对数据库进行分类,再和Repbase的数据库合
直方图
Veen图
二 进化树分析
构建物种之间的进化树有利于了解物种 之间的进化关系,先通过物种间的蛋白序 列进行OrthoMCL聚类,提取其中相对保守 的单拷贝基因,然后用Muscle对齐,再通过 phyml最大似然法构树。如果想获得有分化 时间的进化树,可以获得的进化树和两个 分叉的化石时间,用mcmctree软件建立带 有化石时间的进化树。
四 基因组大小、杂合率、重复序列比例评估
Kmer:是长度为K的核苷酸序列。
基因组大小的估计:Y/X; Y:Kmer总数目。 X:Kmer深度的平均值。
主峰左侧的杂合峰的高低反映 出了基因组杂合情况。
主峰右侧的峰,反映出了重复 序列的含量情况。
数据处理 调研图 组装及评估 基因组注释
比较基因组学分析 个性化分析
一 测序数据量统计
reads数目:有多少对reads data:总共有多少碱基 GC含量:reads中碱基G和C共占的比例 N含量:reads中N的比例 Q20:即quality score(质量分数),简单说就是每个碱基测序正确率,Q 值越高,错误率越低,Q20指质量分数大于20的碱基所占的比例. Q30:即quality score(质量分数),简单说就是每个碱基测序正确率,Q 值越高,错误率越低,Q30指质量分数大于30的碱基所占的比例.
六 蛋白结构域注释
调控Motif注释
• Motif又称模体,是序列中局部的保守区域,或者是一组序 列中共有的一小段序列模式。一般指构成任何一种特征序 列的基本结构,但是多数情况下是指可能具有分子功能、 结构性质或家族成员相关的任何序列模式。 • 使用 InterProScan 软件,通过和 PROSITE、 HAMAP 、 Pfam 、 PRINTS 、 ProDom 、 SMART 、 TIGRFAMs 、 PIRSF 、 SUPERFAMILY、CATH-Gene3D、PANTHER数据库比对来进行 Motif注释。
对预测得到的基因序列与不同功能的数据库做BLAST比对,得到相应的 基因功能,主要有以下几个:
1 基因的KOG注释分析
KOG(蛋白质直系同源簇)数据库是基于具有完整基因组的细菌、藻类、 真核生物的编码蛋白的系统进化关系构建的。利用KOG数据库可以对基因产 物进行直系同源分类,在功能层面上对基因进行分类。在不同的功能类中, 基因所占比例的多少反映对应时期和环境下代谢或者生理偏向等内容,可以 结合研究对象在各个功能类的分布作出科学的解释。
四 假基因注释
假基因(pseudogene)具有与功能基因相似的
序列,但由于插入、缺失等突变以致失去了原 有的功能。利用已预测得到的蛋白序列,通过 BLAT 比对,在基因组上寻找同源的基因序列 (可能的基因),然后利用GeneWise寻找基因
Байду номын сангаас
序列中的不成熟的终止密码子及移码突变,得
到假基因。
五 基因功能注释
数据处理 调研图 组装及评估 基因组注释
比较基因组学分析 个性化分析
数据处理 调研图 组装及评估 基因组注释
比较基因组学分析 个性化分析
比较基因组学
利用预测得到的cds和蛋白序列及其近缘
物种的cds和蛋白序列,基于序列比对结果,
对已知基因的序列和结构进行比较、物种
内基因的复制分析、物种间的进化分析以
及物种特有基因的分类分析
一 基因家族聚类分析
借助OrthoMCL软件对目标物种和其近缘 物种的蛋白序列进行家族分类,寻找目标 物种特有的基因家族。预测得到目标物种 的基因组中有多少个基因可以进行分类, 分为多少个基因家族,其中有多少个基因 家族是目标物种所特有的,可以通过直方 图和Veen展示出来
七 LTR插入时间
长末端重复序列转座子(LTR)一直是人们所关注的热 点。我们用LTR_FINDER软件配合PS SCAN软件在基因组中 寻找分数大于等于6分的LTR序列,同时过滤LTR_FINDER中 重复结果。提取LTR两侧侧翼序列,MUSCLE比对,用 DistMat软件,并选用Kimura模型计算距离。
二 数据污染情况评估
随机的挑选10000条reads,通过blast和nt库比对。对比对上的结果进行分析。 如果排名在前的物种中不是要研究物种的近源,而是其他的物种。比对人,微生 物等,就认为这些数据有可能有污染。
三 数据线粒体和叶绿体含量情况评估
通过下载研究物种的线粒体或者叶绿体,通过soap比对,看比上的read比例。 如果比例很高,认为该物种线粒体和叶绿体基因组占比过高,组装核基因组的有 效数据量不足。这样情况一般要加测。或者测序的样品不好,要更换样品。
2 流程图
三非编码RNA预测
非 编 码 RNA 即 不 编 码 蛋 白 质 的 RNA , 包 括
microRNA 、 rRNA 和 tRNA 等多种已知功能的 RNA ,
针对不同非编码 RNA 的结构特点,采用了不同的
策略来预测不同的非编码 RNA 。基于 Rfam 数据库 利 用 Blastn 进 行 全 基 因 组 比 对 识 别 microRNA 、 rRNA,利用tRNAscan-SE识别tRNA。
五 KS和4DTV分析
根据两物种之间或者物种与物种自身的同源基因对, 用YN00计算对应的KS值(同义突变率),同时用4DTV模型计 算4DTV值(4DTV即四倍简并位点,是密码子的第三位碱基 无论转换为哪种核苷酸,该密码子都编码同一种氨基酸的 位点)。
六 选择压力分析
在遗传学中, Ka/Ks 或者 dN/dS 表示的是非同义替换( Ka )和 同义替换( Ks )之间的比例。这个比例可以判断编码基因是否受 到选择压力。如果Ka/Ks>1,则认为存在正选择效应;如果Ka/Ks=1, 则认为是中性选择;如果Ka/Ks<1,则认为有纯化选择作用。