生物信息学 第6章 表达序列标签
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ 去除其中的嵌合克隆
精品课件
EST数据预处理流程
精品课件
(二)ESTs的聚类
➢ 聚类目的:将来自同一个基因或同一个转录本的具有 重叠部分(over-lapping) 的ESTs整合至单一的簇 (cluster)中
➢ 聚类作用: ● 产生较长的一致性序列(contigs) ,用于注释 ● 降低数据的冗余,纠正错误数据。 ● 可以用于检测选择性剪切。
➢使用合适的比对参数,大于90%的已经注释的基因都能
在EST库中检测到。
精品课件
(二) ESTs与基因表达谱的构建
➢表达量比较分析:不同组织或发育阶段基因表达量比较 ➢EST来源于不同的组织,那么就可以对不同来源的基因 表达进行比较
精品课件
(三) ESTs与新基因预测
➢由于EST来源于cDNA,因此每一条EST均代表了文库建 立时所采样品特定发育时期和生理状态下的一个基因的 部分序列。
精品课件
精品课件
(三)序列注释和分析
➢ 序列注释 ➢ 后续分析
精品课件
三、EST的用途
基因识别 基因表达谱的构建 发现新基因 SNP(single nucleotide polymorphism)发 现
电子PCR克隆
精品课件
(一) ESTs与基因识别
➢在同一物种中搜寻基因家族的新成员(paralogs) ➢在不同物种间搜寻功能相同的基因(orthologs) ➢已知基因的不同剪切模式的搜寻
第6章 表达序列标签
Expressed Sequence Tags (EST)
精品课件
一、表达序列与表达序列标签
什么是表达序列? 基因组表达为mRNA的序列
精品课件
中心法则
精品课件
克隆区域
5‘测
3’测
序
序
位
位
置
置
EST的获百度文库技术路线
精品课件
一、表达序列标签
表达序列标签
(expressed sequence tag, EST)
精品课件
(一)dbEST(database of EST)
描述: ➢ Genbank的一部分 ➢ 63,236,621条数据(20091016) 向dbEST提交数据 ➢ 按格式编辑数据 ➢ 通过E-mail提交 ➢ 更新数据
精品课件
(二)UniGene数据库 简介 ➢ Genbank的一部分 ➢ 一条纪录为一个gene cluster
精品课件
五、常用的EST数据库
数据库名称
网址
说明
dbEST
http://www.ncbi.nlm.nih.gov/dbEST/ 综合
UniGene http://www.ncbi.nlm.nih.gov/unigene 综合
Gene Indices http://compbio.dfci.harvard.edu/tgi/ 综合
电子PCR克隆,指利用已经有的片段进行 全长基因序列的分析。
5
3
5
3
精品课件
四、EST数据的不足
➢ESTs很短,没有给出完整的表达序列; ➢低丰度表达基因不易获得; ➢由于只是一轮测序结果,出错率达2%~5%; ➢有时有载体序列和核外mRNA来源的cDNA污染或是基 因组DNA的污染; ➢有时出现镶嵌克隆; ➢序列的冗余,导致所需要处理的数据量很大。
精品课件
(三)Gene Indices数据库 简介 ➢ The Institute of Genomic Research Database 中的一个子库 ➢ http://compbio.dfci.harvard.edu/tgi/ 数据构成 ➢ 42类动物 ➢ 47类植物 ➢ 15类原生生物 ➢ 10类真菌
➢ 应用BLAST、RepeatMasker或Crossmatch屏蔽数据组 中不属于表达的基因的赝象序列(artifactual sequences) ● 载体序列 (ftp://ncbi.nlm.nih.gov/repository/vector) ●重复序列(RepBase,http://www.girinst.org) ● 污染序列 (如核糖体RNA、细菌或其他物种的 基因组DNA等)
精品课件
(四) ESTs与SNP位点预测
➢来自不同个体的冗余的ESTs可用于发现基因组中转录区 域存在的SNPs。 ➢应注意区别真正的SNPs和由于测序错误而引起的本身不 存在的SNPs。解决这一问题可以通过:
● 提高ESTs分析的准确性。 ● 对所发现的SNPs进行实验验证。
精品课件
(五)电子PCR克隆
从已建好的cDNA库中随机取出一个克隆,从 5′末端或3′末端对插入的cDNA片段进行一轮单 向自动测序,所获得的约60-500bp的一段cDNA序 列。
精品课件
二、EST数据分析方法
随机挑取克隆进行5′或3′端测序 序列前处理 聚类和拼接
基因注释及功能分类 后续分析
精品课件
(一)序列前处理
➢ 去除低质量的序列(如使用Phred)
精品课件
EST数据预处理流程
精品课件
(二)ESTs的聚类
➢ 聚类目的:将来自同一个基因或同一个转录本的具有 重叠部分(over-lapping) 的ESTs整合至单一的簇 (cluster)中
➢ 聚类作用: ● 产生较长的一致性序列(contigs) ,用于注释 ● 降低数据的冗余,纠正错误数据。 ● 可以用于检测选择性剪切。
➢使用合适的比对参数,大于90%的已经注释的基因都能
在EST库中检测到。
精品课件
(二) ESTs与基因表达谱的构建
➢表达量比较分析:不同组织或发育阶段基因表达量比较 ➢EST来源于不同的组织,那么就可以对不同来源的基因 表达进行比较
精品课件
(三) ESTs与新基因预测
➢由于EST来源于cDNA,因此每一条EST均代表了文库建 立时所采样品特定发育时期和生理状态下的一个基因的 部分序列。
精品课件
精品课件
(三)序列注释和分析
➢ 序列注释 ➢ 后续分析
精品课件
三、EST的用途
基因识别 基因表达谱的构建 发现新基因 SNP(single nucleotide polymorphism)发 现
电子PCR克隆
精品课件
(一) ESTs与基因识别
➢在同一物种中搜寻基因家族的新成员(paralogs) ➢在不同物种间搜寻功能相同的基因(orthologs) ➢已知基因的不同剪切模式的搜寻
第6章 表达序列标签
Expressed Sequence Tags (EST)
精品课件
一、表达序列与表达序列标签
什么是表达序列? 基因组表达为mRNA的序列
精品课件
中心法则
精品课件
克隆区域
5‘测
3’测
序
序
位
位
置
置
EST的获百度文库技术路线
精品课件
一、表达序列标签
表达序列标签
(expressed sequence tag, EST)
精品课件
(一)dbEST(database of EST)
描述: ➢ Genbank的一部分 ➢ 63,236,621条数据(20091016) 向dbEST提交数据 ➢ 按格式编辑数据 ➢ 通过E-mail提交 ➢ 更新数据
精品课件
(二)UniGene数据库 简介 ➢ Genbank的一部分 ➢ 一条纪录为一个gene cluster
精品课件
五、常用的EST数据库
数据库名称
网址
说明
dbEST
http://www.ncbi.nlm.nih.gov/dbEST/ 综合
UniGene http://www.ncbi.nlm.nih.gov/unigene 综合
Gene Indices http://compbio.dfci.harvard.edu/tgi/ 综合
电子PCR克隆,指利用已经有的片段进行 全长基因序列的分析。
5
3
5
3
精品课件
四、EST数据的不足
➢ESTs很短,没有给出完整的表达序列; ➢低丰度表达基因不易获得; ➢由于只是一轮测序结果,出错率达2%~5%; ➢有时有载体序列和核外mRNA来源的cDNA污染或是基 因组DNA的污染; ➢有时出现镶嵌克隆; ➢序列的冗余,导致所需要处理的数据量很大。
精品课件
(三)Gene Indices数据库 简介 ➢ The Institute of Genomic Research Database 中的一个子库 ➢ http://compbio.dfci.harvard.edu/tgi/ 数据构成 ➢ 42类动物 ➢ 47类植物 ➢ 15类原生生物 ➢ 10类真菌
➢ 应用BLAST、RepeatMasker或Crossmatch屏蔽数据组 中不属于表达的基因的赝象序列(artifactual sequences) ● 载体序列 (ftp://ncbi.nlm.nih.gov/repository/vector) ●重复序列(RepBase,http://www.girinst.org) ● 污染序列 (如核糖体RNA、细菌或其他物种的 基因组DNA等)
精品课件
(四) ESTs与SNP位点预测
➢来自不同个体的冗余的ESTs可用于发现基因组中转录区 域存在的SNPs。 ➢应注意区别真正的SNPs和由于测序错误而引起的本身不 存在的SNPs。解决这一问题可以通过:
● 提高ESTs分析的准确性。 ● 对所发现的SNPs进行实验验证。
精品课件
(五)电子PCR克隆
从已建好的cDNA库中随机取出一个克隆,从 5′末端或3′末端对插入的cDNA片段进行一轮单 向自动测序,所获得的约60-500bp的一段cDNA序 列。
精品课件
二、EST数据分析方法
随机挑取克隆进行5′或3′端测序 序列前处理 聚类和拼接
基因注释及功能分类 后续分析
精品课件
(一)序列前处理
➢ 去除低质量的序列(如使用Phred)