基因转录组的测定及分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
● 由于没有内含子的存在,因此在cDNA及基因组模板中其 PCR产物的大小相同;
● 与编码区具有很强的保守性不同,3’UTRs序列的保守性 较差,因此很容易将单个基因与编码序列关系非常紧密的相 似基因家族成员分开。 (James Sikela等,1991年)
EST的应用 3
ESTs与基因预测
由于EST来源于cDNA,因此每一条EST均代表了文库 建立时所采样品特定发育时期和生理状态下的一个基因的 部分序列。使用合适的比对参数,大于90%的已经注释的 基因都能在EST库中检测到(Bailey et al., 1998)。ESTs可以 做为其它基因预测算法的补充,因为它们对预测基因的交 替剪切和3‘ 非翻译区很有效。
ESTs 8,301,471 4,852,146 2,018,798 1,620,962 1,559,485 1,527,299 1,481,930 1,422,983 1,271,375 1,249,110
截止到2010年3月19日
EST相关数据库
储存EST原始数据的一级数据库
◆ EMBL ◆ GenBank (dbEST) ◆ DDBJ
应注意区别真正的SNPs和由于测序错误( ESTs为单向测序 得来,错误率可达2%)而引起的本身不存在的SNPs。解决这一 问题可以通过:
● 提高ESTs分析的准确性。
● 对所发现的SNPs进行实验验证。
EST的应用 5
利用ESTs大规模分析基因表达水平
因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到,所以可以用利用未经标 准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱。标准化的cDNA文库和经过差减杂 交的cDNA文库则不能反应基因表达的水平。
EST数量排名前10的物种
Organism Homo sapiens (human) Mus musculus + domesticus (mouse) Zea mays (maize) Bos taurus (cattle) Arabidopsis thaliana (thale cress) Danio rerio (zebrafish) Glycine max (soybean) Xenopus tropicalis (western clawed frog) Oryza sativa (rice) Ciona intestinalis
基因组转录图谱计划
Number of ESTs (millions)
Growth of dbEST
40 35 30 25 20 15 10 5 0
1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2010-5Jun-06 Year
对EST进行聚类拼接的二级数据库
◆ UniGene (http://www.ncbi.nlm.nih.gov/UniGene) ◆ TIGR Gene Indices (http://www.tigr.org/tdb/tgi/) ◆ STACK (http://www.sanbi.ac.za/Dbases.html)
大规模EST序列测定的开始
1983年:Costanzo等提出EST概念的雏形 1991年:Adams测定了三种人脑组织共609条EST,宣布
了cDNA大规模测序的时代的开始代 1991年:Okubo等提出大规模cDNA测序的研究战略 1993年:Venter等创立现在的EST技术 1993年:Boguski & Schuler提出以EST为界标的人类
● 已知基因的不同剪切模式的搜寻。【注:不过很难确 定一个新的序列是由于交替剪切产生的或是由于cDNA 文库中污染了基因组DNA序列(Wolfsberg et al., 1997)】
EST的应用 2
ESTs与百度文库因图谱的绘制
EST可以借助于序列标签位点(sequence-tagged sites)用于 基因图谱的构建. STS本身是从人类基因组中随机选择出来的长 度在200-300bp左右的经PCR检测的基因组中唯一的一段序列。 来自mRNA的3’非翻译区的ESTs更适合做为STSs,用于基因图 谱的绘制。其优点主要包括:
基因转录组的测定及分析
胡松年 husn@big.ac.cn 中国科学院北京基因研究所
大规模表达序列标签(EST)测定及分析
1、什么是EST? 2、EST的应用 3、EST序列测定及分析过程
什么是 ESTs ?
ESTs(Expressed Sequence tags )是从已建好的cDNA库中随机取出一个克隆,从 5’末端或3’末端对插入的cDNA片段进行一轮单向自动测序,所获得的约60-500bp 的一段cDNA序列。
● 93年前ESTs数据收录于GenBank, EBI和DDBJ。 ● 1●993年NCBI(National Center of Biotechnology Information)建立了一 个专门的EST数据库dbEST来保存和收集所有的EST数据。 ● 95年中期GenBank 中EST的数目超过了非EST的数目。 ● 现在GenBank中EST的数目已经超过了三千五百万,约占GenBank中 序列数的60%.
EST的应用 4
ESTs与SNPs
来自不同个体的冗余的ESTs可用于发现基因组中转录区域存 在的SNPs。最近的许多研究都证明对ESTs数据的分析可以发现 基因相关的SNPs (Buetow et al., 1999;Garg et al., 1999; Marth et al., 1999; Picoult-Newberg et al., 1999) 。
EST的应用 1
ESTs与基因识别
ESTs已经被广泛的应用于基因识别,因为ESTs的数目比 GenBank中其它的核苷酸序列多,研究人员更容易在EST库 中搜寻到新的基因(Boguski et al., 1994).
● 在同一物种中搜寻基因家族的新成员(paralogs)。
● 在不同物种间搜寻功能相同的基因(orthologs)。
● 与编码区具有很强的保守性不同,3’UTRs序列的保守性 较差,因此很容易将单个基因与编码序列关系非常紧密的相 似基因家族成员分开。 (James Sikela等,1991年)
EST的应用 3
ESTs与基因预测
由于EST来源于cDNA,因此每一条EST均代表了文库 建立时所采样品特定发育时期和生理状态下的一个基因的 部分序列。使用合适的比对参数,大于90%的已经注释的 基因都能在EST库中检测到(Bailey et al., 1998)。ESTs可以 做为其它基因预测算法的补充,因为它们对预测基因的交 替剪切和3‘ 非翻译区很有效。
ESTs 8,301,471 4,852,146 2,018,798 1,620,962 1,559,485 1,527,299 1,481,930 1,422,983 1,271,375 1,249,110
截止到2010年3月19日
EST相关数据库
储存EST原始数据的一级数据库
◆ EMBL ◆ GenBank (dbEST) ◆ DDBJ
应注意区别真正的SNPs和由于测序错误( ESTs为单向测序 得来,错误率可达2%)而引起的本身不存在的SNPs。解决这一 问题可以通过:
● 提高ESTs分析的准确性。
● 对所发现的SNPs进行实验验证。
EST的应用 5
利用ESTs大规模分析基因表达水平
因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到,所以可以用利用未经标 准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱。标准化的cDNA文库和经过差减杂 交的cDNA文库则不能反应基因表达的水平。
EST数量排名前10的物种
Organism Homo sapiens (human) Mus musculus + domesticus (mouse) Zea mays (maize) Bos taurus (cattle) Arabidopsis thaliana (thale cress) Danio rerio (zebrafish) Glycine max (soybean) Xenopus tropicalis (western clawed frog) Oryza sativa (rice) Ciona intestinalis
基因组转录图谱计划
Number of ESTs (millions)
Growth of dbEST
40 35 30 25 20 15 10 5 0
1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2010-5Jun-06 Year
对EST进行聚类拼接的二级数据库
◆ UniGene (http://www.ncbi.nlm.nih.gov/UniGene) ◆ TIGR Gene Indices (http://www.tigr.org/tdb/tgi/) ◆ STACK (http://www.sanbi.ac.za/Dbases.html)
大规模EST序列测定的开始
1983年:Costanzo等提出EST概念的雏形 1991年:Adams测定了三种人脑组织共609条EST,宣布
了cDNA大规模测序的时代的开始代 1991年:Okubo等提出大规模cDNA测序的研究战略 1993年:Venter等创立现在的EST技术 1993年:Boguski & Schuler提出以EST为界标的人类
● 已知基因的不同剪切模式的搜寻。【注:不过很难确 定一个新的序列是由于交替剪切产生的或是由于cDNA 文库中污染了基因组DNA序列(Wolfsberg et al., 1997)】
EST的应用 2
ESTs与百度文库因图谱的绘制
EST可以借助于序列标签位点(sequence-tagged sites)用于 基因图谱的构建. STS本身是从人类基因组中随机选择出来的长 度在200-300bp左右的经PCR检测的基因组中唯一的一段序列。 来自mRNA的3’非翻译区的ESTs更适合做为STSs,用于基因图 谱的绘制。其优点主要包括:
基因转录组的测定及分析
胡松年 husn@big.ac.cn 中国科学院北京基因研究所
大规模表达序列标签(EST)测定及分析
1、什么是EST? 2、EST的应用 3、EST序列测定及分析过程
什么是 ESTs ?
ESTs(Expressed Sequence tags )是从已建好的cDNA库中随机取出一个克隆,从 5’末端或3’末端对插入的cDNA片段进行一轮单向自动测序,所获得的约60-500bp 的一段cDNA序列。
● 93年前ESTs数据收录于GenBank, EBI和DDBJ。 ● 1●993年NCBI(National Center of Biotechnology Information)建立了一 个专门的EST数据库dbEST来保存和收集所有的EST数据。 ● 95年中期GenBank 中EST的数目超过了非EST的数目。 ● 现在GenBank中EST的数目已经超过了三千五百万,约占GenBank中 序列数的60%.
EST的应用 4
ESTs与SNPs
来自不同个体的冗余的ESTs可用于发现基因组中转录区域存 在的SNPs。最近的许多研究都证明对ESTs数据的分析可以发现 基因相关的SNPs (Buetow et al., 1999;Garg et al., 1999; Marth et al., 1999; Picoult-Newberg et al., 1999) 。
EST的应用 1
ESTs与基因识别
ESTs已经被广泛的应用于基因识别,因为ESTs的数目比 GenBank中其它的核苷酸序列多,研究人员更容易在EST库 中搜寻到新的基因(Boguski et al., 1994).
● 在同一物种中搜寻基因家族的新成员(paralogs)。
● 在不同物种间搜寻功能相同的基因(orthologs)。