大规模表达序列标签(EST)测定及分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(EST) (EST)
析分及定测 析分及定测 签标列序达表模规大 签标列序达表模规大
中山大学生科院
生物秀搜集整理 仅供学习参考 www.bbioo.com 生物秀论坛— 资源共享、学术交流、互助社区 生物秀论坛—资源共享、学术交流、互助社区 www.bbioo.com/bbs
主要内容
• 什么是EST? ? • EST的应用 的应用 • EST序列测定及分析过程 序列测定及分析过程 • 实例:家猪脑组织EST分析
ESTs与基因预测
由于EST来源于cDNA,因此每一条EST均代表了文库建立时所采 样品特定发育时期和生理状态下的一个基因的部分序列。使用合适的比 对参数,大于90%的已经注释的基因都能在EST库中检测到(Bailey et al., 1998)。ESTs可以做为其它基因预测算法的补充,因为它们对预测 基因的交替剪切和3‘ 非翻译区很有效。
ESTs与基因图谱的绘制
EST可以借助于序列标签位点(sequencetagged sites)用于基因图谱的 构建. STS本身是从人类基因组中随机选择出来的长度在200300bp左右的 经PCR检测的基因组中唯一的一段序列。来自mRNA的3’非翻译区的ESTs 更适合做为STSs,用于基因图谱的绘制。其优点主要包括: ● 由于没有内含子的存在,因此在cDNA及基因组模板中其PCR产物的 大小相同; ● 与编码区具有很强的保守性不同,3’UTRs序列的保守性较差,因此 很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。 (James Sikela等,1991年) GeneMap 96‘ 定位了16,000个基于基因的STS(Schuler et al., 1996); GeneMap 98’ 定位了30,000个基于基因的STS(Deloukas et al., 1998),而 且基因图谱随着STS的定位正在不断的更新中。
EST技术流程
体内:翻译 体外研究:反转录
连 接, 转化
转化效率问题(基因芯片) 大数据量分析理念已经形成 大数据量分析理念已经形成
文库构建技术已经成熟
测序采样问题(SAGE ) 测序采样问题(SAGE) 测序成本已经大大降低
一、cDNA文库构建
◆ ◆
非标准化的cDNA文库的构建。(可用于基因表达量的分析) 经标准化或扣除杂交处理的cDNA文库。(富集表达丰度较低的基因) OligoT cDNA文库。 随机引物cDNA文库。
◆
SSH的原理与基本过程
原理:SSH的基本原理是以抑制PCR为基础的DNA扣除杂交方法。所谓抑制PCR,是
利用链内退火优于链间退火,比链间退火更稳定,从而使非目的系列片段两端反向重复 系列在退火时产生类似于“锅柄”的结构,无法与引物配对,选择性地抑制了非目的基因 片段的扩增。同时,该方法运用了杂交二级动力学原理,即丰度高的单链cDNA在退火 时产生同源杂交的速度要快于丰度低的单链cDNA,从而使原来在丰度上有差别的单链 cDNA相对含量达到基本一致。
◆ ◆
cDNA文库的构建及其均一化扣除杂交处理
For subtraction of cDNA libraries the procedure is similar to normalization, except that the PCR products arise from a different library (whose genes are to be subtracted from the original library)
◆
扣除技术的进一步成熟是在1996年,Gurskaya 等(1996) 和Diatchenko 等(1996) 同 时发表了关于扣除杂交的改进方法,其主要的技术方法类似,这个技术叫抑制性扣 除杂交技术(Suppression Subtractive Hybridization,SSH) 【Anal. Biochem. 240, 90 97; . 240, 90– –97; 【Anal. Biochem PNAS. 93, 6025 6230 】 PNAS. 93, 6025 6230】 。
ESTs与SNPs
来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。 最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs (Buetow et al., 1999;Garg et al., 1999; Marth et al., 1999; PicoultNewberg et al., 1999) 。 应注意区别真正的SNPs和由于测序错误( ESTs为单向测序得来,错误率 可达2%)而引起的本身不存在的SNPs。解决这一问题可以通过: ● 提高ESTs分析的准确性。 ● 对所发现的SNPs进行实验验证。
…. ….
Clone
连接, 转化
标记 杂交
…………. …………. …………. Gene Chip
利用EST,SAGE分析结果 制作芯片(研究已发现的 基因)
读取光密度
表达量 矩阵
• Rice genome wide DNA chip (60,000+预测基 因) • 果蝇基因芯片 …
什么是 ESTs ?
ESTs(Expressed Sequence tags )是从已建好的cDNA库中随机取出一个 克隆,从5’末端或3’末端对插入的cDNA片段进行一轮单向自动测序,所 获得的约60500bp的一段cDNA序列。
ESTs与基因识别
ESTs已经被广泛的应用于基因识别,因为ESTs的数目比GenBank 中其它的核苷酸序列多,研究人员更容易在EST库中搜寻到新的基因 (Boguski et al., 1994). ● 在同一物种中搜寻基因家族的新成员(paralogs)。 ● 在不同物种间搜寻功能相同的基因(orthologs)。 ● 已知基因的不同剪切模式的搜寻。【注:不过很难确定一个新 的序列是由于交替剪切产生的或是由于cDNA文库中污染了基因组 DNA序列(Wolfsberg et al., 1997)】
◆
扣除杂交技术最早应用是在20世纪80年代初,当时的目的是为了构建 非洲爪蟾的
胚囊 cDNA文库【Science (Wash DC) 222, 135– 】和制备差异表达基因的特异探针 –139 【Science (Wash DC) 222, 135 139】 【PNAS . 81, 2194– –2198 】 【PNAS. 81, 2194 2198】。差异表达的基因通过检测样本cDNA(tester)和过量的对照样 本mRNA (driver)的相互杂交而得到。在检测样本cDNA (tester)和对照样本mRNA (driver)同时表达的基因会形成mRNA/cDNA 杂交分子,而检测样本特异表达的基因 则保持单链状态。单链分子和双链分子通过羟磷灰石层析而分离,分离得到的单链 分子是检测样本特异表达的基因。差异表达的cDNA可以直接被克隆或通过cDNA文 库筛选而得到。 这个方法后来又得到改进,包括用生物素标记【Nucl . Acids 14, 10027 10044】和 –10044 】 【Nucl. Acids 14, 10027– oligo(dT)30latex标记cDNA,以增加单双链分子的分离效率。后来,通过PCR选择性 cDNA扩增技术被应用到扣除杂交中,以克服以往扣除杂交中需要大量起始mRNA的 缺点,并可以同时提高基因克隆地效率【Nucl . Acids Res. 19, 7097 7104】 。 7104 】 【Nucl. Acids Res. 19, 7097
ESTs的来源
上世纪80年代,对cDNA序列进行大规模测序的想法就曾提出,但对此 一直存在争论,有人认为这种方法能发现成千上万的新基因;而反对者则认 为cDNA序列缺少重要的基因调控区域的信息。90年代初Graig Venter 提出 了EST的概念,并测定了609条人脑组织的EST,宣布了cDNA大规模测序的时 代的开始 (Adams et al., 1991)。
EST分析
0.1 0
0.06 0.05 0.04 … 0 0.07 0.01 …
聚类分析(非同源功能注 释)
G1,G3,G5 G2,G4
…
G6,G9
几种大规模分析基因表达水平的方法的 比较
EST SAGE 是 是 是(可直接进行可 变剪切的分析) 否 采样量 实验过程 Microarray GeneChip 否 否 否 重复性 否 成本高
Serial analysis of gene expression (SAGE) 技术流程
高较求要长较骤步验实
反转录 酶切 连接
测序
单条测序==对30-40条EST测序
分析
由于采样量大大提高,可对低表达基因进行分析: 基因表达量分析、寻找新基因等等
基因芯片或微阵列技术流程
反转录
原位 合成 反转录(可选)
dbEST中数据量的增长
20 18 16 14 12 10 8 6 4 2 0
总EST条目 (million)
1993
1995
1997
1999
2001
时间(年)
●
93年前ESTs数据收录于GenBank, EBI和DDBJ。
● 1993年NCBI(National Center of Biotechnology Information)建立 了一个专门的EST数据库dbEST来保存和收集所有的EST数据。
利用ESTs大规模分析基因表达水平
因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到,所以可以用利用未经标准化 和差减杂交的cDNA文库EST分析特定组织的基因表达谱。标准化的cDNA文库和经过差减杂交的 cDNA文库则不能反应基因表达的水平。 ◆ CGAP 为研究癌症的分子机理,美国国家癌症研究所NCI的癌症基因组解析计划(Cancer Genome Anatomy Project , CGAP)构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库,并进行 了大规模的EST测序,其中大部分的文库未经标准化或差减杂交处理。 CGAP网站提供了多种工具用以分析不同文库间基因表达的差异, 如: ● Digital Gene Expression Displayer (DGED) ● cDNA xProfiler ◆ 基因表达系列分析(Serial Analysis of Gene Expression, SAGE) 基因表达系列分析是一种用于定量,高通量基因表达分析的实验方法(Velculescu et al., 1995)。 SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签(约914个碱基对),这些短 的序列被连接、克隆和测序,特定的序列标签的出现次数就反应了对应的基因的表达丰度。 ◆ DNA微阵列或基因芯片的研究 高密度寡核苷酸cDNA 芯片或cDNA微阵列是一种新的大规模检测基因表达的技术,具有高通量 分析的优点。在许多情况下,cDNA芯片的探针来源于3'EST (Duggan et al., 1999),所以EST序列 的分析有助于芯片探针的设计。
Reference: Bonaldo, M.F., et.al, 1996. Normalization and subtraction: Two approaches to facilitate gene discovery. Genome Res. 6: 791806.
扣除杂交技术的发展
发现新基因 有序列 主要问题
ESTs数据的不足
◆ wenku.baidu.com ◆ ◆
ESTs很短,没有给出完整的表达序列; 低丰度表达基因不易获得。 由于只是一轮测序结果,出错率达2%5%;
有时有载体序列和核外mRNA来源的cDNA污染或是基因组 DNA的污染;
◆ ◆
有时出现镶嵌克隆; 序列的冗余,导致所需要处理的数据量很大。
析分及定测 析分及定测 签标列序达表模规大 签标列序达表模规大
中山大学生科院
生物秀搜集整理 仅供学习参考 www.bbioo.com 生物秀论坛— 资源共享、学术交流、互助社区 生物秀论坛—资源共享、学术交流、互助社区 www.bbioo.com/bbs
主要内容
• 什么是EST? ? • EST的应用 的应用 • EST序列测定及分析过程 序列测定及分析过程 • 实例:家猪脑组织EST分析
ESTs与基因预测
由于EST来源于cDNA,因此每一条EST均代表了文库建立时所采 样品特定发育时期和生理状态下的一个基因的部分序列。使用合适的比 对参数,大于90%的已经注释的基因都能在EST库中检测到(Bailey et al., 1998)。ESTs可以做为其它基因预测算法的补充,因为它们对预测 基因的交替剪切和3‘ 非翻译区很有效。
ESTs与基因图谱的绘制
EST可以借助于序列标签位点(sequencetagged sites)用于基因图谱的 构建. STS本身是从人类基因组中随机选择出来的长度在200300bp左右的 经PCR检测的基因组中唯一的一段序列。来自mRNA的3’非翻译区的ESTs 更适合做为STSs,用于基因图谱的绘制。其优点主要包括: ● 由于没有内含子的存在,因此在cDNA及基因组模板中其PCR产物的 大小相同; ● 与编码区具有很强的保守性不同,3’UTRs序列的保守性较差,因此 很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。 (James Sikela等,1991年) GeneMap 96‘ 定位了16,000个基于基因的STS(Schuler et al., 1996); GeneMap 98’ 定位了30,000个基于基因的STS(Deloukas et al., 1998),而 且基因图谱随着STS的定位正在不断的更新中。
EST技术流程
体内:翻译 体外研究:反转录
连 接, 转化
转化效率问题(基因芯片) 大数据量分析理念已经形成 大数据量分析理念已经形成
文库构建技术已经成熟
测序采样问题(SAGE ) 测序采样问题(SAGE) 测序成本已经大大降低
一、cDNA文库构建
◆ ◆
非标准化的cDNA文库的构建。(可用于基因表达量的分析) 经标准化或扣除杂交处理的cDNA文库。(富集表达丰度较低的基因) OligoT cDNA文库。 随机引物cDNA文库。
◆
SSH的原理与基本过程
原理:SSH的基本原理是以抑制PCR为基础的DNA扣除杂交方法。所谓抑制PCR,是
利用链内退火优于链间退火,比链间退火更稳定,从而使非目的系列片段两端反向重复 系列在退火时产生类似于“锅柄”的结构,无法与引物配对,选择性地抑制了非目的基因 片段的扩增。同时,该方法运用了杂交二级动力学原理,即丰度高的单链cDNA在退火 时产生同源杂交的速度要快于丰度低的单链cDNA,从而使原来在丰度上有差别的单链 cDNA相对含量达到基本一致。
◆ ◆
cDNA文库的构建及其均一化扣除杂交处理
For subtraction of cDNA libraries the procedure is similar to normalization, except that the PCR products arise from a different library (whose genes are to be subtracted from the original library)
◆
扣除技术的进一步成熟是在1996年,Gurskaya 等(1996) 和Diatchenko 等(1996) 同 时发表了关于扣除杂交的改进方法,其主要的技术方法类似,这个技术叫抑制性扣 除杂交技术(Suppression Subtractive Hybridization,SSH) 【Anal. Biochem. 240, 90 97; . 240, 90– –97; 【Anal. Biochem PNAS. 93, 6025 6230 】 PNAS. 93, 6025 6230】 。
ESTs与SNPs
来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。 最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs (Buetow et al., 1999;Garg et al., 1999; Marth et al., 1999; PicoultNewberg et al., 1999) 。 应注意区别真正的SNPs和由于测序错误( ESTs为单向测序得来,错误率 可达2%)而引起的本身不存在的SNPs。解决这一问题可以通过: ● 提高ESTs分析的准确性。 ● 对所发现的SNPs进行实验验证。
…. ….
Clone
连接, 转化
标记 杂交
…………. …………. …………. Gene Chip
利用EST,SAGE分析结果 制作芯片(研究已发现的 基因)
读取光密度
表达量 矩阵
• Rice genome wide DNA chip (60,000+预测基 因) • 果蝇基因芯片 …
什么是 ESTs ?
ESTs(Expressed Sequence tags )是从已建好的cDNA库中随机取出一个 克隆,从5’末端或3’末端对插入的cDNA片段进行一轮单向自动测序,所 获得的约60500bp的一段cDNA序列。
ESTs与基因识别
ESTs已经被广泛的应用于基因识别,因为ESTs的数目比GenBank 中其它的核苷酸序列多,研究人员更容易在EST库中搜寻到新的基因 (Boguski et al., 1994). ● 在同一物种中搜寻基因家族的新成员(paralogs)。 ● 在不同物种间搜寻功能相同的基因(orthologs)。 ● 已知基因的不同剪切模式的搜寻。【注:不过很难确定一个新 的序列是由于交替剪切产生的或是由于cDNA文库中污染了基因组 DNA序列(Wolfsberg et al., 1997)】
◆
扣除杂交技术最早应用是在20世纪80年代初,当时的目的是为了构建 非洲爪蟾的
胚囊 cDNA文库【Science (Wash DC) 222, 135– 】和制备差异表达基因的特异探针 –139 【Science (Wash DC) 222, 135 139】 【PNAS . 81, 2194– –2198 】 【PNAS. 81, 2194 2198】。差异表达的基因通过检测样本cDNA(tester)和过量的对照样 本mRNA (driver)的相互杂交而得到。在检测样本cDNA (tester)和对照样本mRNA (driver)同时表达的基因会形成mRNA/cDNA 杂交分子,而检测样本特异表达的基因 则保持单链状态。单链分子和双链分子通过羟磷灰石层析而分离,分离得到的单链 分子是检测样本特异表达的基因。差异表达的cDNA可以直接被克隆或通过cDNA文 库筛选而得到。 这个方法后来又得到改进,包括用生物素标记【Nucl . Acids 14, 10027 10044】和 –10044 】 【Nucl. Acids 14, 10027– oligo(dT)30latex标记cDNA,以增加单双链分子的分离效率。后来,通过PCR选择性 cDNA扩增技术被应用到扣除杂交中,以克服以往扣除杂交中需要大量起始mRNA的 缺点,并可以同时提高基因克隆地效率【Nucl . Acids Res. 19, 7097 7104】 。 7104 】 【Nucl. Acids Res. 19, 7097
ESTs的来源
上世纪80年代,对cDNA序列进行大规模测序的想法就曾提出,但对此 一直存在争论,有人认为这种方法能发现成千上万的新基因;而反对者则认 为cDNA序列缺少重要的基因调控区域的信息。90年代初Graig Venter 提出 了EST的概念,并测定了609条人脑组织的EST,宣布了cDNA大规模测序的时 代的开始 (Adams et al., 1991)。
EST分析
0.1 0
0.06 0.05 0.04 … 0 0.07 0.01 …
聚类分析(非同源功能注 释)
G1,G3,G5 G2,G4
…
G6,G9
几种大规模分析基因表达水平的方法的 比较
EST SAGE 是 是 是(可直接进行可 变剪切的分析) 否 采样量 实验过程 Microarray GeneChip 否 否 否 重复性 否 成本高
Serial analysis of gene expression (SAGE) 技术流程
高较求要长较骤步验实
反转录 酶切 连接
测序
单条测序==对30-40条EST测序
分析
由于采样量大大提高,可对低表达基因进行分析: 基因表达量分析、寻找新基因等等
基因芯片或微阵列技术流程
反转录
原位 合成 反转录(可选)
dbEST中数据量的增长
20 18 16 14 12 10 8 6 4 2 0
总EST条目 (million)
1993
1995
1997
1999
2001
时间(年)
●
93年前ESTs数据收录于GenBank, EBI和DDBJ。
● 1993年NCBI(National Center of Biotechnology Information)建立 了一个专门的EST数据库dbEST来保存和收集所有的EST数据。
利用ESTs大规模分析基因表达水平
因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到,所以可以用利用未经标准化 和差减杂交的cDNA文库EST分析特定组织的基因表达谱。标准化的cDNA文库和经过差减杂交的 cDNA文库则不能反应基因表达的水平。 ◆ CGAP 为研究癌症的分子机理,美国国家癌症研究所NCI的癌症基因组解析计划(Cancer Genome Anatomy Project , CGAP)构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库,并进行 了大规模的EST测序,其中大部分的文库未经标准化或差减杂交处理。 CGAP网站提供了多种工具用以分析不同文库间基因表达的差异, 如: ● Digital Gene Expression Displayer (DGED) ● cDNA xProfiler ◆ 基因表达系列分析(Serial Analysis of Gene Expression, SAGE) 基因表达系列分析是一种用于定量,高通量基因表达分析的实验方法(Velculescu et al., 1995)。 SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签(约914个碱基对),这些短 的序列被连接、克隆和测序,特定的序列标签的出现次数就反应了对应的基因的表达丰度。 ◆ DNA微阵列或基因芯片的研究 高密度寡核苷酸cDNA 芯片或cDNA微阵列是一种新的大规模检测基因表达的技术,具有高通量 分析的优点。在许多情况下,cDNA芯片的探针来源于3'EST (Duggan et al., 1999),所以EST序列 的分析有助于芯片探针的设计。
Reference: Bonaldo, M.F., et.al, 1996. Normalization and subtraction: Two approaches to facilitate gene discovery. Genome Res. 6: 791806.
扣除杂交技术的发展
发现新基因 有序列 主要问题
ESTs数据的不足
◆ wenku.baidu.com ◆ ◆
ESTs很短,没有给出完整的表达序列; 低丰度表达基因不易获得。 由于只是一轮测序结果,出错率达2%5%;
有时有载体序列和核外mRNA来源的cDNA污染或是基因组 DNA的污染;
◆ ◆
有时出现镶嵌克隆; 序列的冗余,导致所需要处理的数据量很大。