基因表达分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因表达分析
1、EST(Expressed Sequence Tag)表达序列标签(EST)分析
1、EST基本介绍
1、定义:
EST是从已建好的cDNA库中随机取出一个克隆,进行5’端或3’端进行一轮单向自动测序,获得短的cDNA部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20到7000bp不等,平均长度为400bp。
EST来源于一定环境下一个组织总mRNA所构建的cDNA文库,因此,EST也能说明该组织中各基因的表达水平。
2、技术路线:
首先从样品组织中提取mRNA,在逆转录酶的作用下用oligo(dT)作为引物进行RT-PCR 合成cDNA,再选择合适的载体构建cDNA文库,对各菌株加以整理,将每一个菌株的插入片段根据载体多克隆位点设计引物进行两端一次性自动化测序,这就是EST序列的产生过程。
3、EST数据的优点和缺点:
(1)相对于大规模基因组测序而言,EST测序更加快速和廉价。
(2)EST数据单向测序,质量比较低,经常出现相位的偏差。
(3)EST只是基因的一部分,而且序列里有载体序列。
(4)EST数据具有冗余性。
(5)EST数据具有组织和不同时期特异性。
4、EST数据的应用
EST作为表达基因所在区域的分子标签因编码DNA序列高度保守而具有自身的特殊性质,与来自非表达序列的标记(如AFLP、RAPD、SSR等)相比,更可能穿越家系与种的限制。因此,EST标记在亲缘关系较远的物种间比较基因组连锁图和比较质量性状信息是特别有用的。同样,对于一个DNA序列缺乏的目标物种,来源于其他物种的EST也能用于该物种有益基因的遗传作图,加速物种间相关信息的迅速转化。具体说,EST的作用表现在:
(1)用于构建基因组的遗传图谱与物理图谱;
(2)作为探针用于放射性杂交;
(3)用于定位克隆;
(4)借以寻找新的基因;
(5)作为分子标记;
(6)用于研究生物群体多态性;
(7)用于研究基因的功能;
(8)有助于药物的开发、品种的改良;
(9)促进基因芯片的发展等方面。
研究物种的转录组,基因组上转录表达的部分;
发现基因,一是可以为研究基因结构提供exon/intron边界,二是提供基因组上可能基因区域;
研究可变剪切;
研究基因的表达谱;
可以为制做物理图谱提供序列,为芯片提供clone数据。
正是因为EST表现出了这些巨大潜能,使其得到了充分的利用与发展。
5、常用的EST数据库
(1)NCBI dbEST
网址:/dbEST/index.html
数据量:
表7-1为NCBI dbEST截至2006年8月22日的数据情况,数据库里一共有38,056,628条EST。
(2)NCBI Unigene
网址:/entrez/query.fcgi?db=unigene
介绍:Unigene把dbEST的数据利用一些常规的基因数据聚在一起。对于一个cluster而言,提供了许多相关信息。Unigene经常重新构建,所以cluster标识不识固定的。
(3)The TIGR Gene Indices
The Gene Indices 更多的基于拼接(Assembly)得到的congtigs序列,而不是聚类的结果
The Gene Indices 的基因索引比NCBI Unigene多。
TIGR包括EGAD(The Expressed Gene Anatomy Database),EGAD的索引被包括在Human Gene Indices
(4)其他的一些常用数据库
SANBI,南非,收集人的EST contigs
MIPS,慕尼黑,SBI收集.Unigene的BIAST可搜集conlig
TIGEM,意大利,EST搜索及组装工具,包括本地及远程的
CBIL,宾西法尼亚州大学,DOTS组装数据库
2、EST 分析流程介绍
图7-2 EST分析流程图
(1)测序
EST数据可以从5’和3’两个方向进行测序,可以根据不同的实验目的选择测序方向
图7-3 测序方向的选择
不同方向测序的优点:
5’端测序:更有利于得到全长的cDNA序列,有助于研究基因表达的多样性。
3’短测序:有助于得到基因的特异性区域,为STS、SAGE、Microarray提供序列资源。(2)EST数据预处理过程
①Basecalling将序列的峰图从测序仪中提取出来。常见的峰图文件有SCF和ABI格式,可以在Windows用Chromas下打开。
图7-4 Chromas在Windows下打开峰图文件
②将峰图文件转化成phd、fasta文件,并去除序列中的低质量区域。
A、峰图文件转化成phd文件,并去除序列中的低质量区域。
软件:phred
基本用法:phred –id峰图文件夹–pd输出的phd文件夹–trim_phd –trim_alt “”–trim_cutoff 0.05
参数说明:
–trim_phd:将峰图文件转化成phd文件
–trim_alt:清理序列,去除低质量的区域,用–trim_cutoff的标准。如果从特定的酶切为点开始处理序列,可应用参数-trim_alt酶的序列,如果从头开始处理,用参数-trim_alt “”–trim_cutoff:去除低质量发生错误的几率,默认是0.05,意思是允许100个碱基里有5可能错误。
测序的质个量的评估公式:Q = -10 log10 (P)
公式中的Q代表了碱基的测序质量值,P代表了每个碱基出错的概率。
例如:如果每100个碱基有一个错误,那么P=0.01,这样Q就为20(我们通常说的Q20标准);如果P=0.001,Q就为30(Q30)。
注意:当P为错误阈值(cutoff,默认为0.05)时,Q近似为13,所以13就可用作背景来估计总体的质量值。
PHD文件格式介绍:
BEGIN_SEQUENCE
BEGIN_COMMENT
[信息注释]
END_COMMENT
BEGIN_DNA
[峰图序列格式是:碱基、质量值、在峰图上的位置]
END_DNA
END_SEQUENCE
例子:
BEGIN_SEQUENCE BGI.scf
BEGIN_COMMENT
CHROMAT_FILE: BGI.scf
ABI_THUMBPRINT: 0
PHRED_VERSION: 0.000925.d
CALL_METHOD: phred