核酸序列预测分析的基本思路

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

核酸序列预测分析的基本思路

当我们得到一个DNA序列时,一般都需要对该片段进行分析,确定它的功能区域,寻找调控区域、编码区域,预测其编码蛋白,这些就是我们研究DNA序列的目的。

核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置及功能位点,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持:

1、一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;

2、如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;

3、在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;

4、其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。

一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:

1、对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;

2、选用预测分析程序时要注意程序的物种特异性,要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。

要注意的是,尽管各种预测方法都基于现有的生物学数据和已有的生物学知识,但在不同模型或算法基础上建立的不同分析程序有其一定的适用范围和相应的限制条件,因此最好对同一个生物学问题尽量多用几种分析程序,综合分析各种方法得到的结果和结果的可靠性。此外,生物信息学的分析只是为生物学研究提供参考,这些信息能提高研究的效率或提供研究的思路,但很多问题还需要通过实验的方法得到验证。一般地,核酸序列信息分析的基本思路:编码区序列(简称CDS)与EST数据比较→寻找感兴趣ESTS (标准:长度≥100bp,同源性介于50%~85%之间)→所选ESTs与GenEmble数据库比较→找出未克隆ESTs→再与dbEST、dsSTS、dbHTGs、MGD及UniGene数据库比较搜寻重叠群Contigs→设计引物进行PCR扩增或筛选cDNA文库或索取cDNA克隆号进行电子拼接获取全长cDNA→基因定位、表达、结构、功能检测分析等。

核酸序列预测分析的基本方法:

1、核酸序列的同源性检索

目前,通过数据库查询、cDNA文库直接测序、mRNA差别显示(DDRT-PCR)、代表性差示分析(RDA-PCR)和抑制差减杂交(SSH)等方法获得的EST数据越来越庞大。GenBank数据库中收录的EST序列有数百万个之多。由于EST代表着一段表达基因序列,这样就可用其与公共数据库进行同源性检索,检索与其同源的核酸序列。

典型分析是采取NCBI的Blast软件对GenBank 中的非冗余数据库(non-redundant database,nr)进行查询。该数据库是对GenBank、EMBL 和DDBJ中去除所有相同核酸序列进行整合后所得的最为全面的已知基因数据库,其中包括部分基因组序列。登陆/blast/blast.cgi 选择数据库“Nucleotide”,利用blastn程序进行同源性检索,按照提示进行查询。

2、比较基因组分析

达尔文的进化论给比较基因组学提供了理论依据。动物进化从低等到高等,动物与动物之间存在着亲缘关系。这种关系可以从基因序列上反映出来:亲缘关系越近,其基因序列的同源性就越高。可以根据已经亲缘关系较大的动物的基因序列来扩增目的基因的序列。

3、利用Unigene数据库进行电子克隆

登陆/blast/blast.cgi选择数据库“dbEST”,利用blastn程序进行同源性检索。一般情况下可从EST数据库中检索到一批与代分析序列高度同源的EST序列,选择同源性比分最高的一条EST序列,然后再从NCBI的UniGene数据库中进行检索,得到相应的UniGene编号。获得待分析序列的UniGene编号以后,就可以将与UniGene Cluster的所有核酸序列下载到本地,利用SequencherTM或其他的序列装配软件进行组装。形成较长的新生序列。

4、cDNA序列的开放阅读框分析

大量的实验证明,在真核生物起始蛋白质合成时,40S核糖体亚基及有关合成起始因子首先与mRNA模板靠近5`末端处结合,然后向3`末端滑行,发现AUG起始密码子时,与60S大亚基结合形成80S起始复合物开始转译蛋白质。这就是Kozak提出的真核生物蛋白质合成起始的“扫描模式”。MRNA需要翻译为蛋白质方能发挥生物学作用,因此,核酸序列的开放阅读框(open reading frame.ORF)的分析便成为核酸分析的一个重要部分。基于遗传密码表,可通过计算机方便分析核酸序列的读码框。登陆

/gorf/gorf.html ,输入cDNA序列,计算机将按照六种相位翻译成蛋白质。

5、编码区统计特性分析

统计获得的经验说明,DNA中密码子的使用频率不是平均分布的,某些密码子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可察觉的统计特异性,即所谓的“密码子偏好性”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。这一类技术包括:双密码子计数(统计连续两个密码子的出现频率);核苷酸周期性分析(分析同一个核苷酸在3,6,9,...位置上周期性出现的规律);均一/复杂性分析(长同聚物的统计计数);开放可读框架分析等。3 z! \' O+ E+ |2 i% `9 x- D

常见的编码区统计特性分析工具将多种统计分析技术组合起来,给出对编码区的综合判别。著名的程序有GRAIL和GenMark等,GRAIL提供了基于Web的服务。GRAIL的网址是:

/Grail-1.3/。

6、启动子分析

启动子是基因表达所必需的重要序列信号,识别出启动子对于基因辨识十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征,并依次作为启动子预测的依据,但实际的效果并不十分理想,遗漏和假阳性都比较严重。总的来说,启动子仍是值得继续研究探索的难题。

7、内含子/外显子剪接位点

剪接位点一般具有较明显的序列特征,但是要注意可变剪接的问题。由于可变剪接在数据库里的注释非常不完整,因此很难评估剪接位点识别程序预测剪接位点的敏感性和精度。如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。

8、基于核酸序列的电子基因定位

对核酸序列进行电子基因定位(即基因的染色体定位),通过所定位区带的相邻基因或者基因簇间接提示该基因的功能,是核酸序列分析的一个重要方面。进行电子定位一般有两种策略:(1)通过序列标签位点(Sequence Tagged Site,STS)进行定位;(2)通过UniGene/RH技术进行定位。

(1)利用STS数据库进行电子基因定位

利用此种方式进行定位时主要是利用NCBI的电子PCR资源,即登录

/genome/sts/eper.cgi,输入待分析的序列即可进行查询。

相关文档
最新文档