表达序列标签有关知识总结

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

个人总结：

我觉得要做好电子延伸，必须要把它上升到系统的高度。

基本同意starrweb战友的提法（那个图8错）。

电子延伸系统应该有以下几个部分组成：

预处理(pre－processing)、聚类(clustering)、拼接(assembly) 和分析(analysis)。

一.预处理仅仅去除载体序列是不够的：

1.去除载体序列,用crossmatch程序。

载体序列库为ftp:///repository/vector

2.将ESTs序列将与人重复序列库(RepBase, ) 比较，去除重复序列，这样可以提高拼接的效率。

3.其它潜在的污染序列(如鼠DNA序列、线粒体、核糖体DNA 序列等)

前些时候就发现一些EST数据中存在线粒体序列污染（发了第一个SOS的帖子，得到了我在DXY的第一分），大家应该根据具体的数据来源来分析可能的污染.

4.还有几种污染属于研究前沿，至今没有很好的解决。

包括：来自基因组DNA的污染、来自pre-mRNA的污染、跨越非常规内含子（不是以GT 或GC开头和AG结尾的内含子）的EST，这些都会影响拼接的成功率和正确率。

二.聚类(clustering)：

在对大量ESTs数据进行分析时, 情况比较复杂，从概念上区分“聚类”和“拼接”是必要的。聚类过程的目的是将标记同一基因相同转录本的、具有重叠部分(over－lapping)的ESTs整合至单一的簇(cluster)中。

用BLAST和fasta进行同源性搜索其实就是聚类的前导工作。

搜索UNIGENE数据库也是一个完成聚类的捷径（本论坛/bbs/post/view?b id=73&id=1361500&sty=1&tpg=1&age=0讲了这个方法），但是我的经验是UNIGENE是一个错误比较多的数据库，最好在选取了unigene的某个cluster以后对它进行处理，再在基因组上校正一下错误，我发现unigene的含错率还是比较高的，会对你的下一步拼接造成很大的影响。所以不可偷懒不校正。

另外各种拼接软件拼接前其实也预先完成了一个聚类的过程。

聚类分为不严格的和严格的聚类( loose and stringent clustering )：

不严格的聚类: 不严格的聚类系统产生大的、“松散”的类。在所形成的每一类中, 表达基因ESTs 数据的覆盖率高, 含有同一基因不同的转录形式, 如各种选择性剪接体、由选择不同的多腺苷酸位点(polyadenylation site) 而产生的不同的转录本等。其主要缺点在于每一类中可能包含旁系同源基因(paralogous expressed gene) 的转录

本, 信噪比低, 序列的忠实性低。这种系统的代表, 如STACK 采用的基于字的聚类算法, 即d－square 聚类。

严格的聚类: 严格的聚类系统产生高度相关的聚类成员, 因此忠实性更加可靠。但是, 表达

基因ESTs数据的覆盖率低, 因此所含有的同一基因的不同转录形式少。这种系统的代表, 如TIGR的Gene Indices 所采用的类似于BLAST 和FASTA的序列比对程序FLAST。

三.几种拼接程序及其评价：前四个比较经典

1.PHRAP(phragment assembly program)( /index.html ) 是一个拼接霰弹法产生的序列片断的程序。注意特征为：允许使用所判读的完整序列而不仅仅是经剪切的高质量部分；在重复序列出现时可以结合使用者提供的或内部计算的数据质量来提高拼接的正确性；构建一个由高质量部分镶嵌的拼接程序而不是所谓的一致序列；可提供广泛的包括质量值在内的关于拼接的信息，可控制非常大的数据集。但它单独不能提供编辑或浏览的功能。最佳搭配是PHREP+PHRAP+CONSED，该套系统就可以高效、规模化地进行EST序列的拼接延伸。缺点是如果以可变剪切的基因来试验，Phrap可正确地拼接出它所产生的一个蛋白，但是不能发现其它可变剪切的结果，如AMP2基因。

2.CAP3

该软件是CAP（contig assembly programme）的改进版本，可在线进行。该软件适用于EST 拼接，可快速去除不能拼接在一起的序列，运用动态规划算法可容忍序列的部分错误，可剪切掉所判断序列中5·和3·端碱基质量不高的区域。它在计算重叠时使用碱基质量值加以控制，建立多重比对，产生一致序列。并且它可使用正反向约束修正拼接错误和连接片段重叠群。PHRAP可以产生较长的重叠群，而CAP3拼接起来的一致性错误比较少，同时它运用正反向约束机制来处理低质量序列时更容易得到结构框架（scaffold）。但是它同样不能发现AMP2基因的可变剪切变体。

CAP3在线服务：/aat/sas.html

3.TIGR assembler

可下载到本地进行，与PHRAP一样是针对基因组序列拼接的。采用的是贪婪算法，我们同样地拿它检验AMP2，可以拼接出它的蛋白，而且可以找到由两个EST构成的变体，但是没有任何证据和实验能够证明它的真实性。

4.zEST assembler

zEST assembler是专门为EST设计的拼接软件。它由两个步骤组成：a.EST聚类；b.拼接EST.运用zEST assembler优势在于可以发现不同变体和多态性。zEST assembler不同于其它程序，采用的是自组织算法，通过EST与已有的一致序列相比获得新的一致序列，从而得到新的变体。

除了上述的四种，还有很多关于序列拼接的程序：

MIRA2: /mira_downloads.html

GigAssembler: /~learithe/browse/goldenPath/algo.html

Celera Assembler:p.Biol,1995,2,275-290

ARACHNE: Genome Reserch 2002,177-189