EST电子延伸克隆专题讨论总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【EST电子延伸/克隆】专题讨论总结
目的:
方便后来战友的参考,积累资源。
原因:
1。最近求助较多;
2。是一种较常用的生物信息学手段。
形式:
1。可以为原创总结
2。可以为本版关于EST电子延伸讨论的总结(需要有连接)
3。以上二者结合(推荐)
内容:
1。在线/离线的工具,并简单介绍优缺点。
2。推荐优秀的工具。
3。可能存在的问题以及解决方法的探讨。
4。以上3点并不强求全部都有,能就一点深入即可。
5。也可提供线索。
奖励:
1。积分奖励:根据总结的情况,奖励底线:3分,最高奖励:20分或更高,不设上线(适用于自编软件)。
2。提供线索视情况加1-2分。
2。战友的点击、浏览、学习、肯定、收获、回报其实才是最大的奖励
衷心感谢参与讨论的诸位战友:
starrweb;wxbing; tussah ;yinhp01 ;crickfrancis; hxygz ;sunxjk ;fxd ;楚布衣;ke nmed ;稀糊醋鱼;tonyybn ;yxiangmind; huazii_2003 ;Gmail ;newdragon; xiaoxiao ;ttdcs ;magicwang; tussah ;jef。
你们的参与促成了讨论的成功。
感谢magicwang;yinhp01;crickfrancis的精心总结,你们的工作使得大家的讨论更有意义。
--------imsupergene
电子克隆简介
新基因搜寻和蛋白质功能分析是人类基因组图谱公诸于世后的研究热点,电子克隆技术以数学为核心,以计算机和互联网为工具,利用现有的表达序列标签(EST)和生物信息数据库,可以加速对人类基因组未知功能新基因的发掘,为人类功能基因组学与蛋白质组学研究提供新的线索和基础。利用电子克隆并结合实验验证可以纠正或避免现有的人类基因组编码序列错误。
电子克隆定义:
依托现有的网络资源等,用同源性检索、聚类、序列拼装等获得部分乃至全长cDNA序列的一种方法。其方法是以目的EST作为种子序列,对选定的dbEST进行同源性搜索,将所选高度同源的ESTs归类,作为种子序列库,进行序列拼装,构建序列重叠群,再以此重叠群为种子序列重复进行同源性搜索、聚类、拼接直至无法进行,已达到最有效延伸。
电子克隆意义:
获得整个编码区或者可变剪接体,寻找全长基因并发现新基因,加速基因结构、功能研究的进程,推动比较基因组学的发展和基因的进化的研究。(以前我以为是设计好的引物做BLAST,观察引物的好坏,哈哈)
具体步骤:
获得了感兴趣的并可能有潜在功能位点的EST,以此EST为种子序列采用dbEST进行同源性搜索,以期获得有片段重叠、同源性高的ESTs。经聚类分析,尽量避免含有旁系同源基因,拼接后产生的序列重叠群,这相当于实验中的一部分cDNA步移工作。以新获得的为种子序列重复进行上述两步骤,至不能获得延伸为止。进行实验,PCR反应获得拼接片段,继续步移,最终获得全长cDNA序列。将新基因对非冗余库进行搜索,以证明这是个全新基因。将新基因注册,获取注册号。
普适性:这得取决EST数目大小,能否覆盖基因组的转炉产物。
大规模EST克隆新基因方法:
大概思路可否如下:组织文库基因获取---模拟消减杂交(类似试验中的SSH)---克隆全长cDNA---电子拼接、RACE----基因全长--功能域、功能基序分析--染色体定位--功能预测---推断新基因的功能----最终可获得一到几条序列即可。
如果能从现有的EST库中寻找差别:如正常组织和肿瘤组织的EST差别。甚至自己仅仅构建一些膜蛋白的文库,利用跨膜蛋白的保守区域克隆所有的细胞表面蛋白,分析表达差异,看看能否和理论预测达到比较好的吻合。
------yxiangmind 电子序列延伸的生物信息学策略:
1.利用序列同源性比较软件将待进行电子延伸的序列的序列(以下简称种子序列)对库检索。
2.从数据库中挑选出全部相关序列。
3.对所有序列进行片段整合分析(即CONTIG分析),形成延伸后的序列。
4.将新生序列作为种子序列重复进行上述三步过程,直至新生序列不能被进一步延伸为止。
--------tussah 序列分析,电子克隆等初探
生物信息学可指利用信息技术管理和分析生物学数据。这就意味着生物信息学所涉及的范围相当广泛,从人工智能、机器人一直到基因组(genome)分析。就基因组分析这一角度来看,生物信息学主要是指核酸和蛋白质序列数据的计算机处理和分析。近年来,蛋白质结构数据的快速增长,使蛋白质三维结构的处理分析也归入到生物信息学的范畴。
近年来,三大国际一级生物信息数据库,即美国国家信息中心(National Center of Biot- echnology Information, NCBI)的Gen Bank /web/GenBank/index.html、欧洲分子生物学室验室(European Molecular Biology L aboratory-Euro-pean Bioinformatics Institute, EMBL-EBI)的 EM-BL (http:// /databases/index.html)和日本 DNA数据库(DNA Data Bank of Japan, DDBJ) (http:/ / www.ddbj.nig.ac.jp/ )新收录的核酸序列数据中,EST占65%以上。随着生物信息学 (Bioinformatics)的发展,通过检索数据库进行核酸序列同源性检索,电子基因定位、电子延伸、电子克隆和电子表达以及蛋白质功能分析、基因鉴定等方面起到了重要作用,已成为人们认识生物个体生长发育、繁殖分化、遗传变异、疾病发生、衰老死亡等生命过程的有力工具。
1核酸序列的同源性检索
目前,通过数据库查询、cDNA文库直接测序、mRNA差别显示 (DDRT-PCR)、代表性差示分析(RDA-PCR)和抑制差减杂交(SSH)等方法获得的EST数据越来越庞大。GenBank数据库中收录的EST序列有数百万个之多。由于 EST代表着一段表达基因序列,这样就可用其与公共数据库进行同源性检索,检索与其同源的核酸序列。典型分析是采取NCBI的Blast 软件对GenBank 中的非冗余数据库(non-redundant database,nr)进行查询。该数据库是对GenBank EMBL 和DDBJ中去除所有相同核酸序列进行整合后所得的最为全面的已知基因数据库,其中包括部分基因组序列。联网至“/blast/blast.cgi选择数据库“Nucleotide”,利用blastn程序进行同源性检索。”, 按照提示进行查询。
2 比较基因组分析
达尔文的进化论给比较基因组学提供了理论依据。动物进化从低等到高等,动物与动物之间存在着亲缘关系。这种关系可以从基因序列上反映出来。亲缘关系越近,其基因序列的同源性就越高。可以根据已经亲缘关系较大的动物的基因序列来扩增目的基因的序列。
3 利用Unigene数据库进行电子克隆
此分析需要联网至“/blast/blast.cgi选择数据库“dbEST”,利用blastn程序进行同源性检索。一般情况下可从EST数据库中检索到一批与代分析序列高度同源的EST序列。选择同源性比分最高的一条EST序列。从NCBI的UniGene数据库中进行检索,得到相应的UniGene编号。获得待分析序列的UniGene编号以后,就可以将与UniGene Cluster的所有核酸序列下载到本地,利用SequencherTM或其他的序列装配软件进行组装。形成较长的新生序列。
4 cDNA序列的开放阅读框分析
大量的实验证明,在真核生物起始蛋白质合成时,40S核糖体亚基及有关合成起始因子首先与mRNA模板靠近5`末端处结合,然后向3`末端滑行,发现AUG起始密码子时,与60S大亚基结合形成80S起始复合物。开始转译蛋白质。这就是Kozak提出的真核生物蛋白质合成起始的“扫描模式”。MRNA需要翻译为蛋白质方能发挥生物学作用,因此,核酸序列的开放阅读框(open reading frame.ORF)的分析便成为核酸分析的一个重要部分。基于遗传密码表,可通过计算机方便分析核酸序列的读码框。联网至/orf finder,输入cDNA序列,计算机将按照六种相位翻译成蛋白质。
5基于核酸序列的电子基因定位
对核酸序列进行电子基因定位(即基因的染色体定位),通过所定位区带的相邻基因或者基因簇间接提示该基因的功能,是核酸分析的一个重要方面。进行电子定位一般有两种策略:(1)通过序列标签位点(Sequence Tagged Site,STS)进行定位;(2)通过UniGene/RH 技术进行定位。
①利用STS数据库进行电子基因定位