功能基因的克隆及生物信息学分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
功能基因的克隆及其生物信息学分析
摘要:随着多种生物全基因组序列的获得,基因组研究正从结构基因组学(structural genomics)转向功能基因组学(functional genomics)的整体研究。功能基因组学利用结构基因组学研究获得的大量数据与信息评价基因功能(包括生化功能、细胞功能、发育功能、适应功能等),其主要手段结合了高通量的大规模的实验方法、统计和计算机分析技术[1],它代表了基因分析的新阶段,已成为21世纪国际生命科学研究的前沿。功能基因组学是利用基因组测序获得的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使生物学研究从对单一基因或蛋白的研究转向多个基因或蛋白同时进行系统的研究,是在基因组静态的组成序列基础上转入对基因组动态的生物学功能学研究[2]。如何研究功能基因,也成为我们面临的一个课题,本文就克隆和生物信息学分析在研究功能基因方面的应用做一个简要的阐述。
关键词:功能基因、克隆、生物信息学分析。
1.功能基因的克隆
1.1 图位克隆方法
图位克隆又称定位克隆,它是根据目标基因在染色体上确切位置,寻找与其紧密连锁的分子标记,筛选BCA克隆,通过染色体步移法逐步逼近目的基因区域,根据测序结果或用BAC、YAC克隆筛选cDNA表达文库寻找候选基因,得到候选基因后再确定目标基因。优点是无需掌握基因产物的任何信息,从突变体开始,逐步找到基因,最后证实该基因就是造成突变的原因。通过图位克隆许多控制质量性状的单基因得以克隆,最近也有报道某些控制数量性状的主效基因(控制蕃茄果实大小的基因克隆[3]、控制水稻成熟后稻谷脱落基因克隆[4]以及小麦VRN2 基因克隆[5]等)也通过图位克隆法获得。
1.2 同源序列克隆目的基因
首先根据已知的基因序列设计PCR引物,在已知材料中扩增到该片段,并经克隆测序验证,利用放射性同位素标记或其他非同位素标记该PCR片段作为探针,与待研究材料的cDNA文库杂交,就可以获得该基因cDNA克隆,利用克隆进一步筛选基因组文库,挑选阳性克隆,亚克隆并测序,从中就可以筛选到该基因的完整序列。
1.3结合连锁和连锁不平衡的分析方法
结合连锁和连锁不平衡的分析方法是未知基因克隆研究领域发展的新方向[6]。(Linkage disequilibrium, LD)。与连锁分析不同, 连锁不平衡分析可以利用自然群体中历史发生的重组事件。历史上发生的重组使连锁的标记渐渐分布到不同的同源染色体上, 这样就只有相隔很近的标记才能不被重组掉, 从而形成大小不同的单倍型片段(Haplotype block)。这样经过很多世代的重组, 只有相隔很近的基因, 才能仍处在相同的原始单倍型片段上, 基因间的连锁不平衡才能依然存在。所以基于连锁不平衡分析, 可以实现目的基因的精细定位。林木大多为自由授粉的异交物种, 所以连锁不平衡程度很低, 林木基因组中的LD可能会仅局限于非常小的区域, 这就为目的基因的精细定位提供了可能, 结合SNP 检测技术, 科学家甚至可以将效应位点直接与单个的核苷酸突变关联起来, 进行数量性状寡核苷酸(Quantitative trait nucleotide, QTN)作图。当然除了相隔很近的基因, 某些相隔较远的基因, 由于受相同的选择压力, 也可能产生连锁不平衡。但通过家系分析, 首先可以进行目的基因的粗略定位, 将目的基因首先限定到一个较小的区域, 只针对该区域内的SNP 进行相关性分析, 从而消除非由连锁引起的连锁不平衡干扰。随着林木全基因组测序的发展, 连锁图谱与LD 分析相结合的方法将是在林木中实现未知基因克隆的最有效的方法[6]。
1.4电子克隆
近年来又兴起一种新的基因克隆方法--电子克隆,它是近年来伴随着基因组
计划和EST计划发展起来的基因克隆新方法,它的主要原理是利用日益发展的生物信息学技术,借助电子计算机的巨大运算能力,通过EST或基因组的序列组装和拼接,利用RT-PCR的方法快速获得功能基因,具有投入低、速度快、技术要求低和针对性强等优点[7]。
1.4.1利用EST数据库信息
首先选择感兴趣的水稻, EST作为查询探针,搜索水稻dbEST数据库,找到部分重叠的EST进行拼接,然后再以拼接好的EST重叠群为新的查询探针,继续搜索dbEST库,直到没有新的EST可供拼接为止,最后根据拼接好的完整序列设计PCR引物,通过RT-PCR的方法获得目的cDNA克隆并进行序列测定验证[7]。
图1为利用EST数据库信息克隆水稻功能基因的试验流程。
图1 利用水稻EST数据库进行电子克隆的策略
1.4.2利用基因组信息
利用基因组信息资料进行电子克隆的最大优点就是基因的克隆不受作物发育时期或特殊环境条件的限制:可以用来源于任何时期或组织的水稻和其他物种的EST或全长cDNA序列作为信息探针搜索位于
GenBank或者我国华大公布的水稻基因组序列: 随后根据内含子的规则通过人工拼接或相应的计算机软件预测: 可以得到该基因完整的开放读码框,根据拼接的序列结果设计PCR引物: 进一步采取RT-PCR的方法获得目的基因的cDNA克隆并进行序列测定[7]。具体实验流程见图2
2 生物信息学分析
生物信息学(bioinformatics)是在生命科学、计算机科学和数学的基础上逐步
发展而形成的一门新兴交叉学科,是为理解各种数据的生物学意义,运用数学与计算机科学手段进行生物信息的收集、加工、存储、传播、分析与解析的科学[8-10]。由于历史原因,有的研究者也使用计算生物学(computational biology)或计算分子生物学(computational molecular biology) 等不同的术语。在后基因组时代,生物信息学的研究内容主要可分为两个重要组成部分:基因组信息学和蛋白质组信息学[11]。后基因组时代,除了继续序列和结构分析外,更多的研究力量则投入到功能分析,也就是分析研究遗传型到表型的过程[12]。
2.1 基因序列同源性比对及其应用
基因序列同源性的比对,对于分析基因组DNA序列以及完成新基因的染色体定位也是极为便捷的。将确定的新基因的编码基因序列作为参照,对于GenBank数据库中高通量基因序列(htgs)数据库中基因组DNA序列进行同源性对比,当发现与新基因的cDNA序列完全同源的基因组DNA序列时,根据Chambon原则,内含子(intron)的序列总是以GT开始,以AG结束,就可以确定该基因的基因组DNA序列的结构,及外显子(exon)-内含子序列结构。因为在htgs 数据库收录的基因组DNA序列,其染色体的来源是十分清楚的,因此就很容易、很方便地将该基因组进行染色体的定位,而不再需要进行荧光原位杂交(FISH)的常规的基因染色体定位技术。可见基因的生物信息学技术的发展对于基因组DNA序列的确定和在染色体上的定位是多么重要。迟光红等在香蕉中获得一个柠檬酸合酶基因的cDNA序列。用NCBI Blastx分析,得出它具有植物柠檬酸合酶基因的特征结构域,并与其他植物中柠檬酸合酶基因的同源性较高,进一步证明了该cD NA编码香蕉中的柠檬酸合酶[13]。李学农等通过Internet查询美国国家生物信息中心数据库,数据库采用BLAST,依据Genecard和Ense- mbl获得将MGC39325基因定位于人染色体8q12[14]。
2.2 结构分析与功能预测
结构分析的研究重点在于研究蛋白质的空间结构。利用分子模拟技术结合计算机图形技术可以更形象、更直观地研究蛋白质等生物大分子的结构,蛋白质的