功能基因的克隆及生物信息学研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
功能基因的克隆及其生物信息学分析
摘要:随着多种生物全基因组序列的获得,基因组研究正从结构基因组学
通过在基因组或系统水平上全面分析基因的功能,使生物学研究从对单一基因或蛋白的研究转向多个基因或蛋白同时进行系统的研究,是在基因组静态的组成序列基础上转入对基因组动态的生物学功能学研究[2]。如何研究功能基因,也成为我们面临的一个课题,本文就克隆和生物信息学分析在研究功能基因方面的应用做一个简要的阐述。
关键词:功能基因、克隆、生物信息学分析。
1.功能基因的克隆
1.1 图位克隆方法
图位克隆又称定位克隆,它是根据目标基因在染色体上确切位置,寻找与其紧密连锁的分子标记,筛选BCA克隆,通过染色体步移法逐步逼近目的基因区域,根据测序结果或用BAC、YAC克隆筛选cDNA表达文库寻找候选基因,
得到候选基因后再确定目标基因。优点是无需掌握基因产物的任何信息,从突变体开始,逐步找到基因,最后证实该基因就是造成突变的原因。通过图位克隆许多控制质量性状的单基因得以克隆,最近也有报道某些控制数量性状的主效基因<控制蕃茄果实大小的基因克隆[3]、控制水稻成熟后稻谷脱落基因克隆[4]以及小麦 VRN2 基因克隆[5]等)也通过图位克隆法获得。
1.2 同源序列克隆目的基因
首先根据已知的基因序列设计PCR引物,在已知材料中扩增到该片段,并
经克隆测序验证,利用放射性同位素标记或其他非同位素标记该PCR片段作为
探针,与待研究材料的cDNA文库杂交,就可以获得该基因cDNA克隆,利用克隆进一步筛选基因组文库,挑选阳性克隆,亚克隆并测序,从中就可以筛选到该基因的完整序列。
1.3结合连锁和连锁不平衡的分析方法
结合连锁和连锁不平衡的分析方法是未知基因克隆研究领域发展的新方向[6 ]。(Linkage disequilibrium, LD>。与连锁分析不同, 连锁不平衡分析可以利用自然群体中历史发生的重组事件。历史上发生的重组使连锁的标记渐渐分布到不同的同源染色体上,
这样就只有相隔很近的标记才能不被重组掉,
从而形成大小不同的单倍型片段(Haplotype block>。这样经过很多世代的重组, 只有相隔很近的基因, 才能仍处在相同的原始单倍型片段上, 基因间的连锁不平衡才能依然存在。所以基于连锁不平衡分析,
可以实现目的基因的精细定位。林木大多为自由授粉的异交物种,
所以连锁不平衡程度很低, 林木基因组中的LD可能会仅局限于非常小的区域, 这就为目的基因的精细定位提供了可能, 结合SNP 检测技术, 科学家甚至可以将效应位点直接与单个的核苷酸突变关联起来,
进行数量性状寡核苷酸(Quantitative trait nucleotide, QTN>作图。当然除了相隔很近的基因, 某些相隔较远的基因, 由于受相同的选择压力, 也可能产生连锁不平衡。但通过家系分析, 首先可以进行目的基因的粗略定位, 将目的基因首先限定到一个较小的区域, 只针对该区域内的SNP 进行相关性分析, 从而消除非由连锁引起的连锁不平衡干扰。随着林木全基因组测序的发展,
连锁图谱与LD 分析相结合的方法将是在林木中实现未知基因克隆的最有效的方法[6]。
1.4电子克隆
近年来又兴起一种新的基因克隆方法--
电子克隆,它是近年来伴随着基因组计划和EST计划发展起来的基因克隆新方法,它的主要原理是利用日益发展的生物信息学技术,借助电子计算机的巨大运算能力,通过EST或基因组的序列组装和拼接,利用RT-PCR的方法快速获得功能基因,具有投入低、速度快、技术要求低和针对性强等优点[7]。
1.4.1利用EST数据库信息
首先选择感兴趣的水稻, EST作为查询探针,搜索水稻dbEST数据库,找到部分重叠的EST进行拼接,然后再以拼接好的EST重叠群为新的查询探针,继续搜索
dbEST库,直到没有新的EST可供拼接为止,最后根据拼接好的完整序列设计PC R引物,通过RT-PCR的方法获得目的cDNA克隆并进行序列测定验证[7]。
图1为利用EST数据库信息克隆水稻功能基因的实验流程。
图1 利用水稻 EST数据库进行电子克隆的策略
1.4.2利用基因组信息
利用基因组信息资料进行电子克隆的最大优点就是基因的克隆不受作物发育时期或特殊环境条件的限制:可以用来源于任何时期或组织的水稻和其他物种的EST或全长cDNA序列作为信息探针搜索位于
GenBank或者我国华大公布的水稻基因组序列:
随后根据内含子的规则通过人工拼接或相应的计算机软件预测:
可以得到该基因完整的开放读码框,根据拼接的序列结果设计PCR引物:
进一步采取RT-
PCR的方法获得目的基因的cDNA克隆并进行序列测定[7]。具体实验流程见图2
2 生物信息学分析
生物信息学(bioinformatics>是在生命科学、计算机科学和数学的基础
上逐步发展而形成的一门新兴交叉学科,是为理解各种数据的生物学意义,运用数学与计算机科学手段进行生物信息的收集、加工、存储、
传播、分析与解读的科学[8-
10]。由于历史原因,有的研究者也使用计算生物学(computational
biology>或计算分子生物学(computational molecular biology> 等不同的术语。在后基因组时代,生物信息学的研究内容主要可分为两个重要组成部分:基因组信息学和蛋白质组信息学[11]。后基因组时代,除了继续序列和结构分析外,更多的研究力量则投入到功能分析,也就是分析研究遗传型到表型的过程[12]。
2.1 基因序列同源性比对及其应用