第四章 核酸序列分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四、核酸序列的电子基因定位分析
对核酸序列进行电子基因定位(即基因的染色体定 位),通过所定位区带的相邻基因簇,间接地提示该 基因的功能,是核酸序列分析的一个重要方面。进 行电子基因定位策略是: 利用基因组序列定位 A、将待分析序列进行对基因组数据库的同源性检索 B、得到确定基因组序列后点击“Genome View”观察 其基因组结构 C、点击用红色标记所指示的染色体列表中选择所对应 的染色体及区域。
3、碱基分布的均衡性 避免嘌呤或嘧啶的堆积,避免连续出现4 个以上的同一碱基。各种碱基最好分布均匀。 4、引物在模版上结合位点的唯一性 保证扩增产物的特异性。
5、碱基配对的严格性 一般要求引物与模版间的碱基能完全配对 特殊实验目的,部分碱基不配对是许可的。但要求引物 3´一端必须与模版配对。
五、cDNA对应的基因组序列分析
EST和cDNA的基因组序列查询对于了解该基因组 结构包括extron/intron结构、转录调控区域以及何 种转录因子对该基因的表达进行调控等均十分重要。 同时,如果对所获得cDNA不能完全确定的情况下, 也可参考基因组的序列进行校正。在人类基因组计 划推动下,NCBI、EMBL、和Sanger Centre均提 供了基因组序列的同源性分析途径。
1、通过从NCBI查询全部基因组数据库进行序列的分析 联网至 http://www.ncbi.nlm.nih.gov/genome/seq/HsBlast.html可 直接对已经公布的基因组序列进行查询。 2、通过从Sanger中心查询全部基因组数据库进行序列的分 析 http://www.sanger.ac.uk/cgi-bin/blast/submitblast/hgp
7、引物的内部稳定性 引物的5´端互补序列应该是相对稳定结 构,而3´端应在碱基配对的情况下尽可 能为低稳定结构。 3´端应该选用A、T少选用G、C,这种引 物有更高的引发效率,且能有效地避免假 引发。
二、引物设计
软件的引物设计功能主要体现在: 1、引物分析评价功能,以“Oligo 6”最 优秀。 2、引物的自动搜索功能。以“Primer Premier”为最强且方便使用 在自动搜索的基础上还要辅以人工分析。 引物设计软件以“Premier”进行自动搜索, “Oligo”进行分析评价,如此可快速设计 出成功率很高的引物。
2、利用SequencherTM软件 美国基因编码公司(Gene Codes Corp.)所开发的 SequencherTM软件在识别载体序列方面具有很强 的功能。SequencherTM软件被多个公司用于测序 数据的分析和管理。该公司同时提供该软件的演 示版,可通过访问其网址获得 (http://www.genecodes.com/home.html)。
这一方案实际上来自于最初的克隆测序过程。例如, 在对一个长为1.5kb的序列进行测序过程中,如果 每次测序只能获得500bp的有效序列,则至少需进 行4次测序,而且所有测序结果的末端必须相互重 叠,以便根据末端重叠序列将该4次测序所获得的 序列片段进行组装,才能获得全长序列。
1500kb 500kb
六、基于核酸序列对齐分析的功能 预测
对库比较、多序列以及序列之间的两两比 较、同源性比较及结果的显著性评价、分 子进化树的绘制。
七、可读框架分析
原理——Kozak序列:AUG上游的第三个核苷酸, 常常是嘌呤,且多数是A;紧跟在AUG后面的核 苷酸,常常也是嘌呤,但多数情况下是G。AUG 附近的核苷酸序列中以ANNAUGN和 GNNAUGPu(T/G)的利用率最高,而没有起始功 能AUG附近的核苷酸序列则无此保守性。 http://www.ncbi.nlm.nih.gov/gorf/gorf.html
3、其他人工序列的分析与去除 测序克隆中往往也含有来自于宿主菌核酸序列的污染, 或者目的克隆的确来自于该宿主菌。这两种情况均可 通过BlastN软件直接对GenBank或EMBL数据库进行 相似性分析进行判断。显然任何与大肠杆菌和酿酒酵 母的序列具有高度一致性的序列必须慎重对待。 一些生物如大肠杆菌含有可移动的遗传物质如插入序 列。在进行克隆构建以便测序的过程中,这些序列有 时会插入到所构建的克隆,导致目的序列测序的干扰。 BlastN程序可以很方便地鉴定此类结果。如果是这样 的话,此类序列则值得怀疑。
二、核酸序列的电子延伸
1、简介 随着人类基因组计划的深入进行,很多实验室采 用cDNA文库大规模测序的策略获得了大量表达 序列标签(expressed sequence tag,EST)和 较长的cDNA序列。然而在大多数情况下,人们 只能获得EST序列或较长的cDNA序列。全长 cDNA序列的获得一直是制约新基因发现的瓶颈。
4、存在的不足 无法直接通过此种方法获得多种剪切形式之间的差异, 真正的cDNA序列还需通过对延伸后的序列设计全长 引物,经过反转录PCR(RT-PCR)即可证实是否对 原序列的有效延伸。
三、基因的电子表达谱分析
GenBank/EMBL等数据库在其EST数据库中 积累了大量序列的基因表达信息。 电子表达谱分析原理是: 将待分析序列与EST数据库进行序列对库检 索,获得与待分析核酸序列具有高同源性的 EST序列的UniGene编号后,就可通过参与 形成UniGene Cluster的序列的组织/细胞来源 来间接地反映分析序列在何种组织中表达体 现在字段cDNA Sources中。
GT-AG法则:几乎在所有高等真核生物基 因中每个内含子5´端起始的两个碱基都是 GT,3´端最后两个碱基总是AG。 目前最好并最流行的软件是GRAIL (Gene Recognition Analysis Internet Link)套装软 件http://compbio.ornl.gov/Grail-1.3/ 。
3、延伸 从引物的3´一端开始,沿DNA模版,由DNA聚合 酶催化的DNA新链的合成反应。 上述三步反应构成一个循环。在下一个循环中,前一 循环的产物再变性为两条单链作为模版,这样往复循 环,即可使靶序列大大扩增。
二、PCR的引物
1、引物长度 以15~30个碱基为宜。过短会影响 到扩增的特异性。 若扩增产物≤500碱基,引物长度为16~18碱基即 可。若扩增4~5kb的大片段,引物最好不要少于 24个碱基。 2、引物二聚体及二级结构 尽量避免在引物分子之间或引物分子内部有过多 的互补碱基。 如果很难完全避免引物分子内二级结构,也要尽 可能地避免在引物3´一端出现二级结构。3´一端 有二级结构的引物不能有效引发延伸。
十、重复序列分析
1、RepBase 真核生物DNA中重复序列数据库,由Genetic Information Research Institute,GIRI维护,其网 址为:http://www.girinst.org/server/RepBase/。 2、著名的RepeatMasker程序即基于此进行工作 (http://ftp.genome.washington.edu/RM/Repeat Masker.html )。
如:①在5´一端引入酶切位点。
②点突变。 ③设计简并引物。
6、引物的Tm值(解链温度) 在允许范围内,选择较高的温度,可大大减少引 物和模版之间非特异性结合,从而提高PCR的特 异性。 引物容易复性到模版上的温度是Tm值减去 15~25℃,但为了提高PCR的特异性,在实际应 用中常常将退火温度设定为Tm值减去5~15℃。 在实验之初,宁可选用较低的退火温度,首先得 到有PCR合成产物之后再逐步提高退火温度,以 提高反应的特异性。 两条引物的Tm尽可能相等或接近,最好相差不超 过3℃。
八、基因组序列中的编码区/内含子 结构分析
真核基因外显子-内含子连接区 外显子-内含子连接区就是指外显子和内含子 的交界,又称边界序列。 重要特征: (1)内含子的两端序列之间没有广泛的同 源性,不能互补。不能通过形成发卡式二级 结构。 (2)外显子-内含子连接区序列很短,但高 度保守。
第三节 PCR引物设计
一、基本过程 PCR是在试管内有DNA模版、引物和四种脱氧核糖核苷 酸存在条件下,由DNA聚合酶催化的DNA合成反应。 基本反应过程分为三步: 1、变性 变性是指通过加热使DNA双链间的氢键断裂, 形成两条单链的过程。加热到92~95℃可使一切复杂 的DNA都达到变性的目的。 2、退火 退火是指在温度降低的过程中,DNA的复性 过程,即变性后的两条单链在碱基互补基础上形成氢 键,结合成双链。
引物设计 同源性分析
DNA基元 (motif)查找
第四章 核酸序列分析
第一节 核酸序列的基本分析 (DNAMAN软件的应用)
一、分子质量、碱基组成、碱基分布 二、序列变换 三、限制性酶切分析
ቤተ መጻሕፍቲ ባይዱ
第二节 核酸序列高级分析(数据库及 软件的使用)
一、核酸测序中载体序列的识别与去除 1、利用NCBI的数据库 许多数据库中收集了常用的测序载体序列。如果用 户面对的是大批量序列的分析任务,则需要将这 些载体数据库下载后进行分析。使用Blast程序对 此类数据库进行相似性分析即可得知目的序列中 是否含有载体序列。 (http://www.ncbi.nlm.nih.gov/VecScreen/VecSc reen.html)。如果是,那么在对测序数据进行进一 步分析之前必须将载体序列去除。(Example)
也可以利用Gene Finder软件 (http://www.bioscience.org/urllists/genefind. htm)进行基因组序列的内含子/外显子分析。
九、基因启动子、增强子、转录 因子结合位点分析
1、通过EBI匿名FTP获得数据库 2、联网至 http://www.fruitfly.org/seq_tools/promoter.h tml可对基因组序列进行启动子分析。
3、利用UniGene数据库进行电子延伸
利用blastn程序,选择数据库“EST”进行序列同源性检 索。选择同源性比分最高的一条EST序列,点击右边 的UniGene超链接,将参与形成UniGene Cluster的所 有核酸序列下载到本地,利用SequencherTM软件或者 其他的序列装配软件进行组装,形成较长的新生序列。
500kb
500kb
500kb
2、基本过程 (1)将待分析的核酸序列(称为种子序列)采用 Blast软件搜索GenBank的EST数据库,选择与种 子序列具有较高同源性的EST序列(一般要求在重 叠40个碱基范围内有95%以上有同源性)(称为匹 配序列) (2)将匹配序列和种子序列装配产生新生序列,此 过程称为片段重叠群分析(contig analysis) (3)然后再以此新生序列作为种子序列重复上述过 程,直至没有新的匹配序列入选,从而生成最后的 新生序列,作为对种子序列的延伸产物。
同时,很多实验室采用差异显示PCR(different display PCR,DD-PCR)、代表性差异分析 (representational difference analysis,RDA)等技 术发现了大量具有潜在应用价值的新基因片段,也 同时面临着全长cDNA序列难以获得的问题。在实 验方面,或者通过筛选cDNA文库,或者通过RACE 实验等去获得新基因的全长cDNA序列,均需要投 入较大的精力。
而在另一方面,公共数据库如GenBank/EMBL已经 拥有了大量的表达序列标签 (http://www.ncbi.nlm.nih.gov/dbEST)。这些EST 序列在很多时候和研究者所感兴趣的基因序列相重 叠,可能代表了同一条 cDNA序列。因而,从生物 信息学的原理出发,基于公共数据库中的EST序列 或者较长cDNA序列对新获得的EST序列进行电子 延伸,就成为很多研究者关注的焦点。