第四章核酸序列分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
很多时候和研究者所感兴趣的基因序列相重叠,可 能代表了同一条 cDNA序列。因而,从生物信息学 的原理出发,基于公共数据库中的EST序列或者较 长cDNA序列对新获得的EST序列进行电子延伸, 就成为很多研究者关注的焦点。
这一方案实际上来自于最初的克隆测序过程。例如, 在对一个长为1.5kb的序列进行测序过程中,如果 每次测序只能获得500bp的有效序列,则至少需进 行4次测序,而且所有测序结果的末端必须相互重 叠,以便根据末端重叠序列将该4次测序所获得的 序列片段进行组装,才能获得全长序列。
五、cDNA对应的基因组序列分析
EST和cDNA的基因组序列查询对于了解该基因组 结构包括extron/intron结构、转录调控区域以及何 种转录因子对该基因的表达进行调控等均十分重要。 同时,如果对所获得cDNA不能完全确定的情况下, 也可参考基因组的序列进行校正。在人类基因组计 划推动下,NCBI、EMBL、和Sanger Centre均提 供了基因组序列的同源性分析途径。
电子表达谱分析原理是:
将待分析序列与EST数据库进行序列对库检 索,获得与待分析核酸序列具有高同源性的 EST序列的UniGene编号后,就可通过参与 形成UniGene Cluster的序列的组织/细胞来源 来间接地反映分析序列在何种组织中表达体 现在字段cDNA Sources中。
四、核酸序列的电子基因定位分析
术发现了大量具有潜在应用价值的新基因片段,也 同时面临着全长cDNA序列难以获得的问题。在实 验方面,或者通过筛选cDNA文库,或者通过RACE 实验等去获得新基因的全长cDNA序列,均需要投 入较大的精力。
而在另一方面,公共数据库如GenBank/EMBL已经 拥有了大量的表达序列标签()。这些EST序列在
(3)然后再以此新生序列作为种子序列重复上述过 程,直至没有新的匹配序列入选,从而生成最后的 新生序列,作为对种子序列的延伸产物。
3、利用UniGene数据库进行电子延伸
利用blastn程序,选择数据库“EST”进行序列同源性检 索。选择同源性比分最高的一条EST序列,点击右边 的UniGene超链接,将参与形成UniGene Cluster的所 有核酸序列下载到本地,利用SequencherTM软件或者 其他的序列装配软件进行组装,形成较长的新生序列。
对核酸序列进行电子基因定位(即基因的染色体定 位),通过所定位区带的相邻基因簇,间接地提示该 基因的功能,是核酸序列分析的一个重要方面。进 行电子基因定位策略是:
利用基因组序列定位
A、将待分析序列进行对基因组数据库的同源性检索 B、得到确定基因组序列后点击“Genome View”观察
其基因组结构
C、点击用红色标记所指示的染色体列表中选择所对应 的染色体及区域。
1、通过从NCBI查询全部基因组数据库进行序列的分析 联网至可直接对已经公布的基因组序列进行查询。
500kb
500kb 500kb
1500kb 500kb
百度文库
2、基本过程
(1)将待分析的核酸序列(称为种子序列)采用 Blast软件搜索GenBank的EST数据库,选择与种 子序列具有较高同源性的EST序列(一般要求在重 叠40个碱基范围内有95%以上有同源性)(称为匹 配序列)
(2)将匹配序列和种子序列装配产生新生序列,此 过程称为片段重叠群分析(contig analysis)
一些生物如大肠杆菌含有可移动的遗传物质如插入序 列。在进行克隆构建以便测序的过程中,这些序列有 时会插入到所构建的克隆,导致目的序列测序的干扰。 BlastN程序可以很方便地鉴定此类结果。如果是这样 的话,此类序列则值得怀疑。
二、核酸序列的电子延伸
1、简介 随着人类基因组计划的深入进行,很多实验室采
第四章 核酸序列分析
第一节 核酸序列的基本分析 (DNAMAN软件的应用)
一、分子质量、碱基组成、碱基分布 二、序列变换 三、限制性酶切分析
第二节 核酸序列高级分析(数据库及 软件的使用)
一、核酸测序中载体序列的识别与去除
1、利用NCBI的数据库 许多数据库中收集了常用的测序载体序列。如果用
户面对的是大批量序列的分析任务,则需要将这 些载体数据库下载后进行分析。使用Blast程序对 此类数据库进行相似性分析即可得知目的序列中 是否含有载体序列。()。如果是,那么在对测序 数据进行进一步分析之前必须将载体序列去除。 (Example)
用cDNA文库大规模测序的策略获得了大量表达 序列标签(expressed sequence tag,EST)和 较长的cDNA序列。然而在大多数情况下,人们 只能获得EST序列或较长的cDNA序列。全长 cDNA序列的获得一直是制约新基因发现的瓶颈。
同时,很多实验室采用差异显示PCR(different display PCR,DD-PCR)、代表性差异分析 (representational difference analysis,RDA)等技
4、存在的不足
无法直接通过此种方法获得多种剪切形式之间的差异, 真正的cDNA序列还需通过对延伸后的序列设计全长 引物,经过反转录PCR(RT-PCR)即可证实是否对 原序列的有效延伸。
三、基因的电子表达谱分析
GenBank/EMBL等数据库在其EST数据库中 积累了大量序列的基因表达信息。
2、利用SequencherTM软件
美国基因编码公司(Gene Codes Corp.)所开发的 SequencherTM软件在识别载体序列方面具有很强 的功能。SequencherTM软件被多个公司用于测序 数据的分析和管理。该公司同时提供该软件的演 示版,可通过访问其网址获得()。
3、其他人工序列的分析与去除 测序克隆中往往也含有来自于宿主菌核酸序列的污染, 或者目的克隆的确来自于该宿主菌。这两种情况均可 通过BlastN软件直接对GenBank或EMBL数据库进行 相似性分析进行判断。显然任何与大肠杆菌和酿酒酵 母的序列具有高度一致性的序列必须慎重对待。
这一方案实际上来自于最初的克隆测序过程。例如, 在对一个长为1.5kb的序列进行测序过程中,如果 每次测序只能获得500bp的有效序列,则至少需进 行4次测序,而且所有测序结果的末端必须相互重 叠,以便根据末端重叠序列将该4次测序所获得的 序列片段进行组装,才能获得全长序列。
五、cDNA对应的基因组序列分析
EST和cDNA的基因组序列查询对于了解该基因组 结构包括extron/intron结构、转录调控区域以及何 种转录因子对该基因的表达进行调控等均十分重要。 同时,如果对所获得cDNA不能完全确定的情况下, 也可参考基因组的序列进行校正。在人类基因组计 划推动下,NCBI、EMBL、和Sanger Centre均提 供了基因组序列的同源性分析途径。
电子表达谱分析原理是:
将待分析序列与EST数据库进行序列对库检 索,获得与待分析核酸序列具有高同源性的 EST序列的UniGene编号后,就可通过参与 形成UniGene Cluster的序列的组织/细胞来源 来间接地反映分析序列在何种组织中表达体 现在字段cDNA Sources中。
四、核酸序列的电子基因定位分析
术发现了大量具有潜在应用价值的新基因片段,也 同时面临着全长cDNA序列难以获得的问题。在实 验方面,或者通过筛选cDNA文库,或者通过RACE 实验等去获得新基因的全长cDNA序列,均需要投 入较大的精力。
而在另一方面,公共数据库如GenBank/EMBL已经 拥有了大量的表达序列标签()。这些EST序列在
(3)然后再以此新生序列作为种子序列重复上述过 程,直至没有新的匹配序列入选,从而生成最后的 新生序列,作为对种子序列的延伸产物。
3、利用UniGene数据库进行电子延伸
利用blastn程序,选择数据库“EST”进行序列同源性检 索。选择同源性比分最高的一条EST序列,点击右边 的UniGene超链接,将参与形成UniGene Cluster的所 有核酸序列下载到本地,利用SequencherTM软件或者 其他的序列装配软件进行组装,形成较长的新生序列。
对核酸序列进行电子基因定位(即基因的染色体定 位),通过所定位区带的相邻基因簇,间接地提示该 基因的功能,是核酸序列分析的一个重要方面。进 行电子基因定位策略是:
利用基因组序列定位
A、将待分析序列进行对基因组数据库的同源性检索 B、得到确定基因组序列后点击“Genome View”观察
其基因组结构
C、点击用红色标记所指示的染色体列表中选择所对应 的染色体及区域。
1、通过从NCBI查询全部基因组数据库进行序列的分析 联网至可直接对已经公布的基因组序列进行查询。
500kb
500kb 500kb
1500kb 500kb
百度文库
2、基本过程
(1)将待分析的核酸序列(称为种子序列)采用 Blast软件搜索GenBank的EST数据库,选择与种 子序列具有较高同源性的EST序列(一般要求在重 叠40个碱基范围内有95%以上有同源性)(称为匹 配序列)
(2)将匹配序列和种子序列装配产生新生序列,此 过程称为片段重叠群分析(contig analysis)
一些生物如大肠杆菌含有可移动的遗传物质如插入序 列。在进行克隆构建以便测序的过程中,这些序列有 时会插入到所构建的克隆,导致目的序列测序的干扰。 BlastN程序可以很方便地鉴定此类结果。如果是这样 的话,此类序列则值得怀疑。
二、核酸序列的电子延伸
1、简介 随着人类基因组计划的深入进行,很多实验室采
第四章 核酸序列分析
第一节 核酸序列的基本分析 (DNAMAN软件的应用)
一、分子质量、碱基组成、碱基分布 二、序列变换 三、限制性酶切分析
第二节 核酸序列高级分析(数据库及 软件的使用)
一、核酸测序中载体序列的识别与去除
1、利用NCBI的数据库 许多数据库中收集了常用的测序载体序列。如果用
户面对的是大批量序列的分析任务,则需要将这 些载体数据库下载后进行分析。使用Blast程序对 此类数据库进行相似性分析即可得知目的序列中 是否含有载体序列。()。如果是,那么在对测序 数据进行进一步分析之前必须将载体序列去除。 (Example)
用cDNA文库大规模测序的策略获得了大量表达 序列标签(expressed sequence tag,EST)和 较长的cDNA序列。然而在大多数情况下,人们 只能获得EST序列或较长的cDNA序列。全长 cDNA序列的获得一直是制约新基因发现的瓶颈。
同时,很多实验室采用差异显示PCR(different display PCR,DD-PCR)、代表性差异分析 (representational difference analysis,RDA)等技
4、存在的不足
无法直接通过此种方法获得多种剪切形式之间的差异, 真正的cDNA序列还需通过对延伸后的序列设计全长 引物,经过反转录PCR(RT-PCR)即可证实是否对 原序列的有效延伸。
三、基因的电子表达谱分析
GenBank/EMBL等数据库在其EST数据库中 积累了大量序列的基因表达信息。
2、利用SequencherTM软件
美国基因编码公司(Gene Codes Corp.)所开发的 SequencherTM软件在识别载体序列方面具有很强 的功能。SequencherTM软件被多个公司用于测序 数据的分析和管理。该公司同时提供该软件的演 示版,可通过访问其网址获得()。
3、其他人工序列的分析与去除 测序克隆中往往也含有来自于宿主菌核酸序列的污染, 或者目的克隆的确来自于该宿主菌。这两种情况均可 通过BlastN软件直接对GenBank或EMBL数据库进行 相似性分析进行判断。显然任何与大肠杆菌和酿酒酵 母的序列具有高度一致性的序列必须慎重对待。