第四章 核酸序列分析
核酸序列分析
第4章核酸序列分析了解:1.DNA携带的两类遗传信息。
2.DNA与RNA序列分析的常见内容及相关数据库和工具。
3.ORF与CDS的区别。
4.原核基因和真核基因启动子的结构。
5.原核和真核的基因结构。
6.lncRNA的研究现状。
熟悉:1.限制性核酸内切酶的命名规则,II型限制酶的特点。
2.重复序列依重复次数和组织形式的分类。
3.基因识别的三大类方法。
4.miRNA及其靶基因预测的方法和工具。
掌握:1.CpG岛的概念及其识别依据和判别标准。
2.mRNA选择性剪接的产生机制。
3.解决问题的思路。
4.查找数据库和分析工具的方法。
5.学习数据库与分析工具使用方法的策略。
4.1引言“龙生龙,凤生凤,老鼠的儿子会打洞!”1“种瓜得瓜,种豆得豆。
”“爹矬矬一个,娘矬矬一窝。
”“一母生九子,连母十个样。
”“龙生九子各不同。
”“天下乌鸦一般黑。
”这些都是大家耳熟能详的谚语。
不管是天上飞的、地上跑的、水里游的,还是能动的、不能动的,它们的后代都和它们非常相像,但却也会有少许的差异。
这些现象大家都已司空见惯,所以可能没有啥感觉。
但仔细想想,你就会发现大自然的奇妙所在。
当然,对于生物专业的人来说,这个就没什么奇怪的了,因为我们都知道分子生物学的中心法则(The central dogma of molecular biology):DNA转录成RNA,RNA翻译成蛋白质。
蛋白质执行特定的生物功能从而决定最终的表型,而DNA则携带着最原始的决定个体性状的遗传信息,RNA主要参与遗传信息的表达和调控。
在各种生物中,A、C、G、T/U都是构成DNA和RNA核酸序列的基本组分。
仅仅这么四种碱基怎么可能构建出缤纷多彩的大千世界呢?其秘诀就在于四种核苷酸的排列顺序。
就像搭积木一样,通过不同的排列组合我们可以构建出不同的形状。
类似于二进制中运用一连串的0和1以及英文字母表中运用26个不同的字母来表达信息,基因所包含的信息来自于4中不同核苷酸沿DNA 分子的排列顺序。
核酸序列分析
思考题
1.第一代DNA测序技术的核心技术 A.Sanger的双脱氧链终止法 B.Maxam和Gilbert的化学降解法 C.荧光标记技术 D.PCR技术 E.DNA自动分析技术
2. Sanger双脱氧链终止法使用的链终止物
A. NTP
B. dNTP
C. ddNTP
D. a-32P-dNTP E. a-35S-dNTP
• 反应体系中包含:模板 DNA,
Taq酶, dNTPs, ddNTPs和测 序引物;
• 反应过程:
变性-复性-延伸-终止
双脱氧链终止法基本原理:
➢利用DNA聚合酶不能
够区分dNTP和ddNTP的
特性,使ddNTP参入到
寡核苷酸链的3’-末端。
因为ddNTP 3’不是-OH,
不能与下一个核苷酸聚
合延伸,从而终止DNA 链的增长。
目前,应用最广泛的应用生物系统公司(applied biosystems ,ABI)3730系列自动测序仪即是基于毛细管 电泳和荧光标记技术的DNA测序仪。
如ABI3730XL测序仪拥有96道毛细管,4种双脱氧核 苷酸的碱基分别用不同的荧光标记,在通过毛细管时不同长 度的DNA片段上的4种荧光基团被激光激发,发出不同颜色 的荧光,被CCD检测系统识别,并直接翻译成DNA序列。
2011:5000美元测定一个人类基因组 2014:上万元测定一个人类基因组
未来目标:1000/100 美元测定一个人类基因组
1、第一代DNA测序技术
第一代DNA测序技术: 传统的双脱氧链终止法、化学降解法以及在它们的基
础上发展来的各种DNA测序技术。
第一代DNA测序技术包括:双脱氧链终止法、化学降 解法、荧光自动测序技术。
第四章_核酸序列分析
•找出基因两端的功能区域: 转录启动区 (启动子)、终止区 • 在启动区下游位置寻找翻译起始密码子 • 转录剪切分析
启动子分析 启动子分析 启动子是DNA分子可以与RNA聚合酶特异结合的部位,也就是使转录开始的 部位。识别出启动子对于基因辨识十分重要,启动子一般可分为两类: (1)一类是RNA聚合酶可以直接识别的启动子。 (2)另一类启动子在和聚合酶结和时需要有蛋白质辅助因子(转录因子)的存在。
同源性检索
一般来说,数据库相似性搜索是进行基因辨识的最初手段,也是 DNA序列分析的最基本步骤。 在同源性检索中,通过查询DNA数据库来判断查询序列是否与已 知基因的序列相同或相似。 例如,如果通过搜索发现待分析的序列与已知蛋白质编码序列相似, 则可以推测待分析的序列是基因序列。
基因分析
序列翻译与开放阅读框(ORF)预测 序列翻译 指利用计算机程序将核酸序列按照三联体密码规则翻译成蛋白 质序列,还可以将氨基酸序列倒翻成核酸序列。 阅读框( 阅读框(reading frames) ) 对于任何给定的单链核酸序列,根据密码子的起始位置,可以 按照三种方式进行解释,这三种阅读顺序称为阅读框 。
http://www.cbs.dtu.dk/services/NetGene2/
/software
BCM Gene Finder
/urllists/genefind.htm
IDB ExInt Intronerator GenScan
启动子分析方法: 启动子分析方法
•利用模型描述几种转录因子结合部位定向及其侧翼结构特点,然后进行其它DNA
序列的启动子预测的启发式方法;
•根据启动子与转录因子结合的特性,从转录因子结合部位的密度推测出启动子区
第四章 核酸序列分析2
pcDNA.3.1TM/myc-His(-),A质粒
pcDNA.3.1TM/myc-His(-),A 多克隆位点
基因克隆
• 基因克隆的步骤.f4v
限制性酶切分析的常用软件
DNAMAN 、 SeqQCDemo、BioEdit 1. 载入序列
DNAMAN载入序列界面
2. 参数设置
限制性酶切分析结果设置
上可供选择的限制性内切酶有多少种?并附上限制性酶切分 析结果窗口图。
EcoRⅠ酶切位点
5' GAATTC 3 ' 3' CTTAAG 5'
平末端 3' 突出粘性末端
5' 突出粘性末端
• 限制性核酸内切酶是基因克隆中常用的工具酶。
• 基因克隆是指在体外将目的基因同能够自我复制 的载体DNA连接,然后将其转入宿主细胞或受体生 物,进行表达或进一步研究的分子操作的过程, 又称分子克隆或重组DNA技术。
• 常规分析 • 比对分析 • 基因结构识别
4.1.1 核酸序列的检索 4.1.2 核酸序列组分分析 4.1.3 序列变换 4.1.4 限制性酶切分析
4.1.1 核酸序列的检索
4.1.2 核酸序列组分分析
常用软件:BioEdit、DNAMAN 1. 载入序列
双击打开文件
2. 输出结果
单击选中文件
序列组分显示结果
核苷酸组成的直方图
4.1.3 序列变换
常用软件:SeqQCDemo、DNASTAR、DNAMAN
反向 反向互补
4.1.4 限制性酶切分析
限制性核酸内切酶(restriction endonuclease): 识别并切割特异的双链DNA序列的一种内切核酸酶。
核酸序列分析
琼脂糖凝胶电泳
在PH3.5时,碱基上的氨基基团解离, PH3.5时 碱基上的氨基基团解离, 而三个磷酸基团只有一个解离, 而三个磷酸基团只有一个解离,整个核 酸分子带正电荷。 酸分子带正电荷。 PH值为8.0-8.3时 碱基几乎不解离, 值为8.0 在PH值为8.0-8.3时,碱基几乎不解离, 磷酸全部解离,核酸分子带负电荷。 磷酸全部解离,核酸分子带负电荷。若 将由PH8.0 PH8.0电泳缓冲液制成的凝胶置于电 将由PH8.0电泳缓冲液制成的凝胶置于电 场中, 场中,核酸分子由于带负电会向正极泳 动。
Maxam-Gibert
,
化学修饰法测定 DNA序列的原理
,
5 -GATCACTACTG-3
,
5 -GATCACTACTG-3
,
G
G+A
C+T
C
G
G+A
T+C
C
DNA测序自动化和大规模测序
双脱氧法和化学修饰法的缺点: 双脱氧法和化学修饰法的缺点: 放射性 操作步骤烦琐 效率低 读片过程慢
激光测序法 通过ddNTP 随机竞争终止新合成DNA DNA的互 通过ddNTP 随机竞争终止新合成DNA的互 补链。 补链。 引物标记系统: 引物标记系统: 四种不同的荧光染料标 记引物。 记引物。 终止标记系统: 终止标记系统:4种不同的荧光染料标记 四种双脱氧核糖核酸
:
大片段DNA 大片段DNA 序列测定的策略
鸟枪法 互套式缺失法 引物延伸法
核酸序列的基本分析
功能域和蛋白质互作预测
总结词
识别蛋白质中的功能域以及预测蛋白质 之间的相互作用。
VS
详细描述
功能域是蛋白质中负责特定生物功能的区 域,通过分析核酸序列,可以识别出蛋白 质中的功能域,进一步了解其生物学功能 。此外,还可以利用生物信息学方法预测 蛋白质之间的相互作用,揭示基因网络中 的相互关系。
系统生物学和网络分析
基因组组装
01
基因组组装是将测序得到的短读段组装成完整的基因组序 列的过程。
02
基因组组装是基因组学研究中的关键步骤,对于理解基因 组结构和功能、发现新基因和基因变异等具有重要意义。
03
基因组组装可以使用各种软件和算法,如SOAPdenovo、 Velvet和Abyss等,根据不同的测序技术和数据类型选择合适
核酸序列的表示方法
符号表示
通常使用大写字母表示碱基,如A代表腺嘌呤,G代表鸟嘌呤,C代表胞嘧啶, T代表胸腺嘧啶。
转录和翻译
DNA中的信息通过转录过程传递给RNA,然后通过翻译过程将RNA的信息转化 为蛋白质。
核酸序列的来源和测序方法
来源ห้องสมุดไป่ตู้
核酸序列可以从各种来源获得,如细菌、病毒、动植物等。
测序方法
总结词
从整体角度研究生物系统的结构和功能,通 过网络分析揭示基因之间的相互关系。
详细描述
系统生物学将基因、蛋白质等生物分子视为 相互关联的网络,而非孤立的实体。通过构 建基因调控网络、蛋白质互作网络等,可以 全面了解基因的功能及其在生物过程中的作 用。网络分析有助于发现关键基因、模块和 通路,为药物研发和疾病治疗提供新的思路。
06
实际应用和案例分析
基因组学研究中的应用
第四章核酸序列分析
40
精品PPT
影响(yǐngxiǎng)相似性分数的因素
WORD SIZE 的设定 是否(shìfǒu)允许空位且空位罚分策略
相似性分数矩阵(PAM和BLOSUM)
41
精品PPT
点阵图
评估两条序列相似度最简单的方法之一是利用点阵图。 第一条被比较(bǐjiào)的序列排列在点阵图空间的横轴, 第二条序列则排列在纵轴。点阵空间中两条序列中的残基 相同时,在对应的位点上画上圆点,两条序列间连续相同 的区域在图中会形成由圆点组成的上斜线。
核酸序列组分分析(BioEdit、DNAMAN、 Dnastar) 分析核酸序列的分子质量、碱基组成、碱基分布等。
序列变换(BioEdit、DNAMAN 、 Dnastar)
根据分析需要,对核酸序列进行(jìnxíng)各种变换, 如寻找序列的互补序列、反向序列、反向互补序列等。
限制性内切酶分析(BioEdit、DNAMAN 、 Dnastar)
42
精品PPT
具有(jùyǒu)连续相似区域的 两条DNA序列的简单点阵图
精品PPT
对人类与黑猩猩的β球蛋白基因序 列(xùliè)进行比较的完整点阵图
43
滑动窗口技术
使用滑动窗口代替一次一个位点的比较是解决噪音 问题的有效方法。
假设窗口大小(dàxiǎo)为10,相似度阈值为8,则每 次比较取10个连续的字符,如相同的字符超过8个, 则标记
假设两条序列长度分别是12和9 假设这两条序列是真正的同源序列,那么它们之间长度的
差异可以解释为 (1)较长的序列有核苷酸的插入,或者 (2) 较短的序列发生了核苷酸的删除,或者(3) 两者都发 生了。 在不知道(zhī dào)原始父辈序列的情况下,无法判断导 致空位的原因是由于一条序列的插入事件还是另一条的删 除事件,通常把这类事件称为插入/删除事件。
核酸序列分析
核酸序列分析在生物学领域中,核酸序列分析是一项重要的研究工具,它可以帮助科学家们理解生物体内的基因组结构和功能。
通过分析核酸序列,我们可以揭示基因的组合方式、基因在不同物种之间的演化关系以及基因与疾病之间的关联。
本文将介绍核酸序列分析的基本步骤和常用方法,并探讨它在生物研究中的应用。
一、核酸序列分析的基本步骤1. 数据收集与清洗:首先,我们需要获取相关的核酸序列数据。
这些数据可以来自于公共数据库(如GenBank、ENSEMBL等)或实验室内部的测序项目。
收集到的数据可能存在噪声或错误,所以我们需要对数据进行清洗和筛选,以保证分析的准确性。
2. 序列比对:接下来,我们需要将不同样本的核酸序列进行比对。
序列比对是核酸序列分析的核心步骤之一,它可以帮助我们发现序列之间的相似性和差异性。
常用的序列比对算法包括Smith-Waterman算法和Needleman-Wunsch算法等。
3. 序列注释:在比对完成后,我们可以根据已知的功能注释信息来对序列进行注释。
注释可以告诉我们该序列可能的编码蛋白质的功能、寻找潜在的基因等。
4. 比对结果分析:通过分析比对结果,我们可以了解到序列的保守区域和变异区域。
保守区域可能是功能区域,例如编码蛋白质的区域,变异区域可能涉及到物种之间的进化差异或突变相关的功能。
5. 结果可视化:最后,我们需要将分析的结果进行可视化呈现。
通过可视化,我们可以更直观地理解数据,并对进一步实验设计或研究方向提出建议。
二、核酸序列分析的常用方法1. 比对工具:常用的核酸序列比对工具包括BLAST、ClustalW和MAFFT等。
BLAST(基本局部比对序列工具)是一种快速的局部比对算法,它能够快速地找到序列之间的相似性。
ClustalW和MAFFT则更适用于多序列比对,它们可以比较多个序列之间的相似性和差异性。
2. 注释工具:常用的核酸序列注释工具包括NCBI的Entrez、ENSEMBL和UniProt等。
生物化学中的核酸序列分析
生物化学中的核酸序列分析生物化学是研究生命现象与生理功能的科学,而核酸是构成生命的分子之一,它们在生物体内扮演着重要的角色。
核酸是由核苷酸单元组成的长链,其中DNA是一个双螺旋分子,可以储存生物遗传信息,而RNA则可以转录DNA的信息并参与蛋白质合成。
在生物研究中,对核酸序列的分析非常重要。
通过对DNA序列的分析,可以推测出蛋白质编码信息并预测基因功能;而对RNA序列的分析,则可以了解基因的表达和调控。
本文将从分子生物学和生物信息学的角度来探讨核酸序列分析。
1. PCR扩增与测序分析PCR(聚合酶链式反应)是一种常用的分子生物学技术,可以从少量的DNA或RNA样品中扩增出目标片段,为进一步的分析提供足够的材料。
PCR过程中需要用到一组引物,其可以通过生物信息学分析DNA序列寻找到设计合适的引物。
PCR扩增得到的产物可以进一步进行测序分析,最常用的测序方式为Sanger测序技术。
此技术基于DNA链延伸过程中的dNTP和ddNTP的竞争关系,通过荧光信号和电泳进行测序。
测序结果可以通过生物信息学工具进行比对、序列注释和统计分析。
2. 基因功能预测高通量基因组测序技术的出现,导致了大量未知基因序列的暴增。
对于这些基因序列的功能预测,通常需要先进行同源比对。
同源比对基于多序列比对的原理,将物种间已知的方向同源序列,与未知序列比对,寻找到相似的序列区域,从而对未知序列的基因功能进行推测。
同源比对时,需要注意序列的物种来源和序列的质量。
不同物种间的序列可能在不同位置发生突变,导致序列的比对不准确;若序列存在较多的突变,也可能会影响比对结果。
因此,如何选择合适的工具和参数进行同源比对很关键。
同时,基因家族和重复序列也可能会干扰比对结果,因此需要进行筛除和过滤。
3. RNA测序与转录组分析RNA测序技术可以获得全基因组水平的转录信息,从而了解基因的表达状态和调控机理。
RNA测序通常经过文库构建和深度测序等多个步骤。
4DNA序列分析
Clustal输入多个序列
快速的序列两两比对,计算序列间的 距离,获得一个距离矩阵。
邻接法(NJ)构建一个树(引导树)
根据引导树,渐进比对多个序列。
第一步:输入序列文件
第二步:设定比对参数
参数设定窗口
0:碱基不匹配; 1:碱基完全匹配
第三步:开始序列比对
第四步:比对完成,选择保存结果文件的格式
Blastn---1
Blastn1的作用: ①对于已知的基因,可以分析其相似基因; ②对于未知的基因片段,可以分析其属于什么基因。
描述以表格的形式呈现(以匹配分值从大到小排序) Accession下程序比对的序列名称,点击相应的可以进入更为详细的map viewer Descriptions下是对所比对序列的简单描述 Max score匹配分值,点击可进入第四部分相应序列的blast的详细比对结果 Total score总体分值 Query coverage覆盖率 E value——E(Expect)值 Max ident——匹配一致性,即匹配上的碱基数占总序列长的百分数。 Links——到其他数据库的链接。
可直接查看所在ORF对应的 蛋白质的对数据库的比对
单击,详细查看一个ORF。进一步 确定ORF是否正确需要借助Kozak规 则。
Kozak规则
Kozak序列是存在于真核生物mRNA的一段序列,其在翻译的 起始中有重要作用。
Kozak序列 位于真核生物mRNA 5’端帽子(m7GPPPN)结构
Expect是输入序列被随机搜索出来的概率,该值越小越好。 Identities是相似程度,即输入序列和搜索到序列的匹配率 Gaps就是空白,即比对序列只有一条链上有碱基 strand=plus/minus即询问序列和数据库里面序列的互补链匹配
第四章核酸序列分析
利用基因组序列定位
A、将待分析序列进行对基因组数据库的同源性检索 B、得到确定基因组序列后点击“Genome View”观察
其基因组结构
C、点击用红色标记所指示的染色体列表中选择所对应 的染色体及区域。
500kb
500kb 500kb
1500kb 500kb
2、基本过程
(1)将待分析的核酸序列(称为种子序列)采用 Blast软件搜索GenBank的EST数据库,选择与种 子序列具有较高同源性的EST序列(一般要求在重 叠40个碱基范围内有95%以上有同源性)(称为匹 配序列)
(2)将匹配序列和种子序列装配产生新生序列,此 过程称为片段重叠群分析(conti(expressed sequence tag,EST)和 较长的cDNA序列。然而在大多数情况下,人们 只能获得EST序列或较长的cDNA序列。全长 cDNA序列的获得一直是制约新基因发现的瓶颈。
同时,很多实验室采用差异显示PCR(different display PCR,DD-PCR)、代表性差异分析 (representational difference analysis,RDA)等技
一些生物如大肠杆菌含有可移动的遗传物质如插入序 列。在进行克隆构建以便测序的过程中,这些序列有 时会插入到所构建的克隆,导致目的序列测序的干扰。 BlastN程序可以很方便地鉴定此类结果。如果是这样 的话,此类序列则值得怀疑。
二、核酸序列的电子延伸
1、简介 随着人类基因组计划的深入进行,很多实验室采
术发现了大量具有潜在应用价值的新基因片段,也 同时面临着全长cDNA序列难以获得的全长cDNA序列,均需要投 入较大的精力。
核酸序列分析
核酸序列分析【实验目的】1、掌握已知或未知序列接受号的核酸序列检索的基本步骤;2、掌握使用BioEdit软件进行核酸序列的基本分析;3、熟悉基于核酸序列比对分析的真核基因结构分析(内含子/外显子分析);4、了解基因的电子表达谱分析。
【实验原理】针对核酸序列的分析就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。
在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。
一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的"密码子偏好性",也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与"模板"序列的模式相匹配、简单序列模式如TATA Box等相匹配等。
一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。
1. 重复序列分析对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。
2. 数据库搜索把未知核酸序列作为查询序列,在数据库里搜索与之相似的已有序列是序列分析预测的有效手段。
在理论课中已经专门介绍了序列比对和搜索的原理和技术。
但值得注意的是,由相似性分析作出的结论可能导致错误的流传;有一定比例的序列很难在数据库里找到合适的同源伙伴。
对于EST序列而言,序列搜索将是非常有效的预测手段。
第四章核酸序列分析
o 相关资源 CENSOR http:///censor/ RepeatMasker http://-bin/ WEBRepeatMasker Repbase
这些网站上的在线程序可帮助识别并去除重复序列。
➢同源性检索
一般来说,数据库相似性搜索是进行基因辨识的最初手段,也是 DNA序列分析的最基本步骤。
一个全长的cDNA分子可以有许多个EST,但特定的EST有时可以代表某个特 定的cDNA分子。首先对获得的EST数据进行同源性性分析,两端有重叠的共有 序列的EST可以组装成一个叠连群,直到装配成全长的cDNA序列,然后再进行 ORF和相关功能位点的判定,这样就等于是克隆了一个基因的编码序列。还可以 将EST作为一种标记序列定位在基因组,从而明确这个cDNA的基因组结构,包 括外显子、内含子等。
Kozak规则是研究第一个ATG侧翼序列的碱基分布所满足的统计规律, 若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可 描述如下: • 第4位的偏好碱基为G; • ATG的5’端约15bp范围的侧翼序列内不含碱基T; • 在-3,-6和-9位置,G是偏好碱基; • 除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。 Kozak规则是基于已知数据的统计结果,不见得必须全部满足,一般来说, 满足前两项即可。
在线分析<7000bp序列,大于此 长度的可通过E-mail进行分析
IDB
内含子序列数据库
ExInt Intronerator GenScan
【生物课件】第四章 序列分析
第二步:查找ORF并将目标序列翻译成蛋白质序列
利用相应工具,如ORF Finder、Gene feature(Baylor College of Medicine)、GenLang(University of Pennsylvania)等,查找ORF并将 DNA序列翻译成蛋白质序列
第三步:在数据库中进行序列搜索
可以利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索
第四步:进行目标序列与搜索得到的相似序列的整体列线(global alignment)
虽然第三步已进行局部列线(local alignment)分析,但整体列线有助于 进一步加深目标序列的认识
第五步:查找基因家族
进行多序列列线(multiple sequence alignment)和获得列线区段的可视信息。 可分别在AMAS(Oxford University)和BOXSHADE(ISREC,Switzerland)等服 务器上进行
色体”、基因—“同源基因”和基因组的一个片断—“同源片断”
必须指出,相似性(similarity)和同源性(homology)是两 个完全不同的概念。
相似性是指序列比对过程中用来描述检测序列和
目标序列之间相同DNA碱基或氨基酸残基顺序所占 比例的高低。相似性本身的含义,并不要求与进化起源是
否同一,与亲缘关系的远近、甚至于结构与功能有什么联系。
【生物课件】第四章 序列分析
表1 九种完整DNA序列的碱基组成
表2 人类胎儿球蛋白基因不同区段的碱基组成
二.碱基相邻频率
分析DNA序列的主要困难之一是碱基相邻的频率 不是独立的。碱基相邻的频率一般不等于单个碱基 频率的乘积
例: 鸡血红蛋白β链的RNA编码区的438个碱基
核酸序列分析
Smith-Waterman算法
在序列比对中,通常希望使用能够反映一个氨基酸发生改 变的概率与两个氨基酸随机出现的概率的比值的矩阵。这些比 值可以用相关几率(relatedness odds)矩阵表示。这就是突 变数据相似性分数矩阵产生的基础,在序列比对过程中,两个 序列从头到尾逐个残基进行比对,所得几率值的乘积就是整个 比对的分值。 在实际使用时,通常取几率值的对数以简化运算。因此, 常用的突变数据矩阵PAM250实际上是几率值的对数矩阵(图 3)。矩阵中值大于0的元素所对应的两个残基之间发生突变 的可能性较大,值小于0的元素所对应的两个残基之间发生突 变的可能性较小。
Needleman-Wunsch算法 Needleman-Wunsch算法
当两个序列被联配时,通过计算其重排序列
(shuffed version) 的联配距离,可以得到这两个序列间 的最小距离估计。如果实际得到的联配距离小于重排序 列距离的95%,则表明实际的联配距离达到了5%的显 著水平,是不可能由机误造成的,即实际联配距离是正 确的。
Needleman-Wunsch算法
将两条联配的序列沿双向表的轴放置。从任一碱基
对,即表中的任一单元开始,联配可延三种可能的方式
延伸:如果碱基不匹配,则每一序列加上一个碱基,并 给其增加一个规定的距离权重;或在一个序列中增加一
个碱基而在另一序列中增加一个空位或反之亦然。引入
一个空位时也将增加一个规定的距离权重。
62%或以上相同的串用于产生BLOSUM62矩阵,依此类推。
BLOSUM与BLOCKS对于同样的 序列比对产生的结果 在局部有所不同,可能是一个认为不相似不可以替换而另一 个认为相似可以替换。必须说明,如果比对这两个序列高度 相似,这些细微的差别对整个序列比对结果的影响不大,但 在序列比对的边界区可能产生显著影响,此时增强微弱信号 以探测远距离相关变得十分重要。
核酸序列分析总结
核酸序列分析1、核酸序列检索可通过NCBI使用Entrez系统进行检索,也可用EBI的SRS服务器进行检索。
在同时检索多条序列时,可通过罗逻辑关系式按照GenBank接受号进行批量检索。
如用“AF113671 [ac] OR AF113672 [ac]”可同时检索这两条序列。
其中“[ac]”是序列接受号的描述字段。
2、核酸序列的基本分析(1)分子质量、碱基组成、碱基分布分子质量、碱基组成、碱基分布可通过一些常用软件等直接获得。
如:BioEdit(/BioEdit/bioedit.html),DNAMAN()。
(2)序列变换进行序列分析时,经常需要对DNA序列进行各种变换,例如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。
这些用DNAMAN软件可很容易实现,这些功能集中在Sequence→Display,从中可选择不同的序列变换方式对当前通道的序列进行转换。
(3)限制性酶切分析该方面最好的资源是限制酶数据库(Restriction Enzyme Database,REBASE)。
REBASE数据库(,/rebase)中含有限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源及公开发表的和未发表的参考文献。
其它资源还有:WebGene:/~tjyin/WebGene/RE.html,/personal/tyin.htmlWebCutter2:http://www//firstmarkert/firstmarket/cutter/cut2.html同时,很多软件也能够识别REBASE限制酶数据库。
强烈推荐使用集成化的软件如BioEdit和DNAMAN等。
所得出的结果给出指定DNA序列的酶切位点信息,为克隆鉴定和亚克隆提供了重要信息。
在实际进行分子生物学实验中,有时需要对多条相关序列(如发生突变的一批序列)同时进行酶切分析,以便为后续的克隆鉴定提供参考。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三节 PCR引物设计
一、基本过程 PCR是在试管内有DNA模版、引物和四种脱氧核糖核苷 酸存在条件下,由DNA聚合酶催化的DNA合成反应。 基本反应过程分为三步: 1、变性 变性是指通过加热使DNA双链间的氢键断裂, 形成两条单链的过程。加热到92~95℃可使一切复杂 的DNA都达到变性的目的。 2、退火 退火是指在温度降低的过程中,DNA的复性 过程,即变性后的两条单链在碱基互补基础上形成氢 键,结合成双链。
3、延伸 从引物的3´一端开始,沿DNA模版,由DNA聚合 酶催化的DNA新链的合成反应。 上述三步反应构成一个循环。在下一个循环中,前一 循环的产物再变性为两条单链作为模版,这样往复循 环,即可使靶序列大大扩增。
二、PCR的引物
1、引物长度 以15~30个碱基为宜。过短会影响 到扩增的特异性。 若扩增产物≤500碱基,引物长度为16~18碱基即 可。若扩增4~5kb的大片段,引物最好不要少于 24个碱基。 2、引物二聚体及二级结构 尽量避免在引物分子之间或引物分子内部有过多 的互补碱基。 如果很难完全避免引物分子内二级结构,也要尽 可能地避免在引物3´一端出现二级结构。3´一端 有二级结构的引物不能有效引发延伸。
GT-AG法则:几乎在所有高等真核生物基 因中每个内含子5´端起始的两个碱基都是 GT,3´端最后两个碱基总是AG。 目前最好并最流行的软件是GRAIL (Gene Recognition Analysis Internet Link)套装软 件/Grail-1.3/ 。
3、其他人工序列的分析与去除 测序克隆中往往也含有来自于宿主菌核酸序列的污染, 或者目的克隆的确来自于该宿主菌。这两种情况均可 通过BlastN软件直接对GenBank或EMBL数据库进行 相似性分析进行判断。显然任何与大肠杆菌和酿酒酵 母的序列具有高度一致性的序列必须慎重对待。 一些生物如大肠杆菌含有可移动的遗传物质如插入序 列。在进行克隆构建以便测序的过程中,这些序列有 时会插入到所构建的克隆,导致目的序列测序的干扰。 BlastN程序可以很方便地鉴定此类结果。如果是这样 的话,此类序列则值得怀疑。
引物设计 同源性分析
DNA基元 (motif)查找
八、基因组序列中的编码区/内含子 结构分析
真核基因外显子-内含子连接区 外显子-内含子连接区就是指外显子和内含子 的交界,又称边界序列。 重要特征: (1)内含子的两端序列之间没有广泛的同 源性,不能互补。不能通过形成发卡式二级 结构。 (2)外显子-内含子连接区序列很短,但高 度保守。
五、cDNA对应的基因组序列分析
EST和cDNA的基因组序列查询对于了解该基因组 结构包括extron/intron结构、转录调控区域以及何 种转录因子对该基因的表达进行调控等均十分重要。 同时,如果对所获得cDNA不能完全确定的情况下, 也可参考基因组的序列进行校正。在人类基因组计 划推动下,NCBI、EMBL、和Sanger Centre均提 供了基因组序列的同源性分析途径。
同时,很多实验室采用差异显示PCR(different display PCR,DD-PCR)、代表性差异分析 (representational difference analysis,RDA)等技 术发现了大量具有潜在应用价值的新基因片段,也 同时面临着全长cDNA序列难以获得的全长cDNA序列,均需要投 入较大的精力。
如:①在5´一端引入酶切位点。
②点突变。 ③计简并引物。
6、引物的Tm值(解链温度) 在允许范围内,选择较高的温度,可大大减少引 物和模版之间非特异性结合,从而提高PCR的特 异性。 引物容易复性到模版上的温度是Tm值减去 15~25℃,但为了提高PCR的特异性,在实际应 用中常常将退火温度设定为Tm值减去5~15℃。 在实验之初,宁可选用较低的退火温度,首先得 到有PCR合成产物之后再逐步提高退火温度,以 提高反应的特异性。 两条引物的Tm尽可能相等或接近,最好相差不超 过3℃。
4、存在的不足 无法直接通过此种方法获得多种剪切形式之间的差异, 真正的cDNA序列还需通过对延伸后的序列设计全长 引物,经过反转录PCR(RT-PCR)即可证实是否对 原序列的有效延伸。
三、基因的电子表达谱分析
GenBank/EMBL等数据库在其EST数据库中 积累了大量序列的基因表达信息。 电子表达谱分析原理是: 将待分析序列与EST数据库进行序列对库检 索,获得与待分析核酸序列具有高同源性的 EST序列的UniGene编号后,就可通过参与 形成UniGene Cluster的序列的组织/细胞来源 来间接地反映分析序列在何种组织中表达体 现在字段cDNA Sources中。
而在另一方面,公共数据库如GenBank/EMBL已经 拥有了大量的表达序列标签 (/dbEST)。这些EST 序列在很多时候和研究者所感兴趣的基因序列相重 叠,可能代表了同一条 cDNA序列。因而,从生物 信息学的原理出发,基于公共数据库中的EST序列 或者较长cDNA序列对新获得的EST序列进行电子 延伸,就成为很多研究者关注的焦点。
六、基于核酸序列对齐分析的功能 预测
对库比较、多序列以及序列之间的两两比 较、同源性比较及结果的显著性评价、分 子进化树的绘制。
七、可读框架分析
原理——Kozak序列:AUG上游的第三个核苷酸, 常常是嘌呤,且多数是A;紧跟在AUG后面的核 苷酸,常常也是嘌呤,但多数情况下是G。AUG 附近的核苷酸序列中以ANNAUGN和 GNNAUGPu(T/G)的利用率最高,而没有起始功 能AUG附近的核苷酸序列则无此保守性。 /gorf/gorf.html
1、通过从NCBI查询全部基因组数据库进行序列的分析 联网至 /genome/seq/HsBlast.html可 直接对已经公布的基因组序列进行查询。 2、通过从Sanger中心查询全部基因组数据库进行序列的分 析 /cgi-bin/blast/submitblast/hgp
四、核酸序列的电子基因定位分析
对核酸序列进行电子基因定位(即基因的染色体定 位),通过所定位区带的相邻基因簇,间接地提示该 基因的功能,是核酸序列分析的一个重要方面。进 行电子基因定位策略是: 利用基因组序列定位 A、将待分析序列进行对基因组数据库的同源性检索 B、得到确定基因组序列后点击“Genome View”观察 其基因组结构 C、点击用红色标记所指示的染色体列表中选择所对应 的染色体及区域。
2、利用SequencherTM软件 美国基因编码公司(Gene Codes Corp.)所开发的 SequencherTM软件在识别载体序列方面具有很强 的功能。SequencherTM软件被多个公司用于测序 数据的分析和管理。该公司同时提供该软件的演 示版,可通过访问其网址获得 (/home.html)。
也可以利用Gene Finder软件 (/urllists/genefind. htm)进行基因组序列的内含子/外显子分析。
九、基因启动子、增强子、转录 因子结合位点分析
1、通过EBI匿名FTP获得数据库 2、联网至 /seq_tools/promoter.h tml可对基因组序列进行启动子分析。
这一方案实际上来自于最初的克隆测序过程。例如, 在对一个长为1.5kb的序列进行测序过程中,如果 每次测序只能获得500bp的有效序列,则至少需进 行4次测序,而且所有测序结果的末端必须相互重 叠,以便根据末端重叠序列将该4次测序所获得的 序列片段进行组装,才能获得全长序列。
1500kb 500kb
十、重复序列分析
1、RepBase 真核生物DNA中重复序列数据库,由Genetic Information Research Institute,GIRI维护,其网 址为:/server/RepBase/。 2、著名的RepeatMasker程序即基于此进行工作 (/RM/Repeat Masker.html )。
500kb
500kb
500kb
2、基本过程 (1)将待分析的核酸序列(称为种子序列)采用 Blast软件搜索GenBank的EST数据库,选择与种 子序列具有较高同源性的EST序列(一般要求在重 叠40个碱基范围内有95%以上有同源性)(称为匹 配序列) (2)将匹配序列和种子序列装配产生新生序列,此 过程称为片段重叠群分析(contig analysis) (3)然后再以此新生序列作为种子序列重复上述过 程,直至没有新的匹配序列入选,从而生成最后的 新生序列,作为对种子序列的延伸产物。
7、引物的内部稳定性 引物的5´端互补序列应该是相对稳定结 构,而3´端应在碱基配对的情况下尽可 能为低稳定结构。 3´端应该选用A、T少选用G、C,这种引 物有更高的引发效率,且能有效地避免假 引发。
二、引物设计
软件的引物设计功能主要体现在: 1、引物分析评价功能,以“Oligo 6”最 优秀。 2、引物的自动搜索功能。以“Primer Premier”为最强且方便使用 在自动搜索的基础上还要辅以人工分析。 引物设计软件以“Premier”进行自动搜索, “Oligo”进行分析评价,如此可快速设计 出成功率很高的引物。
3、利用UniGene数据库进行电子延伸
利用blastn程序,选择数据库“EST”进行序列同源性检 索。选择同源性比分最高的一条EST序列,点击右边 的UniGene超链接,将参与形成UniGene Cluster的所 有核酸序列下载到本地,利用SequencherTM软件或者 其他的序列装配软件进行组装,形成较长的新生序列。
第四章 核酸序列分析
第一节 核酸序列的基本分析 (DNAMAN软件的应用)
一、分子质量、碱基组成、碱基分布 二、序列变换 三、限制性酶切分析