第四章 核酸序列分析-1.
核酸序列分析
第4章核酸序列分析了解:1.DNA携带的两类遗传信息。
2.DNA与RNA序列分析的常见内容及相关数据库和工具。
3.ORF与CDS的区别。
4.原核基因和真核基因启动子的结构。
5.原核和真核的基因结构。
6.lncRNA的研究现状。
熟悉:1.限制性核酸内切酶的命名规则,II型限制酶的特点。
2.重复序列依重复次数和组织形式的分类。
3.基因识别的三大类方法。
4.miRNA及其靶基因预测的方法和工具。
掌握:1.CpG岛的概念及其识别依据和判别标准。
2.mRNA选择性剪接的产生机制。
3.解决问题的思路。
4.查找数据库和分析工具的方法。
5.学习数据库与分析工具使用方法的策略。
4.1引言“龙生龙,凤生凤,老鼠的儿子会打洞!”1“种瓜得瓜,种豆得豆。
”“爹矬矬一个,娘矬矬一窝。
”“一母生九子,连母十个样。
”“龙生九子各不同。
”“天下乌鸦一般黑。
”这些都是大家耳熟能详的谚语。
不管是天上飞的、地上跑的、水里游的,还是能动的、不能动的,它们的后代都和它们非常相像,但却也会有少许的差异。
这些现象大家都已司空见惯,所以可能没有啥感觉。
但仔细想想,你就会发现大自然的奇妙所在。
当然,对于生物专业的人来说,这个就没什么奇怪的了,因为我们都知道分子生物学的中心法则(The central dogma of molecular biology):DNA转录成RNA,RNA翻译成蛋白质。
蛋白质执行特定的生物功能从而决定最终的表型,而DNA则携带着最原始的决定个体性状的遗传信息,RNA主要参与遗传信息的表达和调控。
在各种生物中,A、C、G、T/U都是构成DNA和RNA核酸序列的基本组分。
仅仅这么四种碱基怎么可能构建出缤纷多彩的大千世界呢?其秘诀就在于四种核苷酸的排列顺序。
就像搭积木一样,通过不同的排列组合我们可以构建出不同的形状。
类似于二进制中运用一连串的0和1以及英文字母表中运用26个不同的字母来表达信息,基因所包含的信息来自于4中不同核苷酸沿DNA 分子的排列顺序。
核酸序列分析
思考题
1.第一代DNA测序技术的核心技术 A.Sanger的双脱氧链终止法 B.Maxam和Gilbert的化学降解法 C.荧光标记技术 D.PCR技术 E.DNA自动分析技术
2. Sanger双脱氧链终止法使用的链终止物
A. NTP
B. dNTP
C. ddNTP
D. a-32P-dNTP E. a-35S-dNTP
• 反应体系中包含:模板 DNA,
Taq酶, dNTPs, ddNTPs和测 序引物;
• 反应过程:
变性-复性-延伸-终止
双脱氧链终止法基本原理:
➢利用DNA聚合酶不能
够区分dNTP和ddNTP的
特性,使ddNTP参入到
寡核苷酸链的3’-末端。
因为ddNTP 3’不是-OH,
不能与下一个核苷酸聚
合延伸,从而终止DNA 链的增长。
目前,应用最广泛的应用生物系统公司(applied biosystems ,ABI)3730系列自动测序仪即是基于毛细管 电泳和荧光标记技术的DNA测序仪。
如ABI3730XL测序仪拥有96道毛细管,4种双脱氧核 苷酸的碱基分别用不同的荧光标记,在通过毛细管时不同长 度的DNA片段上的4种荧光基团被激光激发,发出不同颜色 的荧光,被CCD检测系统识别,并直接翻译成DNA序列。
2011:5000美元测定一个人类基因组 2014:上万元测定一个人类基因组
未来目标:1000/100 美元测定一个人类基因组
1、第一代DNA测序技术
第一代DNA测序技术: 传统的双脱氧链终止法、化学降解法以及在它们的基
础上发展来的各种DNA测序技术。
第一代DNA测序技术包括:双脱氧链终止法、化学降 解法、荧光自动测序技术。
4章-核酸序列分析报告
检测序列、目标序列
• 检测序列(查询序列):新测定的,希望 通过数据库搜索确定其性质或功能的序列
• 目标序列: 通过数据库搜索得到的和检测 序列具有一定相似性的序列
序列比对基本类型
• 两两比对:蛋白质序列之间 核酸序列之间
• 多序列比对:多个蛋白质或核酸同时比较
常用的序列比对工具BLAST、Clustal X
• 推测结构功能及进化上的联系,是基因识 别,分子进化,生命起源研究的基础。
• 序列
结构
功能
• 序列比对理论基础:进化学说 如果两个序列之间具有足够的相似性,
就推测二者可能有共同的进化祖先,经过序列 内残基的替换、残基或序列片段的缺失、以及 序列重组等遗传变异过程分别演化而来。
序列比较的基本操作是比对, 两条序列中 各个字符的一种对应关系,或字符对比排列。
任务
寻找VPI 10463 标准株毒素B的编码序列(X53138)。 利用DNASTAR 寻找毒素B基因的开放阅读框 寻找CDB3区(氨基酸 1751- 2366)的编码序列 采用实验室仅有的Pgex-4t-1质粒载体进行表达,请选择合适的限 制性内切酶设计引物
4.2 序列比对
为什么要序列比对
• 序列比对又叫序列联配 , 对排 核酸、氨基酸序Biblioteka 的相似性第四章 核酸序列分析
4.1 常规分析
核酸序列的常规分析包括核酸序列的检索,核酸 序列组分分析,序列变换,限制性酶切分析等等
4.1.1 核酸序列的检索
在相关序列数据库中,选择合适的查询方法检索某 个物种的核酸序列信息.如使用NCBI的Entrez查询系 统和EMBL的SRS查询系统
4.1.2 核酸序列组分分析
比对过程中需要在检测序列或目标序列中 引入空位,表示插入或删除
核酸序列分析泛讲
基因结构分析 (1)原核基因结构
• 原核生物基因组小,基因密度高,很少存在重复序列, 一个基因是由编码一个蛋白质或RNA的开封阅读框构成, 中间没有间断。 • 细菌的起始密码子为: ATG, GTG, TTG • 核糖体结合位点(Shine-Delgaron sequence) • 终止密码子较容易确定 • 转录终止子 • 密码子偏好性 翻译终止位点
8
名称
TATA框 (TATA box)
CAAT框 (CAAT box)
GC框 (GC box)
转 录 起 始 点 上 游 位于转录起始点上 有 两 个 拷 贝 , 所处位 约19~27bp处 游70~80bp 分别位于 CAAT 置 框的两侧 组成 TATA(A/T)A(A/T) GG(T/C)CAATCT GGCGGG
密码子使用频度
不同生物对密码子的使用有不同的偏好,在编码区和非编码 区,特定氨基酸密码子的出现频率是不同的,因而蛋白质编 码区密码存在一定的规则性。 CodonW /
2、 内含子/外显子分析
对基因组序列的读码框区域进行预测
内含子5’端供体位点(donor splice site): GT 内含子3’端受体位点(acceptor splice site): AG
mRNA
GC区
增强子
CAAT区
TATAAT
PyAPy
上游启动子元件,UPE
核心启动子元件
转录起始 位点
9
转录终止信号
加polyA信号:AAUAAA
mRNA前体 5’ AAUAAA CA GU 3’
成熟mRNA
5’
AAUAAA
CAAAAAAAAAAAAA
3’
转录终止信号:GC rich二重对称区、UUUUUU
生物信息学第四章
第四章应用GCG进行序列分析Barbara A. ButlerGenetics Computer Group. IncOxford Molecular GroupMadison. Wisconsin一、引言快速、经济的核酸序列测序方式的出现使包括分子生物学、遗传学和生物化学在内的许多科学领域发生了革命。
(Gilbert, 1981; Sanger, 1981)。
这项技术的进展同时也令人们需要构建公用数据库来存储在全世界范围的实验室内取得的序列信息(Benson et al., 1997; Stoesser et al., 1997)。
由于提交到数据库中的序列需要进行分析和解释,同时已经存在的数据库中的条款需要进行辨识和修补以供研究人员进一步研究之用,因此随着公用数据库的成立,生物信息学和计算生物学逐渐走向成熟。
生物信息学可被视为为对生物信息,专门是对核酸和蛋白质序列信息的获取、分析和存储。
而计算生物学则是指为实现上述目的进行的相应算法和运算机应用程序的开发。
近十年来全基因组测序计划中积累的大量数据使这两个领域都有了飞速的进展,从商业的、学术的各类来源出现了许多可用于序列分析和数据库搜索的程序。
用于个人运算机和Macintoshe机的软件包,专门是可供多用户利用的软件包通常比较昂贵,而且可能缺少用于分析和编辑的综合性的程序组。
与商业程序相较,那些公用的能独立运行的程序(即此程序不是作为软件包的一部份而能够独立运行)很廉价,但需要下载有时乃至要在本机上进行编译,而且用户还必需熟悉输入序列的格式和学习如何使程序有效地运行。
虽然此刻通过网络利用选定的程序已经成为可能,但如果是分析需要综合多个程序则难以进行。
例如,研究者能够利用某种软件进行数据库搜索但却无法进一步将搜索到的序列进行对比。
一样,要创建一个序列对比然后再进行编辑也是很困难的。
这一章中介绍了一种集成环境,它将大量序列分析和数据库搜索程序集成在一路,而且能够访问各类来源的序列数据。
核酸序列分析
琼脂糖凝胶电泳
在PH3.5时,碱基上的氨基基团解离, PH3.5时 碱基上的氨基基团解离, 而三个磷酸基团只有一个解离, 而三个磷酸基团只有一个解离,整个核 酸分子带正电荷。 酸分子带正电荷。 PH值为8.0-8.3时 碱基几乎不解离, 值为8.0 在PH值为8.0-8.3时,碱基几乎不解离, 磷酸全部解离,核酸分子带负电荷。 磷酸全部解离,核酸分子带负电荷。若 将由PH8.0 PH8.0电泳缓冲液制成的凝胶置于电 将由PH8.0电泳缓冲液制成的凝胶置于电 场中, 场中,核酸分子由于带负电会向正极泳 动。
Maxam-Gibert
,
化学修饰法测定 DNA序列的原理
,
5 -GATCACTACTG-3
,
5 -GATCACTACTG-3
,
G
G+A
C+T
C
G
G+A
T+C
C
DNA测序自动化和大规模测序
双脱氧法和化学修饰法的缺点: 双脱氧法和化学修饰法的缺点: 放射性 操作步骤烦琐 效率低 读片过程慢
激光测序法 通过ddNTP 随机竞争终止新合成DNA DNA的互 通过ddNTP 随机竞争终止新合成DNA的互 补链。 补链。 引物标记系统: 引物标记系统: 四种不同的荧光染料标 记引物。 记引物。 终止标记系统: 终止标记系统:4种不同的荧光染料标记 四种双脱氧核糖核酸
:
大片段DNA 大片段DNA 序列测定的策略
鸟枪法 互套式缺失法 引物延伸法
第四章核酸序列分析
40
精品PPT
影响(yǐngxiǎng)相似性分数的因素
WORD SIZE 的设定 是否(shìfǒu)允许空位且空位罚分策略
相似性分数矩阵(PAM和BLOSUM)
41
精品PPT
点阵图
评估两条序列相似度最简单的方法之一是利用点阵图。 第一条被比较(bǐjiào)的序列排列在点阵图空间的横轴, 第二条序列则排列在纵轴。点阵空间中两条序列中的残基 相同时,在对应的位点上画上圆点,两条序列间连续相同 的区域在图中会形成由圆点组成的上斜线。
核酸序列组分分析(BioEdit、DNAMAN、 Dnastar) 分析核酸序列的分子质量、碱基组成、碱基分布等。
序列变换(BioEdit、DNAMAN 、 Dnastar)
根据分析需要,对核酸序列进行(jìnxíng)各种变换, 如寻找序列的互补序列、反向序列、反向互补序列等。
限制性内切酶分析(BioEdit、DNAMAN 、 Dnastar)
42
精品PPT
具有(jùyǒu)连续相似区域的 两条DNA序列的简单点阵图
精品PPT
对人类与黑猩猩的β球蛋白基因序 列(xùliè)进行比较的完整点阵图
43
滑动窗口技术
使用滑动窗口代替一次一个位点的比较是解决噪音 问题的有效方法。
假设窗口大小(dàxiǎo)为10,相似度阈值为8,则每 次比较取10个连续的字符,如相同的字符超过8个, 则标记
假设两条序列长度分别是12和9 假设这两条序列是真正的同源序列,那么它们之间长度的
差异可以解释为 (1)较长的序列有核苷酸的插入,或者 (2) 较短的序列发生了核苷酸的删除,或者(3) 两者都发 生了。 在不知道(zhī dào)原始父辈序列的情况下,无法判断导 致空位的原因是由于一条序列的插入事件还是另一条的删 除事件,通常把这类事件称为插入/删除事件。
核酸序列分析
核酸序列分析在生物学领域中,核酸序列分析是一项重要的研究工具,它可以帮助科学家们理解生物体内的基因组结构和功能。
通过分析核酸序列,我们可以揭示基因的组合方式、基因在不同物种之间的演化关系以及基因与疾病之间的关联。
本文将介绍核酸序列分析的基本步骤和常用方法,并探讨它在生物研究中的应用。
一、核酸序列分析的基本步骤1. 数据收集与清洗:首先,我们需要获取相关的核酸序列数据。
这些数据可以来自于公共数据库(如GenBank、ENSEMBL等)或实验室内部的测序项目。
收集到的数据可能存在噪声或错误,所以我们需要对数据进行清洗和筛选,以保证分析的准确性。
2. 序列比对:接下来,我们需要将不同样本的核酸序列进行比对。
序列比对是核酸序列分析的核心步骤之一,它可以帮助我们发现序列之间的相似性和差异性。
常用的序列比对算法包括Smith-Waterman算法和Needleman-Wunsch算法等。
3. 序列注释:在比对完成后,我们可以根据已知的功能注释信息来对序列进行注释。
注释可以告诉我们该序列可能的编码蛋白质的功能、寻找潜在的基因等。
4. 比对结果分析:通过分析比对结果,我们可以了解到序列的保守区域和变异区域。
保守区域可能是功能区域,例如编码蛋白质的区域,变异区域可能涉及到物种之间的进化差异或突变相关的功能。
5. 结果可视化:最后,我们需要将分析的结果进行可视化呈现。
通过可视化,我们可以更直观地理解数据,并对进一步实验设计或研究方向提出建议。
二、核酸序列分析的常用方法1. 比对工具:常用的核酸序列比对工具包括BLAST、ClustalW和MAFFT等。
BLAST(基本局部比对序列工具)是一种快速的局部比对算法,它能够快速地找到序列之间的相似性。
ClustalW和MAFFT则更适用于多序列比对,它们可以比较多个序列之间的相似性和差异性。
2. 注释工具:常用的核酸序列注释工具包括NCBI的Entrez、ENSEMBL和UniProt等。
生物化学中的核酸序列分析
生物化学中的核酸序列分析生物化学是研究生命现象与生理功能的科学,而核酸是构成生命的分子之一,它们在生物体内扮演着重要的角色。
核酸是由核苷酸单元组成的长链,其中DNA是一个双螺旋分子,可以储存生物遗传信息,而RNA则可以转录DNA的信息并参与蛋白质合成。
在生物研究中,对核酸序列的分析非常重要。
通过对DNA序列的分析,可以推测出蛋白质编码信息并预测基因功能;而对RNA序列的分析,则可以了解基因的表达和调控。
本文将从分子生物学和生物信息学的角度来探讨核酸序列分析。
1. PCR扩增与测序分析PCR(聚合酶链式反应)是一种常用的分子生物学技术,可以从少量的DNA或RNA样品中扩增出目标片段,为进一步的分析提供足够的材料。
PCR过程中需要用到一组引物,其可以通过生物信息学分析DNA序列寻找到设计合适的引物。
PCR扩增得到的产物可以进一步进行测序分析,最常用的测序方式为Sanger测序技术。
此技术基于DNA链延伸过程中的dNTP和ddNTP的竞争关系,通过荧光信号和电泳进行测序。
测序结果可以通过生物信息学工具进行比对、序列注释和统计分析。
2. 基因功能预测高通量基因组测序技术的出现,导致了大量未知基因序列的暴增。
对于这些基因序列的功能预测,通常需要先进行同源比对。
同源比对基于多序列比对的原理,将物种间已知的方向同源序列,与未知序列比对,寻找到相似的序列区域,从而对未知序列的基因功能进行推测。
同源比对时,需要注意序列的物种来源和序列的质量。
不同物种间的序列可能在不同位置发生突变,导致序列的比对不准确;若序列存在较多的突变,也可能会影响比对结果。
因此,如何选择合适的工具和参数进行同源比对很关键。
同时,基因家族和重复序列也可能会干扰比对结果,因此需要进行筛除和过滤。
3. RNA测序与转录组分析RNA测序技术可以获得全基因组水平的转录信息,从而了解基因的表达状态和调控机理。
RNA测序通常经过文库构建和深度测序等多个步骤。
DNA序列分析
K
W
P
W
V
H
T
Q
*
D
E
C
*
I
S
R
使用DNASTAR软件的Editseq模块,可进行序列的 多种变换。
四、限制性酶切位点分析
限制性内切酶(restriction endonuclease)
展示DNA序列的酶切位点图 可选择限制性内切酶
在线平台NEBcutter V2.0
/NEBcutter2/index.php
常规的PCR引物设计实例
使用BLAST、DNASTAR、PRIMER 5.0等网络 和软件平台。步骤: 序列查找和下载。NCBI网站检索。 序列同源性比较。寻找同源保守区域。 引物设计与筛选。
引物的加工与修饰。
引物的评价与分析。
引物的合成与PCR实验。
1、Primer 5.0使用介绍
PCR反应循环
PCR反应体系
模板:DNA
引物:P1,P2 DNA聚合酶:Taq 原料:dNTP 反应缓冲液:Buffer 辅助因子:Mg2+
Taq
Mg2+ P1 dTTP P2 dCTP dGTP
dATP
引物(primers)
引物是人工合成的两段寡核苷酸序列,一个引物
与目的区域一条DNA模板链互补,另一个引物与目
一、测序仪测序
Sanger双脱氧链终止法
二、测序结果文件的判读
ABI文件
Seq文件
Chromas
序列分析常 用软件:
Bioedit Clustal W, X DNASTAR Genedoc Vector NTI
Chromas软件:
打开ABI文件,可检测测序的质量好坏。 无杂峰、无套峰,信号强度正常。
第四章核酸序列分析
利用基因组序列定位
A、将待分析序列进行对基因组数据库的同源性检索 B、得到确定基因组序列后点击“Genome View”观察
其基因组结构
C、点击用红色标记所指示的染色体列表中选择所对应 的染色体及区域。
500kb
500kb 500kb
1500kb 500kb
2、基本过程
(1)将待分析的核酸序列(称为种子序列)采用 Blast软件搜索GenBank的EST数据库,选择与种 子序列具有较高同源性的EST序列(一般要求在重 叠40个碱基范围内有95%以上有同源性)(称为匹 配序列)
(2)将匹配序列和种子序列装配产生新生序列,此 过程称为片段重叠群分析(conti(expressed sequence tag,EST)和 较长的cDNA序列。然而在大多数情况下,人们 只能获得EST序列或较长的cDNA序列。全长 cDNA序列的获得一直是制约新基因发现的瓶颈。
同时,很多实验室采用差异显示PCR(different display PCR,DD-PCR)、代表性差异分析 (representational difference analysis,RDA)等技
一些生物如大肠杆菌含有可移动的遗传物质如插入序 列。在进行克隆构建以便测序的过程中,这些序列有 时会插入到所构建的克隆,导致目的序列测序的干扰。 BlastN程序可以很方便地鉴定此类结果。如果是这样 的话,此类序列则值得怀疑。
二、核酸序列的电子延伸
1、简介 随着人类基因组计划的深入进行,很多实验室采
术发现了大量具有潜在应用价值的新基因片段,也 同时面临着全长cDNA序列难以获得的全长cDNA序列,均需要投 入较大的精力。
核酸序列分析
核酸序列分析【实验目的】1、掌握已知或未知序列接受号的核酸序列检索的基本步骤;2、掌握使用BioEdit软件进行核酸序列的基本分析;3、熟悉基于核酸序列比对分析的真核基因结构分析(内含子/外显子分析);4、了解基因的电子表达谱分析。
【实验原理】针对核酸序列的分析就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。
在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。
一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的"密码子偏好性",也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与"模板"序列的模式相匹配、简单序列模式如TATA Box等相匹配等。
一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。
1. 重复序列分析对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。
2. 数据库搜索把未知核酸序列作为查询序列,在数据库里搜索与之相似的已有序列是序列分析预测的有效手段。
在理论课中已经专门介绍了序列比对和搜索的原理和技术。
但值得注意的是,由相似性分析作出的结论可能导致错误的流传;有一定比例的序列很难在数据库里找到合适的同源伙伴。
对于EST序列而言,序列搜索将是非常有效的预测手段。
第四章核酸序列分析
o 相关资源 CENSOR http:///censor/ RepeatMasker http://-bin/ WEBRepeatMasker Repbase
这些网站上的在线程序可帮助识别并去除重复序列。
➢同源性检索
一般来说,数据库相似性搜索是进行基因辨识的最初手段,也是 DNA序列分析的最基本步骤。
一个全长的cDNA分子可以有许多个EST,但特定的EST有时可以代表某个特 定的cDNA分子。首先对获得的EST数据进行同源性性分析,两端有重叠的共有 序列的EST可以组装成一个叠连群,直到装配成全长的cDNA序列,然后再进行 ORF和相关功能位点的判定,这样就等于是克隆了一个基因的编码序列。还可以 将EST作为一种标记序列定位在基因组,从而明确这个cDNA的基因组结构,包 括外显子、内含子等。
Kozak规则是研究第一个ATG侧翼序列的碱基分布所满足的统计规律, 若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可 描述如下: • 第4位的偏好碱基为G; • ATG的5’端约15bp范围的侧翼序列内不含碱基T; • 在-3,-6和-9位置,G是偏好碱基; • 除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。 Kozak规则是基于已知数据的统计结果,不见得必须全部满足,一般来说, 满足前两项即可。
在线分析<7000bp序列,大于此 长度的可通过E-mail进行分析
IDB
内含子序列数据库
ExInt Intronerator GenScan
第四章核酸序列分析
序列的EST可以组装成一个叠连群,直到装配成全长的cDNA序列,然后再进行
ORF和相关功能位点的判定,这样就等于是克隆了一个基因的编码序列。还可以 将EST作为一种标记序列定位在基因组,从而明确这个cDNA的基因组结构,包 括外显子、内含子等。 EST数据库:/dbEST/
域,这方法存在较高的假阳性;
•根据启动子区自身的特征来进行测定,这种方法的准确性比较高。同时,还可以
结合是否存在CpG岛,而对启动子预测的准确性做出辅助性的推测。 启动子预测软件有:PromoterScan ; Promoter 2.0 ; NNPP ;EMBOSS Cpgplot ; CpG Prediction
(1)一类是RNA聚合酶可以直接识别的启动子。
(2)另一类启动子在和聚合酶结和时需要有蛋白质辅助因子(转录因子)的存在。
启动子分析方法:
•利用模型描述几种转录因子结合部位定向及其侧翼结构特点,然后进行其它DNA
序列的启动子预测的启发式方法;
•根据启动子与转录因子结合的特性,从转录因子结合部位的密度推测出启动子区
(2)利用编码区与非编码区的碱基组成不同进行识别 由于蛋白质中20种氨基酸出现的概率不同,每种氨基酸的密码子兼并 度不同,同一种氨基酸的兼并密码子使用频率不同等原因,造成单个碱 基的组成比例和多个碱基的组成方式在不同的物种中呈现出不同的规律。 因此,可通过统计分析识别编码序列。
(3)利用经验规律进行识别
探查DNA中的功能性位点
基本思路:
•找出基因两端的功能区域: 转录启动区 (启动子)、终止区
• 在启动区下游位置寻找翻译起始密码子 • 转录剪切分析
启动子分析 启动子是DNA分子可以与RNA聚合酶特异结合的部位,也就是使转录开始的 部位。识别出启动子对于基因辨识十分重要,启动子一般可分为两类:
【生物课件】第四章 序列分析
第二步:查找ORF并将目标序列翻译成蛋白质序列
利用相应工具,如ORF Finder、Gene feature(Baylor College of Medicine)、GenLang(University of Pennsylvania)等,查找ORF并将 DNA序列翻译成蛋白质序列
第三步:在数据库中进行序列搜索
可以利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索
第四步:进行目标序列与搜索得到的相似序列的整体列线(global alignment)
虽然第三步已进行局部列线(local alignment)分析,但整体列线有助于 进一步加深目标序列的认识
第五步:查找基因家族
进行多序列列线(multiple sequence alignment)和获得列线区段的可视信息。 可分别在AMAS(Oxford University)和BOXSHADE(ISREC,Switzerland)等服 务器上进行
色体”、基因—“同源基因”和基因组的一个片断—“同源片断”
必须指出,相似性(similarity)和同源性(homology)是两 个完全不同的概念。
相似性是指序列比对过程中用来描述检测序列和
目标序列之间相同DNA碱基或氨基酸残基顺序所占 比例的高低。相似性本身的含义,并不要求与进化起源是
否同一,与亲缘关系的远近、甚至于结构与功能有什么联系。
【生物课件】第四章 序列分析
表1 九种完整DNA序列的碱基组成
表2 人类胎儿球蛋白基因不同区段的碱基组成
二.碱基相邻频率
分析DNA序列的主要困难之一是碱基相邻的频率 不是独立的。碱基相邻的频率一般不等于单个碱基 频率的乘积
例: 鸡血红蛋白β链的RNA编码区的438个碱基
核酸序列分析
Smith-Waterman算法
在序列比对中,通常希望使用能够反映一个氨基酸发生改 变的概率与两个氨基酸随机出现的概率的比值的矩阵。这些比 值可以用相关几率(relatedness odds)矩阵表示。这就是突 变数据相似性分数矩阵产生的基础,在序列比对过程中,两个 序列从头到尾逐个残基进行比对,所得几率值的乘积就是整个 比对的分值。 在实际使用时,通常取几率值的对数以简化运算。因此, 常用的突变数据矩阵PAM250实际上是几率值的对数矩阵(图 3)。矩阵中值大于0的元素所对应的两个残基之间发生突变 的可能性较大,值小于0的元素所对应的两个残基之间发生突 变的可能性较小。
Needleman-Wunsch算法 Needleman-Wunsch算法
当两个序列被联配时,通过计算其重排序列
(shuffed version) 的联配距离,可以得到这两个序列间 的最小距离估计。如果实际得到的联配距离小于重排序 列距离的95%,则表明实际的联配距离达到了5%的显 著水平,是不可能由机误造成的,即实际联配距离是正 确的。
Needleman-Wunsch算法
将两条联配的序列沿双向表的轴放置。从任一碱基
对,即表中的任一单元开始,联配可延三种可能的方式
延伸:如果碱基不匹配,则每一序列加上一个碱基,并 给其增加一个规定的距离权重;或在一个序列中增加一
个碱基而在另一序列中增加一个空位或反之亦然。引入
一个空位时也将增加一个规定的距离权重。
62%或以上相同的串用于产生BLOSUM62矩阵,依此类推。
BLOSUM与BLOCKS对于同样的 序列比对产生的结果 在局部有所不同,可能是一个认为不相似不可以替换而另一 个认为相似可以替换。必须说明,如果比对这两个序列高度 相似,这些细微的差别对整个序列比对结果的影响不大,但 在序列比对的边界区可能产生显著影响,此时增强微弱信号 以探测远距离相关变得十分重要。
核酸序列分析总结
核酸序列分析1、核酸序列检索可通过NCBI使用Entrez系统进行检索,也可用EBI的SRS服务器进行检索。
在同时检索多条序列时,可通过罗逻辑关系式按照GenBank接受号进行批量检索。
如用“AF113671 [ac] OR AF113672 [ac]”可同时检索这两条序列。
其中“[ac]”是序列接受号的描述字段。
2、核酸序列的基本分析(1)分子质量、碱基组成、碱基分布分子质量、碱基组成、碱基分布可通过一些常用软件等直接获得。
如:BioEdit(/BioEdit/bioedit.html),DNAMAN()。
(2)序列变换进行序列分析时,经常需要对DNA序列进行各种变换,例如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。
这些用DNAMAN软件可很容易实现,这些功能集中在Sequence→Display,从中可选择不同的序列变换方式对当前通道的序列进行转换。
(3)限制性酶切分析该方面最好的资源是限制酶数据库(Restriction Enzyme Database,REBASE)。
REBASE数据库(,/rebase)中含有限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源及公开发表的和未发表的参考文献。
其它资源还有:WebGene:/~tjyin/WebGene/RE.html,/personal/tyin.htmlWebCutter2:http://www//firstmarkert/firstmarket/cutter/cut2.html同时,很多软件也能够识别REBASE限制酶数据库。
强烈推荐使用集成化的软件如BioEdit和DNAMAN等。
所得出的结果给出指定DNA序列的酶切位点信息,为克隆鉴定和亚克隆提供了重要信息。
在实际进行分子生物学实验中,有时需要对多条相关序列(如发生突变的一批序列)同时进行酶切分析,以便为后续的克隆鉴定提供参考。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
31
1)对于已知蛋白,可进行数据库搜索判断序列的可靠性。 2)对于未知新基因,则需要参考序列的其他特定信息。
32
33
许多程序对DNA序列一次进行全部6个阅读框的翻译。
程序之一:EBI著名软件包EMBOSS中的Transeq
/emboss/transeq/
特点: 1)输入序列可以是原始序列,也可以是GCG,Fasta, EMBL,GenBank,PIR等格式。 2)可一次翻译成1条,同向3条,双向6条蛋白质序列。 3)翻译时可选择标准密码子或其他类型的密码子
4 具有复杂的基因转录调控方式
5 具有丰富的可变剪接 6 有明显的CpG岛、密码子使用具有偏好性
四、DNA序列分析基本内容
9
序列一般性分析 基因识别与鉴定
非编码区分析及调控元件识别
§4.2 DNA序列的一般分析
11
重要分析工具网站
华北制药集团的谈杰创建的一个非常有用的生 物信息学资源网站。 /index.html
34
Transeq主页
翻译结果(6框架)
35
36
程序之二: ExPASy的Translate Tool /tools/dna.html 特点: 1)程序简单,没有太多的可选项,运行速度快。
2)一次翻译双向6条蛋白质序列。
3)输出结果较Transeq清楚,不仅将终止密码子用 Stop英文单词表示,还将起始密码子以MET标记出来
国外主要网站 http://mobyle.pasteur.fr/cgi-bin/portal.py/ /Tools/index.html /
12
各种生 物信息 学软件
法国巴斯德研究所:http://mobyle.pasteur.fr/cgibin/portal.py#forms::revseq
Oligo Calculator , /JaMBW/
17 JaMBW是一个分子生物学软件包,功能包括:序列格式 转换、求序列的补体序列与逆序列、将DNA序列翻译成 蛋白序列、序列分析、 多序列比较、特征位点查找、3维 分子结构查看、PCR引物设计、缓冲液设计等功能,包 含了分子生物学研究常用的一些操作。JaMBW是一个非 常出色的工具软件。
以JaMBW 的Oligo Calculator为例演示
18
19
计算结果:
20
二、序列转换 序列转换是分子生物学和生物信息学研究中最常遇到的工 作之一,因此,掌握序列转换的常用方法是分子生物学家
21
和生物信息学家的基本要求。
序列转换主要包括两方面的工作: 1)序列格式转换
2)互补与反向序列格式转换
22
1 序列格式转换
ReadSeq是目前最流行的格式处理软件之一。是美国印 第安那大学的Don Gilbert开发编制的。 支持23种序列格式的转换,几乎囊括了目前所有的一 级序列格式。
/molbio/readseq/
23
选择输出 格式
24 EMBL格式
2
3
序列分析其实就是从已知蛋白质、RNA、
DNA序列作出生物学推论的过程。
4
主要内容 §4.1 引言 §4.2 序列的一般分析 §4.3 基因预测与鉴定 §4.4 非编码区分析与调控元件识别
§4.1 引 言
一、DNA序列分析的意义
6
ห้องสมุดไป่ตู้
DNA序列分析是生物信息学中的重要内容之一
1. DNA是生物遗传信息的最终决定者
序列格式说明: 1)序列标准格式 >XX(不能少)
2)序列长度少于18bp时一 定要用标准格式
3)序列长度大于18bp时, “>XX”可省去。
YYYYYYYYYYYYYYY
2 互补与反向序列格式转换 RevSeq程序是一款专门将序列进行反向和互 补转换的小工具。 个头虽小,但很实用。它是著名的生物信息 学软件包EMBOSS的一个成员。
第四章 DNA序列分析
回顾
1 如何查询下列文献:Wan, Y. and Lemaux, P.G.. Generation of large numbers of independently transformed fertile barley plants. Plant Physiol. 1994 ,104: 37–48. 2上次上机操作内容简要说明。
25
http://mobyle.pasteur.fr/cgi-bin/portal.py?form=revseq
26
粘贴序列
上传序列文件
1)反向链 2)互补链 3)反向互补链
改变文件名
27
要求填写E-mail地址
28
填写验证码
输出转换结果
29
互补反向链
30
同时转换多条序列
三、序列翻译 所谓序列翻译,是指用计算机程序把核酸序列按三 联体密码规则翻译成蛋白质序列。 6框架翻译,即从正向1,2,3位碱基开始按三联体密 码规则翻译成3条蛋白质序列以及从反向1,2,3位碱 基开始翻译得到3条蛋白质序列,共6条蛋白质序列。 问题: 究竞蛋白质序列是不是真正表达的蛋白产物? 方法:
13
NCBI网站:/guide/all/#tools 14
EBI网站:/
15
一、序列统计
16
序列统计包括核酸序列基本指标的计算:分子质量、GC百 分含量、融合温度(Tm值,又称退火温度)、摩尔消光系 数等。可通过一些常用软件如JaMBW软件包中的一个小工 具Oligo Calculator、BioEdit、DNAMAN等进行综合计算。
2. DNA序列携带的遗传信息具有极高的复杂性
3. DNA序列分析是揭示遗传语言复杂性的基本过程
二、基因结构与功能简介 原核生物基因结构
7
特点:
1 长开放阅读框 2 高基因密度 3 简单的基因结构 4 基因组中GC含量变化非常大
真核生物基因结构
8
1 基因组规模大
特点: 2 非编码区序列占绝大部分(人类,97%) 3 基因结构复杂