4章 核酸序列分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4.1.4 限制性酶切分析
在克隆和基因工程中,通常要对基因序列的限制性酶切位点 行分析,使用DNASTAR(mapdraw)对RGDV S8片断编码区序 列进行限制性内切酶分析. 研究背景: 为揭示水稻瘤矮病毒外层衣壳蛋白质P8在大肠杆菌中的表 达特性,需要将P8基因克隆到Pgex-4t-1上,以BamHI 和Xhol作 为克隆位点.设计表达引物时,考虑是否能在P8基因的两端分别 引入BamHI 和Xhol 酶切位点,此时需要进行限制性酶切分析.
核酸序列的组分分析一般包括分子质量,碱基组成, 碱基分布等 实例分析:使用BioEdit分析水稻瘤矮病毒基因组S8片 段编码序列的基本性质.
1 载入序列 运行BioEdit,依次打开File-open,载入待分析的目的序列.
2 输出结果 依次点击sequence ---nucleic acid ---nucleotide composition
序列比对
• DNA : A T G C • Protein: ARNDCQEGHILK…… 例: • TTCGCAGCGC • TTAGGACCTC (偶然相似性)
量化相似性 比对
• 考虑这样的两条核苷酸序列: AATCTATA和AAGATA 仅有三种比对方式
不考虑空位的简单比对,它的打分函数是由对比奖励和罚分 的和来决定
• 网络版本 • 包括NCBI在内的很多网站都提供了在线 的blast服务,这也是我们最经常用到的 blast服务。网络版本的blast服务就有方便, 容易操作,数据库同步更新等优点。但是 缺点是不利于操作大批量的数据。
BLAST
• BLAST 是一个序列相似性搜索的程序包, 其中包含了很多个独立的程序,这些程序 是根据查询的对象和数据库的不同来定义 的。 • 比如说查询的序列为核酸,查询数据库亦 为核酸序列数据库,那么就应该选择 BLASTn程序。
空位
• 两条或多条序列比对时,如果考虑到插入与删除 时间发生的可能性,那么候选的比对数量就会大 大增加,也就导致了比对的复杂性。
等等……
序列C D
• 序列C: CTGC • 序列D: ACCTAGATCG
-- C--T---G----CACCTAGATCG • 序列的联配中引入的空位不能太多
序列比对数学模型
wk.baidu.com
用DNAMAN对RGDV S8片段编码 区进行限制性酶切分析
搜索查询序列
选择CDS
从文件载入序列
复制粘贴载入序列
限制性酶切进行参数设置
酶选择
结果分析
在线限制性酶切分析工具(例如NEBcutter)
NEBcutter序列提交界面
分析结果
附加内容
• 用DNASTAR (editseq)将 DNA序列翻 译为蛋白质
TBlastx
核酸
核酸
6 框翻译
BLAST 数据库
BLAST算法
• BLAST采用局部比对算法,它的基本要点是序 列片段对(segment pair)的概念。所谓序列片 段对是指两个给定序列中的一对子序列,它们的 长度相等,且可以形成无空位的完全匹配。 BLAST算法首先找出代查序列和目标序列间所 有匹配程度超过一定阈值的序列片段对,然后对 具有一定长度的片段对根据给定的相似性阈值延 伸,得到一定长度的相似性片段,称高分值片段 对(high-scoring pairs, HSPs)。
• 全局比对:在搜索结果中两个被比较序列 所有片断均参与比对,并贯穿整个序列的 长度。 • 局部比对:找出两个被比较序列的最类似 片断,即优先寻找这些局部区域而不是将 对位排列延伸到全序列。
• BLAST 和FASTA都采用局部相似性比对 的方法
4.2.1 BLAST比对 • BLAST 是 Basic Local Alignment Search Tool (基本局部比对搜索工具) 的英文缩写,是一种序列类似性检索工具。 • NCBI提供了网络版BLAST的搜索在线服务 和单机版
实例分析
运用在线BLAST进行目标序列的同源性搜索 1.打开BLAST主页
4.2.1 双序列比对 • BLAST2sequences (NCBI) • 实例分析 比较RGDV S8广西分离物与泰国 分离物序列之间是否相关?二者之间是否 存在(互补/重复/转座 现象)?
提交序列
Bl2seq参数设置
比对结果
多序列比对
打开ClustalX
载入序列界面
比对参数设置
双序列比对参数设置
Aln文件可用Bioedit软件打开
dnd文件可用tree view软件打开
4.3 基因结构识别
• 4.3.1 ORF识别及其可靠性验证
(一)ORF( open reading frame ) ORF( open reading frame )是一个 潜在的蛋白质编码区,确定DNA序列的编码 区,就需要检测该序列中有多少个ORF, 并 验证所预测ORF的可靠性
匹配得分:1 失配得分:0
上例中三个比对从左至右分别是 4、 1、 3
• SEQ 1 和SEQ 2:
1 2 3 4 5 6 7 8 9 10 11 12.。。。。。。。。
AATTGATTGCGCATTTAAAGGG AACTGACGCATCTTAAGGG
AATTGATTGCGCATTTAAAGGG AACTGA------CGCATCTTAAGGG 比对过程中需要在检测序列或目标序列中 引入空位,表示插入或删除
用DNASTAR (editseq)寻找ORF
背景:艰难梭菌(Clostridium difficile,CD) 是肠道感染中仅次于 弯曲杆菌的常见致病菌,我们根据Genth 的文章(New Method to generate enzymatically deficient clostridium difficile toxin B as an antigen for immunization).将CD标准株 VIP10463毒素B分成 3个氨基酸片段: CDB1(氨基酸 1-546,包 含接触反应区),CDB2(氨基酸 90-1750,含有假定的跨膜区), CDB3(氨基酸 1751- 2366,被认为是受体结合区),发现抗毒素 B抗体与毒素B羧基末端 (氨基酸 175-2366)可以发生强烈反应, 说明该段很有可能成为制备疫苗和诊断抗原的重要候选蛋白.故 我们选取了毒素B羧基末端CDB3(氨基酸1751- 2366)进行克隆与 表达,为以后的疫苗和抗原鉴定的研究建立基础. 任务 寻找VPI 10463 标准株毒素B的编码序列(X53138)。 利用DNASTAR 寻找毒素B基因的开放阅读框 寻找CDB3区(氨基酸 1751- 2366)的编码序列 采用实验室仅有的Pgex-4t-1质粒载体进行表达,请选择合适的限 制性内切酶设计引物
检测序列、目标序列
• 检测序列(查询序列):新测定的,希望 通过数据库搜索确定其性质或功能的序列 • 目标序列: 通过数据库搜索得到的和检测 序列具有一定相似性的序列
序列比对基本类型
• 两两比对:蛋白质序列之间 核酸序列之间 • 多序列比对:多个蛋白质或核酸同时比较
常用的序列比对工具BLAST、Clustal X
(三)原核与真核生物ORF区别
• 原核生物编码区只含有一个单独的ORF
• 真核生物编码区被内含子分隔成若干个不 连续的外显子,因此分析真核基因的编码 区时,需要正确识别内含子和外显子的边 界。
(四)Kozak规则(基于已知数据的统计结果)
• 即第一个ATG侧翼序列的碱基分布所满足的 统计规律,若将第一个ATG中的碱基A\T\G分 别标为1、2、3位,则Kozak规则描述如下: • (1)第4位的偏好碱基为G • (2)ATG的5’端约15bp范围内的侧翼序列 内不含碱基T。 • (3)第3、6、9位,G为偏好碱基 • (4)除第3、6、9位,C为偏好碱基
实例分析 使用DNASTAR 的EditSeq程序进行序列转换.
1 载入序列 运行DNASTAR,依次打开File—new—new DNA 载入待分析的目的序列.
2 寻找原序列的反向序列 和 反向互补序列 依次点击Edit—select all sequence
菜单Goodies----Reverse Reverse complement
3 结果解读 片段长度,分子量大小,GC含量, AT含量 核苷酸组成直方图
4.1.3 序列变换
在序列分析过程中,根据不同的分析需要,经常要对核酸序列 进行各种变换,如寻找序列的互补序列,反向序列,反向互补等,常 见生物学软件就集成这类功能,很容易实现序列的自由变换,如 DNAMAN,Primer premier,DNASTAR等
BLAST 程序
程序名 Blastn Blastp 查询序列 核酸 蛋白质 数据库 核酸 蛋白质 搜索方法 核酸序列搜索逐一核酸数据库中的序 列 蛋白质序列搜索逐一蛋白质数据库中 的序列
Blastx
Tblastn
核酸
蛋白质
蛋白质
核酸
核酸序列6框翻译成蛋白质序列后和蛋 白质数据库中的序列逐一搜索。
蛋白质序列和核酸数据库中的核酸序 列6框翻译后的蛋白质序列逐一比 对。 核酸序列6框翻译成蛋白质序列,再和 核酸数据库中的核酸序列6框翻译 成的蛋白质序列逐一进行比对。
4.2 序列比对
为什么要序列比对
• 序列比对又叫序列联配 , 对排 核酸、氨基酸序列的相似性
• 推测结构功能及进化上的联系,是基因识 别,分子进化,生命起源研究的基础。 • 序列 结构 功能
• 序列比对理论基础:进化学说 如果两个序列之间具有足够的相似性, 就推测二者可能有共同的进化祖先,经过序列 内残基的替换、残基或序列片段的缺失、以及 序列重组等遗传变异过程分别演化而来。 序列比较的基本操作是比对, 两条序列中 各个字符的一种对应关系,或字符对比排列。
两种版本的Blast比较
• 单机版 单机版的blast可以通过NCBI的ftp站点 得,有适合不同平台的版本(包括linux,dos 等。获得程序的同时必须获取相应的数据 库才能在本地进行blast分析。单机版的优点 是可以处理大批的数据,可以自己定义数据 库,但是需要耗费本地机的大量资源,此外 操作也没有网络版直观、方便,需要一定的 计算机操作水平。
(五)ORF分析工具(如ORF finder)
实例分析(page 94)
• 应用ORF Finder预测水稻瘤矮病毒(RGDV) S8片段的ORF. • 研究背景:为构建融合蛋白的表达载体, 需要对RGDV S8片段的基因序列进行ORF分 析并确定其位置,为设计表达引物提供信 息。
1、提交序列 2、参数设置
第四章
核酸序列分析
4.1 常规分析
核酸序列的常规分析包括核酸序列的检索,核酸 序列组分分析,序列变换,限制性酶切分析等等
4.1.1 核酸序列的检索
在相关序列数据库中,选择合适的查询方法检索某 个物种的核酸序列信息.如使用NCBI的Entrez查询系 统和EMBL的SRS查询系统
4.1.2 核酸序列组分分析
•
BLAST搜索算法概述
比对质量: 用打分来评价,算法是打分矩阵,如果两条序 列在同一位置上的残基相同,则给+1.0分,不同 则给0分,或者按转换或颠换给分。 空位罚分一 般作负值处理。 比特分值表明序列的得分,数值越高两序列越相 似。
E值:在选定数据库中搜索目标序列的概率。 当E趋向于0时,说明比对结果越显著; 当E 趋向于1则表明结果很可能来自于其 他生物序列,而且是随机产生。
(二)验证依据 • 1、在ORF上发现不寻常的序列变异类型, 即每个第3碱基趋向于相同的概率远大于仅 仅由随机产生的概率。 • GCG软件包的TESTCODE程序可以提供序列中 每个第3碱基的非随机性标示。
• 2、通过分析确定ORF的密码子是否与那些 用于同一生物其他基因中的密码子一致
• 可以用GCG软件包的CODONFREQUENCY程序进 行分析 • 3、比对法,将所预测的ORF翻译成氨基酸 序列,然后将结果序列与现有数据库进行 BLASTP比对,如果发现1个或多个相似的序 列,则所预测ORF的可信度就比较高。