功能位点分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

酵母基因组两联核苷酸频率表
对酵母基因组两 联核苷酸的统计 结果
其中核苷酸对出 现频率最高的达 到0.119
而出现频率最低 的只有0.028
三联核苷酸——基因密码子:
• 在进行编码区域识别时,常常需要对三联 核苷酸进行统计分析,这实际上是分析密 码子的使用偏性。
– 由于密码子的简并性(degeneracy),每个氨 基酸至少对应1种密码子,最多有6种对应的密 码子。
五、限制性内切酶分析
限制性内切酶是在许多细菌体内发现的能识 别和切割外源DNA的核酸酶。细菌自身的DNA 因其限制型内切酶的识别位点被相应的DNA甲 基化酶所甲基化,而不被内切酶所水解。限制型 内切酶的这种作用使之成为遗传工程实验的重要 工具酶之一。
每一种限制性内切酶都有特定的DNA识别 顺序,并且呈回文排列。确定DNA酶切位点是 基因操作的必不可少的步骤,因此DNA序列分 析软件包大多整合有检索酶切位点的程序。这 些程序附带一个酶切位点的数据库文件,根据 这个文件对序列作酶切位点的查找。
(2)密码子的使用有一定的统计规律 • 对同义密码子的使用存在着偏爱 不同种属偏爱的密码子不同 人类基因组: 密码子第三位取A、U的情况占90% 而第三位取G、C仅占10%
密码子的使用偏性与基因功能、蛋白质结构相关
(3)密码子中的密码
• 三个碱基的位置与所编码的氨基酸性质存在着联系
例如:
• 芳香族氨基酸——以U作为第一位碱基 • 中间位置碱基的性质与氨基酸是亲疏水性相关
• 对于一个给定的基因组,最简单的计算就 是统计DNA序列中各类核苷酸出现的频率
• 对于随机分布的DNA序列,每种核苷酸的 出现是均匀分布的
– 出现频率各为0.25。
• 而真实基因组的核苷酸分布则是非均匀的
核苷酸 A C G T
频率 0.3248693727808 0.1751306272192 0.1751306272192 0.3248693727808
基因组计划带来的希望:
• 实验数据的积累速度在迅速地增加 • 计算机科学和技术也在不断地发展
单个基因组分析: 基因序列 基因功能 基因的表达调控 基因产物 基因多态性
比较基因组分析: 物种关系 物种进化 物种起源
二、序列格式转化
各种软件为了自己的需要,通常对序列格式 有一定的要求,给我们的使用带来了一定的困难。 格式转换软件可以将不同格式数据转换以方便使 用。很多综合性软件可以进行序列格式转换,如 DNAstar,seqverter等。
• 这三种阅读顺序称为阅读框(reading frames)
基因可变剪切示意图
基因可变剪切示意图
gene A
序列翻译、ORF查找
1. Generunner http:// 2. 在线的ORF finder http://
Generunner
功能: 序列编辑与类似序列查找、建立自己
的序列数据库进行查找、序列比较、序列 翻译、蛋白序列分析等,还包括DNA分析 常用到的一些功能,如碱基百分组成、分 子量计算等。
ORF finder
http://
输入序列 ▪ 在Enter GI or ACCESSION 后面的框中输入公共序列
的gi号或ACCESSION号 ▪ 在or sequence in FASTA format 后面的框中输入完整
的序列 ▪ 设置序列范围 在FROM: TO: 后面的框中输入进行
ORF查找的序列范围 ▪ Genetic codes 可以选择采用何种遗传编码 ▪ 按OrfFind 按钮即可执行
限制性内切酶分析常用软件
▪ RESTRICTION ANALYSIS ▪ DNAssist 1.02 ▪ DFW 2.21 ▪ Generunner
下载地址:
http://biosoft.biosino.org/dna.html
Dnastar
1. 序列格式转换 2. 限制性内切酶分析 3. 序列拼接
• 在不同物种中,类型相同的基因具有相近的同义 密码子使用偏性
– 对于同一类型的基因由物种引起的同义密码子使用偏 性的差异较小
3. 功能位点分析
• 功能位点(functional site)
– 与特定功能相关的位点,是生物分子序列上的一个功能 单元,或者是生物分子序列上一个较短的片段。
• 功能位点又称为功能序列(functional sequence)、 序列模式(motif)、信号(signal)等。
寻找基因涉及到两个方面的工作 :
– 识别与基因相关的特殊序列信号 – 预测基因的编码区域
结合两个方面的结果确定基因的位置和结构
基因表达调控信息隐藏在基因的上游区域,在组 成上具有一定的特征,可以通过序列分析识别这 些特征。
1. DNA序列分析步骤
• 在DNA序列中,除了基因之外,还包含许多其它 信息,这些信息大部分与核酸的结构特征相关联, 通常决定了DNA与蛋白质或者DNA与RNA的相互 作用。
重复序列: 卫星(satellite)DNA 小卫星(mini-satellite)DNA 微卫星(micro-satellite)
顺式调控元件: 启动子、增强子、沉默子
关于生物复杂性:
生物的复杂性不仅仅是基因的数目 人类基因约为30000个 线虫有20000个基因
230000/220000=210000≌103000
– 在基因中,同义密码子的使用并不是完全一致 的。
– 不同物种、不同生物体的基因密码子使用存在 着很大的差异
• 基因密码子的使用与基因编码的蛋白的结构和功 能有关,与基因表达的生理功能有着密切的联系
• 蛋白的三级结构与密码子使用概率有密切的关系
– 通过对密码子的聚类分析,可以很清晰地将具有不同 三级结构蛋白质的编码基因分成不同的类,而具有相 似三级结构蛋白的编码基因则大致聚在同一类中,从 而证明基因密码子的使用偏性与蛋白质三级结构具有 密切的相关性。
(3)EBML格式
与GBFF格式的主要区别是:每行左端均有由 两个大写字母组成的识别标志,是GenBank识 别标志的缩写。另外,序列的序号在右侧。
(4)GCG格式:是商业性的GCG软件包的专用 格式。
Seqverter
最新下载 http://
*下载后直接安装即可
三、DNA序列分析
——基因序列 ——基因表达调控信息
• 科学家对这本天书了解最多的部分就是遗传密码 或者说掌握了DNA对蛋白质编码的规律
• 关于密码子
(1)密码子的使用是非随机的 • 如果密码子的第一、第二位碱基是A、U, 那么第三位将尽可能使用G、C;反之亦然。 • 如果三位都用G、C,则配对容易,分解难; 三位都用A、U,则相反。 • 一般地说,高表达的基因,要求翻译速度快, 要求密码子和反密码子配对快、分开也快。
• 存放这些信息的DNA片段称为功能位点 – 如 启 动 子 ( Promoter ) 、 基 因 终 止 序 列 (Terminator sequence)、剪切位点(Splice site)等。
一个基本的DNA序列分析方案
发现重复序列 数据库搜索 分析功能位点
序列组成统计分析 综合分析
2. 核苷酸关联分析
一个起始和终止密码子之间的序列称为一 个 开 放 阅 读 框 ( Open Reading Frame , 简 称 ORF),它是一个潜在的蛋白质编码区。
• 对于任何给定的核酸序列(单链DNA或 mRNA),根据密码子的起始位置,可 以按照三种方式进行阅读。
• 例如,序列ATTCGATCGCAA (1) ATTCGA TCGCAA (2) ATTCGAT CGCAA (3) AT TCGATCGCAA
➢ 引物与核酸序列数据库的其他序列无明显类似 ➢ 引物5’端能加上合适的酶切位点 ➢ 引物组成均匀,避免含有相同碱基的多聚体,
两个引物的G+C%含量近似
可见,引物设计包含序列组成的计算、序 列对DNA序列数据库的类似性检索、两个序列 的比较、碱基互补配对和发卡结构分析以及酶 切位点检索等基本的DNA序列分析过程。事实 上,许多PCR引物设计程序会略过或简化上述 的某些过程。
生物信息学
核酸序列的一般分析
主要内容:
一、基因源自文库DNA简介 二、序列格式转化 三、DNA序列分析 四、序列翻译、ORF查找 五、限制性内切酶分析 六、引物设计 七、RNA二级结构分析
一、基因组DNA简介
• 遗传信息存贮在4种字符组成的核酸序列中 • “天书”——用遗传语言书写的人类遗传蓝本
包含的信息量巨大 更重要的是目前人类对它了解甚少 天书中只有4个字符(碱基A、T、G、C) 既没有段落,也没有标点符号 是一个长度为3×109的一维序列。
下载网址:.dnastar.com/web/index.php
六、引物设计
从原理来说,引物的设计和分析并不是DNA 序列分析的一个基本方法,但是在分子生物学研 究中常常需要用到。我们主要介绍针对PCR的引 物设计。
引物设计的标准有:
➢ 引物的长度通常为20-30个碱基 ➢ 引物避免有发卡结构 ➢ 引物避免有彼此之间的互补配对 ➢ 两个引物之间避免有类似序列
(2)Genbank格式(GenBank flat) 最广泛地用于表示生物序列的格式之一,也
是DDBJ/EMBL/GenBank交换数据时采用的格式。
例如:
LOCUS AB094638_1 146 bp DNA 13-APR-2006 BASE COUNT 38 a 17 c 43 g 48 t 0 others ORIGIN 1 gttttaatgt gttgccttgg ttgagtggtg aagctggtta gggtagcgtg taaaacatgg 61 tgggtagatt aatgctttgt gtcaccatgc cgtttggttc gattaatgta atcataagga 121 gagaccataa gttatgaata cgcaga
酵母基因组核苷酸出现频率
• 在统计过程中,如果同时计算DNA的正反 两条链,则根据碱基配对原则,A和T、C 和G的出现频率相同。
• 如果仅统计一条链,则虽然A和T、C和G的 出现频率不同,但是非常接近。
两联核苷酸频率:
• 不同基因组中两个连续核苷酸出 现的频率也是不相同的
• 4种核苷酸可以组合成16种两联 核苷酸
疏水氨基酸的密码子,其第二位碱基是U 亲水氨基酸的密码子,其第二位碱基是A 第二位碱基是G、C的密码子所编码的氨基酸 亲水性、疏水性居中。
人类基因组信息:
• 编码区域只占1%-3% •对于非编码序列,尚不清楚其含义或功能 •非编码区域对于生命活动具有重要的意义
包括内含子、简单重复序列、移动元件、伪基因
常见序列格式:
(1)FASTA格式(又称Pearson格式) 是比较简单而使用最多的序列格式。序列以
">"号开头,其后是单行的关于序列的描述信息, 最后是序列。例子:
>10KD_VIGUN P18646 vigna unguiculata 10 kda protein precursor
MEKKSIAGLCFLFLVLFVAQEVVVQSEAKTCENLVDTY RGPCFTTGSCDDHCKNKEHLLS
– 发现功能位点特征 – 识别功能位点
四、序列翻译、ORF查找
对于一条新的核酸序列,除了对数据库进行 类似性检索和同源性比较外,还有许多其他分析 内容。例如:计算DNA的碱基组成、检索内部重复 序列、检索DNA的特殊位点或信号、开放读框的查 找、鉴定DNA的编码区和翻译基因序列等。
基因编码区是指可以由核糖体翻译成蛋白 质的序列,它的5’端有转录和翻译的起始位点, 3’ 端 有 终 止 位 点 。 基 因 的 起 始 位 点 通 常 是 ATG , 终止位点为TAA、TAG、TGA。
• 核酸序列中的功能位点包括转录因子结合位点、转 录剪切位点、翻译起始位点等。
• 在蛋白质序列分析中,常使用序列模式这个名词, 蛋白质的序列模式往往与蛋白质结构域或者作用部 位有关。
功能位点示意
• 基因组序列中若干个相邻的功能位点组合 形成功能区域(functional region)。
• 功能位点分析的任务
Primer Premier 5.0
下载http:// 安装
执行安装程序即可 *下载的为demo版,只能对它的示例序列进行操作 在 C 盘 下 找 到 WIN.INI , 将 vspace=DU 改 为 vspace=PU 便 可以使用全部功能。
相关文档
最新文档