基因识别
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)第一个内含子-外显子边界(i0, e1)是翻 译起始编码,而最后一个外显子-内含子边界 (en, in)是终止编码。
位点图(分层标注剪切位点)
另设两个特殊的顶点,即起点(source)和终点(sink)。
从起点到终点的任何一条路径代表一个可能的基因结构。
例如:
位点图上的路径
候选基因所对应的道路图中的路径
输入是一系列反映功能位点信号特征和序列编码统计特征的参数 输出就是对一段DNA序列是否是编码区域的判别结果 神经网络具有非线性映射能力,能够发现输入和输出之间的高阶相关 性
5、构建基因模型
基因识别最终任务是建立完整的基因结 构模型 一个理想的基因识别程序应该能够发现 完整的基因结构 (…,e1, i1, …, in-1, en , …)
(1)选择所有长度大于50bp并介于保守
的剪切接受位点和给体位点之间的ORF, 作为候选的外显子;
预选
(2)对于候选的外显子计算其6目编码度
量值,并从大到小将它们排列起来;
减小搜索范围
(3)对照蛋白质序列数据库进行搜索,寻
找相似体。
搜索,筛选
8、基因识别程序介绍
表5.7 基因识别程序及访问地址 (HP—主页;ES—E-mail服务器;WS—web服务器;CL—客户/服务器协议; EX—有可执行代码;SC—有源代码)
这三种阅读顺序称为阅读框(reading frames)
一个开放阅读框(ORF,open reading
frame)是一个没有终止编码的密码子序 列。
原核基因识别任务的重点是识别开放阅读
框,或者说识别长的编码区域。
基于基因密码子特性的识别方法
辨别编码区域与非编码区域的一种方法
是检查终止密码子的出现频率
第i个阅读框成为编码阅读框的概率 计算:
pi Pi p1 p2 p3
算法: 在序列上移动长度为n的窗口,计算Pi 根据Pi的值识别编码的阅读框
基于编码区域碱基组成特征的识别方法
编码序列与非编码序列在碱基组成上 有区别
单个碱基的组成比例 多个碱基的组成
通过统计分析识别编码序列
分析实例
识别编码区域的另一种方法是分析各种 密码子出现的频率
例如,亮氨酸、丙氨酸、色氨酸分别有 6个、4个和1个密码子 将一个随机均匀分布的DNA序列翻译成氨基酸 序列,则在氨基酸序列中上述3种氨基酸出现的 比例应该为6:4:1 但是在真实的氨基酸序列中,上述比例并不 正确
这说明DNA的编码区域并非随机
双联密码统计度量
设一段DNA序列为S,从S的第i位到第j位的双联密 码统计度量IF6(i,j)定义为:
ln( f i k / Fi k ) k 0 , 3, 6 ,...,j 6 IF6 (i, j ) max ln( f i k / Fi k )(5-67) k 1, 4, 7 ,...,j 5 ln( f i k / Fi k ) k 2,5,8,...,j 4
ATG-外显子1 内含子 外显子 外显子n-UAG
基因剪切位点
剪切给体(donor)位点- “gt” 接受体(acceptor)位点- “ag”
基因的可变剪切
基因可变剪切示意
gene A
构建基因模型方法
剪切位点形成外显子和内含子的边界 搜集候选外显子 → 候选基因
候选基因是一条非相交的外显子和内含 子的链,表示为 (i0, e1, i1, …, en, in)
第五节 基因识别
主讲人:孙
啸
制作人:刘志华
东南大学 吴健雄实验室
基因识别
基因识别是生物信息学领域里的一个重 要研究内容 基因识别问题,在近几年受到广泛的重 视
当人类基因组研究进入一个系统测序阶段
时,急需可靠自动的基因组序列翻译解释 技术,以处理大量已测定的但未知功能或 未经注释的DNA序列
2、真核基因识别问题
真核基因远比原核基因复杂:
一方面,真核基因的编码区域是非连续 的,编码区域被分割为若干个小片段。
另一方面,真核基因具有更加丰富的基 因调控信息,这些信息主要分布在基因 上游区域。
基因识别基本思路
•找出基因两端的功能区域: 转录启动区 终止区
• 在启动区下游位置寻找翻译起始密码子
根据蛋白质编码基因的一般性质和特征进行识别,
通过统计值区分外显子、内含子及基因间区域
基于同源序列比较的方法
利用数据库中现有与基因有关的信息(如EST序
列、蛋白质序列),通过同源比较,帮助发现新 基因。
最理想的方法是综合两大类方法的优点, 开发混合算法。
基因识别方法有 : (1)基于规则的系统 (2) 语义学方法 (3) 线性辨别分析(LDA) (4) 决策树 (5) 动态规划 (6) 隐马尔柯夫模型 (7) 剪切对比排列 (spliced alignment)
假设在一条DNA序列中已经找到所有的 ORF,那么可以利用密码子频率进一步 区分编码ORF和非编码ORF
马尔柯夫链模型
利用这种方法,可以计算一个ORF成为 编码区域的可能性。
一个简单的统计模型 假设相继的密码子是独立的,不存在前后依 赖关系。
令fabc代表密码子abc在编码区域出现的频率 给定序列 a1,b1,c1, a2,b2,c2,…, an+1,bn+1 从密码子a1b1c1开始的阅读框,其n个密码子 的出现概率为
原核基因识别
重点在于识别编码区域
非翻译区域(untranslated regions, UTR) 编码区域两端的DNA,有一部分被转录, 但是不被翻译,这一部分称为非翻译区域 5’UTR---基因上游区域的非翻译区域 3’UTR---基因下游区域的非翻译区域
对于任何给定的核酸序列(单链DNA或 mRNA),根据密码子的起始位置,可 以按照三种方式进行解释。 例如,序列ATTCGATCGCAA (1) ATTCGA TCGCAA (2) ATTCGAT CGCAA (3) ATTCGATCGCAA
对HMM进一步抽象,产生更一般的马尔柯
夫模型,以分析复杂的脊椎动物基因 。
(1) 信号传感器模型
将剪切位点、起始编码区域或者终止 编码区域看成是DNA序列上的功能位 点或者信号位点,用HMM来进行分析
外显子区域
内含子区域
保守位点
根据对比排列, 形成具有19状态 的HMM模型。
对前一节所介绍的HMM模型进行修改, 可以处理双联核苷酸的问题,即将4种 概率分布扩展为16种。 假设一段序列为ACTGTC…,则 P(ACTGTC…)=p1(A)p2(CA)p3(T C)p4(GT)p5(TG)p6(CT)… 其中p1是状态1对于4种核苷酸的概率, p2(xy)状态2的条件概率。
其中ij代表内含子(0jn) el代表外显子(1ln) i0和in并非真实的内含子,它们分别代表 ቤተ መጻሕፍቲ ባይዱ因两侧的非编码序列
候选基因位于给定的DNA序列,并满足下列一 致性条件: (1)所有外显子加起来的长度是3的整数倍;
(2)在各个外显子内部(除最后一个外显子的 最后一个密码子),没有终止编码;
p1 f a1b1c1 f a1b2c2 ... f anbncn
第二种和第三种阅读框n个密码子出现的概 率分别为
p2 fb1c1a2 fb2c2a3 ... fbncnan1
p3 f c1a2b2 f c2a3b3 ... fcnan1bn1
(2) 编码区模型
由于密码子的长度为3,因此密码子模型的最 后一个状态应该至少为2阶。 对于2阶的状态,具有64种概率分布,可根据 已知编码区域进行统计计算而得到64种分布。 例如:
p(ACA)=c(CAA)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(CCA)=c(CAC)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(GCA)=c(CAG)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(TCA)=c(CAT)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]
• 识别转录剪切位点 剪切给体位点 剪切接受体位点
各种不同的方法有不同的适应面,而不 同的方法有时可以结合起来以提高基因 识别的准确率。
关键问题是如何提高一个识别算法的敏 感性(sensitivity,Sn)和特异性 (specificity,Sp)。
3、基因识别的主要方法
两大类识别方法: 从头算方法(或基于统计的方法)
4、编码区域识别
两类方法 : 基于特征信号的识别
内部外显子
剪切位点 5’端的外显子一定在核心启动子的下游 3’端的外显子的下游包含多聚A信号和终 止编码
基于统计度量的方法
根据密码子使用倾向
双联密码统计度量等
密码子使用倾向
在一个基因中,第i个(i=1,64)密码子相对使用 倾向RSCUi的定义如下:
基本思想是:利用数据库中的同源信息 进行基因识别,包括DNA、RNA和蛋白 质数据库。 其方法是:
首先通过分析所有可能的剪切接受体位点
和剪切给体位点,构建一组候选的外显子。 然后进一步分析候选外显子,探查所有可 能的外显子组合,寻找一个与已知目标蛋 白质或其他表达序列最匹配的组合
一种半自动的综合方法识别基因过程:
fk是从第k位开始的双联密码的频率 Fk是该双联密码随机出现的频率
通过相似搜索发现编码区域或者外显子
EST(Expressed Sequence Tags) cDNA
蛋白质序列
目前大多数预测程序都将数据库相似性 搜索的信息结合进基因预测过程 同时考虑序列特征信号和统计度量 GRAIL 用人工神经网络识别编码区域
终止密码子出现的期望次数为: 每21个( 64/3)密码子出现一次终止密 码子
基本思想:
如果能够找到一个比较长的序列,其相应
的密码子序列不含终止密码子,则这段序 列可能就是编码区域。
基本算法:
扫描给定的DNA序列,在三个不同的阅读
框中寻找较长的ORF。遇到终止密码子以 后,回头寻找起始密码子。 这种算法过于简单,不适合于处理短的 ORF或者交叠的ORF。
求最优路径
每一条弧附加一个权值 外显子、内含子度量 每个节点附加权值 剪切位点度量
综合评价
6、用于基因识别的HMM模型
隐马尔柯夫模型HMM是一条状态不可见 的马尔柯夫链,其当前状态的输出是可 见的。
每个状态按照一定的概率分布随机地从字母
表中取出字符并释放。
扩展的隐藏马尔柯夫模型(GHMMs )
其中,c(xyz)是密码子xyz的计数。 这样的模型可以检测无结束编码的区域,因为 对应于三个结束编码TAA、TAG和TGA的 p(ATA)、p(GTA)和p(ATG)自动为0。
(3) 组合模型
将上述模型扩展,使之可以
识别具有多个外显子的基因。 改进后的模型见下图
7、基于剪切比对的基因识别方法
Obsi RSCUi Expi
(5-65)
Obsi是该基因中第i个密码子实际出现的次数 Expi是对应密码子期望的出现次数
Exp i
aa syn
i i
(5-66)
aai是统计的第i个密码子出现的次数 syni是所有与第i个密码子同义密码子出现的次数
RSCU大于1表示相应密码子出现的次数比期望次数 高,而小于1则表示出现次数相对较少。
表5.8 各程序的性能比较(敏感性(1)—被预测出的真实编码核酸的%; 敏感性(2)—被正确识别出的编码外显子的%; 特异性(1)—预测出的编码核酸为真实编码核酸的%; 特异性(2)—预测出外显子为真实外显子的%)
基因识别方法存在的问题和局限性: (1)关于基因的定义不明确 → 统一定义 (2)目前的方法仅仅识别蛋白质编码基因 → 转录信号 (3)现有的许多方法仅检测单个基因 →部分基因、多重基因 (4)基于同源分析的方法是保守的 →不可能发现新的基因 (5) 忽视关于基因结构的生物学知识 →基因表达的真实分子机制
谢谢!
位点图(分层标注剪切位点)
另设两个特殊的顶点,即起点(source)和终点(sink)。
从起点到终点的任何一条路径代表一个可能的基因结构。
例如:
位点图上的路径
候选基因所对应的道路图中的路径
输入是一系列反映功能位点信号特征和序列编码统计特征的参数 输出就是对一段DNA序列是否是编码区域的判别结果 神经网络具有非线性映射能力,能够发现输入和输出之间的高阶相关 性
5、构建基因模型
基因识别最终任务是建立完整的基因结 构模型 一个理想的基因识别程序应该能够发现 完整的基因结构 (…,e1, i1, …, in-1, en , …)
(1)选择所有长度大于50bp并介于保守
的剪切接受位点和给体位点之间的ORF, 作为候选的外显子;
预选
(2)对于候选的外显子计算其6目编码度
量值,并从大到小将它们排列起来;
减小搜索范围
(3)对照蛋白质序列数据库进行搜索,寻
找相似体。
搜索,筛选
8、基因识别程序介绍
表5.7 基因识别程序及访问地址 (HP—主页;ES—E-mail服务器;WS—web服务器;CL—客户/服务器协议; EX—有可执行代码;SC—有源代码)
这三种阅读顺序称为阅读框(reading frames)
一个开放阅读框(ORF,open reading
frame)是一个没有终止编码的密码子序 列。
原核基因识别任务的重点是识别开放阅读
框,或者说识别长的编码区域。
基于基因密码子特性的识别方法
辨别编码区域与非编码区域的一种方法
是检查终止密码子的出现频率
第i个阅读框成为编码阅读框的概率 计算:
pi Pi p1 p2 p3
算法: 在序列上移动长度为n的窗口,计算Pi 根据Pi的值识别编码的阅读框
基于编码区域碱基组成特征的识别方法
编码序列与非编码序列在碱基组成上 有区别
单个碱基的组成比例 多个碱基的组成
通过统计分析识别编码序列
分析实例
识别编码区域的另一种方法是分析各种 密码子出现的频率
例如,亮氨酸、丙氨酸、色氨酸分别有 6个、4个和1个密码子 将一个随机均匀分布的DNA序列翻译成氨基酸 序列,则在氨基酸序列中上述3种氨基酸出现的 比例应该为6:4:1 但是在真实的氨基酸序列中,上述比例并不 正确
这说明DNA的编码区域并非随机
双联密码统计度量
设一段DNA序列为S,从S的第i位到第j位的双联密 码统计度量IF6(i,j)定义为:
ln( f i k / Fi k ) k 0 , 3, 6 ,...,j 6 IF6 (i, j ) max ln( f i k / Fi k )(5-67) k 1, 4, 7 ,...,j 5 ln( f i k / Fi k ) k 2,5,8,...,j 4
ATG-外显子1 内含子 外显子 外显子n-UAG
基因剪切位点
剪切给体(donor)位点- “gt” 接受体(acceptor)位点- “ag”
基因的可变剪切
基因可变剪切示意
gene A
构建基因模型方法
剪切位点形成外显子和内含子的边界 搜集候选外显子 → 候选基因
候选基因是一条非相交的外显子和内含 子的链,表示为 (i0, e1, i1, …, en, in)
第五节 基因识别
主讲人:孙
啸
制作人:刘志华
东南大学 吴健雄实验室
基因识别
基因识别是生物信息学领域里的一个重 要研究内容 基因识别问题,在近几年受到广泛的重 视
当人类基因组研究进入一个系统测序阶段
时,急需可靠自动的基因组序列翻译解释 技术,以处理大量已测定的但未知功能或 未经注释的DNA序列
2、真核基因识别问题
真核基因远比原核基因复杂:
一方面,真核基因的编码区域是非连续 的,编码区域被分割为若干个小片段。
另一方面,真核基因具有更加丰富的基 因调控信息,这些信息主要分布在基因 上游区域。
基因识别基本思路
•找出基因两端的功能区域: 转录启动区 终止区
• 在启动区下游位置寻找翻译起始密码子
根据蛋白质编码基因的一般性质和特征进行识别,
通过统计值区分外显子、内含子及基因间区域
基于同源序列比较的方法
利用数据库中现有与基因有关的信息(如EST序
列、蛋白质序列),通过同源比较,帮助发现新 基因。
最理想的方法是综合两大类方法的优点, 开发混合算法。
基因识别方法有 : (1)基于规则的系统 (2) 语义学方法 (3) 线性辨别分析(LDA) (4) 决策树 (5) 动态规划 (6) 隐马尔柯夫模型 (7) 剪切对比排列 (spliced alignment)
假设在一条DNA序列中已经找到所有的 ORF,那么可以利用密码子频率进一步 区分编码ORF和非编码ORF
马尔柯夫链模型
利用这种方法,可以计算一个ORF成为 编码区域的可能性。
一个简单的统计模型 假设相继的密码子是独立的,不存在前后依 赖关系。
令fabc代表密码子abc在编码区域出现的频率 给定序列 a1,b1,c1, a2,b2,c2,…, an+1,bn+1 从密码子a1b1c1开始的阅读框,其n个密码子 的出现概率为
原核基因识别
重点在于识别编码区域
非翻译区域(untranslated regions, UTR) 编码区域两端的DNA,有一部分被转录, 但是不被翻译,这一部分称为非翻译区域 5’UTR---基因上游区域的非翻译区域 3’UTR---基因下游区域的非翻译区域
对于任何给定的核酸序列(单链DNA或 mRNA),根据密码子的起始位置,可 以按照三种方式进行解释。 例如,序列ATTCGATCGCAA (1) ATTCGA TCGCAA (2) ATTCGAT CGCAA (3) ATTCGATCGCAA
对HMM进一步抽象,产生更一般的马尔柯
夫模型,以分析复杂的脊椎动物基因 。
(1) 信号传感器模型
将剪切位点、起始编码区域或者终止 编码区域看成是DNA序列上的功能位 点或者信号位点,用HMM来进行分析
外显子区域
内含子区域
保守位点
根据对比排列, 形成具有19状态 的HMM模型。
对前一节所介绍的HMM模型进行修改, 可以处理双联核苷酸的问题,即将4种 概率分布扩展为16种。 假设一段序列为ACTGTC…,则 P(ACTGTC…)=p1(A)p2(CA)p3(T C)p4(GT)p5(TG)p6(CT)… 其中p1是状态1对于4种核苷酸的概率, p2(xy)状态2的条件概率。
其中ij代表内含子(0jn) el代表外显子(1ln) i0和in并非真实的内含子,它们分别代表 ቤተ መጻሕፍቲ ባይዱ因两侧的非编码序列
候选基因位于给定的DNA序列,并满足下列一 致性条件: (1)所有外显子加起来的长度是3的整数倍;
(2)在各个外显子内部(除最后一个外显子的 最后一个密码子),没有终止编码;
p1 f a1b1c1 f a1b2c2 ... f anbncn
第二种和第三种阅读框n个密码子出现的概 率分别为
p2 fb1c1a2 fb2c2a3 ... fbncnan1
p3 f c1a2b2 f c2a3b3 ... fcnan1bn1
(2) 编码区模型
由于密码子的长度为3,因此密码子模型的最 后一个状态应该至少为2阶。 对于2阶的状态,具有64种概率分布,可根据 已知编码区域进行统计计算而得到64种分布。 例如:
p(ACA)=c(CAA)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(CCA)=c(CAC)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(GCA)=c(CAG)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(TCA)=c(CAT)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]
• 识别转录剪切位点 剪切给体位点 剪切接受体位点
各种不同的方法有不同的适应面,而不 同的方法有时可以结合起来以提高基因 识别的准确率。
关键问题是如何提高一个识别算法的敏 感性(sensitivity,Sn)和特异性 (specificity,Sp)。
3、基因识别的主要方法
两大类识别方法: 从头算方法(或基于统计的方法)
4、编码区域识别
两类方法 : 基于特征信号的识别
内部外显子
剪切位点 5’端的外显子一定在核心启动子的下游 3’端的外显子的下游包含多聚A信号和终 止编码
基于统计度量的方法
根据密码子使用倾向
双联密码统计度量等
密码子使用倾向
在一个基因中,第i个(i=1,64)密码子相对使用 倾向RSCUi的定义如下:
基本思想是:利用数据库中的同源信息 进行基因识别,包括DNA、RNA和蛋白 质数据库。 其方法是:
首先通过分析所有可能的剪切接受体位点
和剪切给体位点,构建一组候选的外显子。 然后进一步分析候选外显子,探查所有可 能的外显子组合,寻找一个与已知目标蛋 白质或其他表达序列最匹配的组合
一种半自动的综合方法识别基因过程:
fk是从第k位开始的双联密码的频率 Fk是该双联密码随机出现的频率
通过相似搜索发现编码区域或者外显子
EST(Expressed Sequence Tags) cDNA
蛋白质序列
目前大多数预测程序都将数据库相似性 搜索的信息结合进基因预测过程 同时考虑序列特征信号和统计度量 GRAIL 用人工神经网络识别编码区域
终止密码子出现的期望次数为: 每21个( 64/3)密码子出现一次终止密 码子
基本思想:
如果能够找到一个比较长的序列,其相应
的密码子序列不含终止密码子,则这段序 列可能就是编码区域。
基本算法:
扫描给定的DNA序列,在三个不同的阅读
框中寻找较长的ORF。遇到终止密码子以 后,回头寻找起始密码子。 这种算法过于简单,不适合于处理短的 ORF或者交叠的ORF。
求最优路径
每一条弧附加一个权值 外显子、内含子度量 每个节点附加权值 剪切位点度量
综合评价
6、用于基因识别的HMM模型
隐马尔柯夫模型HMM是一条状态不可见 的马尔柯夫链,其当前状态的输出是可 见的。
每个状态按照一定的概率分布随机地从字母
表中取出字符并释放。
扩展的隐藏马尔柯夫模型(GHMMs )
其中,c(xyz)是密码子xyz的计数。 这样的模型可以检测无结束编码的区域,因为 对应于三个结束编码TAA、TAG和TGA的 p(ATA)、p(GTA)和p(ATG)自动为0。
(3) 组合模型
将上述模型扩展,使之可以
识别具有多个外显子的基因。 改进后的模型见下图
7、基于剪切比对的基因识别方法
Obsi RSCUi Expi
(5-65)
Obsi是该基因中第i个密码子实际出现的次数 Expi是对应密码子期望的出现次数
Exp i
aa syn
i i
(5-66)
aai是统计的第i个密码子出现的次数 syni是所有与第i个密码子同义密码子出现的次数
RSCU大于1表示相应密码子出现的次数比期望次数 高,而小于1则表示出现次数相对较少。
表5.8 各程序的性能比较(敏感性(1)—被预测出的真实编码核酸的%; 敏感性(2)—被正确识别出的编码外显子的%; 特异性(1)—预测出的编码核酸为真实编码核酸的%; 特异性(2)—预测出外显子为真实外显子的%)
基因识别方法存在的问题和局限性: (1)关于基因的定义不明确 → 统一定义 (2)目前的方法仅仅识别蛋白质编码基因 → 转录信号 (3)现有的许多方法仅检测单个基因 →部分基因、多重基因 (4)基于同源分析的方法是保守的 →不可能发现新的基因 (5) 忽视关于基因结构的生物学知识 →基因表达的真实分子机制
谢谢!