5启发式搜索算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

FASTA软件应用 软件应用
/fasta33/
总结表( 总结应用平行运算,这样也可以提高计算速度。 应用平行运算,这样也可以提高计算速度。 其缺点也是价格昂贵。 其缺点也是价格昂贵。
3.应用启发式的方法加速软件的运算速度 应用启发式的方法加速软件的运算速度 优点:成本低,适应性强, 优点:成本低,适应性强,符合软件发展方向 缺点:需要好的新思路 缺点:
启发式的方法: 启发式的方法:对一个所给的问题仅求出其近似 解的算法
常用的启发式搜索法: 常用的启发式搜索法: 1.FASTA法 1.FASTA法; 2.BLAST法。 2.BLAST法
FASTA法 FASTA法:
1985年建立的一个启 由Lipman 和 Pearson于1985年建立的一个启 发式比对方法, 1989年又作了改进 年又作了改进。 发式比对方法,到1989年又作了改进。
启发式的方法基于如下事实: 启发式的方法基于如下事实:
1.即使是线性速度增长的算法,对大于109大小的数据库 即使是线性速度增长的算法,对大于10 即使是线性速度增长的算法 用精确算法也是很难完成的。 用精确算法也是很难完成的。 2.所用的数据库需进行预处理, 软件只是基于一些更 所用的数据库需进行预处理, 所用的数据库需进行预处理 新频率低的数据上运算,以保证其运算速度。 新频率低的数据上运算,以保证其运算速度。 3.在比对时,取代的对数往往要多于插删的对数。 在比对时,取代的对数往往要多于插删的对数。 4. 同源序列,它包含的片段中不包括插删,比对中的 同源序列,它包含的片段中不包括插删, 插删只是作为进一步搜索的起始点
3.计算init1径 3.计算init1径 计算init1
接下来我们用一个氨基酸和DNA得分矩阵计算每个对角 接下来我们用一个氨基酸和DNA得分矩阵计算每个对角 DNA 径的得分,并选择得分最高的对角径作为“init1径 径的得分,并选择得分最高的对角径作为“init1径”
删除一些得分较低的对角径
接下来我们仍从初始区间1(即init1)开始, 接下来我们仍从初始区间1(即init1)开始,以初始区 1( 开始 为中心,在围绕它的一个狭长带内, 间1为中心,在围绕它的一个狭长带内,我们应用经 典的动态规划法计算这个区域内的比对值
在用FASTA搜索数据库时, 在用FASTA搜索数据库时,应用上面近视的方法将所有与该 FASTA搜索数据库时 序列比对结果的值进行从大到小排列。取最高的10个或100 10个或 序列比对结果的值进行从大到小排列。取最高的10个或100 个序列用严格方法即Smith Waterman方法再计算一篇 Smith方法再计算一篇, 个序列用严格方法即Smith-Waterman方法再计算一篇,最 终的结果为应用FASTA FASTA法搜索的结果 终的结果为应用FASTA法搜索的结果
基本概念: 基本概念:
相等片段( spot) 相等片段(hot spot):是指两个序列中一个序列中的某个片段 与另一个序列的某个片段完全相等
HBGH 人血红蛋白γ链 人血红蛋白γ
人血红蛋白β HBBH 人血红蛋白β链
散点图矩阵(DotMatrix): 散点图矩阵(Dot-Plot Matrix):
1.寻找相等片段 寻找相等片段
2.寻找10个最好的对角径。FASTA方法给每个相等片段 2.寻找10个最好的对角径。FASTA方法给每个相等片段 寻找10个最好的对角径 一个正的分数, 一个正的分数,而在同一个对角线上的相等片段之间 则给一个负的分数, 则给一个负的分数,而且这个负的分数随着这两个相 等片段之间的差距增大而逐渐下降。 等片段之间的差距增大而逐渐下降。因此一个对角径 由向几个相等片段组成, 由向几个相等片段组成,其总的得分数为所有相等片 段的得分和片段之间的负得分之和。选择其中10 10个得 段的得分和片段之间的负得分之和。选择其中10个得 分最高的对角径
散点图矩阵(DotMatrix): 散点图矩阵(Dot-Plot Matrix):
3. 对角径(Diagonal run) :在同一个对角线方向 对角径( ) 上但沿着这个对角线不一定要相邻的几个相等片段
散点图矩阵(DotMatrix): 散点图矩阵(Dot-Plot Matrix):
FASTA算法: 算法: 算法
基本思路: 基本思路:
一个好的局部比对,其结果总是有许多完全相等 完全相等的片段组成 一个好的局部比对,其结果总是有许多完全相等的片段组成
HBGH 人血红蛋白γ链 人血红蛋白γ
人血红蛋白β HBBH 人血红蛋白β链
散点图矩阵(DotMatrix): 散点图矩阵(Dot-Plot Matrix):
2.种子长度(ktup):一般地,在蛋白质序列分析中, 2.种子长度(ktup) 一般地,在蛋白质序列分析中, 种子长度 ktup一般选 一般选2 而在DNA序列分析中,一般选4 DNA序列分析中 ktup一般选2,而在DNA序列分析中,一般选4至6.
HBGH 人血红蛋白γ链 人血红蛋白γ
人血红蛋白β HBBH 人血红蛋白β链
第四节 序列比对的启发式搜索算法
生物大分子序列比对方法建立在动态规划法的基础上
Sequence:长度为200至 长度为200 Query Sequence:长度为200至500
严格动态规划法
109-1010的数据库
计算机性能严重不足
解决办法: 解决办法:
1.将软件固化即按照相应的软件构建相应的硬件。 1.将软件固化即按照相应的软件构建相应的硬件。 将软件固化即按照相应的软件构建相应的硬件 优点: 优点:它的确可以提高主算速度 缺点:是价格昂贵,在实际应用中很难得到普及。 缺点:是价格昂贵,在实际应用中很难得到普及。 软件要不断更新换代,成本就会明显的提高。 软件要不断更新换代,成本就会明显的提高。
构建一个有向图,它的顶点代表每个子比对, 构建一个有向图,它的顶点代表每个子比对,每个顶点之间 的权重为它们的得分数。 的权重为它们的得分数。接下来便是在两个顶点之间建立它 们的边。两个顶点之间(如顶点u到顶点v的边) 们的边。两个顶点之间(如顶点u到顶点v的边)有边的前提 条件是顶点u所代表的比对的末端(即最后一对字符) 条件是顶点u所代表的比对的末端(即最后一对字符)所在 的行与列均要小于顶点v所代表的比对始端所在的行与列。 的行与列均要小于顶点v所代表的比对始端所在的行与列。 边的权重为负数,其值依赖于其中的空段数目。这样FASTA 边的权重为负数,其值依赖于其中的空段数目。这样FASTA 根据这个图就可计算其权重最大的路径, 根据这个图就可计算其权重最大的路径,对应的比对就是这 两个序列中的一个比对,我们称之为初始区间n(init n(init两个序列中的一个比对,我们称之为初始区间n(init-n)
相关文档
最新文档