DNA序列拼接的分布式并行处理

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

来，人类与各种模式生物基因组的测序工作相继展开。迄今已有大约６０个微生物和若干真核生物，如：酵母、线虫、果蝇；拟南芥的完整基因组完成测序ｅ．．２００２年１０月；
我国科学家也率先完成了水稻基因组４３０Ｍ碱基的测序工作Ｄｌ。根据国际数据库的统计，
１９９９年１２月ＤＮＡ碱基数目为３０亿，２０００年４月ＤＮＡ碱基数目是６０亿。截止２００２年为止，仅美国ＧｅｎＢａｎｋ数据库中的ＤＮＡ序列总量己超过１９０亿碱基对。生物学数据的积累并不仅仅表现在ＤＮＡ序列方面，与其同步的还有蛋白质的一级结构，即氨基酸序列的增长。此外，迄今为止，己有一万多种蛋白质的空间结构被测定，基于ｃＤＮＡ序
列测序所建立起来的ＥＳＴ数据库其纪录也已达１０００多万条１１１９１．在这些数据基础上派生、整理出来的数据库己达７００余个Ｉｌｌ。这一切构成了一个生物学数据的海洋。不但如此，数据仍以每１４个月翻一番的速度增长０１。生物实验研究中所积累的数据的快速增长，以及人们对其中所隐含的复杂生物学本质规律的探索，最终导致数学、统计学、计算机科学和分子生物学等学科分支的相互交融，形成了新兴的交叉学科：生物信息学
生物信息处理已经成为信息技术领域面临的巨大的挑战之一。生物技术和信息技术的紧密结合，使得在尽量短的时间内对生物信息数据的生物学意义做出尽量准确的连释，并最终阐述生命的奥秘成为可能。ＤＮＡ测序作为基因组研究的基础性工作，从一开始就和计算技术紧密结合，为计算机技术提供了强大的应用需求。
＇１．１课题背景
图５．５Ｒｅａｄ类图 ·，· －，－ ·、
图５．６Ｏｖｅｒｌａｐ类图、·、······· －，二
３８３９３９
图５．７Ｃｏｎｔｉｇ类图
、·… 一
４０
图５．８ＣｏｎｔｉｇＬｉｓｔ类图－－
４０
图５．９ＣＧｌｏｂａｌＡｌｉｇｎｍｅｎｔ类和ＧａＬＬＲ类图图５．１０类间关系图－ · ·····。·· ，
国防科学技术大学硕士学位论文
DNA序列拼接的分布式并行处理姓名：方小永
申请学位级别：硕士专业：计算机科学与技术
指导教师：骆志刚 20031101
国防科学技术人学研究生院学位论文
摘要
生物信息学是一门综合利用生物学、计算机科学、数学等学科知识的新兴交叉学科，其主要任务是揭示海量生物学数据中蕴含的生物学意义、探索生命活动的奥秘。全基因组ＤＮＡ序列拼接是生物信息学研究的重要课题。在大规模ＤＮＡ测序中普遍使用的
Ａｆｔｅｒａｎａｌｙｚｉｎｇｅｘｉｓｔｉｎｇａｓｓｅｍｂｌｙｍｅｔｈｏｄｓａｎｄｓｏｆｔｗａｒｅ，ａｎｏｖｅｌｐａｒａｌｌｅｌａｌｇｏｒｉｔｈｍｆｏｒＤＮＡｓｅｑｕｅｎｃｅａｓｓｅｍｂｌｙｏｎｔｈｅｄｉｓｔｒｉｂｕｔｅｄｍｅｍｏｒｙｅｎｖｉｒｏｎｍｅｎｔｉｓｐｒｅｓｅｎｔｅｄｉｎｔｈｉｓｔｈｅｓｉｓ．ＴｈｅｓｅｒｉａｌｐｒｏｃｅｓｓｉｎｇｐｒｏｃｅｄｕｒｅａｎｄｐａｒａｌｌｅｌａｌｇｏｒｉｔｈｍｆｏｒＯｖｅｒｌａｐ，ＬａｙｏｕｔａｎｄＣｏｎｓｅｎｓｕｓｏｆｔｈｅＤＮＡｓｅｑｕｅｎｃｅａｓｓｅｍｂｌｙａｒｅｄｅｓｃｒｉｂｅｄｒｅｓｐｅｃｔｉｖｅｌｙ．Ｍｏｒｅｐａｒａｌｌｅｌｍｅｔｈｏｄｓａｒｅｐｒｅｓｅｎｔｅｄａｎｄｃｏｍｐａｒｅｄｂｙａｎａｌｙｚｉｎｇｄｉｖｉｓｉｏｎｏｆｔｈｅｆｒａｇｍｅｎｔｄａｔａｓｅｔａｎｄｐａｒａｌｌｅｌｉｚａｂｉｌｉｔｙｏｆｔｈｅｓｅｒｉａｌ
（保密学位论文在解密后适用本授权书．）学位论文题目：学位论文作者签名作者指导教师签名
国防科学技术人学研究生院ＮＡ的双螺旋结构、碱基配对
石Ｕ
图２．２ＤＮＡ的复制－。 ···４····４二
ｌｌ
图２．３中心法则－－、 “ ‘二“
图２．４ｓｈｏｔｇｕｎ测序流程－··－ｔｔ·
基于本文算法，实现了拼接软件ＰＬｅｓＮｐｈｒａｐ，本文对该软件的数据结构、拼接过程
的实现原理以及通信优化等作了较为详实的阐述。其中，拼接过程主要包括：首尾比较、
寻找Ｍａｔｃｈ，以形成ＲｅａｄＰａｉｒｓ；ＳｍｉｔｈｓｅＷａｔｅｒｍａｎ比对：ＬＬＲ分值计算：动态输出Ｏｖｅｒｌａｐ；
计算片段偏移量，以形成片段间的组合关系；片段投票过程，以获得Ｃｏｎｓｅｎｓｕｓ序列：通信与并行优化。
图５．１１数据结构与软件结构关系图、
４ｌ４２４３
图５．１２Ｍａｔｃｈ示意图··‘、、·····１···】】‘···、，一
图５．１３两个Ｒｅａｄ头部存在Ｍａｔｃｈ，一图＿５．１４Ｒｅａｄ首、尾示意图：一二一竺二一二－
４３４３５２
图５．１５计算Ｃｏｎｓｅｎｓｕｓ序列的投票操作
图５．１６ｏｕｔｐｕｔ（）流程图 ·，· … …
图３．１加权有向图Ｇ示意图·４·····４· 一
图４．１加权有向图的切割示意图，·。·… 图５．１Ｏｖｅｒｌａｐ，Ｃｏｎｔｉｇ与Ｃｏｎｓｅｎｓｕｓ一
兮１３ｌ９２９３０
图５．２Ｏｆｆｓｅｔ值的定义
…
图５．３软件结构图－－、、－一 ’一一一
３０３ｌ
图５．４运行流程图
４ｔ···· ，
在生物学的研究过程中，生物学家的主要任务是解释实验所产生数据的生物学意义。随着现代分子生物学的发展以及实验技术的不断改进，分子生物学数据不断产生，这些数据数量庞大、关系复杂，以至于人们很难再凭借传统研究方法完成如此海量数据的分
析。特别是自１９９０年美国启动人类基因组计划（ＨｕｍａｎＧｅｎｏｍｅＰｒｏｊｅｃｔ简称ＨＧＰ）以
ＫＥＹＷＯＲＤＳ：Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，Ｇｅｎｏｍｅ，ＤＮＡＳｅｑｕｅｎｃｉｎｇ，ＳｅｑｕｅｎｃｅＡｓｓｅｍｂｌｙ，ＰａｒａｌｌｅｌＰｒｏｃｅｓｓｉｎｇ，Ｄｉｓｔｒｉｂｕｔｅｄｍｅｍｏｒｙ
一一一一一一一一一一一一一一一一
—
独创性声明
本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表和撰写过的研究成果，也不包含为获得国防科学技术大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。
最后，一给出了本文算法及其拼接软件的测试结果，试验数据表明算法是画效可行的。
关键词生物信息基因组ＤＮＡ测序序列拼接井行处理分布式
国防科学技术大学研究生院学位论文
ＡＢＳＴＲＡＣＴ
Ｂｉｏｉｎｆｏｒｍａｔｉｃｓｉｓａｎｅｗｓｃｉｅｎｃｅｆｉｅｌｄ．Ｒｅｓｅａｒｃｈｉｎｔｈｉｓｆｉｅｌｄｉｎｖｏｌｖｅｓｍｕｌｔｉ－ｄｉｓｃｉｐｌｉｎｅｓｓｕｃｈａｓｂｉｏｌｏｇｙ，ｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，ｍａｔｈｅｍａｔｉｃｓ，ｅｔｃ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓｉｓｓｕｂｊｅｃｔｔｏｅｘｐｏｓｅｔｈｅｂｉｏｌｏｇｉｃａｌｓｉｇｎｉｆｉｃａｔｉｏｎｏｆｌａｒｇｅａｍｏｕｎｔｏｆｂｉｏｌｏｇｉｃａｌｄａｔａａｎｄｅｘｐｌｏｒｅｔｈｅｍｙｓｔｅｒｙｏｆｌｉｆｅａｃｔｉｖｉｔｉｅｓ．ＴｈｅａｓｓｅｍｂｌｙｏｆｗｈｏｌｅｇｅｎｏｍｅＤＮＡｓｅｑｕｅｎｃｅｉｓａｎｉｍｐｏｒｔａｎｔｔａｓｋｉｎｔｈｅｒｅｓｅａｒｃｈｏｆｂｉｏｉｎｆｏｒｍａｔｉｃｓ．Ｓｅｑｕｅｎｃｅａｓｓｅｍｂｌｙｉｓａｎｉｍｐｏｒｔａｎｔａｎｄｔｉｍｅ－ｃｏｎｓｕｍｉｎｇｐｒｏｃｅｄｕｒｅｉｎｔｈｅｃｏｍｍｏｎｌｙｕｓｅｄＳｈｏｔｇｕｎｓｅｑｕｅｎｃｉｎｇｍｅｔｈｏｄ．Ｔｈｅｋｅｙｐｏｉｎｔｏｆｔｈｉｓｒｅｓｅａｒｃｈｉｓｈｏｗｔｏｉｍｐｒｏｖｅｔｈｅｓｐｅｅｄｏｆｓｅｑｕｅｎｃｅａｓｓｅｍｂｌｙ．
国防科学技术大学研究生院学位论文
物学，生物信息学的研究主要集中于核营酸和氨基酸序列的存储、分类、检索和分析等方面，所以目前生物信息学可以狭义地定义为１Ｕ：将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析，以达到理解这些生物大分子信息的生
Ｓｈｏｔｇｕｎ方法中，片段序列的拼接是一个关键而又费时的过程，如何提高序列拼接的速
度是本课题研究的重点。
本文在深入分析现有拼接算法及其实现软件的基础上，针对分布式并行计算环境，
提出ＤＮＡ序列拼接的一种新的并行算法，分别对序列拼接中的Ｏｖｅｒｌａｐ，Ｌａｙｏｕｔ和
Ｃｏｎｓｅｎｓｕｓ阶段的串行处理过程和并行算法进行了探讨，通过分析数据集的划分方法和串行处理过程的可并行性，提出了多种不同的并行处理策略并加以比较。
学位论文题目：学位论文作者签名
学位论文版权使用授权书
本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档，允许论文被查阅和借阅；可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文‘
第一章绪论
二十一世纪是生命科学的时代，也是信息时代。人类幕因组计划的初步成功，农明了以大规模ＤＮＡ测序（包括基因组‘。ｃＤＮＡ）为基础、以生物信息学为先导的生物信ｌａ，资源ＪＩ：采足发现、ｒ．－别新笨因坡有效、最经济的方法，也意味着人类纂因组的研究将个而进入信息提取和数据分析阶段，即‘｛，物信息学发挥重要作用的阶段。
ｐｒｏｃｅｄｕｒｅ．
Ｂａｓｅｄｏｎｔｈｉｓａｌｇｏｒｉｔｈｍ，ａｓｏｆｔｗａｒｅｐａｃｋａｇｅｎａｍｅｄＰＬＮｐｈｒａｐｉｓｉｍｐｌｅｍｅｎｔｅｄ，ａｎｄｔｈｅｄａｔａｓｔｒｕｃｔｕｒｅ，ｓｅｑｕｅｎｃｅａｓｓｅｍｂｌｙｐｒｏｃｅｄｕｒｅａｎｄｏｐｔｉｍｉｚａｔｉｏｎｏｆｃｏｍｍｕｎｉｃａｔｉｏｎａｒｅｉｌｌｕｓｔｒａｔｅｄｉｎｄｅｔａｉｌｒｅｓｐｅｃｔｉｖｅｌｙ．Ｔｈｅｉｓｓｕｅｓｉｎｓｅｑｕｅｎｃｅａｓｓｅｍｂｌｙｐｒｏｃｅｄｕｒｅｉｎｃｌｕｄｅ：ｆｒａｇｍｅｎｔａｌｉｇｎｍｅｎｔｆｏｒＭａｔｃｈａｎｄＲｅａｄＰａｉｒｓ，Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎａｌｇｏｒｉｔｈｍ，ｃｏｍｐｕｔｉｎｇｏｆＬＬＲ，ｏｕｔｐｕｔｏｖｅｒｌａｐｓｄｙｎａｍｉｃａｌｌｙ，ｃｏｍｐｕｔｉｎｇｏｆ－ｏｆｓｅｔｓｆｏｒＬａｙｏｕｔ，ｖｏｔｉｎｇ－ｏｆｆｒａｇｍｅｎｔｓｆｏｒｃｏｎｓｅｎｓｕｓｓｅｑｕｅｎｃｅｐａｒａｌｌｅｌｉｓｍａｎｄｃｏｍｍｕｎｉｃａｔｉｏｎ．
５４５
图５．１７环的形成
－ …‘
５６
图５．１８Ｒｅａｄ的排序问题－ｔ－·····４－
第ｉｉｉ页
国防科学技术大学研究生院学位论文
表目录
表
表５１得分矩阵 … 表５．２测试环境－、一
４︹凡︺
１１︸
︐ 苦夕
５．３加速性能测试结果（含输入、输出时间）
﹄︑ ︐ ︶产
第：、页
国防科学技术大学研究生院学位论文
Ｆｉｎａｌｌｙ，ｓｏｍｅｅｘｐｅｒｉｍｅｎｔｓｏｆｔｈｉｓｐａｒａｌｌｅｌａｌｇｏｒｉｔｈｍａｒｅｐｒｅｓｅｎｔｅｄ．Ｔｈｅｔｅｓｔｉｎｇｒｅｓｕｌｔｓｉｎｄｉｃａｔｅｔｈａｔｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｉｓｏｆｈｉｇｈｅｆｆｉｃｉｅｎｃｙ．
（ｂｌｏｉｎｔｏｒｍａｔｉｃｓ）．
生物信息学是通过综合运用数学、计算机科学与工程和生物学等的工具与技术对大量复杂的生物数据进行分析、加工和再处理，从而揭示出这些数据所蕴含的生物学奥秘的一门学科．它通过对生物学实验数据的获取、加工、存储、检索与分析，进而达到揭示数据所蕴含的生物学意义的目的。由于当前生物信息学发展的主要推动力来自分子生