DNA序列拼接的分布式并行处理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在生 物 学 的研究过程中,生物学家的主要任务是解释实验所产生数据的生物学意义。 随着现代分子生物学的发展以及实验技术的不断改进,分子生物学数据不断产生,这些 数据数量庞大、关系复杂,以至于人们很难再凭借传统研究方法完成如此海量数据的分
析。特别是自1990年美国启动人类基因组计划 (HumanG enomeP roject简称HGP)以
第一章 绪 论
二十 一 世 纪是生命科学的时代,也是信息时代。人类幕因组计划的初步成功,农明 了以大规模 DNA测序 (包括基因组‘。cDNA)为基础、以生物信息学为先导的生物信 la,资源JI:采 足发现、r.-别 新笨因坡有效、最经济的方法,也意味着人类纂因组的研究将 个而进入信息提取和数据分析阶段,即‘{,物信息学发挥重要作用的阶段。
学位论文题 目: 学位论文作者签名
学位论文版权使用授权书
本人 完 全 了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文‘
Aft er a n alyzinge xistinga ssemblym ethodsa nds oftware,a n ovelp arallela lgorithm for DNA sequencea ssemblyo nt hed istributedm emorye nvironmentis p resentedi nt histh esis. Thes erialpr ocessingp rocedurea ndp arallelal gorithm forO verlap,L ayoutan dC onsensuso f theD NAs equencea ssemblya red escribedr espectively.M orep arallelm ethodsa rep resented andc omparedb ya nalyzingd ivisiono fth ef ragmentd atas etan dp arallelizabilityo fth es erial
Shotgun方法中,片段序列的拼接是一个关键而又费时的过程,如何提高序列拼接的速
度是本课题研究的重点 。
本文 在 深 入分析现有拼接算法及其实现软件的基础上,针对分布式并行计算环境,
提出 DNA序列拼接的一种新的并行算法,分别对序列拼接中的 Overlap,L ayout和
Consensus阶段的串行处理过程和并行算法进行了探讨,通过分析数据集的划分方法和 串行处理过程的可并行性,提出了多种不同的并行处理策略并加以比较。
KEYWORDS:B ioinformatics,G enome,D NAS equencing,Se quenceA ssembly, Pa ral lel P roc es sin g, D i str ib ute d m emory
一一一一一一一一一一一一一一一一

独创性声明
本人 声 明 所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。
图5.11数据结构与软件结构关系图、
4l 42 43
图 5.12M atch示意图··‘、、·····1···】】‘···、,一
图5.13两个Read头部存在Match, 一 图_5.14R ead首、尾示意图 :一二一竺二一 二-
43 43 52
图5.15计算 Consensus序列的投票操作
图5.16o utput()流程图 ·,· … …
procedure.
Ba sed o n t hisa lgorithm,a s oftwarep ackagen amedP LN phrapi sim plemented,an dt he data structure,s equence assembly procedure and optimization ofc ommunication are illustratedin d etailre spectively.Th eis suesin s equencea ssemblyp rocedurein clude:fr agment alignmentfo rM atcha ndR eadP airs,Sm ith-Watermana lgorithm,co mputingo fL LR,ou tput overlapsd ynamically,c omputingo f-o fsetsf orL ayout,v oting-of f ragmentsf orc onsensus seq uence parallelism andc ommunication.
Fin all y, so mee xperimentso fth isp arallela lgorithm arep resented.T het estingr esults ind icateth atth ep roposeda lgorithmi so fhi ghe fficiency.
最后 , 一给 出了本文算法及其拼接软件的测试结果,试验数据表明算法是画效可行的。
关键词 生物信息 基因组 DNA测序 序列拼接 井行处理 分布式
国防科学技术大学研究生院学位论文
ABSTRACT
Bio inf orm aticsi sa n ew sciencef ield.R esearchi nt hisf ieldi nvolvesm ulti-disciplines sucha sb iology,co mputers cience,m athematics,et c.B ioinformaticsis s ubjectto e xposeth e biologicals ignificationo fla rgea mounto fb iologicald ataa nde xploret hem ystery ofli fe activities.T hea ssemblyo fw holeg enomeD NAs equenceis a ni mportantta ski nth er esearch ofb ioinformatics.S equencea ssemblyi sa ni mportanta ndt ime-consumingp rocedurein th e commonlyu sedS hotguns equencingm ethod.T hek eyp ointo fth isre searchi sh owt oim prove thesp eedo fse quencea ssembly.
54 5
图5.17环的形成
- …‘
56
图 5.18R ead的排序问题 -t-·····4 -
第 iii页
国防科学技术大学研究生院学位论文
表 目录

表 51得分矩阵 … 表 5.2测试环境-、一
4 ︹凡︺
11 ︸
︐ 苦夕
5.3加速性能测试结果 (含输入、输出时间)
﹄︑ ︐ ︶产
第 :、页
国防科学技术大学研究生院学位论文
来,人类与各种模式生物基因组的测序工作相继展开。迄今已有大约 60个微生物和若 干真核生物,如:酵母、线虫、果蝇;拟南芥的完整基因组完成测序e..2 002年 10月;
我国科学家也率先完成了水稻基因组430M 碱基的测序工作Dl。根据国际数据库的统计,
1999年 12月DNA碱基数目为 30亿,2000年4月 DNA碱基数目是 60亿。截止 2002 年为止,仅美国GenBank数据库中的DNA序列总量己超过 190亿碱基对。生物学数据 的积累并不仅仅表现在 DNA序列方面,与其同步的还有蛋白质的一级结构,即氨基酸 序列的增长。此外,迄今为止,己有一万多种蛋白质的空间结构被测定,基于 cDNA序
基于 本 文 算法,实现了拼接软件 PLesN phrap,本文对该软件的数据结构、拼接过程
的实现原理以及通信优化等作了较为详实的阐述。其中,拼接过程主要包括:首尾比较、
寻找Match,以形成ReadP airs;Sm ithseW aterman比对:LLR分值计算:动态输出Overlap;
计算片段偏移量,以形成片段间的组合关系;片段投票过程,以获得 Consensus序列: 通信与并行优化。
列测序所建立起来的EST数据库其纪录也已达 1000多万条11191.在这些数据基础上派 生、整理出来的数据库己达 700余个Ill。这一切构成了一个生物学数据的海洋。不但如 此,数据仍以每14个月翻一番的速度增长01。生物实验研究中所积累的数据的快速增长, 以及 人们对其中所隐含的复杂生物学本质规律的探索,最终导致数学、统计学、计算机 科学和分子生物学等学科分支的相互交融,形成了新兴的交叉学科:生物信息学
图3.1加权有向图G示意图·4·····4· 一
图4.1加权有向图的切割示意图 ,·。·… 图5.1O verlap,C ontig与Consensus 一
兮 13 l9 29 30
图 5.2O ffset值的定义

图5.3软件结构图 --、、-一 ’一 一一
30 3l
图 5.4运行流程图
4 t···· ,
国防科学技术大学 硕士学位论文
DNA序列拼接的分布式并行处理 姓名:方小永
申请学位级别:硕士 专业:计算机科学与技术
指导教师:骆志刚 20031101
国防科学技术人学研究生院学位论文
摘要
生物 信 息 学是一门综合利用生物学、计算机科学、数学等学科知识的新兴交叉学科, 其主要任务是揭示海量生物学数据中蕴含的生物学意义、探索生命活动的奥秘。全基因 组 DNA 序列拼接是生物信息学研究的重要课题。在大规模 DNA 测序中普遍使用的
图5.5R ead类图 ·,· -, - ·、
图5.6O verlap类图、·、······· -,二
38 39 39
图5.7C ontig类图
、·… 一
40
图5.8C ontigList类图 - -
40
图5.9C GlobalAlignment类和GaLLR类图 图5.10类间关系图 - · ·····。·· ,
(保 密 学 位论文在解密后适用本授权书.) 学位论文题 目: 学位论文作者签名 作者指导教师签名
国防科学技术人学研究生院学位论文
图 目录
图 2.1D NA的双螺旋结构、碱基配对
石 U
图2.2D NA的复制 - 。 ···4····4二
ll
图2.3中心法则 - -、 “ ‘二“
图2.4sh otgun测序流程 -··- t t·
(b lointormatics).
生物 信 息 学是通过综合运用数学、计算机科学与工程和生物学等的工具与技术对大 量复 杂的生物数据进行分析、加工和再处理,从而揭示出这些数据所蕴含的生物学奥秘 的一 门学科.它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭 示数 据所蕴含的生物学意义的目的。由于当前生物信息学发展的主要推动力来自分子生
生物 信 息 处理已经成为信息技术领域面临的巨大的挑战之一。生物技术和信息技术 的紧密结合,使得在尽量短的时间内对生物信息数据的生物学意义做出尽量准确的连释, 并最终阐述生命的奥秘成为可能。DNA测序作为基因组研究的基础性工作,从一开始就 和计算技术紧密结合,为计算机技术提供了强大的应用需求。
'1 .1课题背景
国防科学技术大学研究生院学位论文
物学ቤተ መጻሕፍቲ ባይዱ生物信息学的研究主要集中于核营酸和氨基酸序列的存储、分类、检索和分析等 方面,所以目前生物信息学可以狭义地定义为1U:将计算机科学和数学应用于生物大分 子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生
相关文档
最新文档