DNA序列数据分析技术综述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 2 第 4期 7卷
上Fra Baidu bibliotek

电 力 学 院


V0 . 7. No 4 】2 .
Au . 2 1 g 01
21 0 1年 8月
J u a o S a g a Un v r i o Elc rc Po r or l n f hn hi i e st y f et i we
员 将 现 有 的 挖 掘 方 法 直 接 用 于 D A 序 列 分 N
出应该结合 D A序列特点及实 际应用背景发展 N 专门面向 D A序列的数据挖掘方法 L。, N 8。 这标志 着 D A序列数据挖掘跨入第 3阶段. N 目前这一领 域 的研究 仍 处 于快速 发展 中.
本 文 阐述 了 D A序 列 数 据 挖 掘 的基 础— — N 序列相似性 , 介绍了 D A序 列数据挖掘领域所采 N

脂 , :N 等 D A序列数据分析技术综述
39 6
1 DNA 序 列
生 物 学 研 究 表 明 , N 序 列 不 是 完 全 随 机 D A 的, 它是 由组 成 D A 的 4种 核苷 酸 A, G, N T, C的
21 双序列比对算法及其比 . 较
2 1 1 S t— a r a . . mi W t m n算 法 h e
对 D A序列分析技术 的研究 现状 以及进展进行 了综述 , 出了 D A序列数据分析 的热 点问题 , N 给 N 包括 D A序 N
列 的数据存储方式和基于 D A生物特性 的分析模 型等. N 关键词 :D A序列 ;数据挖掘 ;序列 比对 N 中图分 类号 :T 3 1 1 P 1 .3 文献标 志码 :A
a do e se f N e u ned t a a s r vn icu igtersac f oe s rg n p ni u s A sq e c a n l i aeg e , n ldn eerho nv l t ae s oD a ys i h a o
mo e n n y i mo e a e n DNA b o o ia o i . d la d a a ss d lb s d o l i lg c l man d Ke r s y wo d : D NA e u n e;d t n n sq e c a mi ig;s q e c o a io a e u n e c mp r n s
自 D A序列数据库建立 以来 , N 研究者开始采 用统计学方法分析 D A序列 ¨ 虽然这 与数据 N 引, 挖掘技术在实现手段和研究范 围上存在差异 , 但 当其被写成计算机程序并用于大规模 D A序列 N 数据分析时 , 则成为 D A序列数据挖掘分析技术 N 的雏形. 但是 , 这类方法所需要 的计算量相当大. 而此时数据挖掘技术 已有较大发展 , 于是研究人
DNA q e e Da a An l ssTe h lg Se u nc t ay i c noo y
YI Z i N h ,YI e— o g N W ih n
( colfC m u r n n rainE gnei Sa g a nvrt Sho o pt dI om t ni r g, h n h i i sy o ea f o e n U ei o l tc o e, hn h 2 09 ,C i fEe r w r S g  ̄ 0 0 0 hn ci P a a)
用的关键技术 ; 按照序列的数量 , 对双序列 比对中 的 S i - tm n算法 、 A T mt Wa r a h e F S A算法 、 L S B A T算
析 J这是一般化数据挖 掘方法 的应用阶段. , 这 些方法在效率上有一定程度 的提高 , 但未能完全 满足生物学家的需求 , 因为挖掘结果 的可解释性 和准确率可能偏离实 际生物意义 , 因此研究者提
S t. a r n算 法 mi W t ma h e 副是 双 序 列 比对 算 法
收稿 日期 :2 1 0 0 1- 5—2 0
法进行 了详细分析和比较 , 并对多序列 比对中的
CUT L L S A 算法和 M S L U C E算法进行 了较 为全面 的总结 ; 最后探讨了 D A序列数据挖掘的热点 问 N
题.
通讯作者简介 :殷脂 (9 1 )女 , 18 一 , 硕士 , 讲师 , 江苏泰兴人. 主要研究方 向为 D A计算 . 。a : z zi 13cr N E m iy h h 6 ・o ・ lzi @ n 基金项 目:国家 自 然科学 基金资助项 目(00 18 . 6938)
o e ve fr s a c r g e s i A e u n e d t n l ss tc n lg s p o i e .T e p s e t v r iw o e r h p o r s n DN s q e c aa a ay i e h oo y i r vd d e h r p c o
文章编号 :10 4 2 (0 1 0 0 6 0 06— 7 9 2 1 )4— 3 8— 5
D A 序 列数 据 分 析 技 术 综 述 N
殷 脂 , 卫 红 殷
( 上海 电力学 院 计 算机与信息工程学院 ,上海 2 0 9 ) 00 0
摘 要: N D A序列 敦据是一类重要的生物数据, 是 D A计 也 N 算的 基础数据. 介绍了D A N 序列数据特性, 并
Ab t a t sr c :
DN s q e c s o e o h a i n mp  ̄a td t m mo g b oo i a a a A A e u n e i n f t e b s a d i o n au a n il gc d t . n c l
相关文档
最新文档