DNA随机存储器的设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DNA随机存储器的设计
发布时间:2006-9-30 11:58:00
摘要:近年来,生物大分子在模拟计算领域的研究已经取得了很大的突破,无论是理论模型的研究,还是生化实验的验证,生物分子计算机正蓬勃地展现出它的无可限量的发展前
景.DNA随机存储器的研究在整个生物分子计算机研究中是一个重要分支.DNA随机存储器以环状单链DNA分子为存储介质,以4种碱基(腺嘌呤adenine、鸟嘌呤guanine、胞嘧啶cytosine和胸腺嘧啶thymine)对信息进行编码;以DNA分子与各种生化酶(Nicking核酸内切酶、核酸外切酶、聚合酶)间的生化反应来模拟数据的读取和写入.
关键词:DNA随机存储器;环状单链DNA分子;Nicking核酸内切酶;核酸外切酶;聚合酶
DNA随机存储器利用了DNA分子巨大的信息储藏能力和DNA分子能与多种生化酶相互反应的特点,模拟实现了具有随机读写能力的数据存储器.DNA随机存储器用4种碱基A、C、G、T对数据和辅助信息(地址信息和生化酶作用位点等)进行编码,将信息存储于环状单链DNA分子上;同时用现有的生化实验方法,使DNA分子与各种生化酶进行生化反应,实现DNA分子的复制和DNA分子碱基的修改等操作,从而模拟存储器的数据读取和写入操作.
DNA随机存储器是生物分子计算机领域的一个分支,生物分子计算机在1994美国科学家Adleman完成第一个实验验证后得到了飞速的发展.短短的10年间,各种理论模型和实验方法层出不穷,代表性的有Adleman模型,SplicingSystem模型,Insertion-DeletionSystem模型和DNA2EC模型.DNA随机存储器模型是这一系列模型的延续和发展,都是从理论上提出用生物分子来模拟计算机系统的设想,并设计出基于一定生物学背景的实验验证方法.
1信息存储
1.1存储载体
DNA分子用作信息存储可以有多种形式,同时它的编码方式也是多种多样的.作为信息载体的DNA分子可以是单链(single-stranded),也可以是双链(double-stranded);可以是长链,也可以是环链(circularstrand),有些具有特殊生物学含义的环链被称作质粒(plasmid).这些不同的存储载体在存储信息时有各自不同的优缺点,因此在选择存储载体时必须综合考虑这些因素,才能使DNA分子的存储优势和操作的简易性都得到发挥.
DNA随机存储器使用环状单链DNA分子作为存储载体.DNA单链和DNA双链相比各有各的优点和不足,DNA双链比DNA单链稳定,这是大部分生命体选择DNA双链作为遗传物质的重要原因,但是双链的数据难以读取,需解链才可以;DNA单链则可以用碱基互补
(Watson-CrickComplement)的原理来读取数据,但是它的性质不够稳定,比双链更容易断裂,而且还容易形成自身互补的发夹结构(hairpin).选择单链作为存储载体是考虑了它的信息比较容易获取的特性,同时在设计中尽可能地避免发夹结构的产生.DNA长链和DNA环链相比,DNA长链如果被核酸内切酶剪切后将断裂成两段,而DNA环链如果被切断一次后,仍然是连在一起的,在一定的条件下还可以再连回成环链;DNA长链容易被某些核酸外切酶从其一端5’或3’降解,而环链被降解的可能性要小于长链.
1.2信息编码
在环状单链DNA分子上存储数据时,考虑到数据能够被随机读写,数据必须加载地址信息,因此该DNA分子上同时编码了地址和数据的二元信息<地址,数据>.在一维的环状单链DNA分子上,地址和数据组成的二元信息是连续编码的. 在对地址和数据的编码中,所能利用的符号是A、C、G、T4种碱基.
除了考虑地址和数据的编码以外,DNA随机存储器还需要编码酶切位点(enzyme recognition site)的信息.由于存储在DNA存储器上的数据如果要进行读写操作必须借助于生化酶与DNA分子间的反应,因此DNA分子上必须编码生化酶的酶切位点信息.在DNA 随机存储器的设计中只用到了一种作用于特定位点(specific-site)的生化酶———Nicking核酸内切酶.Nicking核酸内切酶和限制性核酸内切酶(Restriction Endonuclease)有很大的相似性,这两种核酸内切酶都作用于特定的位点,都能在位点上或位点附近剪切DNA双链,唯一不同的是限制性核酸内切酶切割DNA双链中的两条链,而Nicking核酸内切酶切割的是DNA双链中的一条,这就意味着限制性核酸内切酶可以将双链切断,而Nicking核酸内切酶只能切断其中一条而整体并未切断.如图1所示,EcoRI是一种限制性核酸内切酶,N.BbvCIA是一种Nicking核酸内切酶.DNA随机存储器的数据写入操作中就是用到了Nicking核酸内切酶这种切而不断的特性(Nicking核酸内切酶可以通过限制性核酸内切酶的改造获得,相关信息可参考NewEnglandBiolabs的产品介绍和论文).
图1Restriction Endonuclease Eco RI和Nicking Endonuclease N.BbvC
IA切割双链时的不同情况
数据、地址和酶切位点是编码在环状单链DNA分子上的三类信息.三类信息之间将采用联合编码的方式,由于用于编码的符号同是A、C、G、T这4个符号,这中间存在的很多问
题是必须考虑的.
1.2.1地址识别错误
由于在对DNA随机存储器中的数据进行读写时,首先将一段与地址码有着互补碱基对的单链引物(primer)绑定到地址码上,如果地址码相互之间差异程度不高的话,有可能造成绑定错误,即地址识别错误.地址绑定错误是不可能从根本上消除的,这和核苷酸本身的化学结构有关,虽然在4种碱基中,Adenine和Thymine配对,Guanine和Cytosine配对,但这不是那么绝对的,有时在一定的退火(annealing)温度和速度条件下,Adenine和Cytosine,Guanine和Thymine也可以形成氢键,只是其强度不如碱基正确配对时来的牢固.为了降低地址识别错误发生的可能性,在对地址进行编码时必须考虑增加必要的冗余信息.冗余信息的增加将降低DNA随机存储器的存储效率,因此在地址识别错误和存储效率之间必须要有一个合理的取舍选择,地址识别错误率和存储效率间应处于某种最佳的平衡.
1.2.2绑定坚固程度
绑在地址码上的引物有可能脱落,因此必须增强引物和单链地址码之间的结合牢固程度,一个简单的方法是增加地址码的长度,这样碱基配对结合形成的氢键数目增加,引物和单链DNA存储器地址码之间的牢固程度自然增加.增加地址码的长度也同时加入了冗余位而防止了错误识别的发生.但是长度不是越长越好,因为地址编码长度增加,有用数据编码的比率就会下降,存储器的效率也会降低.除了增加地址码的长度外,地址码中C-G配对数目的多少也将决定引物与地址码绑定的坚固程度,由于从分子角度看,C-G结合形成三个氢键,而A2T 结合只有两个氢键,C-G结合要比A-T结合牢固,地址码中CG配对数所占的比例将决定地址码和引物间结合的牢固程度,因此增加地址码中CG的比例是提高地址码与引物结合牢固程度的另一种方法.
1.2.3编码的二义性
编码的二义性主要是由于数据和地址编码与酶切位点的编码之间可能产生冲突所造成的,以Nicking Endonuclease N.BbvC IA为例,该内切酶的酶切位点编码为5’-GCTGAGG-3’,该编码有可能和数据或地址编码重复,原因是数据和地址是在一段地址空间内连续编码的,这将导致该内切酶不能正确地执行剪切操作.避免二义性的发生有多种办法,一种最简单的办法是取保留字,也就是将GCTGAGG字符串保留不作数据或地址的编码;另一种方法是设计一套特殊的编码规则,用该规则来对数据或地址进行编码时不会出现GCTGAGG字符串.在DNA随机存储器的设计中,将采用第二种方法来避免二义性.
1.3编码规则(codingrule)
综合各种因素,编码规则的设计可以用如下的方法: