推荐使用人类基因组变异协会关于序列变异描述的规范_刘华
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
·标准化与规范化·
推荐使用人类基因组变异协会关于序列变异描述的规范
刘 华 张丽玲 张 谦 刘 萍 李秀普* 收稿日期:2010-10-18
修回日期:2011-02-28《中华医学遗传学杂志》编辑部,610041 成都市人民南路三段17号四川大学华西校区,E-m a i l:54l i u h u a@163.c o m
摘 要 目前国内科技期刊中关于遗传变异的书写比较混乱,缺乏统一的规范,本文引入国外人类基因组变异协会关于序列变异的描述规范,以期对广大读者、作者及编辑同行起指导作用。
关键词 科技期刊 变异 规范
人类基因组的遗传变异(包括突变及多态)与人类表型及疾病的发生有密不可分的关系,从而成为遗传学的研究热点。随着大量研究成果的报道,科技期刊中关于序列变异的书写不规范问题也逐渐凸显。人类基因组变异协会(H u m a n G e n o m e V a r i a t i o n S o c i e t y,H G V S)从1993年开始就致力于制定序列变异的描述规范,并发表在其协会杂志H u m a n M u t a t i o n上[1-8]。国内类似规范尚属空白,导致很多作者投稿时相关描述不正确或者书写混乱,而编辑无法及时发现并作出修改。这些不规范的描述在正式发表或者进入国内外数据库后无法快速而准确地检索到,难以达到学术交流的目的。因此,笔者认为引入H G V S关于序列变异的描述规范对我国广大读者、作者及编辑同行不无裨益。
1 一般规则
1.1 变异描述的层次
H G V S制定规范的目标是使所有的变异描述都是独一无二的,达到稳定(s t a b l e)、有意义(m e a n i n g f u l)、易记忆(m e m o r a b l e)及明确无歧义(u n e q u i v o c a l)的目的。因为所有变异发生的最终都是D N A水平的变异而引起相应R N A 或蛋白水平的变化,因为在描述变异时最基本的一条规则就是在文章中(包括题目及摘要)首次出现变异描述时,必须写出D N A水平的变异,括号后可描述相应R N A及蛋白变异情况。如,“c.78G>C(p.T r p26C y s)”。其实从描述无歧义的要求来看也很容易理解,引起相同蛋白变异的碱基组合可以有多种,如果没有D N A水平的描述很容易引起歧义。D N A变异涉及的4种碱基A G C T需大写,而R N A中a g c u需小写。蛋白水平的氨基酸推荐用3个字母的缩写,因为单字母缩写容易引起歧义(如A l a,A r g,A s n,A s p都以A字母开头,G l n,G l u,G L y以G字母开头)。当一篇文章中有几个变异时,应列表说明。分列从D N A,R N A,蛋白水平的变异明确表述,并且R N A和蛋白水平的变化应说清楚是通过实验证明还是理论推断。而当变异发生在隐性遗传疾病患者时,还应说明变异是纯合还是杂合情况。
1.2 变异描述的内容
核酸序列变异的描述包括三部分,引用的核酸序列号[或国际人类基因组织(H u m a nG e n o m e O r g a n i s a t i o n,H U G O)基因命名委员会推荐使用的基因符号]、发生变异的位置及变异类型。如,“N G007938.1:g.12083G>A”,“N G007938.1”是核酸序列接受号及版本,“g.12083”表示核酸序列中的位置,“G>A”表示原始碱基是G,突变碱基是A。而使用H U G O基因符号描述的如“G J B2:c.76A>C”。在一篇文章中,如果变异只是发生在一个序列或者基因中,在首次出现后核酸序列或者基因符号可省略,但如果文章中有不同序列或者基因发生变异,则每次描述都需写全。
1.3 变异序列的类型
当描述序列变异时,为避免混淆,需指出序列类型。g代表基因组序列,c代表编码D N A,m代表线粒体序列,r代表R N A序列,p代表蛋白序列。如,g.476A>T,c.76A>T, m.8993T>C,r.76a>u,p.L y s76A s n。
1.4 变异类型的表达
(1)D N A水平的碱基替换用符号“>”表示。
(2)符号“ ”用来界定变异碱基的范围,如,“c.76 78d e l A C T”说明编码D N A76~78位碱基(A C T)缺失。
*通讯作者:李秀普
(3)“d e l ”代表碱基缺失,如前所述。(4)“i n s ”代表碱基插入,如,c .76 77i n s G 。
(5)“d u p ”代表相同碱基的重复(这种情况不能用插入变异表达,如,序列A C T T T G T G C C 突变为A C T T T G T G G C C 不能描述为c .8 9i n s G ,而应描述为c .8d u p G )。
(6)“d e l i n s ”代表插入缺失,如,p .C y s 28 L y s 29d e l i n s T r p 代表在28位密码子(编码半胱氨酸C y s )及29位密码子(编码赖氨酸L y s )有3个碱基缺失,导致这两个氨基酸被色胺酸代替。
(7)“i n v ”代表倒位,如,c .76 83i n v 。(8)“c o n ”代表倒转,如,c .123 678c o n N M
004006.1:c .123 678;
(9)“[]”代表一个等位基因,如,c .[76A>C ;83G>C ]表示一个等位基因中发生c .76A>C 和c .83G>C 两种变异。
(10)“()”用于变异发生的具体位置不确定,括号中指出可能的范围。如,c .(67 70)i n s G 代表在67~70位碱基某个位置插入碱基G 。
2 具体规则
序列的变异可以发生在D N A 、R N A 及蛋白水平,我们从这三个层面研究变异描述的具体规则。
2.1D N A 水平的具体规则2.1.1 核苷酸编号
核苷酸的编号涉及发生变异D N A 的准确定位,在变异描述中至关重要。如图1(h t t p ://w w w .h g v s .o r g /m u t n o m e n /r e f s e q f i g u r e .h t m l )所示,遵循以下规则。
(1)基因组参考序列(g e n o m i c R e f e r e n c e S e q u e n c e ):基因组参考序列的核苷酸编号是完全随意的,以数据库中存储文件中参考序列的第1个碱基编为1,顺次后推,无“+”、“-”等前缀。序列应覆盖感兴趣的序列(基因)的所有核苷酸,正好以基因的5′启动子区开始。
(2)编码D N A 参考序列(c o d i n g D N A R e f e r e n c e S e q u e n c e ):编号无0。编号1对应翻译起始密码子A T G 中的碱基A (T 为2,G 为3,延翻译顺序往后推)。翻译起始密码子A T G 上游(5′端)碱基编号为-1,-2,顺次往前推。翻译终止密码子下游(3′端)的碱基编号为*1,*2,顺次往下推。内含子的编号以紧邻的的外显子的编号加上(上游)或者减去(下游)内含子相对外显子的位置从两边往中间编号。如,图1中第1内含子位于第1外显子(碱基编号1~12)和第2外显子(碱基编号13~88)之间,其间的内含子编号则为12+1,13-1,12+2,13-2,顺次往中间推)
。
图1 序列变异中的编号图示