生物命名法规简介

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物命名法规简介

植物命名法规概要

人类基因命名的规则和过程

杨泉胜, 杨岐生

(浙江大学, 杭州310027)

关键词:人类基因;命名;GDB/HUGO

1. 概述

如今, 至少已有10000多条人类基因被发现, 而且每天约有9条新基因登录。在下一个10年中, 人类的所有基因将被发现。这些基因的命名往往在它的结构功能阐明以前就要进行, 因此如果要求基因的命名能表明其功能就不

可能。而且, 当一个基因的功能已相当清楚时, 一些习用的命名仍在使用, 这就容易引起误解。白介素转化酶相关蛋白酶就是一个典型的例子。按命名者的偏好, 这个酶曾被使用过FILCE、MACH、Mch5、ICErelⅡ、ICH-2和TX 等名字, 现在则统一命名为caspase, 依据该酶是一个在“天冬氨酸后切断的半胱氨酸蛋白酶”(cysteine protease with ability to cleave after aspartic acid)。因此建立一个统一命名规则及命名程序就显得非常迫切[1~3]。人类基因命名由人类基因命名委员会(Committee of Human Gene Nomenclature, 网址http:获得一个人类新基因命名符号的过程

根据人类基因命名规则命名一个基因命名的原则将在本文第3节中详细说明。

查找GDB(genome database)数据库GDB网址http:人类基因命名规则[8]

一般规则

(1)基因符号应为大写的拉丁字母或大写的拉丁字母和阿拉伯数字的组合。基因符号为了有使用的价值应尽可能地简洁, 而且不要试图它包含一个基因所有的已知信息。理想的符号应不超过6个字符。基因符号在书写时应用斜体或加下划线, 但在目录中例外。新的基因符号不能与已存在的基因符号重复。

(2)基因符号的第一个字符必须是字母, 随后的字符可以是字母或字母与数字的组合。

(3)基因符号在书写时应在同一行, 不允许在基因符号中使用上标或下标。

(4)不能使用罗马数字。在以前使用的基因符号中的罗马数字应改成相应的阿拉伯数字。

(5)不能使用希腊字母, 所有的希腊字符应改成相应的拉丁字母。希腊拉丁字母互换表请查阅网页http:

(6) 在以希腊字母打头的基因符号中须将它改成相应的拉丁字母并放在基因符号的后面。如GLA(galactosidase, alpha)、GLB(galatosidase, beta)。

(7)基因符号应简洁和特异, 并能传达基因的功能或特性。

基因符号的构建建议

等级符号, 基因家族和系列

(1)为了方便一批相关基因从计算机数据库中获取, 应尽量使用等级方式。

(2)当不同的基因编码具有类似功能的基因产物时, 基因位点的命名应紧跟在基因符号后加阿拉伯数字, 字母和数字之间不能使用空格, 如ADH1、ADH2、ADH3(三个乙醇脱氢酶基因位点)。但是, 如果它们已在历史上存在, 单个字母的后缀也可来命名这些基因位点, 如LDHA、LDHB、LDHC(三个乳酸脱氢酶位点)。

(3)基因符号的最后一个字符可用来指定基因的某一特性。在历史上曾用组织分布指定基因特性, 但如今更倾向于使用阿拉伯数字。因为以前认为的组织特异性在后来证实基因可能并不局限在这些组织中表达。

同源基因

(1)在不同脊椎动物中的同源基因应有相同的命名。

(2)如果一个基因先在其它物种中发现, 然后发现它在人中的同源基因, 则人的基因不应以H开头予以命名。

(3)为了区分来自不同物种的同源基因, 可在基因符号前加由人类细胞遗传学标准化委员会(Committee on Standardization in Human Cytogenetics)制定的三字母代码(物种缩写表请查阅网页http:DNA片段的命名

DNA片段的命名一般由四部分组成。第一部分用D表示DNA;第二部分用0、1、2、...22、X、Y、XY表示DNA片段所在的染色体位置, 其中0代表还不知染色体位置, 而XY表示片段在X和Y染色体上都有该片段;第三部分表示用探针检测到的DNA片段的复杂程度, S代表这是一条独一无二的DNA片段, Z代表在染色体一个单一位置重复出现的DNA片段, F代表在多条染色体上都存在同源序列但还没有定义家族的DNA片段;第四部分为区分不同的DNA片段加上一个数字编号, 比如微卫星DNA标签(microsatellite DNA marker)DXS990表示在X染色体上独一无二的编号990的DNA片段。如果DNA片段是一个表达序列, 可在上述四部分后加一个后缀E。

5. 推测基因的命名

推测基因包括从EST簇或染色体序列中推测而来的基因、假基因及通过交叉杂交(cross hybridization)或计算机搜索序列数据库而来的基因三种。从EST簇或染色体序列中推测得来的基因的命名是在基因所在染色体的编号后加一个绝对数字编号。假基因是指该序列自己不转录但是与转录的结构基因在序列上高度同源的基因。为了表示假基因与结构基因的对应关系, 假基因的命名是在结构基因后加一个P表示, 如ACTBP2(actin beta pseudogene 2)。通过交叉杂交或计算机搜索序列数据库得来的基因的命名一般是在已知基因后加一个L以表示类似的。

6. 基因命名的发展趋势

人类基因的命名不仅仅只与人类基因相关。基因通过同源性分析而来的同源基因往往借用其它物种中同源基因的名字。一些基因家族和超家族有自己专门的命名体系。因此不同物种命名委员会之间及命名委员会与家族或超家族命名体系间的相互协调对于提高命名有用性, 减少命名的管理费用及方便用户查询是必不可少的[10]。

参考文献

[1]White BJ et al. Nature, 1999, 401:411

[2]Nature, 1999, 401:411

[3]White BJ. Nature, 1997, 390:397

相关文档
最新文档