【转】生物信息学中的常用词汇

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

【转】生物信息学中的常用词汇
【转】生物信息学中的常用词汇 2011年03月13日
degeneracy 简并性指某些氨基酸可以被一个以上的三联密码子编码的特性。

denatured protein 变性蛋白质指蛋白质因为受热作用或者去污剂或尿素等化学作用而失去了正常的三级结构和四级结构的结果。

deoxyribonucleic acid (DNA) 脱氧核糖核酸 ( DNA ) 由相连的核苷酸组成的双链生物二聚体，其核苷酸含有脱氧糖基。

DNA是遗传的分子基础。

dipeptide 二肽由一个肽键连成的两个氨基酸。

disulfide bond 二硫键二硫键是蛋白质中两个半胱氨酸侧链之间形成的化学键。

DNA DNA 参见脱氧核糖核酸。

domain 域(结构域) 指蛋白质结构中相对独立的、具有特定功能的空间区域。

dot plot 点阵图对两条序列进行图形化比较的方法。

图形中的一系列的斜线对应于序列相似的区域。

dynamic programming 动态规划一种可以有效地探求一定复杂问题的各种可能的解决方案的程序;它将一个问题合理分解成一些小的子问题，然后利用部分计算解得到最终答案。

E enhancer 增强子可以与真核转录因子特异性结合的 DNA 序列片段。

增强子序列可以在任何一个方向上起到逐渐增加转录水平的作用。

enzyme 酶一种生物催化剂(通常是蛋白质)，能通过降低活化能使特定的化学反应可以更快地进行。

EST ( Expressed sequence tags ) EST 表达序列标签从 cDNA 的 5' 或 3' 端获取的短的 DNA 片段。

euchromatin 常染色质指真核生物中组蛋白高度甲基化( 乙酰化,)并且 DNA 低度甲基化的开放染色质。

exhaustive search 穷举搜索对问题所有可能的解进行评估。

exon 外显子一个 hnRNA 分子的
各个部分，它们被剪接后连在一起形成 mRNA 。

expression profile 表达谱基因在不同时空的表达模式。

F family 家族在整个长度范围内有多于 50 ,的氨基酸序列相同的蛋白质称为一个家族。

fold 折叠通常和术语“结构模体”有近似
的含义，但是特别暗示在两个或更多的蛋白质中具有相似二级结构的大区域。

fourfold degenerate site 四重简并位点指那些改变一个核苷酸为任何其它三个中的一个都对核糖体将氨基酸插入到蛋白质没有影响的密码子位点。

G G
( Guanine ) G ( 鸟嘌呤) 两种嘌呤中的一种。

gap penalty 空位罚分为了减少序列比对中出现的空位，对空位进行减分的操作。

gaps 空位在两个具有共同祖先序列的比对中，为了反映插入或删除所引入的一个或一些破折号。

GC content GC 含量在 DNA 序列中，核苷酸 G 、 C 的组成相对于 A 、T 的比例。

gel electrophoresis 凝胶电泳指在电场的作用下，使带电分子穿过聚丙烯酰胺、淀粉或者琼脂糖凝胶，从而根据其大小和带电性进行分离的过程。

gene 基因 DNA 或 RNA 中，代表特定功能的某一段核苷酸序列;一种遗传的功能单元，它控制着一个或多个性状的传递和表达。

gene content 基因内容一个基因组所包含的所有基因称为该基因组的基因内容。

gene expression 基因表达利用存储在 DNA 中的信息来合成 RNA 分子，进而生成相应蛋白质的过程。

gene identification 基因识别利用各种方法识别基因组中的基因序列。

gene ontology 基因本体论关于基因和蛋白质知识的标准词汇，是今后实现各种与基因相关数据的统一、进行数据转换、开展数据挖掘
gene order 基因次序基因在染色体上的排列顺序。

gene tree 基的基础。

因树基于同源基因分析得到的系统发生树。

genetic map 遗传图谱以具有多态性的遗传标记为“路标”，以遗传学距离为图距的基因组图谱。

genome 基因组一个生物体全部遗传物质的总和。

genomics 基因组学研究基因组序列，研究序列与功能的关系，研究基因组中所包含的遗传信息。

genomic library 基因文库包含有基因组 DNA 插入的克隆片段集合。

genotype 基因型一个个体或群体全部或部分的基因组成。

global alignment 全局比对在全局范围内对两条序列进行比对打分的方法。

GU-AG rule GU , AG 规则这是一条与真核生
物蛋白质编码基因相关的规则，说的是 RNA 内含子序列 5' 端的起始两个核苷酸总是 5'-GU-3' ，并且其 3' 端的最后两个核苷酸总是 5'-AG-3' 。

H hairpin turn 发夹环在 RNA 链中自身反转允许形成分子内碱基配对的位置。

Hash table Hash 表一种数据结构，可以存储多个数值;不像矩阵要用整型索引获取存在其中的数， hash 表可以用任何类型的值(包括字符串)作为索引。

Hidden Markov Models (HMM) 隐马尔柯夫模型( HMM ) 在序列分析中常用的一种数学模型。

heterochromatin 异染色质指转录停滞、紧密包裹着的染色质; 和高度 DNA 甲基化以及低度的组蛋白乙酰化有关。

heuristic methods
启发式方法反复试验，利用经验解决问题的一种方法。

homologs 同源序
列具有公共祖先的序列。

horizontal gene transfer 基因水平转移基因从一个物种传递到另一个物种的过程。

虽然病原体和转座子通常被疑似为导致它的原因，但是基因这种运动的机制仍然未知。

Human Genome Project, HGP 人类基因组计划通过全球合作，绘制人类基因组的全部序列图谱。

housekeeping gene 管家基因发育过程中在任何时间、在任何器官都高度表达的基因。

H-P (hydrophobic-polar) model H-P (疏水极性)模型以固定半径的单个原子表示蛋白质中的一个氨基酸残基的简单网格模型。

hydrogen bonding 氢键由于极性共价键的作用，使得电荷作用发生轻微分离而形成的分子相互作用。

hydrophilic 亲水的很容易在水性溶剂中溶解;字面上理解，就是和水易处的。

hydrophobic 疏水的难以和水分子相互作用，字面上就是厌水的。

hydrophobic amino acid 疏水氨基酸含有一个全部由碳和氢组成的 R 基团的氨基酸;它不可能和水分子形成氢键 hydrophobic collapse 疏水折叠将一个多肽链折叠成一个压缩的构象，从而使疏水残基远离溶剂的过程，简单的说，是由疏水作用而引起的肽链折叠。

I indel 插入或删除插入或删除。

通过系统发生树推断而得到的祖先。

inferred ancestor 25 推断祖先
inferred tree 推断树对三个或三个以上的同源序列的系统发生关系的描
述，是它们真正关系的一个近似。

informative 有信息 ( 位点 ) 在简约性分析
中的提供有用信息位点; 与此对应的是无信息位点。

ingroup 内群(或内部物种) 一个物种或一个分歧不大的物种系列;与此相对应的是外群。

Inhibitor 抑制剂
任何可以降低酶促反应速度的物质。

initiation complex
起始复合物一系列自身相互作用的转录因子形成复合体，作用与一个基因的
启动子区域，从而促进基因的转录启动。

initiator (Inr) sequence 起始序列
真核基因中与转录起始位点密切相关的核苷酸; 在人类中，该一致序列是 5'-YYCARR-3' 。

insertion sequence 插入序列指除了自身转座需要外不再包含有
任何信息的转座子元件; 当被插入到一个基因中，它将破坏其正常的结构以及基因的功能。

internal node 内部节点在一棵系统发生树中，不对应真正数据的节点，这样的节点代表两个或多个独立家系的公共祖先。

intrinsic terminator 固有终止子在原核生物中终止转录的特殊信号; 指在新转录的 RNA 中可以形成二级结构的核苷酸序列，其后跟随一串尿嘧啶。

intron 内含子在剪切时被切除的内部序列;出现在真核基因的初级转录物 (hnRNAs) 中，而不是在 mRNA 中。

isochores 等值区在真核基因组中具有相似碱基比例的区域。

J junk DNA 垃圾DNA 没有意义的 DNA 序列;也指那些目前还不知道其作用的序列。

K kilobase(kb) 千碱基 DNA 序列的长度单位， 1000 个碱基为 1kb 。

L lead compound 先导化
合物指在药物设计中一个可行的候选分子。

LINE LINE 长散布(核)元件。

linkage map 连锁图谱见
“遗传图谱”。

local alignment 局部比对一种寻找匹配子序列的序列比对
方法。

lock and key approach 锁 - 钥方法两个对接分子的构象被固定的对接
方法。

log odds matrix 对数几率矩阵矩阵元素是每一个字符替换概率的对数的矩阵。

M match score 匹配得分序列比较算法对相同字符匹配设置的得分。

maximum likelihood approach 最大似然法指在一系列的序列比对中，考虑每一个字符被替代的概率的一种系统发生学方法;也是一种基于纯统计的系统发生重建方法。

methylation 甲基化一个甲基 ( —CH 3 ) 附着在一个核苷酸的含氮碱基或者蛋白质上。

microarray 微阵列在一个固体基片上的已知位置固定了 DNA 探针的有序阵列。

microsatellite 微卫星在基因组中很多非常短的核酸序列出现的区域，例如串接出现 5'-CA-3' 的重复序列;通常在个体间变化很大。

MIAME(the minimum information about a microarray
experiment) 微阵列实验的最小信息为了实现微阵列数据共享和交流而制定
的
minisatellite 小卫星指在基因组中长度从5个碱基对到几数据存储标准。

十个碱基对重复序列串连出现的区域; 在个体间变化可能很大。

mismatch score 失配打分在一个比对算法中，对于不相同的字符被比对时所赋予的罚分。

molecular clock 分子钟这是一个有争议性的假设，指对于所有的进化谱系，任何一段给定的 DNA 序列以相同的速率突变。

molecular clones 分子克隆指一段DNA 序列的多数相同拷贝，一般地在例如质粒或病毒等载体中进行，使得它们可以在细菌培养物中生存并传播。

molecular graphics 分子图形学分子图形学是进行分子模型化的一项重要技术，由于分子图形学和其它计算化学方法的相互结合，使得分子模型化方法取得成功。

molecular modeling 分子模型化分子模型化是利用计算机模拟分子结构、研究分子之间相互作用的一种技术。

Monte Carlo algorithm Monte Carlo 算法一种尝试复杂问题的各种可能解的方法，例如将能量最小作为评价一般解的方法。

motif 序列模式指核酸或者蛋白质序列中具有保守性的序列片段。

multiple sequence alignment 多重序列比对三个或更多条序列的比对。

mutation 突变由于 DNA 复制或者修复错误导致核苷酸序列发生的变化;严格地讲，通过选择性过滤在物种代间发生的变化。

N native structure 天
然结构在一个活细胞内，特定的蛋白质通常折叠成的唯一结构。

natural selection (selection) 自然选择个体间由于适应性的差异而形成的基因传给子代的差异现象;导致等位基因频率改变的进化。

nearest neighbor classifier 最近邻分类法一种根据物体特征相似性对它们进行分类的一种统计学方法。

negative regulation
负调控可以阻止基因转录发生的调控 neighbor-joining method 邻近归并法一种聚类方法，在聚类之前，所有对象以单个节点表示，然后逐步合并相邻节点。

nucleotide 核苷酸核酸分子的基本单位，其组成方式为碱基 - 戊糖 - 磷酸。

neural network 神经网络一种可以通过学习来仿效一些神经元的功能计算机程序;能够用来根据统计相似性预测数据集的特定属性。

neutral mutation 中性突变不影响生物适应性的突变。

NMR NMR 核磁共振用于解析蛋白质结构的技术。

nodes 节点在一棵系统发生树中，以节点代表一个分类单元(物种、序列)。

nondegenerate site 非简并位点突变总是导致蛋白质氨基酸序列发生替换的密码子位置。

nonsynonymous substitution 异义替换可以使氨基酸发生变化的密码子中核苷酸的替换。

O open reading frame
(ORF) 开放阅读框( ORF ) 一段由密码子组成的核苷酸序列，在相同阅读框operator sequence 操纵子序列原核生物调控蛋白中没有终止密码子出现。

结合的与基因启动子相关的一段核苷酸序列。

operon 操纵子包含有结构基因和调控元件、在转录中产生mRNA分子的一组相关的基因。

origination penalty 起始罚分用来评估一系列新空位的罚分;序列比对中空位罚分的一部分。

orthologs 直向(直系)同源物那些具有相似性的序列，由于物种形成事件而使得它们从一个祖先序列独立进化。

outgroup 外群(外部参考物种) 指与一组生物体很少相关的一个物种或一组物种。