生物信息学第二章

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

G C A (not T, not U) (V comes after U) A G C T (aNy)
masked gap of indeterminate length
Y
K M
T C (pYrimidine)
G T (Ketone)
N
X
A C (aMino group) -
表2.3 FASTA格式支持的氨基酸代码及意义
表2.8 以Raw格式表示的视黄醇结合蛋白 (RET4_HUMAN)的蛋白质序列
MKWVWALLLLAALGSGRAERDCRVSSFRVKENFDKARFSGTWYAMAKKDP
EGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTED
PAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADS YSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNL
表2.9 以MSF格式表示的CLUSTALW联配4条视 黄醇结合蛋白质序列得到的部分结果
MSF: 201 Type: P Check: 5838 ..
Name: sp|Q00724|RET4_MOUSE
Name: sp|P04916|RET4_RAT Name: sp|P18902|RET4_BOVIN Name: sp|P02753|RET4_HUMAN // sp|Q00724|RET4_MOUSE sp|P04916|RET4_RAT sp|P18902|RET4_BOVIN sp|P02753|RET4_HUMAN sp|Q00724|RET4_MOUSE sp|P04916|RET4_RAT
• 它与FASTA格式基本相同,只是行首为“%” 而不是“>” ,如表2.7所示。 • 这类文件的扩展名可为“.gde”。
表2.7 以GDE格式表示的视黄醇结合蛋白 (RET4_HUMAN)的蛋白质序列
%sp|P02753|RET4_HUMAN
mkwvwallllaalgsgraerdcrvssfrvkenfdkarfsgtwyamakkdpeglflqdniv aefsvdetgqmsatakgrvrllnnwdvcadmvgtftdtedpakfkmkywgvasflqkgnd
AEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTEDPAKFKMKYWGVASFLQKGND DHWIVDTDYDTYAVQYSCRLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQEELCLA
RQYRLIVHNGYCDGRSERNLL
*
(3)GDE格式
• 如表2.10所示,Phylip格式的首行给出了进 行比对的序列条数和序列的长度,中间以 空格隔开。然后给出对齐的序列比对行。 与MSF序列比对行不一样的是序列名占10个 字符,并且只在第一组序列比对行中出现 序列名,其他的行中前面空出10个字符的 空格。空位以划线(-)表示。
表2.10 以Phylip格式表示的CLUSTALW联配4条 视黄醇结合蛋白质序列得到的部分结果
Methionine V Asparagine W Pyrrolysine Y Proline Z
Glutamine X Arginine Serine * -
表2.4 FASTA格式表示的视黄醇结合蛋白 (RET4_HUMAN)的蛋白质序列
>sp|P02753|RET4_HUMAN Retinol-binding protein 4 OS=Homo sapiens GN=RBP4 PE=1 SV=3
dhwivdtdydtyavqyscrllnldgtcadsysfvfsrdpnglppeaqkivrqrqeelcla
rqyrlivhngycdgrsernll
(4)Raw格式
• 这个格式相当于去除了空白和数字的文本 格式,只接受表示序列本身的字母符号。 如表2.8所示,序列中含有的数字、空格或 TAB等符号将被忽略。如果含有其它非字母 的符号,比如标点符号,序列将被视为错 误。
代码 意义 A B C D E F G H I Alanine Aspartic Asparagine Cysteine Aspartic acid Glutamic acid Phenylalanine Glycine Histidine Isoleucine acid or 代码 意义 K L M N O P Q R S Lysine Leucine 代码 意义 T U Threonine Selenocysteine Valine Tryptophan Tyrosine Glutamic Glutamine any translation stop gap of indeterminate length acid or
Len: 201 Check: 3704 Weight: 18.7
Len: 201 Len: Len: Check: 3753 Weight: 18.7
201 Check: 6152 Weight: 31.2 201 Check: 2229 Weight: 31.2
MEWVWALVLL AALGGGSAER DCRVSSFRVK ENFDKARFSG LWYAIAKKDP MEWVWALVLL AALGGGSAER DCRVSSFRVK ENFDKARFSG LWYAIAKKDP .......... ........ER DCRVSSFRVK ENFDKARFAG TWYAMAKKDP MKWVWALLLL AALGSGRAER DCRVSSFRVK ENFDKARFSG TWYAMAKKDP EGLFLQDNII AEFSVDEKGH MSATAKGRVR LLSNWEVCAD MVGTFTDTED EGLFLQDNII AEFSVDEKGH MSATAKGRVR LLSNWEVCAD MVGTFTDTED
N3 N1
tRNA other functional RNA
表2.5 以NBRF/PIR格式表示的视黄醇结合蛋白 (RET4_HUMAN)的蛋白质序列
>P1;sp|P02753|RET4_HUMAN
MKWVWALLLLAALGSGRAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEGLFLQDNIV
(5)MSF格式
• 如表2.9所示,MSF格式的起始行中包含了“MSF”字样, 继而给出了序列长度、类型(前面以“Type:”标记)和 校验码(前面以“Check:”标记)。后面接了一行空白 行。空白行之后是序列的描述行,一条序列对应一行。 每条序列的描述行都给出了序列的名称、长度、校验码 和重量值(weight value),它们的前面分别以 “Name: ”、“Len: ”、“Check: ”和“Weight: ”标记。 接着是一行空白行,然后是一行以双斜线(“//”)开 头的行表示描述内容的结束。接着是一些空白行。随后 以对齐的序列比对行表示多序列比对的结果信息。序列 比对行以交叉方式表示每条序列,其中每条序列行以序 列名称开头后跟空格,然后是对齐的氨基酸残基。空位 (gap)以句点(.)表示。
表2.6 NBRF/PIR格式的双字母标记与表示的序 列类型
Code Sequence type Code Sequence type
P1
Protein (complete)
RL
RNA (linear)
F1
Protein
(fragment)
RC
RNA (circular)
DL DC
DNA (linear) DNA (circular)
2.2 序列数据存放格式
• • • • • • • FASTA格式 NBRF/PIR格式 GDE格式 Raw格式 MSF格式 Phylip格式 ALN格式
(1) FASTA格式
• FASTA格式又称Pearson格式,是一种基于文本形式 表示核苷酸序列或氨基酸序列的格式。 • 在这种格式中碱基对或氨基酸用单个字母来编码, 且允许在序列前添加序列名及注释。 • FASTA格式的序列由两部分组成,第一行是由大于号 ">"或分号";"打头的任意文字说明(习惯常用">"作 为起始),用于序列标记,给出序列的描述和注释 信息等,没有长度限制。从第二行开始为序列本身, 只允许使用既定的核苷酸或氨基酸编码符号。 • 文件每行的字母பைடு நூலகம்般不应超过80个字符(通常60个 字符)。 • 这类格式的文件扩展名可规定为“.fasta”
RQYRLIVHNGYCDGRSERNLL
(2)NBRF/PIR格式
• NBRF/PIR格式由三部分组成,第一行以“>” 开头,后跟一个双字母标记,表示序列的 类型。然后再跟一个分号。分号后通常是 序列在数据库中的编码(ID-code),即序 列的唯一标识码(sequence identification code)。第二行给出了序列的文字说明, 该行可长可短,也可以是空白。剩余行给 出序列本身,以星号“*”表示结束。这类 格式的文件扩展名可规定为“.pir”或 “.seq”。
MKWVWALLLLAALGSGRAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEGLFLQDNIV
AEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTEDPAKFKMKYWGVASFLQKGND DHWIVDTDYDTYAVQYSCRLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQEELCLA
L
• 注意,FASTA、NBRF/PIR、GDE和Raw这四种数据存放格 式都可忽略空格和回车。用户可以用自己习惯的方式来 输入序列。比如可以在每10个氨基酸残基后插入一个空 格,每60个氨基酸残基有一回车符,这样有助于用户手 工数出残基数量及识别在序列特定位置处的残基。另外 要注意大多数标准文字处理软件在处理文本文件时会出 现一些问题。比如在使用Microsoft word编辑保存序列文 件时,即便将文件保存为带换行符的纯文本文件(*.txt 文件)。仔细检查文件内容时将会发现在每行的末尾和 文件最后都有两个多余的字符。所以最好避免使用文字 处理软件,而是用简单的文本编辑软件来保存序列。如 果使用了文字处理器,文件应保存为文本文件并用ftp的 ASCII方式来传输,然后使用文本编辑器来分析序列内容 以检查文件的完整性和正确性。
表2.2 FASTA支持的核苷酸代码
代码 意义 代码 意义
A
C G T U R
Adenosine
Cytosine Guanine Thymidine Uracil G A (puRine)
S
W B D H V
G C (Strong interaction)
A T (Weak interaction) G T C (not A) (B comes after A) G A T (not C) (D comes after C) A C T (not G) (H comes after G)
第二章 序列数据资源
本章内容
• • • • • • 2.1 2.2 2.3 2.4 2.5 2.6 分子生物学数据库 序列数据存放格式 核酸序列数据库 蛋白质序列数据库 基因组数据资源 数据的检索与获取
2.1 分子生物学数据库
• 分子生物学数据库特点
– 数据库数量众多 – 数据库种类繁杂 – 数据量巨大且不断增长 – 数据间关系复杂 – 数据存在冗余与偏差 – 版本不断更新 – 提供开源的web服务
sp|P18902|RET4_BOVIN
sp|P02753|RET4_HUMAN
EGLFLQDNIV AEFSVDENGH MSATAKGRVR LLNNWDVCAD MVGTFTDTED
EGLFLQDNIV AEFSVDETGQ MSATAKGRVR LLNNWDVCAD MVGTFTDTED
(6)Phylip格式
4 201
sp|Q00724| MEWVWALVLL AALGGGSAER DCRVSSFRVK ENFDKARFSG LWYAIAKKDP sp|P04916| MEWVWALVLL AALGGGSAER DCRVSSFRVK ENFDKARFSG LWYAIAKKDP sp|P18902| ---------- --------ER DCRVSSFRVK ENFDKARFAG TWYAMAKKDP
相关文档
最新文档