生物信息学 - 浙江大学邮件系统
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
EMBnet
EMBnet (European Molecular Biology Network)建立于1988年,由多个 位于欧洲及欧洲以外的成员国节点及专业节点组成。除了上面提到的欧 洲生物信息学研究所EMBL-EBI,瑞士生物信息研究所SIB、澳大利亚国 家基因组学信息服务(AGRIS)以及中国北京大学的生物信息中心PKUCBI都是EMBnet的成员。它们不仅为本国用户提供生物信息资源及生物 计算服务,同时提供用户支持、培训以及进行相关的生物信息研究与开 发。比如专业蛋白质分析系统ExPASy就是由SIB开发及维护,而通用蛋 白质资源UniProt则由EMBL-EBI及SIB、PIR共同进行维护的。由于 EMBnet的成员国节点及专业节点各自包含了大量的公共数据信息及自 行开发的数据库及分析工具,因此可作为生物学数据资源的补充来源。 相关信息可以从/en/members/National 和 /en/members/Specialist中查到。
二、数据库的类型
到目前为止,生物学数据库使用了4种不同的
数据库结构类型:平面文件、关系型数据库、 面向对象数据库和基于Internet平台的XML。
三、生物学数据库
根据存放数据类型的不同,可以分为序列(如 GenBank, SWISSPROT等)、(三维)结构(如 PDB)、文献(如NCBI的PubMed)、序列特征 (如PROSITE, Pfam等)、基因组图谱(如 MapViewer, Ensembl等)、表达谱等多种数据库, 每一种还可以进行更细致层次的划分。而根据数据 库存储的具体内容则还可以分为一级数据库和二级 数据库(primary and secondary databases)以及 用户针对性更强的专用数据库(specialized databases) 。
EBI
EBI(),全称是European Bioinformatics Institute,是隶属于欧洲分子生物学研究室 (EMBL)的一个非盈利性的学术机构,专门从事生物信息 学方面的研究与服务。EBI的主要任务包括为科研团体免费 提供数据及生物信息学服务;从生物信息学的角度上为推动 特定科研项目的发展做出努力,为各阶层的科研人员提供高 级生物信息学培训以及帮助向工业界发布最新技术等。EBI 的网站在数据规模与承担的任务方面都与NCBI相当,其资 源也分为数据库、工具、EBI研究小组、培训、帮助等几个 部分,而全部资源及工具则显示在其Site Index页面 (/Information/sitemap.html)中。
如何查找与研究相关的生物学资源
公共搜索引擎
重要的生物信息学门户站点 《核酸研究》每年的数据库专辑/网络服务器
专辑
四、重要的生物信息站点
NCBI--美国国家生物技术信息中心
EBI—欧洲生物信息研究所 EMBnet
— 欧洲分子生物学信息网络
NCBI
NCBI(), 全称为National Center for Biotechnology Information,建立于 1988年11月4日,下属于美国国立卫生研究院 (National Institutes of Health,简称NIH)的国立医 学图书馆(National Library of Medicine,简称 NLM)。中心的主要任务是创建公共可接入数据库, 引导在计算生物学以及在基因组数据分析方面的软 件开发,同时发布各类生物医学信息。 NCBI的数据资源主要包括数据库、分析工具、数据 提交及教育四个部分,每个部分的资源都有更为细 致的分类
一级数据库和二级数据库
一级数据库主要内容是来源于实验室操作所得到的原始数据 结果(如测序得到的序列或经过X射线晶体衍射所得到的三维 结构数据等),包含一些基本的说明(如序列所属的物种、类 型、序列发表的文献出处等)。如GenBank、DDBJ、EMBL 以及PDB(Protein Data Bank)等 二次数据库则是在一次数据库的信息基础上进行了计算加工 处理并增加了许多人为的注释而构成的。比如NCBI的 RefSeq数据库,其mRNA序列是综合了GenBank中来源于 同一物种相同基因的所有mRNA序列信息的一致性序列 (consensus sequence)
Flatfile 格式(UniProt CYC_HUMAN 部分)
Perl的正则表达式可用于解析Flatfile 格式文件
my $newEntry = 1; while(<STDIN>) { my($line) = $_; chomp($line); if($line =~ /^ID/) { # matched ID line $newEntry=1; } if($line =~ /^AC\s*(\w+)/) { # matched AC line if ($newEntry==1) { # print only when at first line print "Primary accession " . $1; } $newEntry=0; } if($line =~ /^SQ\s*\w*\s*(\w*)/) { # match SQ line print " sequence length: " . $1 . "\n"; } # ignore other lines } 例程输出: > perl example.pl < uniprot.dat Primary accession Q4U9M9 sequence length: 893 Primary accession P15711 sequence length: 924 Primary accession Q43495 sequence length: 102 Primary accession P18646 sequence length: 75 Primary accession P13813 sequence length: 296 ………
<!ELEMENT MedlineCitation (PMID, Article)பைடு நூலகம் <!ELEMENT Article (Journal, ArticleTitle, Abstract?, AuthorList?)> <!ELEMENT Journal (ISSN, JournalIssue, Title)> <!ELEMENT JournalIssue (Volume?, Issue?, PubDate)> <!ELEMENT Abstract (AbstractText)> <!ELEMENT Author (LastName, ForeName, Initials?)> <!ELEMENT AuthorList (Author+)> <!ELEMENT PubDate (Year, Month, Day)> <!ELEMENT AbstractText (#PCDATA)> <!ELEMENT ArticleTitle (#PCDATA)> <!ELEMENT Day (#PCDATA)> <!ELEMENT ForeName (#PCDATA)> […………..] <!ATTLIST Article PubModel (Print | Electronic) #REQUIRED > <!ATTLIST JournalIssue CitedMedium (Internet | Print) #REQUIRED> <!ATTLIST Author ValidYN (Y | N) "Y"> <!ATTLIST ISSN IssnType (Electronic | Print | Undetermined) #REQUIRED 上例中XML的文件类型定义(DTD)(部分)
普通高等教育 “十二五”规划教材
生物信息学
Bioinformatics
第二章 生物学数据库及其检索
第一节 生物数据库简介
什么是数据库
数据库类型 生物学数据库 重要的生物信息站点
一、什么是数据库
数据库(database)是一类用于存储和管理数据的 计算机文档,是统一管理的相关数据的集合。其存 储形式有利于数据信息的检索与调用。数据库开发 的主要任务就是将数据以结构化记录的形式进行组 织以便于信息的检索。数据库的每一条记录 (record),也可以叫做条目(entry),则包含了 多个描述某一类的数据特性或属性的字段(field),比 如基因名,来源物种,序列的创建日期等,这也是 数据结构化的基础;而值(value)则是指每个记录 中某个字段的具体内容。
三、序列格式
序列格式主要在布局和序列码行的形成上不
同,而一些格式同时提供描述或元数据或行 集。 对于许多软件工具来说,它们能很自然地自 动区分和接受不同格式的序列 常用格式:Fasta;GenBank;SwissProt等
XML格式
XML(可扩展标记语言)是一种在文本文件
中组织数据的语言。 一个XML文件代表一个嵌套的信息树。树中 的每一个节点能包含像一串子节点或者一些 属性这样的数据,并且一个XML文件始于根 节点。一个XML文件有一个文本,在文本中 每一个节点的内容及其子节点被一对相互封 闭的标签划定。形式上类似html。
<MedlineCitation Owner="NLM" Status="MEDLINE"> <PMID>10697468</PMID> [… … … …] <Article PubModel="Print"> <Journal> <ISSN IssnType="Print">0099-2399</ISSN> <JournalIssue CitedMedium="Print"> <Volume>1</Volume> <Issue>6</Issue> <PubDate> <Year>1975</Year> <Month>Jun</Month> </PubDate> </JournalIssue> <Title>Journal of endodontics</Title> </Journal> <ArticleTitle>Methodology and criteria in the evaluation of dental implants.</ ArticleTitle> [………….] 来自MEDLINE的XML例子(部分)
XML文档的结构
XML文档的结构是根据一种文件类型定义(DTD) 组织的。一个DTD定义了一类遵从一系列规则的 XML文档。这些规则中包括例如一个节点中有多少 个,怎样类型,怎样组织的子节点。一个DTD是通 过一个文件类型声明与XML文档联系在一起的,这 个声明指出了这个XML文档是依附于结构由该DTD 定义的文档类。一个DTD是通过XML确定其特殊性 的,在这个XML文档里可能直接包含了关于类型的 声明。为了更方便,DTD是以独立文件的形式进行 存储和调用的。
第二节 生物学数据库的内容与结构
数据存储基础
平面文件格式 序列格式 XML格式 关系型数据库
数据存储基础
信息是存储在计算机临时或永久存储器中的
一串字节。 获取信息需要控制两个方面。第一是数据被 编译为字节的方式,或者成为数据格式。第 二是运用哪些程序能够编码(写)和解码 (读)这些数据 。 目前最常用的格式类型:平面文件格式、 XML和关系型数据库
平面文件格式—Flat File
这种格式是将多个记录以特殊约定的分隔符(比如 “/” 或“|”)进行区分,而每一个记录内的众多字段 也是通过一些特定的分隔符(如“,”或“:”) 加以区分。数据库文件就是由这些字段及内容所组 成,并不包含什么隐藏的计算机指令。 优点:通用性(跨平台) ;容易为perl程序进行解 析和处理;专用的flat-file数据分析器可以用来将数 据导入到数据管理系统。 缺点:检索复杂,冗余字段较多,大容量数据库难 以处理