生物信息学-第1章-人民卫生出版社
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物学与计算机信息处理技术相结合,以 计算机为研究工具对生物信息进行获取、 处理、储存、传播、分析、模拟和解释的
交叉学科。
生物信息学研究内容
• 它利用数据库技术和软件技术对大量积累
的生物大分子序列数据进行比较和分析, 揭示出生物大分子的分子结构、功能和进 化关系以及基因组构成与基因表达等生物
学事件对生命活动的影响。
• 核苷数据来自基因组测序中心、世界各地
的科学家、欧洲专利局、以及与合作伙伴 DDBJ (Japan)和GenBank (USA)交换的数据。
三、DDBJ数据库
• 日本DNA数据库(DDBJ)是在亚洲唯一的核酸
序列数据库,是搜集研究者公认的测定核酸序列 的数据库,并且发放给数据提交者国际认证的核 酸序列编号。由于DDBJ每天将搜集的数据与 EMBL-Bank/EBI和GenBank/NCBI进行交换, 使得三个核酸数据库几乎在任何时候都享有相同 数据。DDBJ主要收集来自日本研究者获得的序 列数据,但也收集数据和发放编号给任何其他国 家的研究者。
第二节 核酸序列数据库
Section 2 Nucleic Acid sequence Databases
• 自20世纪80年代第一个核酸数据库建立以来,核
酸数据库迅速发展。在互联网上不仅有核酸序列
数据库,还出现了基因组相关数据库、核酸三维
结构数据库、基因表达数据库、人类基因突变及
疾病相关数据库、进化相关数据库及其他与核酸
• 2.1 表达序列标签(EST) • 2.2 序列标签位点(STS)、基因组勘测序列(GSS)和
环境样品序列(ENV)
• 2.3 高通量基因组(HTG)和高通量cDNA(HTC)序列 • 2.4 全基因组鸟枪测序序列(WGS) • 2.5 转录组鸟枪组合序列
(一)GenBank数据库结构
• 3. 特殊记录类型
蛋白质二维凝胶电泳数据库:
• WORLD-2DPAGE • Phoretix links
信号传导及蛋白质-蛋白质相互作 用相关数据库: • DIP
• INTERACT • ProNet • KEGG • CANSITE • SPAD • CSNDB等
• DNA和蛋白质相互作用数据库:DPInteract • 蛋白质翻译后修饰相关数据库:
O-GlycBase、PhosphoBase、RES蛋白质等蛋 白质
一、PIR数据库
• 蛋白质信息库(PIR)
(http://pir.georgetown.edu/pirwww/)是一个 支持基因组学、蛋白质组学和系统生物学检索和 科学研究的综合公共生物信息学资源。
• PIR是由美国国家生物医学基金会(NBRF)于
• 4. 用FTP获取GenBank
(http://ftp.ncbi.nih.gov/genbank)
二、EMBL数据库
• EMBL建立于1980年,EMBL核苷序列数据
库(http:// www.edi.ac.uk/embl/)是欧洲 主要的核苷序列收集单位,欧洲生物信息 中心EBI(即EMBL在德国海德堡的站点)维 护这个数据库。
1984年建立,帮助研究者确认和解释蛋白序列信 息的数据库。
• PIR免费为科学界提供包括蛋白序列数据库(PSD)
在内的蛋白数据库和分析工具。
PIR信息库资源
PIR主要数据库:
• 1. UniProt-通用蛋白质资源库 • 2. iProClass-蛋白质知识整合数据库 • 3. PIRSF-蛋白质家族分类系统 • 4. iProLINK-蛋白质文献、信息和知识整合
一、GenBank数据库
• GenBank
(http://www.ncbi.nlm.nih.gov/gen bank/)是一个综合数据库,该数据库中 包含了已经公开的30万余种不同物种生物 的核酸序列,这些数据主要来源于全世界 不同实验室和大规模测序计划项目。
• GenBank是具有目录和生物学注释的核酸序列综
数据库
• 1.UniProt-通用蛋白质资源库 UniProt
(http://www.uniprot.org/)是存储和链接 其他蛋白质数据库的资源库,并且是蛋白质序列 和具有综合功能注释目录的中心资源库。使用 UniprotKB可以检索准确、可靠的蛋白综合信息。 使用UniRef可以减少冗余,加速序列相似性搜索。 使用UniParc可以检索存档序列和它们来源的数 据库。
常用的蛋白质序列数据库:
• PIR • MIPS • Swiss-Prot
蛋白质功能、结构域和蛋白质家族 有关的数据库:
• PROSITE • InterPro • Pfam • ProDom • SMART 等
蛋白质三维结构相关数据库:
• • • • • • • • • •
PDB BioMagResBank SWISS-MODEL Repository ModBase CATH SCOP ReLiBase TOPS SWISS-3DIMAGE BioImage等
功能、转导通路、相互作用、家族分类、基因和基
因组、功能注释标准体系(ontology)、文献和分
类学信息。使用iProClass还可以检索ID图谱、蛋
白质词典和相关序列。
• 3. PIRSF-蛋白质家族分类系统 PIRSF
(http://pir.georgetown.edu/pirsf/)
分类系统概要论述家族的特征,如家族名
有关的数据库。
三大核酸序列数据库
• GenBank • EMBL • DDBJ
特殊类型核酸序列数据库:
• 非编码RNA数据库(ncRNA); • 表达序列标签数据库(dbEST); • 序列标签位点数据库(dbSTS); • miRBase ; • tRNAdb等。
基因组相关数据库:
• 人类基因组数据库(HGD); • 基因组序列数据库(GSDB); • 基因组在线数据库(GOLD)等。
数据库和其他种类数据库。
生物信息学数据库分类
生物信息数据库种类繁多,就目前来看, 大体可 以分为四个大类: 一 1.基因组数据库; 次 2.核酸和蛋白质一级结构序列数据库; 数 3.生物大分子(主要是蛋白质)三维空间 据 结构数据库;
库
4.根据以上三类数据库和文献资料为基础构 建的二次数据库。也称专门数据库、 专业数据库或专用数据库。
四、其他重要的核酸序列数据库
• dbEST:dbEST是GenBank中的一个子数据库,
包含来源于不同物种的表达序列数据和表达序列 标签序列的其他信息。
• ncRNAdb:非编码RNA(non-coding RNA
ncRNA)数据库旨在提供非编码RNA的序列和功 能信息。
• miRBase:miRBase序列数据库主要存放已发
(http://www.ncbi.nlm.nih.gov/sites/gquery)
• 2. 与测序计划检索相关的序列记录
(http://www.ncbi.nlm.nih.gov//genomeprj)
• 3. BLAST 序列相似性搜索
(http://blast.ncbi.nlm.nih.gov/Blast.cgi)
EMBL)和日本的DNA数据库(DNA Data
Bank of Japan DDBJ)进行数据交换,
以保证数据库内容在全世界范围的同步性。
• 在NCBI(http://www.ncbi.nlm.nih.gov/)
的主页上提供了进入GenBank的路径、相关检索
和分析服务。
• 通过NCBI的检索系统(Entrez)可以进入
提供有关注释内容的文献、蛋白质名称词典和其他有助于
文献挖掘的人文语言处理技术开发的信息、数据库校正、 蛋白质名称标记和功能注释标准体系(ontology)。使
• 2. iProClass-蛋白质知识整合数据库 iProClass
(http://pir.georgetown.edu/iproclass/)提
供来自90多个生物学数据库的大量整合数据,包括 蛋白ID图谱服务、UniProtKB编注蛋白质摘要描述 和筛选UnParc数据库的蛋白质序列。使用 iProClass可以检索最新的蛋白质综合信息,包括:
GenBank。Entrez检索程序整合了主要的DNA 和蛋白序列数据的分类学、基因组、图谱、蛋白
结构和结构(功能)域信息,还包括相关的
PubMed的生物医学文献信息。
• BLAST程序提供GenBank和其他序列数据库中
序列相似性搜索服务。
(一)GenBank数据库结构
• 1. 依据序列的物种来源分类 • 2. Genbank记录和分类
第一章 DNA、RNA和 蛋白质序列信息资源
DNA、RNA And Protein Sequence Information Resources
中国医科大学
赵雨杰
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
生物信息学(bioinformatics)
• 在生命科学研究中发展起来的一门由分子
sequence, GSS)和其他测序中心提供的高通量 数据,还包括美国专利商标局提供的已发表专利的 序列数据。
• GenBank数据库每天与欧洲分子生物学实
验室的核酸序列数据库(European
Molecular Biology Laboratory
Nucleotide Sequence Database,
• 人类基因变异数据库(HMGD)、人类遗传双等位基因序
列数据库(HGBASE)、人类孟德尔遗传在线(OMIM)、 国际单体型计划(HapMap)、人类单核苷酸多态性数据
库(dbSNP)、肿瘤基因数据库(TGDB)、疾病关联数
据库(GAD)、癌症基因数据库(CGAP)、人类表观遗 传数据库(HEP)、人类DNA甲基化与癌症数据库 (MethylCancer)等。
生物信息学研究重点
• 主要体现在基因组学(genomics)和蛋白
质组学(proteomics)两方面。它从核酸 和蛋白质序列出发,分析序列中与结构、 功能相关的生物信息的表达。
生物信息学数据库
• 生物信息学中的各类数据库几乎覆盖了生
命科学的各个领域,如核酸序列数据库, 蛋白质序列数据库,蛋白质、核酸、多糖 的三维结构数据库,基因组数据库,文献
称、分类分布、分级和功能域结构,以及
家族成员,包括功能、结构、传导通路、
பைடு நூலகம்
功能注释标准体系(ontology)和家族分
类。利用这些信息可以获得蛋白质的准确 功能或预测的功能和该蛋白质所属家族成 员共有的其他特征。
• 4. iProLINK-蛋白质文献、信息和知识整合数据库
iProLINK(http://pir.georgetown.edu/iprolink/)
• 3.1 第三方注释(TPA) • 3.2 GenBank CON记录 较小记录组合记录
(二)构建数据库
• 1.直接电子提交
• 1.1 使用BankIt提交 • 1.2 使用Sequin和tbl2asn提交 • 1.3 条形码序列提交
• 2. 序列标识符和记录号
• 1. Entrez系统
(三)检索GenBank数据
核酸三维结构数据库:
• 核苷酸三维结构数据库(NDB); • 普纳大学核酸结构数据库(BNASDB)等。
基因表达数据库:
• 基因表达库(GEO); • 斯坦福微阵列数据库(SMD); • ArrayExpress; • CGED; • GXD; • BodyMap 等。
人类基因突变及疾病相关数据库:
表的微小RNA(microRNA miRNA)序列和注释 的数据库。
第三节 蛋白质序列数据库
Section 3 Protein Sequence Database
• 随着分子生物学的发展,人们获得了越来越多关
于蛋白质序列、结构和功能的信息。世界各国的 生物学家和计算机科学家合作利用这些信息构建 了蛋白质序列数据库、蛋白质三维结构数据库、 蛋白质组数据库(二维凝胶电泳数据库)、信号 传导及蛋白质-蛋白质相互作用相关数据库、 DNA和蛋白质相互作用数据库等蛋白质相关数据 库。
合数据库,由美国国家医学图书馆的国家生物技术
信息中心构建、维护和管理。该中心位于美国马里 兰国家健康研究所(NIH)。GenBank数据库的 序列数据来源于序列发现者提交的序列、批量提交 的表达序列标签(expressed sequence tag,
EST)、基因组测序序列(genome survey
交叉学科。
生物信息学研究内容
• 它利用数据库技术和软件技术对大量积累
的生物大分子序列数据进行比较和分析, 揭示出生物大分子的分子结构、功能和进 化关系以及基因组构成与基因表达等生物
学事件对生命活动的影响。
• 核苷数据来自基因组测序中心、世界各地
的科学家、欧洲专利局、以及与合作伙伴 DDBJ (Japan)和GenBank (USA)交换的数据。
三、DDBJ数据库
• 日本DNA数据库(DDBJ)是在亚洲唯一的核酸
序列数据库,是搜集研究者公认的测定核酸序列 的数据库,并且发放给数据提交者国际认证的核 酸序列编号。由于DDBJ每天将搜集的数据与 EMBL-Bank/EBI和GenBank/NCBI进行交换, 使得三个核酸数据库几乎在任何时候都享有相同 数据。DDBJ主要收集来自日本研究者获得的序 列数据,但也收集数据和发放编号给任何其他国 家的研究者。
第二节 核酸序列数据库
Section 2 Nucleic Acid sequence Databases
• 自20世纪80年代第一个核酸数据库建立以来,核
酸数据库迅速发展。在互联网上不仅有核酸序列
数据库,还出现了基因组相关数据库、核酸三维
结构数据库、基因表达数据库、人类基因突变及
疾病相关数据库、进化相关数据库及其他与核酸
• 2.1 表达序列标签(EST) • 2.2 序列标签位点(STS)、基因组勘测序列(GSS)和
环境样品序列(ENV)
• 2.3 高通量基因组(HTG)和高通量cDNA(HTC)序列 • 2.4 全基因组鸟枪测序序列(WGS) • 2.5 转录组鸟枪组合序列
(一)GenBank数据库结构
• 3. 特殊记录类型
蛋白质二维凝胶电泳数据库:
• WORLD-2DPAGE • Phoretix links
信号传导及蛋白质-蛋白质相互作 用相关数据库: • DIP
• INTERACT • ProNet • KEGG • CANSITE • SPAD • CSNDB等
• DNA和蛋白质相互作用数据库:DPInteract • 蛋白质翻译后修饰相关数据库:
O-GlycBase、PhosphoBase、RES蛋白质等蛋 白质
一、PIR数据库
• 蛋白质信息库(PIR)
(http://pir.georgetown.edu/pirwww/)是一个 支持基因组学、蛋白质组学和系统生物学检索和 科学研究的综合公共生物信息学资源。
• PIR是由美国国家生物医学基金会(NBRF)于
• 4. 用FTP获取GenBank
(http://ftp.ncbi.nih.gov/genbank)
二、EMBL数据库
• EMBL建立于1980年,EMBL核苷序列数据
库(http:// www.edi.ac.uk/embl/)是欧洲 主要的核苷序列收集单位,欧洲生物信息 中心EBI(即EMBL在德国海德堡的站点)维 护这个数据库。
1984年建立,帮助研究者确认和解释蛋白序列信 息的数据库。
• PIR免费为科学界提供包括蛋白序列数据库(PSD)
在内的蛋白数据库和分析工具。
PIR信息库资源
PIR主要数据库:
• 1. UniProt-通用蛋白质资源库 • 2. iProClass-蛋白质知识整合数据库 • 3. PIRSF-蛋白质家族分类系统 • 4. iProLINK-蛋白质文献、信息和知识整合
一、GenBank数据库
• GenBank
(http://www.ncbi.nlm.nih.gov/gen bank/)是一个综合数据库,该数据库中 包含了已经公开的30万余种不同物种生物 的核酸序列,这些数据主要来源于全世界 不同实验室和大规模测序计划项目。
• GenBank是具有目录和生物学注释的核酸序列综
数据库
• 1.UniProt-通用蛋白质资源库 UniProt
(http://www.uniprot.org/)是存储和链接 其他蛋白质数据库的资源库,并且是蛋白质序列 和具有综合功能注释目录的中心资源库。使用 UniprotKB可以检索准确、可靠的蛋白综合信息。 使用UniRef可以减少冗余,加速序列相似性搜索。 使用UniParc可以检索存档序列和它们来源的数 据库。
常用的蛋白质序列数据库:
• PIR • MIPS • Swiss-Prot
蛋白质功能、结构域和蛋白质家族 有关的数据库:
• PROSITE • InterPro • Pfam • ProDom • SMART 等
蛋白质三维结构相关数据库:
• • • • • • • • • •
PDB BioMagResBank SWISS-MODEL Repository ModBase CATH SCOP ReLiBase TOPS SWISS-3DIMAGE BioImage等
功能、转导通路、相互作用、家族分类、基因和基
因组、功能注释标准体系(ontology)、文献和分
类学信息。使用iProClass还可以检索ID图谱、蛋
白质词典和相关序列。
• 3. PIRSF-蛋白质家族分类系统 PIRSF
(http://pir.georgetown.edu/pirsf/)
分类系统概要论述家族的特征,如家族名
有关的数据库。
三大核酸序列数据库
• GenBank • EMBL • DDBJ
特殊类型核酸序列数据库:
• 非编码RNA数据库(ncRNA); • 表达序列标签数据库(dbEST); • 序列标签位点数据库(dbSTS); • miRBase ; • tRNAdb等。
基因组相关数据库:
• 人类基因组数据库(HGD); • 基因组序列数据库(GSDB); • 基因组在线数据库(GOLD)等。
数据库和其他种类数据库。
生物信息学数据库分类
生物信息数据库种类繁多,就目前来看, 大体可 以分为四个大类: 一 1.基因组数据库; 次 2.核酸和蛋白质一级结构序列数据库; 数 3.生物大分子(主要是蛋白质)三维空间 据 结构数据库;
库
4.根据以上三类数据库和文献资料为基础构 建的二次数据库。也称专门数据库、 专业数据库或专用数据库。
四、其他重要的核酸序列数据库
• dbEST:dbEST是GenBank中的一个子数据库,
包含来源于不同物种的表达序列数据和表达序列 标签序列的其他信息。
• ncRNAdb:非编码RNA(non-coding RNA
ncRNA)数据库旨在提供非编码RNA的序列和功 能信息。
• miRBase:miRBase序列数据库主要存放已发
(http://www.ncbi.nlm.nih.gov/sites/gquery)
• 2. 与测序计划检索相关的序列记录
(http://www.ncbi.nlm.nih.gov//genomeprj)
• 3. BLAST 序列相似性搜索
(http://blast.ncbi.nlm.nih.gov/Blast.cgi)
EMBL)和日本的DNA数据库(DNA Data
Bank of Japan DDBJ)进行数据交换,
以保证数据库内容在全世界范围的同步性。
• 在NCBI(http://www.ncbi.nlm.nih.gov/)
的主页上提供了进入GenBank的路径、相关检索
和分析服务。
• 通过NCBI的检索系统(Entrez)可以进入
提供有关注释内容的文献、蛋白质名称词典和其他有助于
文献挖掘的人文语言处理技术开发的信息、数据库校正、 蛋白质名称标记和功能注释标准体系(ontology)。使
• 2. iProClass-蛋白质知识整合数据库 iProClass
(http://pir.georgetown.edu/iproclass/)提
供来自90多个生物学数据库的大量整合数据,包括 蛋白ID图谱服务、UniProtKB编注蛋白质摘要描述 和筛选UnParc数据库的蛋白质序列。使用 iProClass可以检索最新的蛋白质综合信息,包括:
GenBank。Entrez检索程序整合了主要的DNA 和蛋白序列数据的分类学、基因组、图谱、蛋白
结构和结构(功能)域信息,还包括相关的
PubMed的生物医学文献信息。
• BLAST程序提供GenBank和其他序列数据库中
序列相似性搜索服务。
(一)GenBank数据库结构
• 1. 依据序列的物种来源分类 • 2. Genbank记录和分类
第一章 DNA、RNA和 蛋白质序列信息资源
DNA、RNA And Protein Sequence Information Resources
中国医科大学
赵雨杰
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
生物信息学(bioinformatics)
• 在生命科学研究中发展起来的一门由分子
sequence, GSS)和其他测序中心提供的高通量 数据,还包括美国专利商标局提供的已发表专利的 序列数据。
• GenBank数据库每天与欧洲分子生物学实
验室的核酸序列数据库(European
Molecular Biology Laboratory
Nucleotide Sequence Database,
• 人类基因变异数据库(HMGD)、人类遗传双等位基因序
列数据库(HGBASE)、人类孟德尔遗传在线(OMIM)、 国际单体型计划(HapMap)、人类单核苷酸多态性数据
库(dbSNP)、肿瘤基因数据库(TGDB)、疾病关联数
据库(GAD)、癌症基因数据库(CGAP)、人类表观遗 传数据库(HEP)、人类DNA甲基化与癌症数据库 (MethylCancer)等。
生物信息学研究重点
• 主要体现在基因组学(genomics)和蛋白
质组学(proteomics)两方面。它从核酸 和蛋白质序列出发,分析序列中与结构、 功能相关的生物信息的表达。
生物信息学数据库
• 生物信息学中的各类数据库几乎覆盖了生
命科学的各个领域,如核酸序列数据库, 蛋白质序列数据库,蛋白质、核酸、多糖 的三维结构数据库,基因组数据库,文献
称、分类分布、分级和功能域结构,以及
家族成员,包括功能、结构、传导通路、
பைடு நூலகம்
功能注释标准体系(ontology)和家族分
类。利用这些信息可以获得蛋白质的准确 功能或预测的功能和该蛋白质所属家族成 员共有的其他特征。
• 4. iProLINK-蛋白质文献、信息和知识整合数据库
iProLINK(http://pir.georgetown.edu/iprolink/)
• 3.1 第三方注释(TPA) • 3.2 GenBank CON记录 较小记录组合记录
(二)构建数据库
• 1.直接电子提交
• 1.1 使用BankIt提交 • 1.2 使用Sequin和tbl2asn提交 • 1.3 条形码序列提交
• 2. 序列标识符和记录号
• 1. Entrez系统
(三)检索GenBank数据
核酸三维结构数据库:
• 核苷酸三维结构数据库(NDB); • 普纳大学核酸结构数据库(BNASDB)等。
基因表达数据库:
• 基因表达库(GEO); • 斯坦福微阵列数据库(SMD); • ArrayExpress; • CGED; • GXD; • BodyMap 等。
人类基因突变及疾病相关数据库:
表的微小RNA(microRNA miRNA)序列和注释 的数据库。
第三节 蛋白质序列数据库
Section 3 Protein Sequence Database
• 随着分子生物学的发展,人们获得了越来越多关
于蛋白质序列、结构和功能的信息。世界各国的 生物学家和计算机科学家合作利用这些信息构建 了蛋白质序列数据库、蛋白质三维结构数据库、 蛋白质组数据库(二维凝胶电泳数据库)、信号 传导及蛋白质-蛋白质相互作用相关数据库、 DNA和蛋白质相互作用数据库等蛋白质相关数据 库。
合数据库,由美国国家医学图书馆的国家生物技术
信息中心构建、维护和管理。该中心位于美国马里 兰国家健康研究所(NIH)。GenBank数据库的 序列数据来源于序列发现者提交的序列、批量提交 的表达序列标签(expressed sequence tag,
EST)、基因组测序序列(genome survey