第一章 生物序列资源
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
及文献等数据进行分析、整理、归纳、注释, 具有
特殊生物学意义和专门用途的二次数据库
二、从功能和数据类型进行细化
DNA序列(DNA sequence) RNA序列(RNA sequence) 微阵列数据和基因表达
(microarray data and gene expression)
蛋白质序列(protein sequence) 分子结构(structure)
生物信息学
生物信息学
第一章
生物序列资源
哈尔滨医科大学 王宏、张云鹏
第一节
Section 1
引言
Introduction
一、生物数据库大致分为5类
基因组数据库
核酸序列数据库 蛋白质序列数据库
生物大分子(主要是蛋白质)三维空间结构数据库
对基因组图谱、核酸和蛋白质序列、蛋白质结构以
组中显示。 Tables提供便捷的入口链接到基础数据库。 Gene Sorter展示表达、同源性和以多种方式关联的其 他基因组信息。 VisiGene可以让用户浏览大量的检测小鼠和青蛙表达 模式的原位图像。 Genome Graphs允许用户上传或显示基因组范围的数 据集。
二、UCSC基因组浏览器
(五)GEO(Gene Expression Omnibus)数据库
接收和管理基因芯片或测序技术获得的表达数据。
GEO的数据类型
GPL(Platform):特定的芯片或测序平台类型。
GSM(Sample):参与基因表达测序的样本或个体
信息。
GSE(Series):一组相关样本实验测定的基因表达
当时EBI拥有两个数据库,一个为EMBL核酸序列
数据库(EMBL-Bank)和一个蛋白质序列数据库 (UniProt)。
生物分子数据资源
EMBL-Bank(DNA和RNA序列) Ensembl(基因组)
ArrayExpress(微阵列基因表达)
UniProt(蛋白质序列和注释) interPro(蛋白质家族、结构域和基序)
蛋白质组学与蛋白质互作
(proteomics and interaction)
代谢与信号通路(metabolic and signaling
pathways)等
第二节 NCBI数据库与数据资源
Section2 NCBI Data Sources
一、NCBI序列数据库概述
1988年11月美国国家健康研究所(NIH)、国家医
使用Primer-BLAST设计引物
第三节 UCSC基因组浏览器与
数据资源
Section3 UCSC Genome Browser and Data Source
一、UCSC概述
UCSC数据库主页面
工具栏中的基因组查询和注释工具
Browser可以以缩放和滚动的方式查看染色体的注释。 Blat可以快速将用户输入的序列以图像的方式在基因
(十)NCBI提供的r-blast/
可用于多方面生物医学研究过程的核酸引物设计。
其他软件工具: •
开放阅读框搜索(ORF Finder)、电子PCR和 序列提交工具Sequin和BankIt等。
(mammal)、19种其他脊椎动物(vertebrate)、
3种后口动物(deuterostome)、20种昆虫
(insect)、线虫(nematode)等众多动物,及病 毒(virus)、酵母等微生物全基因组数据。
包括基因和基因结构、开放读码框、mRNA、EST、
转录本、非编码基因、基因表达、基因调控、基因 变异(SNPs、微缺失、微插入等),及重复序列 等信息。
在主页中提供ENCODE数据访问、基因表达的组织
差异性分析、基因序列提取、变异位点效应预测、 基因多态性定位、跨物种基因比较、用户数据分析、 疾病与表型分析8个功能研究模块。
Ensembl功能界面及基因组和基因检索信息
EMBL ENA核酸测序数据资源
ENA:欧洲核酸数据库 European Nucleotide Archive, ENA, /ena/ 提供世界范围的核酸测序原始数据、序列拼装和功
Section 4 EMBL-EBI Data Sources and Tools
一、EMBL-EBI数据库概况
EMBL实验室1980年于德国海德堡成立,是世界
上第一家核酸序列数据管理机构。
1992年EMBL理事会投票决定于英国威康信托基
因组科学园建立欧洲生物信息学研究所,并于 1995年完成迁移工作。
dbSNP收录了所有物种中发现的短序列多态和突变
信息;
dbVar主要收录较大规模的基因组变异; dbGaP数据库收录大量以遗传多态为分子标记物的
基因型和表型(疾病)关联性研究数据;
ClinVar收录临床中发现或报导的有证据支持的与
人类疾病或健康状态有关的变异位点。
dbSNP基因多态及其功能信息显示
(/guide/all/#downloads)
向用户提供BLAST序列相似性比对、ORF Finder开
放读码框搜索等软件工具
NCBI主页各功能区域分布
二、NCBI中的重要子库介绍
(一)GenBank与RefSeq
GenBank是NIH遗传序列数据库,集成所有公开可
使用表格浏览器可以
①获取DNA序列、全基因组、指定的坐标区段或一
组注册号的隐含注释通道数据; ②应用过滤器设置约束条件,确定输出结果类型和 格式; ③生成在基因组浏览器中图形显示的查询通道;实 现数据结构和任意格式SQL检索; ④整合多表格或查询通道交叉或统一检索,以及生 成单一的数据输出集。
⑤显示指定数据集碱基统计计算结果;
RefSeq数据库
NCBI在GenBank数据基础上针对每个基因不同的
数据类型提取一个可靠的注释条目作为参考条目。
RefSeq数据标识
如NM_000572.2
"NM"代表特异的数据类型
".2"表示更新版本
(二) Gene
基因数据库收录全部已测序物种的基因注释信息。 包括基因的命称、染色体定位、基因序列和编码产
Reactome(细胞通路)
ChEBI(小分子)等
二、EMBL基因组和核酸序列资源
Ensembl数据库
提供高质量、综合注释的脊椎动物基因组数据。
Ensembl Genomes数据库
提供非脊椎动物全基因组数据。
Ensemble数据库资源
网址:/
IL10的基因标识符为3586。
Gene数据库中的主要注释内容
(三)Genome
NCBI收录已经完成测序的生物体全部基因组序列
和定位数据及正在测序的物种阶段性发布的基因
组信息。
收录生物体的种类已超过1000种。
Genome数据库中的人类X染色体可视化注释
(四)遗传多态数据库
dbSNP dbVar dbGaP ClinVar
接)、EST序列等进行罗列和比较。
(九)与生物医学相关的重要数据库
OMIM数据库
以疾病和基因为中心,阐述遗传变异介导的疾病
(表型)相关基因情况。 dbMHC
收录人类主要组织相容性复合体数据及其相关的
分子标记物信息。 HIV-1与人类蛋白质互作数据库
收录HIV-1蛋白与人类宿主蛋白相互作用信息。
物(mRNA、蛋白质)情况、基因功能和相关文献 信息等。
与GenBank、OMIM、遗传多态数据库(如dbSNP、
dbVar)等NCBI子库,及KEGG、Gene Ontology 等外源性数据库进行交叉引用。
Gene数据标识符
即Entrez gene ID。
依据基因的发现顺序由一到多位数字组成。如
头);
⑦Enable highlight with drag-and-select是指高亮显 示拖拽中或已选取的通道图像。
UCSC浏览器辅助工具栏 A:显示和移动比例工具栏;B:浏览器窗口配置工具 栏;C:窗口移动和调节工具栏
三、UCSC中的数据资源和常用工具
(一)UCSC中的数据资源
UCSC收录了包括人类基因组在内的48种哺乳动物
二、UCSC基因组浏览器的检索与可视化操作
Configure按钮
可以调整显示方式和显示维度等,从7方面进行
设置:
①Display chromosome ideogram above main graphic是显示染色体模式图;
②Show light blue vertical guidelines是显示蓝色
能注释信息的维护和下载,并记录和存储数据集测 序全过程的技术应用情况。
ENA数据库检索页面
获得的已注释DNA序列;
核酸序列数据根据不同的研究属性,分属于
Nucleotide、GSS和EST三个子库;
Nculeotide收录绝大多数常规的核酸序列;
GSS收录测序起始阶段用来进行序列或基因示踪、
重复序列或基因数量预判等的各种短读长序列;
EST收录cDNA及cDNA特征序列信息。
谱数据。
(六)蛋白质数据库
NCBI Protein数据库
收录来源于GenPept、RefSeq、Swiss-Prot、PIR、
PRF及PDB等蛋白质数据资源的蛋白质序列和注
释数据。 Protein Cluster数据库
提供存在一定联系的蛋白质集合信息,并与蛋白
质注释、结构、结构域、家族相关数据库之间交 互访问。
垂直引导线; ③Display labels to the left of items in tracks是显
示窗口左侧的元件标签;
④Display description above each track是在图像 上方显示通道名称;
⑤Show track controls under main graphic是显示浏 览器下方的控制栏列表; ⑥Next/previous exon(item) navigation是显示基 因通道状态下的从一个外显子或比对区段到下一 个外显子或比对区段的控制按钮(序列上的双箭
(二)view中的图像输出和DNA序列检索功能
基因组浏览器图像输出
UCSC基因组浏览器支持生成适于文献出版和
打印的高质量图像。 DNA序列检索
导航栏view按钮中的DNA选项能够实现浏览器
中显示的染色体区段的DNA序列提取和下载。
(三)Table Browser下载数据
Table Browser检索界面与输出结果示意
⑥显示表格概要并且查看数据库中所有与查询表格 相关的其他表格清单; ⑦将输出数据整理成几种不同的格式用于电子表格、 数据库或查询通道等不同用途。
(四)BLAT序列比对工具
支持目标序列与参考基因组进行DNA或蛋白序
列比对。
DNA比对
快速寻找95%或更高的匹配度的40碱基以上相似
序列,可能会丢失低匹配度的短片段序列。
Structure数据库
提供蛋白质三维结构信息及相关的可视化和结构
比对工具。
(七)Epigenomics
NCBI Epigenomics是一个表观基因组数据查询和
浏览相结合的数据库。
(八)Unigene数据库
分别将不同来源的基因序列、蛋白质相似性(与模
式生物比较)、基因表达(不同组织或发育状态)、 染色体定位、 cDNA序列、mRNA序列(选择性剪
学图书馆(NLM)发起成立。
1992年,NCBI建立GenBank核酸序列数据库,将
美国专利商标局存储的专利序列并入GenBank管理, 并与EMBL、DDBJ(与GenBank并称世界三大生
物序列信息数据库)实现数据资源的交换和共享。
NCBI采用著名的Entrez搜索和信息检索系统
构建FTP数据资源下载平台
蛋白序列比对
快速搜索比对长度在20氨基酸以上、相似性超过
80%的序列。
BLAT适用于 ①在指定的基因组参考数据中寻找与目标序列相匹
配的mRNA或蛋白;
②确定基因的外显子定位; ③显示完整长度基因的编码区域;
④分离EST;
⑤查询基因家族数量; ⑥寻找人的同源性序列。
BLAT比对配置与结果显示
第四节 EMBL-EBL数据库与 数据资源