第一章 生物序列资源

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Section 4 EMBL-EBI Data Sources and Tools
一、EMBL-EBI数据库概况
EMBL实验室1980年于德国海德堡成立,是世界
上第一家核酸序列数据管理机构。
1992年EMBL理事会投票决定于英国威康信托基
因组科学园建立欧洲生物信息学研究所,并于 1995年完成迁移工作。
二、UCSC基因组浏览器的检索与可视化操作
Configure按钮
可以调整显示方式和显示维度等,从7方面进行
设置:
①Display chromosome ideogram above main graphic是显示染色体模式图;
②Show light blue vertical guidelines是显示蓝色
RefSeq数据库
NCBI在GenBank数据基础上针对每个基因不同的
数据类型提取一个可靠的注释条目作为参考条目。
RefSeq数据标识
如NM_000572.2
"NM"代表特异的数据类型
".2"表示更新版本
(二) Gene
基因数据库收录全部已测序物种的基因注释信息。 包括基因的命称、染色体定位、基因序列和编码产
使用表格浏览器可以
①获取DNA序列、全基因组、指定的坐标区段或一
组注册号的隐含注释通道数据; ②应用过滤器设置约束条件,确定输出结果类型和 格式; ③生成在基因组浏览器中图形显示的查询通道;实 现数据结构和任意格式SQL检索; ④整合多表格或查询通道交叉或统一检索,以及生 成单一的数据输出集。
⑤显示指定数据集碱基统计计算结果;
IL10的基因标识符为3586。
Gene数据库中的主要注释内容
(三)Genome
NCBI收录已经完成测序的生物体全部基因组序列
和定位数据及正在测序的物种阶段性发布的基因
组信息。
收录生物体的种类已超过1000种。
Genome数据库中的人类X染色体可视化注释
(四)遗传多态数据库
dbSNP dbVar dbGaP ClinVar
Reactome(细胞通路)
ChEBI(小分子)等
二、EMBL基因组和核酸序列资源
Ensembl数据库
提供高质量、综合注释的脊椎动物基因组数据。
Ensembl Genomes数据库
提供非脊椎动物全基因组数据。
Ensemble数据库资源
网址:http://asia.ensembl.org/
(http://www.ncbi.nlm.nih.gov/guide/all/#downloads)
向用户提供BLAST序列相似性比对、ORF Finder开
放读码框搜索等软件工具
NCBI主页各功能区域分布
二、NCBI中的重要子库介绍
(一)GenBank与RefSeq
GenBank是NIH遗传序列数据库,集成所有公开可
及文献等数据进行分析、整理、归纳、注释, 具有
特殊生物学意义和专门用途的二次数据库
二、从功能和数据类型进行细化
DNA序列(DNA sequence) RNA序列(RNA sequence) 微阵列数据和基因表达
(microarray data and gene expression)
蛋白质序列(protein sequence) 分子结构(structure)
使用Primer-BLAST设计引物
第三节 UCSC基因组浏览器与
数据资源
Section3 UCSC Genome Browser and Data Source
一、UCSC概述
UCSC数据库主页面
工具栏中的基因组查询和注释工具
Browser可以以缩放和滚动的方式查看染色体的注释。 Blat可以快速将用户输入的序列以图像的方式在基因
⑥显示表格概要并且查看数据库中所有与查询表格 相关的其他表格清单; ⑦将输出数据整理成几种不同的格式用于电子表格、 数据库或查询通道等不同用途。
(四)BLAT序列比对工具
支持目标序列与参考基因组进行DNA或蛋白序
列比对。
DNA比对
快速寻找95%或更高的匹配度的40碱基以上相似
序列,可能会丢失低匹配度的短片段序列。
蛋白序列比对
快速搜索比对长度在20氨基酸以上、相似性超过
80%的序列。
BLAT适用于 ①在指定的基因组参考数据中寻找与目标序列相匹
配的mRNA或蛋白;
②确定基因的外显子定位; ③显示完整长度基因的编码区域;
④分离EST;
⑤查询基因家族数量; ⑥寻找人的同源性序列。
BLAT比对配置与结果显示
第四节 EMBL-EBL数据库与 数据资源
学图书馆(NLM)发起成立。
1992年,NCBI建立GenBank核酸序列数据库,将
美国专利商标局存储的专利序列并入GenBank管理, 并与EMBL、DDBJ(与GenBank并称世界三大生
物序列信息数据库)实现数据资源的交换和共享。
NCBI采用著名的Entrez搜索和信息检索系统
构建FTP数据资源下载平台
物(mRNA、蛋白质)情况、基因功能和相关文献 信息等。
与GenBank、OMIM、遗传多态数据库(如dbSNP、
dbVar)等NCBI子库,及KEGG、Gene Ontology 等外源性数据库进行交叉引用。
Gene数据标识符
即Entrez gene ID。
依据基因的发现顺序由一到多位数字组成。如
生物信息学
生物信息学
第一章
生物序列资源
哈尔滨医科大学 王宏、张云鹏
第一节
Section 1
引言
Introduction
一、生物数据库大致分为5类
基因组数据库
核酸序列数据库 蛋白质序列数据库
生物大分子(主要是蛋白质)三维空间结构数据库
对基因组图谱、核酸和蛋白质序列、蛋白质结构以
能注释信息的维护和下载,并记录和存储数据集测 序全过程的技术应用情况。
ENA数据库检索页面
蛋白质组学与蛋白质互作
(proteomics and interaction)
代谢与信号通路(metabolic and signaling
pathways)等
第二节 NCBI数据库与数据资源
Section2 NCBI Data Sources
一、NCBI序列数据库概述
1988年11月美国国家健康研究所(NIH)、国家医
当时EBI拥有两个数据库,一个为EMBL核酸序列
数据库(EMBL-Bank)和一个蛋白质序列数据库 (UniProt)。
生物分子数据资源
EMBL-Bank(DNA和RNA序列) Ensembl(基因组)
ArrayExpress(微阵列基因表达)
UniProt(蛋白质序列和注释) interPro(蛋白质家族、结构域和基序)
获得的已注释DNA序列;
核酸序列数据根据不同的研究属性,分属于
Nucleotide、GSS和EST三个子库;
Nculeotide收录绝大多数常规的核酸序列;
GSS收录测序起始阶段用来进行序列或基因示踪、
重复序列或基因数量预判等的各种短读长序列;
EST收录cDNA及cDNA特征序列信息。
接)、EST序列等进行罗列和比较。
(九)与生物医学相关的重要数据库
OMIM数据库
以疾病和基因为中心,阐述遗传变异介导的疾病
(表型)相关基因情况。 dbMHC
收录人类主要组织相容性复合体数据及其相关的
分子标记物信息。 HIV-1与人类蛋白质互作数据库
收录HIV-1蛋白与人类宿主蛋白相互作用信息。
头);
⑦Enable highlight with drag-and-select是指高亮显 示拖拽中或已选取的通道图像。
UCSC浏览器辅助工具栏 A:显示和移动比例工具栏;B:浏览器窗口配置工具 栏;C:窗口移动和调节工具栏
三、UCSC中的数据资源和常用工具
(一)UCSC中的数据资源
UCSC收录了包括人类基因组在内的48种哺乳动物
谱数据。
(六)蛋白质数据库
NCBI Protein数据库
收录来源于GenPept、RefSeq、Swiss-Prot、PIR、
PRF及PDB等蛋白质数据资源的蛋白质序列和注
释数据。 Protein Cluster数据库
提供存在一定联系的蛋白质集合信息,并与蛋白
质注释、结构、结构域、家族相关数据库之间交 互访问。
dbSNP收录了所有物种中发现的短序列多态和突变
信息;
dbVar主要收录较大规模的基因组变异; dbGaP数据库收录大量以遗传多态为分子标记物的
基因型和表型(疾病)关联性研究数据;
ClinVar收录临床中发现或报导的有证据支持的与
人类疾病或健康状态有关的变异位点。
dbSNP基因多态及其功能信息显示
(五)GEO(Gene Expression Omnibus)数据库
接收和管理基因芯片或测序技术获得的表达数据。
GEO的数据类型
GPL(Platform):特定的芯片或测序平台类型。
GSM(Sample):参与基因表达测序的样本或个体
信息。
GSE(Series):一组相关样本实验测定的基因表达
(二)view中的图像输出和DNA序列检索功能
基因组浏览器图像输出
UCSC基因组浏览器支持生成适于文献出版和
打印的高质量图像。 DNA序列检索
导航栏view按钮中的DNA选项能够实现浏览器
中显示的染色体区段的DNA序列提取和下载。
(三)Table Browser下载数据
Table Browser检索界面与输出结果示意

组中显示。 Tables提供便捷的入口链接到基础数据库。 Gene Sorter展示表达、同源性和以多种方式关联的其 他基因组信息。 VisiGene可以让用户浏览大量的检测小鼠和青蛙表达 模式的原位图像。 Genome Graphs允许用户上传或显示基因组范围的数 据集。
二、UCSC基因组浏览器
Structure数据库
提供蛋白质三维结构信息及相关的可视化和结构
比对工具。
(七)Epigenomics
NCBI Epigenomics是一个表观基因组数据查询和
浏览相结合的数据库。
(八)Unigene数据库
分别将不同来源的基因序列、蛋白质相似性(与模
源自文库
式生物比较)、基因表达(不同组织或发育状态)、 染色体定位、 cDNA序列、mRNA序列(选择性剪
(mammal)、19种其他脊椎动物(vertebrate)、
3种后口动物(deuterostome)、20种昆虫
(insect)、线虫(nematode)等众多动物,及病 毒(virus)、酵母等微生物全基因组数据。
包括基因和基因结构、开放读码框、mRNA、EST、
转录本、非编码基因、基因表达、基因调控、基因 变异(SNPs、微缺失、微插入等),及重复序列 等信息。
垂直引导线; ③Display labels to the left of items in tracks是显
示窗口左侧的元件标签;
④Display description above each track是在图像 上方显示通道名称;
⑤Show track controls under main graphic是显示浏 览器下方的控制栏列表; ⑥Next/previous exon(item) navigation是显示基 因通道状态下的从一个外显子或比对区段到下一 个外显子或比对区段的控制按钮(序列上的双箭
在主页中提供ENCODE数据访问、基因表达的组织
差异性分析、基因序列提取、变异位点效应预测、 基因多态性定位、跨物种基因比较、用户数据分析、 疾病与表型分析8个功能研究模块。
Ensembl功能界面及基因组和基因检索信息
EMBL ENA核酸测序数据资源
ENA:欧洲核酸数据库 European Nucleotide Archive, ENA, http://www.ebi.ac.uk/ena/ 提供世界范围的核酸测序原始数据、序列拼装和功
(十)NCBI提供的重要支持工具
Primer-BLAST
http://www.ncbi.nlm.nih.gov/tools/primer-blast/
可用于多方面生物医学研究过程的核酸引物设计。
其他软件工具: •
开放阅读框搜索(ORF Finder)、电子PCR和 序列提交工具Sequin和BankIt等。
相关文档
最新文档