生物信息学第二章分子生物信息数据库

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/8/1
课后作业 2
• 如何了解斑马鱼ATF4基因的最新研究进展? • 目前生物信息学有哪些研究热点?
2020/8/1
课后作业 2
• 如何了解牛ADRB3基因的最新研究进展 ?
• 目前生物信息学有哪些研究热点?
2020/8/1
(一)数据库查询系统
2、 SRS
• SRS (sequence retrieval system)是 EBI开发的数据库查询工具。
① 限定查询范围(Limits) ② 预览查询结果(Preview/Index)不列
出具体查询结果,只列出查询到的序列 的条目数 ③ 查看查询记录(History) ④ 操作剪贴板(Clipboard)
2020/8/1
Entrez系统的特点
• 把序列、结构、文献、基因组、系统分 类等不同类型的数据库有机地结合在一 起,通过超文本链接,用户可以从一个 数据库直接转入另一个数据库。此外, 把数据库和应用程序结合在一起。
生物信息学第二章分子生物信息数据库
主要内容
一.分子生物信息数据库简介 二.序列数据库 三.基因组数据库 四.结构数据库 五.二次数据库 六.数据库查询和数据库搜索
2020/8/1
六、数据库查询和数据库搜索
➢数据库查询(database query):对序 列、结构以及各种二次数据库中的注释 信息进行关键词匹配查找。
➢数据库搜索的基础是序列的相似性比对, 即序列比对( alignment)。
2020/8/1
➢检测序列(probe sequence):新测定 的、希望通过数据库搜索确定其性质或 功能的序列。
➢目标序列(subject sequence):通过 数据库搜索得到的和检测序列具有一定 相似性的序列。
2020/8/1
中文含义 鸟嘌呤 腺嘌呤 胸腺嘧啶(尿嘧啶) 胞嘧啶 嘌呤 嘧啶 腺嘌呤或胞嘧啶(氨基) 鸟嘌呤或胸腺嘧啶 强相互作用碱基 弱相互作用碱基 非鸟嘌呤 非腺嘌呤 非胸腺嘧啶/尿嘧啶 非胞嘧啶 不确定
例如,在SWISS-PROT输入关键词 insulin,即可找出该数据库所有胰岛素 或和胰岛素相关的序列条目(entry)。
2020/8/1
➢数据库搜索(database search):通 过特定的序列相似性比对算法,找出核 酸或蛋白质序列数据库中与检测序列具 有一定程度相似性的序列。
例如,给定一个胰岛素氨基酸残基序列 ,通过在SWISS-PROT数据库中检索, 找出与其有一定相似性的序列。
、序列、结构和基因组等数据库进行关 键词查询,找出相关的一个或几个数据 库条目(entry) 。
2020/8/1
Entrez数据库查询系统提供的数据库
数据库名称 数据库内容
PubMed GenBank
生物医学文献MedLine摘要 核酸序列
Proteins
SWISS-PROT、PIR以及GenBank翻译得 到的蛋白质序列
• SRS是欧洲各国主要生物信息中心必备 的数据库查询系统。
• SRS已经发展为商业软件,学术单位可 以免费使用。
2020/8/1
• 与Entrez不同,SRS是一个开放的数据 库查询系统,即不同的SRS查询系统可 以根据需要安装不同的数据库。目前, 共有300多个数据库安装在世界各地的 SRS服务器上。
2020/8/1
2020/8/1
wk.baidu.com
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
2020/8/1
Cn3D
2020/8/1
“human insulin”
2020/8/1
Entrez系统的辅助功能
2020/8/1
SRS系统的特点
① 统一的用户界面 ② 高效的查询功能 ③ 灵活的指针链接 ④ 方便的程序接口 ⑤ 开放的管理模式 ⑥ 同一的开发平台
2020/8/1
(二)数据库搜索
➢新测定的碱基序列或氨基酸序列,往往需 要通过数据库搜索,找出具有一定相似性 的同源序列,以推测未知序列可能属于哪 个家族,具有哪些生物学功能。
英文含义 Guanine Adenine Thymine (Uracil) Cytosine Purine Pyrimidine Amino Ketone Strong interaction Weak interaction Not G (H after G) Not A (B after A) Not T/U (V after U) Not C (D after C) Any
2020/8/1
❖在生物信息学中,数据库搜索是专门针对 核酸和蛋白质序列数据库而言的,其搜索 的对象不是注释信息,而是序列信息。
❖显然,数据库查询和数据库搜索是两个截 然不同的概念,它们所要解决的问题、所 采用的方法和得到的结果均不相同。
2020/8/1
(一)数据库查询系统
1、Entrez 由美国NCBI开发,用于对文献摘要
Structures PDB三维结构数据库
Genomes OMIM
已经完成和正在进行的模式生物基因组信息 人类遗传疾病和遗传缺失在线数据库
Taxonomy 系统分类信息 LocusLinks 基因关联信息
PopSet
具有亲缘关系的种群之间核酸序列同源性比 对结果
literature databases http://www.ncbi.nlm.nih.gov/sites/gquery
数据库搜索的任务和目的
1.任务 发现序列之间的相似性 辨别序列之间的差异
2.目的 相似序列 相似的结构和功能 判别序列之间的同源性 推测序列之间的进化关系
2020/8/1
1、核苷酸碱基和氨基酸残基代码
➢在实际DNA序列数据库中,由于序列测 定的原因,个别碱基可能无法确定,称 为歧义碱基,通常用A、T、C、G之外 的字母表示。✓
➢蛋白质序列由20种氨基酸残基组成,分 别用20个英文字母表示。✓
2020/8/1
碱基代码 G A T (U) C R (A or G) Y (C or T or U) M (A or C) K (G or T) S (C or G) W (A or T) H (A or C or T) B (G or T or C) V (A or C or G) D (G or T or A) N (A or T or C or G)
相关文档
最新文档