生物信息学简单介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区,同时阐明基
因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言 规律。在此基础上归纳、整理与基因组遗传信息释放及调控相关的转录普和
蛋白质普的数据,从而认识生物有机体的代谢、发育、分化、进化规律。
• 狭义:采用信息科学技术,借助数学、生 物学的理论、方法,对各种生物信息(包 括核酸、蛋白质等)的收集、加工、储存、 分析、解释的一门学科。
EMBL核酸序列数据库
• EMBL是欧洲生物信息学研究所(EBI) 维护的核酸序列数据构成,查询检索 可以通过因特网上的序列提取系统 (SRS)服务完成。
DDBJ数据库
• 日本DNA数据仓库(DDBJ)也是一个 全面的核酸序列数据库,与Genbank 和EMBL核酸库合作交换数据。使用 其主页上提供的SRS工具进行数据检 索和序列分析。
三大基因数据库之间的关系
GenBank
Public free Available via Internet
EMBLபைடு நூலகம்Data Library
DDBJ (DNA Data Bank of Japan)
这三个机构相互合作互通有无,数据库中的数据基本一致,仅在格式上有些差异, 但对某一特定序列的查询,三个数据库会给出一样的结果。这三个数据库的数据来源 于世界各国众多的研究机构和核酸测序小组以及科学文献。现在,用户可以通过互联 网将核酸序列数据提交给这三个数据库系统的任何一个。
• 基因的电脑克隆原理很简单,就是找到属于同一 基因的所有EST片段,再把它们连接起来。由于 EST序列是全世界很多实验室随机产生的,所以属 于同一基因的很多EST序列间必然有大量重复小片 段,利用这些小片段作为标志就可以把不同的EST 连接起来,直到发现了他们的全长,这样就可以 通过电脑克隆到一个基因。 • 如果这个基因以前未曾发现过,那它就是一个新 基因。 • 但是进行电脑克隆基因的程序设计复杂,计算量 巨大。
2.生物信息学数据库
• 数据库是生物信息学的主要内容,各种数据库几 乎覆盖了生命科学的各个领域。目前国际上已建 立了许多公共生物信息学数据库,包括核酸序列 数据库、蛋白质序列数据库、蛋白质片段数据库、 生物大分子结构数据库和生物学文献数据库等。 这些数据库有专门的机构建立和维护,这些机构 负责数据的收集、组织、管理和发布,并提供在 线检索和分析工具,向生物学研究人员提供有用 的信息。 • 生物信息分析已经成为分子生物学研究必须要借 助的一种方法。数据及其相关的分析软件是生物 信息学研究和应用的重要基础,也是分子生物学 研究必备的工具。
1.3 获取生物的完整基因组
模式生物基因组计划 酵母、线虫、果蝇、细菌、拟南芥等共约 50 多 种已完成, 70 余种正在进行。目前总量已达 60 亿碱基对!
基因组研究的首要目标是获得生物体的基因组全部核苷酸序列。
模式生物
Ureaplasma urealyticum Bacillus subtilis Drosophila melanogaster
1.5基因组中非编码蛋白质区域的结构与功能
• 近年来的研究表明,在细菌这样的微生物中,非编码蛋白 质的区域只占整个基因组序列的10%~20%。随着生物的进 化,非编码区越来越多,在高等生物和人的基因组中非编 码序列已占基因组序列的绝大部分。这表明这些非编码序 列必定具有重要的生物功能。普遍的认识是,它们与基因 的表达调控有关。 • 对人类基因组来说,迄今为止,人们真正掌握规律的只有 DNA上的编码蛋白质的区域(基因),最新资料说明这部 分序列只占基因组的1.1%。仅占人类基因组1.1%的编码区 的相关研究已经缔造了数十名诺贝尔奖获得者,98%非编 码区蕴含的成果数量将是十分可观的,因此寻找这些区域 的编码特征、信息调节与表达规律是未来相当长时间内的 热点课题,是取得重要成果的源泉。
2.1 核酸序列数据库
• • • • • 1.GenBank/EMBL/DDBJ 2.基因组数据库 3.表达序列标签数据库 4.序列标记位点数据库 5.面向基因聚类数据库
2.1.1
• GenBank
• EMBL
3大核酸数据库
• DDBJ
Genbank
• Genbank是美国国家生物技术信息中心 (NCBI)建立和维护的DNA数据库。由按 物种及数据获取手段分割成的17个子数 据库构成。使用Entrez数据管理系统, 通过该系统可以检索基本的DNA基因图 谱、蛋白质序列及结构数据库。 • 其中通过与MEDLINE的连接,还能够得 到关于该序列的更进一步的信息,比如 有关的文献摘要甚至全文。
1.1 生物信息学(Bioinformatics)这一名词的由来
八十年代末期,马来西亚的美籍学者林华 安(Hwa A. Lim)认识到将计算机科学与生物 学结合起来的重要意义,开始留意要为这一领域 构思一个合适的名称。 因此不久,他便进一步把它更改为“bioinformatics(或bio/informatics)”。但由于当 时的电子邮件系统与今日不同,名称中的 -或/符 号经常会引起许多问题,林博士于是将其去除, “bioinformatics”就正式诞生了,林博士也因此 赢得了“生物信息学之父”的美誉。
Escherichia coli K12
Escherichia coli O157:H7
大肠杆菌是研究得最为详尽的一个模式生物。这种 只有1.6微米长的、可以迅速繁殖的单细胞原核生物, 已经成为实验室和基因工程的重要工具。
模式生物(Model Organism)
Drosophila melanogaster
• 虽然分子生物学研究各个领域的侧重点有 所不同,但是研究对象之间存在着密切的 内在联系,如DNA与蛋白质序列之间、基因 调控与基因表达之间的联系等,因而实验 数据之间就必然存在着某些联系。 • 一个研究领域的相关数据会影响另一个领 域的进展。各类数据库已成为联系分子生 物学各个方面研究的桥梁和纽带。
1.4发现新基因和新的核苷酸多态性
• 发现新基因是当前国际上基因组研究的热 点,使用生物信息学的方法是发现新基因 的重要手段。比如啤酒酵母完整基因组所 包含的基因约6000个,大约60%的基因是通 过信息分析得到的。
1.2.1基因的电脑克隆
• 利用EST数据库发现新基因也被称为基因的 电脑克隆。EST序列是基因表达的短的cDNA 序列,它们携带着完整基因的某些片段的 信息。目前,Genbank的EST数据库中水稻 EST序列已达124万条,拟南芥达80万条, 而人类的EST序列已超过957万余条,它大 约覆盖了人类基因的90%以上。
生物信息学数据库几个明显的特征:
• (1)数据库更新速度不断加快,数据量呈指数增长。如, 核酸序列数据以每年翻番的速度增长,而增长更快的则是数 据库的使用频率,每年增长幅度为200 ~ 500%。 • (2)数据库的复杂程度不断增加。除基本数据之外,还包 括大量的注释、链接、参考文献等信息。 • (3)数据库使用的高度计算机和网络化。许多数据库服务 器已从工作站升级到大型服务器,使数据库能够高效地管理 数据和为用户服务,并在专门的硬件上运行服务程序。 • (4)面向应用。各个数据库除了提供数据外还提供许多分 析工具,如核酸数据库提供的序列搜索、基因识别程序等。 • (5)二级数据库的开发。在原始数据库的基础上进一步开 发出许多二级数据库,如蛋白质分类数据库、蛋白质二级结 构数据库等。
1.2.2 从基因组DNA中预测新基因
• 从基因组序列预测新基因,本质上是把基 因组上编码蛋白质的区域和非编码蛋白质 的区域区分开来。对于理论方法来讲就是 要找到在编码区和非编码区哪些数学、物 理学特征是不一样的。将这些序列与已知 基因数据库进行比较,就可以发现新基因。
1.2.3发现核苷酸多态性
• 20世纪50年代以来,生命科学进入了前所未有的 高速发展阶段,在短短几十年积累了大量的数据。 据不完全统计,目前在国际数据库中记录的DNA序 列的碱基早已超过了100亿; • 而随着人类和其他模式生物基因组测序的完成, 可以预计今后DNA序列数据的增长将更为惊人; • 与此同时,蛋白质的一级结构,即氨基酸序列的 数据的积累也随之增加,迄今已测定一万多种蛋 白质的不同分辨率的空间结构。 • 这一切构成了一个生物学数据的海洋。
• 核苷酸多态性(single nucleotide polymorphism ,SNP)是指基因组内DNA中某一特 定核苷酸位置上存在转换、颠换、插入、缺失等 变化。 • 现在普遍认为SNP研究是植物基因组计划走向应用 的重要步骤之一。因为SNP将提供一个强有力的工 具,用于与重要农艺形状相关基因的鉴定以及生 物学的基础研究等。
生物信息学 Bioinformatics
content
• 1.生物信息学简介 • 2.生物信息学数据库 • 3.生物信息学软件 • 4.生物信息学门户网站 • 5.生物信息学在基因芯片技术中的作用
1.生物信息学简介
1.1 生物信息学(Bioinformatics)这一名词的由来 1.2 Bioinformatics的定义 1.3 获取生物的完整基因组 1.4发现新基因和新的核苷酸多态性 1.5基因组中非编码蛋白质区域的结构与功能
plasmids viruses bacteria fungi plants algae insects mollusks bony fish amphibians reptiles
birds
mammals 104 105 106 107 108 109 1010 1011
模式生物(Model Organism) Escherichia coli 大肠杆菌
rat
Borrelia burgorferi
Plasmodium falciparum
Borrelia burgorferi
Aquifex aeolicus
Neisseria meningitidis Z2491
Mycobacteriu m tuberculosis
Genome sizes in nucleotide pairs (base-pairs)
/
/embl/
http://www.ddbj.nig.ac.jp/searches-e.html
2.1.2 基因组数据库
• 随着核酸测序技术的迅速发展,已经获得一部分 生物的全基因数据,如人、小鼠、大鼠、拟南芥、 酵母等。这些数据对认识基因组信息的奥秘、了 解生物体生长发育的规律至关重要。 • 国际上有专门的机构收集和管理这些数据。 Entrez Genomes所收集的基因组数据量非常大。 • 该数据库还提供了一个基因组浏览工具Map Viewer,利用这个工具,用户可以很方便地得到 所需要的数据。
Rickettsia prowazekii
Helicobacter pylori
Buchnerasp. APS
Escherichia coli
human
Arabidopsis
Thermotoga maritima
Thermoplasma acidophilum
mouse
Caenorhabitis elegans
果蝇
繁殖很快、容易诱发变异的小昆虫。 总长达1.8亿核苷酸。
模式生物(Model Organism)
Arabidopsis thaliana
拟南芥
个体生活周期只有6周的十字花科 小草,是一种理想的模式植物。
模式生物(Model Organism)
小鼠(Mus musculus)
基因组大小与人类相近,约30亿个核苷酸对;
What is Bioinformatics?
如何从海量数据中发掘出人类生存和发展所需的知识,诞生了一门新兴 的交叉科学生物信息学。
6
1.2 定义
广义: 指对基因组研究中的相关生物信息的获取、加工、存储、 分配、分析、和解释。 它包括了两层含义: 一是、对海量数据的收集、整理与服务; 二是、从中发现新的规律。具体来说,生物信息学是把基因组DNA序列信息