生物信息学:揭开生命奥秘的交叉学科

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学技术 生物芯片技术 蛋白质组学技术 高通量细胞筛选技术等



生物信息学是人类功能基因组学研 究的必要工具




生物信息学的概念
生物信息的开发和应用

以核酸蛋白质等生物大分子为主要研究对象 以信息、数理、计算机科学为主要研究手段
以计算机网络为主要研究环境
以计算机软件为主要研究工具 对序列数据进行存储、管理、注释、加工
软件和数据库
蛋白质结构数据库( PDB)

由美国自然科学基金会、能源部和 国立卫生研究院共同投资建立 主要由X-射线晶体衍射和核磁共振 (NMR)测得的生物大分子三维结构组 成 用户可直接查询、调用和观察库中 所收录的任何大分子三维结构

后基因组时代的到来

理论 生物学



人类首次了解了自身的基因序列,了解 了很多远亲生物的基因序列 正在面对指数扩增的基因序列和各种数 据库 面临如何将基因序列资料转变为有用的 知识,进而服务于人类,造福人类健康 的挑战 人类功能基因组学必须多学科协作

实验 生物学
数 据
计算 生物学
用于基因预测的隐马尔可夫模型
P= 0.5 Exon P= 0.8 ATGCGTGCAGTCACCAGCAGTCAGTCG
基因组序列
Introns
特定状态碱基对的概率取决于它前面碱基对的状态
向另一种状态的转换概率取决于转换信号的出现(剪切位 点) 和/或 在特定隐藏状态的碱基对平均数量 (即内含 子或外显子大小).

人基因组海量信息




23对=46条染色体 30亿碱基对(base pairs) 3~5万个基因基因 组学 3万种以上蛋白质 蛋白质组学 基因表达、作用、调 控网络
生物信息学的概念
已经或即将完成的生物全基因组



几百种原核生物 酵母菌 拟南芥 (1-2亿bp) 水稻 人类 (32亿bp) 小鼠 大鼠 猪 鸡…..等

动态规划(Dynamic Programming)方法



模式识别技术

根据统计特征进行识别 根据对象的结构特征进行识别,常用句法识别。

DNA序列上功能位点和特征信号的识别

数据库技术

生物分子信息的存储、管理、查询等功能建立在数据库 管理系统之上 在功能上、结构上模拟大脑神经网络 神经网络计算速度快,更具有分析智能 应用:神经网络计算在优化和模式识别方面具有非常强 的能力 基因识别、蛋白质结构预测上神经网络都取得了比其它 方法更为准确的结果
“Half day on the Web,saves you half month in the lab”

专家系统

将有关专家的知识和经验以一定的知识表示形式(如 产生式规则、语义网络等)存放在计算中以智能的方 式帮助提供参考性决策。如用于基因识别 交流:通过Internet网交流生物分子数据 查阅:从Internet网上查生物分子数据,如原始的序 列、结构数据,加工处理的数据 服务:将所要处理的数据直接送到相应的网络服务器 上,服务器接受你的处理请求,并将处理结果返回给 你
wk.baidu.com

EMBL核酸序列数据库



DDBJ数据库


GenBank的增长
软件和数据库
•图片来自http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html
软件和数据库
资料来自:http://www.ddbj.nig.ac.jp/images/ddbjnew/DBGrowth-e.gif
中国科学院基因组信息学中心 http://www.genomics.org.cn/

软件和数据库
DNA数据库

Genbank


包含所有已知的核酸序列和蛋白质序列,以及 相关的文献著作和生物学注释。 美国国立生物技术信息中心(NCBI)建立和维护 由欧洲生物信息学研究所(EBI)维护 通过因特网上的序列提取系统(SRS)服务完成 查询检索。 日本国立遗传学研究所维护 与Genbank和EMBL核酸库合作交换数据。使 用主页上SRS工具进行数据检索和序列分析 全球数据已实现同步化 Global data synchronization

Internet技术


四、常用的分子生物学 软件和数据库(p210)
国外一直非常重视生物信息学的发展,各种专 业研究机构和公司如雨后春笋般涌现出来,生物科 技公司和制药工业内部的生物信息学部门的数量也 与日俱增
1979年,美国洛斯阿拉莫斯国家实验室建立起GenBank数据 库; 1982年,欧洲分子生物学实验室提供核酸序列数据库EMBL 的服务; 1984年,日本着手建立国家级的核酸序列数据库DDBJ并于 1987年开始提供服务
高通量药物筛选
计算机辅助药物筛选 高通量虚拟筛选方法
药物设计和小分子设计
计算机辅助先导化合 物设计、药物设计
生物信息学的内容
1.基因与基因组分析
大规模基因序列测定
测序仪中原始数 据的采样与分析
碱基读取
载体标识与去除
结果上传到数 据库
可读框预测和 基因标注
序列拼接 与组装
生物信息学的内容
基因预测
DNA序列中编码区的鉴定 预测方法的依据: 编码统计学:编码区序列同非编码区序列相比,有 不同的特点,存在一些非随机的特点 GC 含量 密码子偏倚性 (CODON FREQUENCY) 第三个碱基组成 基因结构/统计学方法 比较/同源性
揭开生命奥秘的新兴交叉学科
第七章
生物信息学
内 容
生物信息学概念 生物信息学的内容 生物信息学的研究方法和技术 生物信息学软件和数据库

一、生物信息学的概念(p199)
生物信息学是用数理
和信息科学的观点、理 论和方法,以计算机为 工具对生物信息进行收 集、加工、储存、传播、 检索和分析的科学。 研究材料和结果是各 种各样的生物学数据
生物信息学的内容
基因组分析

研究主要集中在核苷酸序列 的存储、分类、检索和分析 等方面


新基因的发现 非蛋白编码区生物学意义的分析 基因组整体功能及其调节网络的系 统把握 基因组演化与物种演化
生物信息学的内容
2.蛋白质与蛋白质组分析

蛋白质结构


新蛋白的完整、精确和动 态的三维结构 计算机辅助结构模拟





分子动力学模拟


研究蛋白质的构象及动力学,是 计算机模拟实验的基础 Evolutionary Computation (Metaphors from
DNA to Selection)
遗传学运算规则 Optimisers / Evolvers DNA computing
生物信息学的研究方法和技术
三、生物信息学的研究方法和技术

数学统计方法

在分析DNA语言中的语义、分析密码子使用频率、利用马尔可夫模 型进行基因识别 一种通用的优化方法:在状态空间中,根据目标函数,通过递推, 求出一条从状态起点到状态终点的最优路径(代价最小的路径)。 DNA序列或者蛋白质序列的两两对比排列 两种方法

2005年6月发行的第84版EMBL数据库中,总计超过4525万 条、491亿碱基数量的数据库
三大基因数据库之间的关系
软件和数据库
Nucleotide Sequence Database (entry)-2005.6.15
Public free Available via Internet
完整序列

1. 数据库

基因图谱数据库 核酸序列数据库 蛋白质序列数据库 大分子结构数据库等 国际著名的生物信息中心

NCBI National Center for Biotechnology Information (US) EBI European Bioinformatics Institute (EU) HGMP Human Genome Mapping Project Resource Centre (UK ) ExPASy Expert of Protein Analysis System (Switzerland ) CMBI Centre of Molecular and Biomolecule (The Netherlands) ANGIS National Genome Information Service (Australia) NIG National Institute of Genetics (Japan) BIC National Bioinformatics Centre (Singapore)
用于基因预测的隐马尔可夫模型 Hidden Markov Models ,HMM
HMM? HMM 描述了模型中各隐含状态的转换概率

ATGCGTGCAGTCACCAGCAGTCAGTCG Exon
基因组序列
ATGCGTGCAGTCACCAGCAGTCAGTCG
基因组序列
Introns
隐含状态
生物信息学的内容
生物信息学的内容
原核生物基因结构
转录区
起始密码子 5’
RBS
终止密码子 3’
编码区 非翻译区 启动子 转录起始位点
转录终止位点
生物信息学的内容
真核生物基因结构
外显子 内含子 转录区 起始密码子 终止密码子
5’ 3’
GT AG
切除和拼接位点
启动子 转录终止位点 转录起始位点 非翻译区
生物信息学的内容


对各种数据库进行查询、搜索、比较、分析
构建各种类型的专用数据库信息系统 研究开发面向生物学家的新一代计算机软件
生物信息学的概念
生物信息学和其它学科的关系
生物信息学是一门 边缘学科,它位于 生物、医学、计算 机、数学等多个领
生物信息学 数学、 统计学 计算机学、 计算机网络 生物学、 分子生物学


理解蛋白质的氨基酸序列 和三维结构之间的关系 蛋白质序列及特性分析 蛋白质组学
3 新药设计
相当数量的蛋白质、核酸、多糖的三 维结构获得精确测定,基于生物大分 子结构知识的药物设计成为热点; 根据靶标分子与药物分子相结合的活 性部位的几何形状和化学特征,设计 出与其相匹配的具有新颖结构的药物 分子。
医学
域的交叉点上
二、生物信息学的内容(p200)
蛋白质-蛋白质相互 作用识别,信号传导 系统、代谢途径的分 子模拟...
基因组信息 …
图像处理、聚 类分析、表达 谱和调控网络 分析...
蛋白质组学和 结构基因组学
生物芯片
生物信息技术
创新药物和新剂型
分子数据库,组合化 学化合物库,靶标生 物大分子的功能分析 ...

软件和数据库
国内对生物信息学领域也越来越 重视

1997年3月,北京大学于成立了 生物信息学中心;

2000年3月,中科院上海生命科 学研究院成立
其他,北京大学的罗静初和顾孝 诚教授在生物信息学网站建设方 面、中科院生物物理所的陈润生 研究员在EST序列拼接方面以及 在基因组演化方面、天津大学的 张春霆院士在DNA序列的几何学 分析方面等等……

人工神经网络技术




生物信息学的研究方法和技术

分子模型化技术

利用计算机分析分子结构。通过 交互操作平移、旋转和缩放分子 的三维结构,从不同的角度观察 分子构象和形状 主要基于半经验势函数的分子力 学方法研究生物大分子的构象 量子力学在确定势函数的参数和 研究局部性质

分子力学和量子力学计算
软件和数据库
蛋白质信息资源数据库(PIR)



主要提供按同源性和分类学组织的综合性、非冗余数 据库 PIR 由美国华盛顿的国家医学研究基金会支持,德国 马普学会的慕尼黑蛋白质序列信息中心 (MIPS)和日本 国际蛋白质序列数据库(JIPID)共同维护。 PIR 通过提供蛋白质序列数据库、衍生的相关数据库 及相应的软件而支持有关分子进化、功能基因组学和 计算生物学方面的研究,

国内部分生物信息学和生物医学信息服务器



北京大学生物信息中心 http://www.cbi.pku.edu.cn 中国生物信息http://www.biosino.org/ 北京大学物理化学研究所http://www.ipc.pku.edu.cn 北京医科大学生物医学信息http://cmbi.bjmu.edu.cn 中国科学院微生物研究所http://www.im.ac.cn 天津大学生物信息中心 http://tubic.tju.edu.cn 中科院计算所智能信息处理重点实验室生物信息学研究组 http://www.bioinfo.org.cn/
相关文档
最新文档