5-微阵列
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息讲义
2、动态规划方法 、
动态规划( 动态规划(Dynamic Programming)是一种解 ) 决多阶段决策过程的最优化方法或复杂空间的 优化搜索方法 动态规划解决问题的基本过程是: 动态规划解决问题的基本过程是:将一个问题 的全局解分解为局部解, 的全局解分解为局部解,逆序递推求出局部最 优解,随着执行过程的推进, 局部” 优解,随着执行过程的推进,“局部”逐渐接 全局” 近“全局”,最终获得全局最优解
生物信息讲义
5、人工神经网络技术 、
人工神经网络( 简称ANN)是 人工神经网络(Artificial Neural Network, 简称 ) 通过模拟神经元的特性以及脑的大规模并行结构、 通过模拟神经元的特性以及脑的大规模并行结构、信息 的分布式和并行处理等机制建立的一种数学模型 在生物信息学中,使用得最多的是反向传播神经网络 反向传播神经网络( 在生物信息学中,使用得最多的是反向传播神经网络( Back Propagation Neural Network,简称 网)。 网 ,简称BP网)。BP网 被认为是稳定性和鲁棒性较强的人工神经网络之一, 被认为是稳定性和鲁棒性较强的人工神经网络之一,而 且属于有监督学习的网络模型。标准的BP网由三层神经 且属于有监督学习的网络模型。标准的 网由三层神经 元组成:输入层、 元组成:输入层、隐藏层和输出层
。
模式识别 模式识别是机器学习的一个主要任务。 模式识别是机器学习的一个主要任务。模式是对感 兴趣客体定量的或者结构的描述, 兴趣客体定量的或者结构的描述,而模式识别就是 利用计算机对客体进行鉴别, 利用计算机对客体进行鉴别,将相同或者相似的客 体归入同种类别中 模式识别主要有两种方法:
• 根据对象的统计特征进行识别, 根据对象的统计特征进行识别, • 根据对象的结构特征进行识别
生物信息讲义
隐藏层
输 入 层
输 出 层
反向传播神经网络结构示意
生物信息讲义
6、专家系统 、
专家系统( 专家系统(Expert System)是一种基于知识的智能系统,它将领域专家 )是一种基于知识的智能系统, 的经验用一定的知识表示方法表示出来,并放入知识库中, 的经验用一定的知识表示方法表示出来,并放入知识库中,供推理机使 用 知识库是专家系统的第一重要组成部分 是专家系统的第一重要组成部分, 知识库是专家系统的第一重要组成部分,知识库中的知识通常分为两类 : 一类领域的事实性知识, 一类领域的事实性知识,或广泛公用的知识 另一类是启发性知识,是领域专家在长期研究和实践过程中 另一类是启发性知识, 积累起来的经验总结 知识获取方式大致上可以分为两种: 知识获取方式大致上可以分为两种: 一种是由知识工程师向领域专家询问有关知识, 一种是由知识工程师向领域专家询问有关知识,经过整理编 辑后将知识转换成计算机表示形式, 辑后将知识转换成计算机表示形式,送入知识库 另一种是针对大量数据进行机器学习,分析、总结和抽取出 另一种是针对大量数据进行机器学习,分析、 有用的新知识,这是更高层次的知识获取方式。 有用的新知识,这是更高层次的知识获取方式。 专家系统的另一个重要部分是推理机 推理机, 专家系统的另一个重要部分是推理机,由它来控制和 协调整个系统,并根椐当前输入的数据和知识, 协调整个系统,并根椐当前输入的数据和知识,按一定的推理策 去解决当前的问题, 略,去解决当前的问题,推导出结论
基因表达数据:通过对基因表达的实验研究,得 到的相关数。 示例: 酵母菌中部分基因的表达矩阵
生物信息讲义
基因表达数据
酵母菌中部分基因的表达矩阵
生物信息讲义
基因表达数据
目前流行的获取基因表达数据的方法生物芯片 生物芯片(Biochips) 包括DNA芯片(有时也被 称为基因芯片、或微阵列(Microarray))、组织芯片 、蛋白质芯片和细胞芯片 。
生物信息讲义
1、数学统计方法 、
生物活动常常以大量、重复的形式出现, 生物活动常常以大量、重复的形式出现,既受到内在因 素的制约,又受到外界环境的随机干扰。 素的制约,又受到外界环境的随机干扰。因此概率论和 数学统计是现代生物学研究中一种常用的分析方法 数据统计、因素分析、 数据统计、因素分析、多元回归分析是生物学研究必备 的工具 隐马尔科夫模型( 隐马尔科夫模型(Hidden Markov Models)在序列分析 ) 方面有着重要的应用。与隐马尔科夫模型相关的技术是 方面有着重要的应用。 马尔科夫链( 马尔科夫链(Markov Chain) )
Targets
生物信息讲义
From Southern et al (1999)
生物信息讲义
基因表达数据
通过DNA芯片获取基因表达数据 • 首先选取来自不同状态的样本 • 染色、杂交 • 洗脱 实验样本和参考样 • 扫描、分析 本RNA分别用不同 的红、绿荧光染料 去染色,并将它们 • 获得结果 获得微阵列上每个点的红、绿荧 混合,与微阵列上
生物信息讲义
基因表达
基因通过表达控制着特定的蛋白质组成(如血红 蛋白)。所有的体细胞都含有同样的基因,但在 细胞逐步分化后,往往有些基因表达,有些不表 达,或仅在胚胎期或病理情况下表达。
生物信息讲义
基本知识
基因表达 基因表达数据 基因表达数据分析
基本信息分析 调控信息分析
生物信息讲义
基因表达数据
A simple gene array 基因表达数据D E A B C
1 2 3 4 5
A2=“Protein kinase A” D2=“Glutamate receptor NMDAR” E1= “Actin cDNA”
……………
生物信息讲义
A magnification view of a robot printing
生物信息讲义
如正常组织与肿瘤 组织,不同发育阶 段组织,或用药之 前与用药之后组织 等,其中一种称为 实验样本 experimental 光强度(Cy5和Cy3),其比值 的探针序列进行杂 samples,另外一 (Cy5/Cy3)称为该基因在实验样 种称为参考样本 交 最终获得基因表达矩阵(以 本中的表达水平。可以对上述比 reference sample 字母G=[gij]mxn表示,其中m 值进行以2为底的对数变换即以 表示基因个数,n表示实验 Log2(Cy5/Cy3)表示该基因的表 样本个数。这就是所谓的基 达水平。 因表达谱,是进一步进行生 物信息学处理的基础,其数 据质量直接影响后续的分析 结果。
生物信息讲义
3、机器学习与模式识别技术 、
机器学习 机器学习是模拟人类的学习过程,以计算机为工具 机器学习是模拟人类的学习过程, 获取知识、 获取知识、积累经验
• 1、遗传算法采用随机搜索方法,具有自适应能力和便于 、遗传算法采用随机搜索方法, 采用随机搜索方法 并行计算 • 2、神经网络的理论是基于人脑的结构,其目的是揭示一 的理论是基于人脑的结构, 、神经网络的理论是基于人脑的结构 个系统是如何向环境学习的, 个系统是如何向环境学习的,这一种方法被称为联接主义
第五章 基因表达数据分析
基因表达 基因表达数据 基因表达数据分析 基本信息分析
调控信息分析
结果可视化
生物信息讲义
基本知识
基因表达 基因表达数据 基因表达数据分析
生物信息讲义
基因表达 DNA→RNA(转录)
以DNA的反编码链为模板,在启动子的控制下以碱基 互补的方式,合成一个RNA分子。
RNA→蛋白质(翻译)
生物信息讲义
4、数据库技术及数据挖掘 、
数据库技术 数据仓库 虚拟数据库技术( 虚拟数据库技术(Virtual Database,简称 VDB) , ) 数据挖掘( 数据挖掘(data mining) ) 又称作数据库中的知识发现 (Knowledge Discovery in Database),它是从数据库或数据仓库中发现并提取隐 , 藏在其中的信息的一种新技术,它能自动分析数据, 藏在其中的信息的一种新技术,它能自动分析数据, 对它们进行归纳性推理和联想, 对它们进行归纳性推理和联想,寻找数据间内在的某 些关联,从中发掘出潜在的、 些关联,从中发掘出潜在的、对信息预测和决策行为 起着十分重要作用的模式 数据挖掘过程一般分为4个基本步骤 数据选择、 个基本步骤: 数据挖掘过程一般分为 个基本步骤:数据选择、数据 转换、 转换、数据挖掘和结果分析
生物信息讲义
生物信息讲义
8、量子力学和分子力学计算 、
量子力学主要研究原子、分子、凝聚态物质、 量子力学主要研究原子、分子、凝聚态物质、以及原子 核和基本粒子的结构、性质的基础理论, 核和基本粒子的结构、性质的基础理论,在化学等有关 学科中得到了广泛的应用 分子力学( 分子力学(Molecular Mechanics)方法是一种非量子力 ) 学的计算分子结构、能量与性质的方法, 学的计算分子结构、能量与性质的方法,该方法应用经 验势能函数,即经验力场方法模拟分子的结构, 验势能函数,即经验力场方法模拟分子的结构,计算分 子的性质 在进行分子结构分析、构象优化、 在进行分子结构分析、构象优化、分子间相互作用研究 及分子模拟时需要应用量子力学或分子力学
基因表达数据
应用 • 比较正常不同组织细胞中基因的表达模式 • 研究正常组织与病理组织基因表达差异 只在肾脏中表达的 基因就不大可能与 精神分裂症有关。 • 研究药物处理细胞后基因表达变化 一些药物的靶点是 在整个身体中分布 • …
广泛的蛋白质,这 类药物的副作用往 往比较大。
生物信息讲义
基本知识
DNA具有著名的双螺旋结构,两条链上的碱基互补 配对。即A与T、C与G、G与C、T与A配对。碱基互 补的两条链结合在一起的过程就称为"杂交",我 们可以利用"杂交"来确定DNA的序列。如果一条 DNA链是GATTACA,它互补DNA的序列就是CTAATGT
生物信息讲义
What is hybridization? Probes
基因表达 基因表达数据 基因表达数据分析
基本信息分析 调控信息分析
生物信息讲义
基因表达数据分析−基本信息
常用的方法与技术
1、数学统计方法 数学统计方法 2、动态规划方法 3、机器学习与模式识别技术 数据库技术及数据挖掘(详细介绍) 4、数据库技术及数据挖掘(详细介绍) 5、人工神经网络技术 6、专家系统 7、分子模型化技术 8、量子力学和分子力学计算 9、生物分子的计算机模拟 10、因特网(Internet) 10、因特网(Internet)技术
A B C D
mRNA -> labeled cDNA
C’ A’ D’ B’
The DNAs attached to the support are defined as probes, while the labeled DNAs are defined as targets.
Co-hybridize
生物信息讲义
领域专家
用 户
AI专家
使 用 界 面 知识库 推理机
知识获取
解释机构
知识库
数据库
专家系统的基本结构
生wk.baidu.com信息讲义
7、分子模型化技术 、
分子模型化( 分子模型化(Molecular modeling)是利用计算机模拟分 ) 子结构、 子结构、研究分子之间相互作用的一种技术 分子模型化是进行分子设计的基础。分子图形学( 分子模型化是进行分子设计的基础。分子图形学( Molecular Graphics)是进行分子模型化的一项重要技术 ) 正是由于分子图形学和其它计算化学方法( ,正是由于分子图形学和其它计算化学方法(如分子力 分子动力学)的相互结合, 学、分子动力学)的相互结合,才使得分子模型化方法 取得成功
三个碱基编码一个密码子,一个密码子对应一种氨基 酸。20种氨基酸是构成蛋白质的基本单位。
生物信息讲义
基因表达
基因的表达: 基因的表达
指从DNA→RNA→蛋白质合成的全过程。 基因表达的最终产物是蛋白。人之所以能生长发育、健 康生活,正是靠多少万个基因在表达它各自的蛋白。人 没有血红蛋白,就不能生存,所以,血红蛋白的基因( 珠蛋白基因)先天出了毛病,就成为遗传病。现在知道 ,恶性肿瘤、高血压、糖尿病以至老年痴呆都是基因发 生了故障,但是,有多少个基因以及是那一种基因出了 故障还不清楚。
美国加州Affymetrix公司 oligonucleotide microarray Standford cDNA
生物信息讲义
基因表达数据
基因芯片
生物信息讲义
生物信息讲义
基因表达数据
基因芯片的原理:杂交原理(Hybridization Hybridization) Hybridization