基于动态贝叶斯网构建基因调控网络

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生 物医学 工程研 究 Journal of Biomedical Engineering Research 2008, 27( 3) : 145~ 149
基于动态贝叶斯网构建基因调控网络
强波, 王正志
( 国防科技大学 机电工程与自动化学院七队 , 长沙 410073)
*
摘要 : 动态贝叶斯网络 ( dynamic bayesian network, DBN) 是一种基于时序表达数据构建基因调控网络的重 要方法。 然而目前的 DBN 方法因计算时间太长, 结构不稳定, 准确度低, 对有效性有很大影响 。根据动态贝 叶斯网络的度量可分解性质, 将动态贝叶斯网络分为初始网络与转移网络分别进行结构寻优 , 在寻优时将基 于静态贝叶斯网络的最大权重生成树算法与贪婪搜索算法相结合, 移植入动态贝叶斯网络中 , 建立基因调控 网络模型。 提出了一种从时序数据中构建基因调控网络的方法, 克服了贝叶斯网络不能描述循环调控的缺 陷, 也从规模上简化了网络构建问题。 通过与相关实验文献的对照, 验证了提出方法的有效性 , 网络学习时 间明显缩短, 网络结构更加稳定。 关键词: 时序表达数据; 动态贝叶斯网络; 度量可分解; 最大权重生成树算法; 贪婪搜索算法; 基因调控网络 中图分类号 : Q811. 4; TP31. 9; R318 文献标识码: A 文章编号: 1672 6278 ( 2008) 03 0145 05
Constructions of Gene Regulatory Networks based on Dynamic Bayesian Network
( QIANG Bo, WANG Zhengzhi
( College o f Mechatronics Engineering and Automation National University o f Def ense Technology , Changsha 410073, China ) Abstract: Dynamic Bayesian network ( DBN ) is an important approach for predicting the gene regulatory networks from time course expression data. However, three problems greatly reduce the effectiveness of current DBN methods, including long computational time, instable structures, and low accuracy. According to the property of decomposability of DBN, we divided DBN into initial network and transferring network, and combined Maximum Weight Spanning Tree algorithm ( MWST) and Greedy Search( GS) algorithm both based on BN, then transplanted the mixed algorithm into DBN, to build the gene regulatory network model. We presented a gene regulatory network- building approach based on temporal expression data. Unlike previous DBN methods, our approach can described cycle- regulation among genes, and reduced the computational time in modeling the network. We verify the effectiveness of our approach by consulting the corresponding experiment articles, and reduce the computational time in learning network, finally get more stable structures. Key words: Temporal expression data; Dynamic Bayesian network; Measurement dividable; Maximum weight spanning tree algorithm; Greedy search algorithm ; Gene regulatory network
N
( 2)
就是说未来时刻的概率只与当前时刻有关而与 过去时刻无关。 ( 3) 假设相邻时间的条件概率过程是平稳的 , 即 P ( X [ t + 1] X [ t ] 与时间 t 无关, 可以容易地得到不 同时间的转移概率。 基于以上假设, 建立在随机过程时间轨迹上的联 合概率分布的 DBN 就由两部分组成: 一个先验网 B 0 , 定义在初始状态 X [ 1] 上的联合概率分布; 一个转移 网 B ∃ , 定义在变量 X [ t ] 与 X [ t + 1] 上的转移概率 P ( X [ t + 1] X [ t ] ( 对所有的 t 都成立) , 见图 1。 由此可得 DBN 模型的联合分布概率为: P ( X [ 1] , X [ 2] ,
1

wk.baidu.com[ 2]

[ 1] [ 3]
定性研究基因调控网络 , 是一种粗糙的简化模型; 而 后者在量上通过精细的数学分析来描述生物过程, 但 缺乏抗噪音能力, 计算量大 , 鲁棒性能不佳。而贝叶 斯网络模型可以看作是两个极端的折衷。 根据处理的基因表达数据类型的区别, 贝叶斯
目前构建基因调控网络主要有布尔网络 、 微分 方程 、 贝叶斯网络 等方法。布尔网络与微分方程 从两个截然相反的角度来剖析基因调控网络: 前者是
n
首先将 动态贝
叶斯网络方法应用于时序表达数据模型构建。Kim [ 5] 和 Imoto 等系统分析了离散和连续的 DBN 模型以 及模型的评价标准。 Perrin 等
[6]
提出了由于数据缺
失导致系统不完全可观情况下采用 EM 算法构建网 络的方法。这些工作均将同一时刻中基因间的调控 关系与相邻时刻的调控关系结合在一起建立模型 , 这样建立调控网络模型存在很多问题, 计算量大, 结 构不稳定 , 准确度不高, 并且由于贝叶斯网络存在有 向无环图的前提 , 无法对生物过程中反馈等循环调 控进行描述, 因此需要对目前的方法进行改进。 我们根据贝叶斯度量可分解性质 , 将时序基因 调控网络分为初始网络与转移网络分别构建, 并将 静态贝叶斯网络寻优算法中的最大权重生成树算法 ( maximum weight spanning tree, MWST ) 与贪婪搜索算 法( greedy search, GS) 相结合, 移植入动态网 络中进 行网络寻优 , 这样不仅克服了贝叶斯网络前提是有 向无环图的缺陷 , 可以对基因的反馈等循环调控进 行建模, 也从规模上简化了网络构建问题, 明显缩短 学习时间 , 网络结构更加稳定。
P ( X [ t + 1] X [ 1] , X [ 2] , X [ t ] ) = P ( X [ t + 1] X [ t ] )
2
2. 1
网络模型介绍
概率图模型 概率图模型是一种以图的方式表示变量之间概
率关系的模型, 其中的节点可以认为是变量, 而边表 示变量之间的概率联系 , 即相关性。这种图能够以 最直接紧凑的形式表示变量的联合概率。假设现在 有 N 个二值 变量, 一般 其联合 概率 P ( X 1 , X 2 , X N ) 需要 O ( 2 ) 个参数表示, 而通过图模型, 根据相 关性假设 , 则可以指数倍减少参数的个数, 这有利于 后续的推导和学习。 作为 概 率 图 模 型 范 畴 之 一 的 贝 叶 斯 网 络 ( bayesian network, BN) , 是人工智能中处理不确定性 [ 7] 问题建模与分析的工具。微软公司 的 Heckerman 于 1995 年撰写出比较系统的 BN 理论学术性文章, 标 志着 BN 理论已经成为一门系统的理论。动态贝叶 斯网络( dynamic bayesian network, DBN) 是普通 BN 在 时间领域的拓展 , 即在原来网络结构上加上时间属 性的 约 束 , 与 BN 一 样 都 是 有 向 无 环 图 ( directed acyclic graphs, DAG) 。从大量样本 数据中挖掘 DBN
* 基金项目 : 国家自然科学基金资助项目 ( 60471003) 。 通信作者 Email: wangzhengzhi@ sina. com
146
生 物医 学工 程研 究
第 27 卷
网络分为静态贝叶斯网络 ( bayesian networks: BN) 和 动态贝叶斯网络( dynamic bayesian networks: DBN) 两 种方法。静态贝叶斯网络适用于处理无时序信息的 芯片表达数据, 动态贝叶斯网络方法适用于处理有 时序信息的 数据。Murphy 与 Mian
[4]
网络结构的算法称为 DBN 的网络结构学习。近年 来很多学者开始研究如何从大量样本中挖掘 BN 网 络结构 , 并提出了很多学习算法 , 由于 DBN 与 BN 的 相似性与关联性, 这些学习算法的很多思想可推至 DBN。 2. 2 X 2, 从静态网到动态网 对于一个 BN 图, 若记随机变量集为 , X = { X 1 , X N } , X i 代表 途中的对应节点 , Pa ( X i ) 代表 Xi 节点的父节点集。在 t 时刻的 X i 表示为 X i [ t] 。 在 BN 理论中 , 一个 BN 是一个包含了在 X 上联合概 率分 布 的有 向 无 环 图 G。图 中 的 每 个 结 点服 从 Markove 假设 : 即每个变量 Xi 给定在 G 中的父结点 前提下 , 独立于它的非子结点。 BN 指定集合 X 中唯一的联合概率分布如下 : P ( X 1, X n ) = !i - 1 P ∀X i Pa ( X i ) #
T
, X[T ])= ( 3)
P B 0 ( X [ 1] ) t ! X [ t + 1] X [ t ] ) = 1
第3 期

波 , 等 : 基于动态贝叶斯网构建基因调控网络
147
图1 Fig 1
DBN 示意图 ( a)
( a) 初始网络 ; ( b) 转移网络 The illustration of DBN ( a) init ial network; ( b) t ransf erring network
2. 3
动态网的优势 贝叶斯网络的前提是有向无环图, 因此无法描述
图 2( a) 中如 X 1 ∃ X 2 ∃ X 5 ∃ X 1 的环状反馈结构 , 但 是在生物过程中包括很多像反馈这样的循环调控过 程, 因而静态贝叶斯网络在描述调控模型上有很大的 限制, 动态贝叶斯网络考虑时间因素后, 通过划分时 间点 , 可以将上述反馈调控做如图 2( b) 中 X 1( t ) ∃ X 2( t + 1) ∃ X 5( t + 2) ∃ X 1( t + 3) 形式的描述。因此 动态网络对反馈调控的描述优于静态网络。 2. 4 动态网络贝叶斯度量的可分解性 在 BN 的理论中 , 网络
( 1)
为确定以上的联合概率, 需要确定所有( 1) 式中出 现的条件概率, 所有这些条件概率组成了参数向量集 。而贝叶斯网络的核心就是通过将这种条件独立关 系解释为因果关系, 并用以表示基因间的调控关系。 DBN 模型则是将这 种表述扩展到 模型化含时 间因素的随机过程。为了用 BN 表述 随机过程, 需 要得到随机变量 Xi [ 1] , Xi [ 2] , , Xi [ n ] 上的一个 概率分布, 但这样的分布是十分复杂的。因此, 为了 对复杂系统进行研究并建立相应的模型 , 需要做一 些假设和简化处理。假设条件概括如下: ( 1) 假设在一个有限的时间内条件概率变化过 程对所有 t 是一致平稳的; ( 2) 假设动态概率过程是马氏 ( Markovian) 的 , 既 满足:
相关文档
最新文档