贝叶斯网络结构学习研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8
贝叶斯网络结构学习背景
将 一 个 贝 叶 斯 网 络 表 示 为 一 个 有 向 无 环 图 V 图 中 所
有 结 点 表 示 为 ; YZ;8 ;([L 则 其 联 合 概 率 表 示 为 \< 1; 8
基金项目 国家自然科学基金 :8";7"]; 作者简介 殷 陶 18^]] 4 男 河北石家庄人 硕士研究生 研究方向 数据分析 贝叶斯网络等
第 !! 卷
第 8; 期
电子设计工程
`(0P!!
@(P8;
_0/D.&(-,D Q/F,G- _-G,-//&,-G
!"8# 年 ^ 月 S/MP !"8#
贝叶斯网络结构学习研究
殷 陶
上海交通大学 计算机系 上海 !""!#" 摘要 针 对贝 叶 斯 网络 结 构 学习 方 法 难以 兼 顾 高准 确 率 和 高 效 率 的 问 题 提 出 了 一 种 基 于 $%&'() *+%,- $(-./ *%&0(
8?@A'8?@A% $ 其中 > 为数据集长度 $ 如果设收敛次数为 B " 则总
时间复杂度为 =$B>8?@A'8?@Βιβλιοθήκη Baidu% $
%7!
拓扑排序 拓扑 排 序 是 对 有 向 无 环 图 的 顶 点 的 一 种 排 序 " 它 使 得
8
基于 "$"$ 贝叶斯网络结构学习方法 改进
针 对 基 于 3535 的 贝 叶 斯 网 络 结 构 学 习 方 法 时 间 效 率
=
电子设计工程 '<"/ 年第 "S 期
!% % ! "! " # ! #!" $ " % 表 示 !% 的 父 亲 结 点 集 合 " 该 集 合
中 的 结 点 是 由 图 # 的 结 构 所 决 定 的 $ $$!% % % 反 映 了 变 量 之 间 的 局 部 概 率 分 布 "在 一 个 完 整 的 贝 叶 斯 网 络 中 "通 常 由 条 件 概 率 表 来 反 映 这 一 信 息 $ 在 取 值 为 离 散 的 情 况 下 "局 部 概 率 分 布 可 以 这 样 定 义 &'( %$$!% !&' % ! ( %! #'( " 其 中 (# 代 表 父 集 # 中 第 ( 种 联 合 分 布 $ 贝叶斯网络结构学习的主要目的是从实验数据出发找到 一种后验概率最大的图结构 $ 据此我们给出评分的含义 %图结 构之间的评分正比于图结构之间出现的后验概率比例 $ 贝叶 斯 网 络 结 构 的 评 分 可 以 这 样 定 义 %)$*+#%!)$#%)$*,#% )$#% 表 示 了 该 图结 构 出 现的 先 验 概率 $ )$*% 为 实 验数 据 ")$*,#% 为 在数 据 集 * 给定 后 " 图 # 出 现 的 后 验 概 率 的 大 小 " 可 以 定 义 为 &-./(%)$*,#%!#!" '!"
1$*$*2 方法的贝叶斯网络结构学习方法的改进 改 进包 括 使 用依 赖 关 系分 析 利 用统 计 学 的方 法 对 采样 空 间 进行
大幅缩减 能够在精确控制准确度的情况下大幅提高时间效率 结合先验知识 从理论角度将先验 知 识 融入 评 分 中得 到完全服从后验分布的结果 搜索最优子结构 对于特定的一些结构搜索最优子结构而不是采用 贪 心 的方 法 提 高了 贝叶斯网络结构学习的准确率 通过理论分析可以证明时间复杂度得到了大幅的降低 并且可以在牺牲可预知的准 确率的情况下 将指数时间复杂度降为线性时间 大量的数据实验表明 经改进后的方法在时间和准确性上都具有良 好的表现 关键词 贝叶斯网络学习 3 时间效率 3 独立性检测 3 最优子结构 3 先验知识 3$%&'() *+%,- $(-./ *%&0( 1$*$*4 中图分类号 56788 文献标识码 9 文章编号 8:;#:!7: !"8# 8;<""=<"#
G&%M+L Q9V 其 结 构 表 明 了 数 据 间 的 条 件 独 立 性 和 因 果 关
系 贝叶 斯 网 络结 构 数 随着 结 点 个数 的 增 长呈 超 指 数增 长 因此 无 论 采 用任 何 方 法进 行 贝 叶斯 网 络 结构 学 习 都要 面 临 巨大的样本空间的问题 贝叶斯网络学习问题也被证明是一 个 @6<+%&B 问 题 W8XL 为 了 克 服 样 本 空 间 巨 大 的 困 难 许 多 学 者 进行 了 大 量的 研 究 并提 出 了 一些 学 习 方法 总 体 上来 说 目 前贝 叶 斯 结构 学 习 方法 分 为 两大 类 基 于启 发 式 搜索 的 方 法 和基于采样的方法 基于启发式搜索的方法最大的问题是准 收稿日期 !"87<88<"= 稿件编号 !"8788"7:
45%(+".(6A(& .+/ B,CC,DE0.,/F (C 0/%&-,-G .+/ F.&ED.E&/ (C H%I/F,%- -/.J(&' K(.+ +,G+ %DDE&%DI %-B +,G+ /CC,D,/-DIL J/ M&(M(F/B %- %B%M.,)/ N/.+(B K%F/B (- $%&'() *+%,- $(-./ *%&0( O$*$*4 N/.+(BP ?NM&()/N/-.F ,-D0EB/ Q/M/-B/-DI %-%0IF,F3 EF,-G F.%.,F.,D%0 N/.+(BF .( FEKF.%-.,%00I &/BED/ .+/ F%NM0,-G FM%D/L J/ D%- D(-.&(0 .+/ %DDE&%DI %-B FEKF.%-.,%0 ,-D&/%F/ .+/ .,N/ /CC,D,/-DIP *(NK,-/B J,.+ M&,(&, '-(J0/BG/3 C&(N .+/ .+/(&/.,D%0 M(,-.L J/ D%- %BB M&,(&, '-(J0/BG/ .( .+/ FD(&/ J+,D+ /R%D.0I (K/I .+/ M(F./&,(& B,F.&,KE.,(-P S/%&D+ C(& (M.,N%0 FEKF.&ED.E&/3 F/%&D+ C(& (M.,N%0 FEKF.&ED.E&/ (C F(N/ FM/D,C,D F.&ED.E&/ J,00 G/. .+/ +,G+ %DDE&%DI (C 0/%&-,-G H%I/F,%- -/.J(&' &%.+/& .+%- G&//BI N/.+(BFP HI .+/(&/.,D%0 %-%0IF,F J/ D%- M&()/ .+/ .,N/ D(NM0/R,.I ,F F,G-,C,D%-.0I &/BED/BP T-B/& .+/ /RM/-F/ (C .+/ %DDE&%DI J+,D+ D%- M&/B,D.L J/ D%- &/BED/ .+/ .,N/ D(NM0/R,.I C&(N /RM(-/-.,%0 0,-/%& .,N/P U%&G/ %N(E-.F (C B%.% /RM/&,N/-.F F+(J .+%. .+/ ,NM&()/B N/.+(B +%F G((B M/&C(&N%-D/ K(.+ ,.,N/ %-B %DDE&%DIP 7$# )*+3%6H%I/F,%- -/.J(&' F.&ED.E&/ 0/%&-,-G3.,N/ /CC,D,/-DI3,-B/M/-B/-D/ ./F.3(M.,N%0 FEKF.&ED.E&/3M&,(&, '-(J0/BG/ $%&'() *+%,- $(-./ *%&0(1$*$*4
!"#$%&"' '$()*+, %(+-.(-+$ /$"+'&'0 1$(2*3 %(-3#
>?@ 5%(
!"#$%&'"(& )* +)'#,&"% -./"(." 0(1 2(3/(""%/(34 -50(350/ 6/0)&)(3 7(/8"%9/&: -50(350/ !""!#" +5/(0
确性 难 以 保证 特 别 是在 高 维 的情 况 下 很难 让 人 信服 基 于 采样的方法中最常使用的方法就是 $*$* 采样 其 优 点 在于 从理论上可以保证解的最优性 但是往往在实际应用中计算 复杂 度 是 不可 行 的 除非 只 有 很少 的 结 点 本 文 提 出 一 种 改 O84 进的方法 在基于 $*$* 采样方法上使用一些 带有 启 发 式的 信 息 在具 有 严 格理 论 支 持的 置 信 度控 制 下 大幅 缩 减 样 本 空 间来提高效率 并且在一些关键环节使用搜索代替贪心等启 发式 信 息 来提 高 准 确率 使 得 算法 可 以 同时 具 有 较高 的 准 确 率和效率
" )# *# $*% ."%0 (!" +#'( 0 $+#' 1*# ."%0 % % "
不接受时返回原状态进行随机游走 $ ; & 判定是否稳定 %34 算 法虽 然 可以 保 证 采样 过 程 收敛 " 但 是 没有 明 确 的判 定 条 件 " 这仍然是很多学者在研究的热点问题 $ 本文根据实验和经验 给出 了 判定 条 件 % 随 机 游 走 " <<< 次 没 有 找 到 更 优 的 图 结 构 即认为稳定 $
在已 知 数 据 中 进 行 贝 叶 斯 网 络 结 构 学 习 是 一 个 重 要 的 问 题 在 近 些 年中 也 得 到了 广 泛 和深 入 的 研究 贝 叶 斯网 络 成 功的 应 用 在多 个 领 域 诸 如 生 物 信 息 学 计 算 机 视 觉 经 济 学 等 贝 叶 斯 网 络 是 一 个 有 向 无 环 图 B,&/D./B %DID0,D
是在随机游走时接受的概率符合前后两个状态的后验概率 的比例 $ 在本问题下可以定义为 %,!678$"+ - % 其中 , 表示转 移概 率 "- 和 - 分 别 表 示 随 机 游 走 后 一 状 态 和 前 一 状 态 的 后 验概率 $ 34 规则可以为我们保证整个采样过程的 遍 历性 和 稳定性 $ 在本问题下即能够找到全局最优解 $
!
%&'
基于 "#"$ 的贝叶斯网络结构学习
"()*+,+-./012/).34/ 5"16 34 是 3535 中 常 用 的 采 样 方 法 之 一 $ 其 基 本 思 想 就
方法 " 采 样 方法 等 相 关 $ 优 化 收 敛次 数 属 于如 何 改 进 3535 算 法 范 畴 "这 个 问 题 也 是 当 前 的 热 点 问 题 "但 是 不 在 本 文 讨 论 范 畴 $ 另外 一 个 因素 就 是 每次 迭 代 时间 " 由 于 拓扑 排 序 的 评分 由 最佳 子 结 构决 定 " 尽 管最 佳 子 结构 可 以 化简 为 每 个结 点找寻最佳父集合 " 但是如果使用朴素的方法仍然需要 =$>
C7DE "
图" 本文基于 3535 的贝叶斯网络结构学习流程 =FG HI?J KLMN ?H :MOAP7M8 8ANJ?GQ PNGFKNFGA IAMG878D 6ANL?@ RMPA@ ?8 3535
!&9 时间复杂度分析
基 于 3535 采 样 方 法 的 贝 叶 斯 网 络 结 构 学 习 的 时 间 复 杂 度 决 定因 素 主 要为 % 收 敛 次数 和 每 次迭 代 所 用时 间 $ 收 敛 次数 与 空间 大 小 ( 结点 个 数 &" 空间 样 貌 " 随机 路 线 " 随机 游 走
由于 我 们可 以 给 出完 整 的 服从 后 验 概率 的 评 分 " 所 以 我 们找到后验概率最大的图结构变为只需找到最高评分 $ 如前 文所 述 " 目 前 两 大 类 方 法 分 别 为 2" & 启 发 式 搜 索 " 特 点 是 时 间 效 率 高 但 不 可 靠 '' & 采 样 " 特 点 是 有 正 确 性 理 论 保 证 但 时 间 效率低 $ 本文采用采样的方法并改进其时间效率 $