一种基于系统不确定性的主动式知识学习算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

/(/
自然科学版 # )卷 !!!!!!! 重 庆 邮 电 学 院 学 报 ! !!!!!!!!!!!!!!! 第 !
)( " 步引入变精度粗 糙 集 模 型 ’ 定义了类似的信息熵
定 义F ! ! 概率分布 # $ 给定 ! $" %" ’ "#! &" " 若$, . /! ! 6 ( ’ # !" 6# 3! " 3( "." #* # !# " 则 6 在 $ 构成的! 代数上的概率分布为 $ 37 + ’ $ $, 6# 8(# . /! !
合与决策属性集合 " 是) ’ $ ! # (& %) # ’ * + )" )(

% # #%) & $ ’&’ # ! 是从实 &$ % ’ # ! 的值域 " 例空间向属性空间的映射函数 ) ! " 通过实例表达’ 与! 之间由’ 到! 的逻辑 关 系 " 描 述 命 题 ’ & !) 实 例 , % $ 在 属 性 "即 &! ) % ’ # ! 上 的 取 值 记 为 )! ,# ," )# #
37 ! 9 37 # ! ( 13 :1 其中 9! " " < < 3 3 #3 :#!" ("< #; # 9! :# :# 1$ 1 7) 定 义G! ! 条件属性熵 # $ 给定 ! "# ! $" %" &" " ’ # !# ’ 在 $ 上的信息熵定义为 $
! (
3 3 ’ ! # ! 3 9 93 # .
近似程度的描述结果 )
收稿日期 # & ( " " % $ " ’ $ " !!! 修订日期 & ( " " % E ! ( E ! & 基金项目 # 国家自然科学基金资助项目 ! " # 国家留 学 基 金 委 基 金 ’ 重庆市教委科学技术研究项目! # 重 & " 3 4 3 ! ! ! " # " % " ’" 庆市自然科学基金资助项目 ! 及重庆市中青年优秀骨干教师基金资助项目 " $ ’ ! ! ! 作者简介 # 赵军 ! " # 男# 重庆人 # 博士 # 副教授 # 主要研究领域为 5 智 能 信 息 系 统 和 信 息 安 全 等 $; ! ’ 4 ! $ , 6 8* 9 :理 论 ’ $ 7 & 6 < = > ?@ 8 = , 6 / : E 9 F 6 E B / !B A C D
=! !1’## 5
, 3%$ ’# . /! !
,
3# 9!
, 4 %$ !# . /! !
,
’ / 4 13# 9!
! # ( 4 13# ? , 7 9! 定义 "! ! 实例确定性 # $ 给定 ! "#! $" %" &" " ! ’ ( # " 若 ’ # ! , %$ 0 %$ 0 % , . /! ! ’# ) 0 . " 则 , 是不确定的 " 并称 , 与0 相互冲突 & ’ ,( !## . /! ! 若* # " 则, 是 ,( ,( 0 %$ ! 0% ’ . /! ! . /! ! ’# & 0 % ’ !# 确定的 ) 系统中任何两个互相冲突的实例在每一条件属 性上取值都对应相等 " 因而属于同一条件等价类 & 但 在某些甚至全部决策 属 性 上 取 值 不 同 " 因而属于不 同决策等价类 ) 定义 I! ! 系统确定性 # $ 给定 ! "#! $" %" &" " 若其中所有实例都是确定的 " 则! ’ # !# " 是确定 的& 否则 ! " 是不确定的 )
层提供先验领域 知 识 ) 在 很 多 现 实 情 况 中 " 先验知 识往往本身不够准 确 " 而且对那些人类尚未充分认 识的领域而言 " 更缺乏领域知识可供利用 ) 因此 " 为 技术层提供不依赖于先验知识的主动式知识学习方 法是很有必要的 ) 这类主动式方法的学习过程完全 受信息系统本身控制 " 不需任何外界信息或参数 " 因 而能够有效地避免先验知识的偏差对学习过程带来 的不利影响 " 其学习 结 果 能 够 更 客 观 地 表 达 信 息 系 统的潜在特征和规律 ) 这类方法在那些人类尚未充 分认识的领域内更独具应用优势 ) 离开先验知识 的 帮 助 " 主动式学习方法必须依 赖信息系统固有的内在属性来控制其学习过程 ) 这 种属性能够把信息系统及其导出的知识系统联系起 来" 并且在这两类 系 统 上 的 度 量 结 果 可 以 比 较 ) 诸 使系统不确定性成为信息系 多不确定因素的存 在 " 统和知识系统都固 有 的 一 种 属 性 " 利用系统不确定 性能够有效地控制主动式知识学习过程 )
# $ % & ! "!’ $ & ! B 8 C & ( ) ) *
! " 文章编号 # ! " " # $ % & ’ # ( " " & " ! $ " " ) & $ " %!!
一种基于系统不确定性的主动式知识学习算法
赵 军
! # 重庆邮电学院 " 重庆 # " " " & %
"
摘!要# 主动式知识学习方法不依赖于先验领域知识 # 其学习过程受信息系统的内 在 属 性 控 制 # 所产生的知识系统 能够更客观地表达信息系统的潜在特征和规律 $ 系 统 不 确 定 性 能 够 有 效 地 控 制 主 动 式 知 识 学 习 过 程 $ 基 于 粗 糙 集理论 # 提出一种系统不确定性度量方式 # 结合 * 设计出一种基于系统不确定性的主动式 决 策 规 则 知 + , . , / 算法 # 识学习算法 $ 仿真实验结果表明该算法能够更好地适应系统的不确定性 # 其综合性能明显优于其他同类算法 $ 关键词 # 主动式知识学习 % 粗糙集 % 系统不确定因子 % 系统确定因子 % 系统不确定度
$ 所属于的等价类记为’ ,( -#) 特 别 地 将 . /! ! , ! # 中 的 等 价 类 称 为 条 件 等 价 类" $. /! ’ $, !#中的等价类称为决策等价类 ) . /! ! (( 在粗糙集理论中 ’ 属性集合 - ( ’ # ! 亦称 "
为知识 -" 实例集合 3 ( $ 亦称为概念 3 ) 定义 D! ! 近 似 集 合# $ 给定 ! $" %" " # ! &" # " 若 则 在 上相对于 " " ’#! - (’ # ! 3 ($ 3 $
函数 " 其度量结果显 著 地 依 赖 于 粗 糙 集 模 型 的 阈 值 难以用来控制主动式知识学习过程 ) 精度 " (< !! 系统不确定因子 根据信息论 " 决策信息系统 ! "#! $" %" ’ &" # ! # 的不确定程度能够通过其条件熵 的 = !1 ’ #! 取值表征出来 ) 从概念上表达了 ! 相对于 =! !1 ’# 其取值规律与系统不确定性概 ’ 的条 件 不 确 定 性 " 念之间是一致的 ) 定 理!! 给定 ! " $" %" ’ # !# "#! ! "是 &" 确定的当且仅当 = ! !1’## ") 推 论!! 给定 ! " $" %" ’ # !# "#! ! "是 &" 不确定的当且仅当 = ! !1’#/ ") 定理 (! 给定 ! 和! "#! "" $" %" ’ # !# &" " " " 若 $, $ "% " " ’# ( . /! ! # ! & "’ # !# " " " 则 =! . /! ! $, ’ # !1’#0 = ! !1’ # 基于粗糙集模 型 对 信 息 系 统 的 分 析 处 理 过 程 " 如缺失属性值的补齐 % 连续属性值的离散化及条件 属性的约简等 " 都会使系统丧失某些实例分辨信息 " 一些条件等价类被合 并 ) 这种合并一方面使实例之 间相互冲突的可能性 增 加 " 系统的不确定性趋于严 重" 另一方面也使系统条件熵的取值单调上升 " 从这 一意义上说 " 系统条 件 熵 的 取 值 规 律 能 够 反 映 系 统 不确定性随系统处理过程变化的趋势和特点 ) 定义 ! 系统不确 定 因 子 # $ 给定 ! $" )! ! "#! " ! " 的 不 确 定 因 子 定 义 为 "A %" 7 B # &"’ # !# ! ! # , # ) = !1’ ? , 7 1$ 1 显然 " # " 于是 " ! , =! !1 ’#0 = ! !#0? $1 1 7 ) 6 / B 0! 0" (< (! 系统确定因子 文献 ’ 给定 ! " (认为 $ "#! 4 $" %" ’ # !# &" =! ’#能够度量命题 ’ & ! 的逻辑前件的编码复杂 度" 于 是 定 义 熵 函 数 =! ’ & !## = ! ! 1’#C ! # ) 来度量 的不确定性 这种方法在度量系统 =’ ! " 不确定 性 时 引 入 了 编 码 复 杂 度 因 素 ) 文献’ (本 质 ) 同 样 认 为 =! 上继续沿用了这一 思 想 " ’#与 系 统 不 确定性是正相关的 ) 事实上 " 按照粗糙集模型 " =! ’#与系 统 不 确 定 性应该是负相关的 " 本质上它度量了信息系统提供 的确定性信息 ) 从极端情况来看 " 当 =! 取极大值 ’# ! #时 " ? , ! " 的任何条件等价类中都仅含 有一 1$ 1 7 个实例 " 任何实例都 不可 能与别 的实例 冲 突 " ! "必 然是确定的 " 其不确定性最小 & 当 =! ’#取最小值 " 时" ’ 不能分辨任何实例 " $ 中所有实例都 属于同 一 条件等价类 " 因而都是不确定的 " 相应 地 ! " 的不 确 定性最大 ) 从一般情况来看 " 越大 ! # " =’ ’ 对实例的
第! " 卷第 ! 期 ( ) ) *年(月
重庆邮电学院学报 ! 自然科学版 " ! " + $ , . / % $ 01 2 $ . 5 . . 5 7 8 9 5 : 0< $ 9 : 9/ . => 8 % 8 ? $ @@ , . 5 ? / : 5 $ . 9 ’ / : , / % A ? 5 8 . ? 8 36 ;$ 3 4
中图分类号 # 0 1 ! )!! 文献标识码 # 2
)! 引 ! 言
认知信息学 认 为 $ 知识学习过程可以划分为3 个层次 " 由内向外 依 次 是 哲 学 层 % 技 术 层 和 应 用 层& 每一层解决不同环 境 中 的 问 题 " 内层向外层提供服
( ! ) 按照这个模 型 " 务’ 哲学层从概念上来说向技术
) )! ,# 定义 (! ! 不可分辨关系 # $ 给定 ! $" %" "#! " 若 - ( ’ # !" 则 - 在$ 上定义不可分 ’ # !# &" 辨二元关系. $ -# /! ! ! -## * ," ," ) . /! ! 1! 0# 0#% $ 2$ ) * # # + ! ! # ! ) , ) # 0 % 显然" 是$ 上的等价关系 ) 由. -# -# . /! ! /! ! 导出的对$ 的划分记为$, " 其中实例 , % -# . /! !
!! 基本知识
定义 !! ! 决策信息系统 # $ 元组 ! $" %" "#! 是决策信息系统 ) 其中 " ’ # !# $ 是有限实例集 &" 合" 称为论域 & ’ 与! 分别是描述实例的条件属性集
"
- 的下近似集合为 $ --! 3## * 41 4 % $, -#)4 ( 3+ . /! ! 3 在 $ 上相对于 - 的上近似集合为 $ -5 ! 3## * 41 4 % $, . /! ! -#)4 $ 3 + (+ 5 和- ! 代表了知识 - 对概念3 不同 -5 ! 3# 3#
ib8等人定义信息熵函数来描述信息系统的不确定性但其度量方式不够合理陈湘辉等人又进一步引入变精度粗糙集模型定义了类似的信息熵函数其度量结果显著地依赖于粗糙集模型的阈值精度难以用来控制主动式知识学习过程系统不确定因子根据信息论决策信息系统的条件不确定性其取值规律与系统不确定性概念之间是一致的定理基于粗糙集模型对信息系统的分析处理过程如缺失属性值的补齐连续属性值的离散化及条件属性的约简等都会使系统丧失某些实例分辨信息一些条件等价类被合并这种合并一方面使实例之间相互冲突的可能性增加系统的不确定性趋于严重另一方面也使系统条件熵的取值单调上升从这一意义上说系统条件熵的取值规律能够反映系统不确定性随系统处理过程变化的趋势和特点定义11于是系统确定因子文献的逻辑前件的编码复杂度于是定义熵函数的不确定性这种方法在度量系统不确定性时引入了编码复杂度因素文献本质上继续沿用了这一思想同样认为与系统不确定性是正相关的事实上按照粗糙集模型与系统不确定性应该是负相关的本质上它度量了信息系统提供的确定性信息从极端情况来看当的任何条件等价类中都仅含有一个实例任何实例都不可能与别的实例冲突中所有实例都属于同一条件等价类因而都是不确定的相应地的划分粒度越细微于是实例冲突的可能性越低系统的不确定程度越微弱显的不确定性是负相关的定理证明根据信息理论可知当所有的条件等价类概率都相等时系统不确定度定义可以视为该系统的确定度值得指出的是在定义的归一化因子并不相同它们的归一化因子是通过仿真实验研究确定下来的能够使下述的主动式知识学习算法的性能最佳d
.
(
=! ’##5
, 3%$ ’# . /! !
,
# 3# 3# ? , 7! 9! 9!
定 义* ! ! 条件概率 # $ 给定 ! $" %" ’ "#! &" " 若$, ." " . /! ! 6 ( ’" 6# 3! " 3( " 37+ #* # !# , ! # * " "." + " 则 相 对 于 $. 4> 4? 3: /! ! # 4! 4( 的条 件 概 率 定 义 为 $ 4? 1 3 :##1 3 : $4 9! ? 1, "其中: # !" ." ." 7& >) 13 ? # !" :1 定 义H! ! 条件熵 # $ 给定 ! "# ! $" %" ’# &" " !# ’ 在 $ 上相对于 ! 的条件熵定义为 $
相关文档
最新文档