【文献综述】决策粗糙集均值模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文献综述
数学与应用数学
决策粗糙集均值模型
由于社会已经进入了网络信息时代,信息量不断增长(信息爆炸),并且由于人类的参与,使数据与信息系统中的不确定性更加显著(复杂系统)。面对大量的、杂乱无章的数据,人们希望能从中挖掘出潜在的、有用的信息,这给人类的智能信息处理能力提出了前所未有的挑战。由此产生了人工智能的新领域——知识发现(规则提取、数据挖掘和机器学习)。
波兰数学家Pawlak于1982年发表了论文“Rough Sets”[9]提出了一种能够定量分析处理不精确、不一致、不完整信息与知识的理论——粗糙集理论。1992年,第一届关于粗糙集理论国际学术会议在波兰召开。粗糙集的主要特点是不需要预先给定所需处理的数据集合之外的任何信息,而是直接从给定问题的分类知识出发,提供潜在知识和决策支持。国内外学者对该理论进行了广泛而深入的研究,提出了许多粗糙集模型,并且已经成功应用于很多领域和开发了大量的实用系统[7]。目前,对粗糙集理论的研究集中在它的数学性质、粗糙集拓展、其它不确定方法的关系和互补、有效算法和粒度计算等方面。目前,有3个有关粗糙集的系列国际会议,即RSCTC、RSFDGrC和RSKT。中国学者在这方面虽然起步晚,但发展较快,从2001年开始每年召开中国粗糙集与软计算学术会议;2003年中国人工智能学会粗糙集与软计算专业委员会成立;一系列学术会议也有在中国召开,特别值得一提的是2010年第二届国际粗糙集理论研讨会在我校(浙江海洋学院)召开。中国第四届粗糙集与软计算会议也于2004年10月24日在我校召开,大大增加了我校在国内外的知名度。
在经典粗糙集理论的研究中,Pawlak的代数粗糙集模型是研究的主要对象。粗糙集理论是建立在分类机制的基础上的。它将研究对象组成的集合称为论域,将分类理解为在论域上的等价关系,而等价关系构成了对该论域的划分。粗糙集理论将知识理解为对数据的划分,每一被划分的集合称为概念或范畴。一个等价关系对应一个划分,把论域分解成子集族,作为描述论域中任意概念的基本信息粒子。这产生了一个颗粒集合,其中一个颗粒看作一丛点(对象),因其不可区分性、相似性、接近的功能而被看做一致[24]。
对于一个等价关系(划分),某些子集不能精确地由一个等价类或者几个等价类来表
示。于是定义了两个等价类的并——上、下近似来表达,这对近似算子也是粗糙集模型的核心基础,又称上、下近似集。下近似要求等价类是概念的一个子集,而上近似则要求概念与集合有一个非空的交集。对重叠度的缺乏考虑不必要地限制了粗糙集的应用,同时也促使了很多研究者探讨该理论的概率推广[10-16]。在具有参数可调性能的概率粗糙集模型研究中,比较有代表性的成果有:Yao 等人[19-22]提出了基于Bayes 分析的决策粗糙集模型
(decision-theoretic rough sets, DTRS );Polkowski [12]和Skowron [13]对概率近似分类与模糊集作了比较研究;Pawlak ,Wong 和Ziarko 等人[11]提出了0.5-概率粗糙集模型;Ziarko [26]提出了可变精度粗糙集模型;Pawlak 和Skowron 等人[10]引入了粗糙隶属函数的概念;Greco 等人[6]研究了于Bayes 粗糙集模型。
上、下近似把论域划分成三个两两不相交的区域:下近似作为正域,上近似与下近似的差作为边界域,上近似的余集作为负域。对于一个决策系统而言,上、下近似集是通过条件等价类与决策等价类的2种代数包含关系给出定义的:下近似集完全包含于决策类;上近似集与决策类交集非空即部分包含于决策类[1]。这两种代数包含关系可以看作“集合A 包含于集合B 的条件概率大于0和集合A 包含于集合B 的条件概率等于1”这两个特殊情况,而对于条件概率在0,1之间的情形没有做出区别。Pawlak 的代数粗糙集模型的正域要求条件等价类严格包含于决策类,这样导致正域和负域对象较少,而边界域中的对象较多,不利于对论域中的确定性概念做出描述。对于在正域和负域中的对象,我们可以在给定的决策类中,根据它们的隶属度,做出确定性决策;对于在边界域中的决策,我们只可以做出非确定性决策。故可以提出两种类型的规则[15]:对于正域和负域用确定性规则;对于边界域用非确定性规则。
在决策粗糙集理论中,决策粗糙集模型中区分正域、负域、边界域的阈值是通过计算各决策的最小风险(损失)得到的确定值,由于将Bayes 决策方法引入到阈值的判定中,决策粗糙集应用于实际时具有充分的理论依据。Yao 等人[21]进一步分析决策粗糙集同模糊集、经典粗糙集的关系,指出模糊集意义下的截集、经典Pawlak 粗糙集、各种概率型-α粗糙集模型均可以在决策粗糙集模型中找到相应的解释,它们可以视为决策粗糙集的特例。最近,Yao 和Zhao [23]研究了决策粗糙集意义下的约简理论,指出经典代数粗糙集模型的约简理论不再适用于概率性粗糙集模型,由此提出了新的决策粗糙集约简定义所需维持不变的若干特征,并系统阐述了决策粗糙集约简理论。
Bayes 决策是通过Bayes 先验概率分析思想构造的决策方法,其核心是利用事件发生的先验概率,获得使风险最小的决策。关于Bayes 粗糙集模型[6]尝试提供一种必要参数的
合理解释。该模型是基于Bayes规则,体现了从先验概率到后验概率的变化和分类到假设检验之间的连接。在特定的解释下,不同的概率计算可以表示为参数。由此不难直接建立用于Bayes粗糙集模型中的概率和用于决策理论模型的连接。目前仍然有如何解释和确定所需的参数系统的问题。粗糙集理论在人工智能的应用上主要有两大类[2]:一类是无决策的分析,内容主要包括数据压缩、约简、聚类与机器发现等;另一类是有决策的分析,内容主要包括决策分析、规则提取等,当然也涉及对原始数据的预处理,如数据压缩与约简等。
以粗糙集理论为基础的决策分析对数据的完备性没有很高的要求,决策粗糙集理论将Bayes风险分析和概率型包含关系引入到了粗糙集理论中,因此它在涉及风险决策的数据挖掘问题中具有很好的适用性。自它诞生以来,尤其是最近几年,决策粗糙集理论的应用价值受到越来越多的关注。例如,An. Q等人[4]分析了粗糙关系下的数据关系;Yao J.T.和Herber等人[17,18]研究了DTRS在属性选择问题中的应用,给出了DTRS在网络支持系统中的应用方法,并提出了基于博弈论的DTRS分析方法;Zhao等人[3]研究了决策粗糙集理论在信息过滤中的应用;Zhou和Li[25]研究了基于DTRS的多层次决策规则提取方法;Ayad R.等人[5]研究了Bayes决策粗糙集在E-learning系统中的应用。
经典粗糙集模型中的不可区分关系是一种等价关系,要求很高,限制了粗糙集模型的应用。本课题主要研究当前粗糙集研究中的一个方向——决策粗糙集(DTRS)。在经典粗糙集的基础上,放松了对上下近似集的要求,利用概率论中的条件概率方法及其Bayes决策理论,重新计算了接受域和拒绝域,扩大了正域和负域,从而扩大了决策域。当多用户参与决策时,每个用户根据不同的考虑,所得的最小风险决策规则是不一样的。当然,不同决策者对一个问题的认识有深有浅,此时我们要充分考虑决策者的权威性。本文将从现有的研究结果进行分析、评价、总结,在这基础上提出当多用户参与决策时基于均值的决策模型,同时给出应用实例,给出最优决策方案。这种决策模型在实际问题中有其实用性。