吕跃进-粗糙集方法建模
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例 1:信息表(玩具)
表 1. 积木信息表 颜色
x1 x2 x3 x4 x5 x6 x7 x8
形状 圆 方 三角 三角 圆 方 三角 三角
体积 小 大 小 小 小 小 大 大
红 蓝 红 蓝 黄 黄 红 黄
第11页 共58页
例 1:信息表(玩具)
表 1 所示即为一个信息表,为方便数学上的处理,一般将属性和 属性值符号化或数值化。如将颜色、形状、体积三个属性依次记为
第6页 共58页
粗糙集发展重大历程及相关文献:
(4)国内外学术会议
国际会议: R SK T (每年一次, EI、ISTP 收录)International Conference on Rough Sets and Knowledge Technology. 国际会议: RSFDGrC (两年一次,奇数年, EI 、 ISTP 收录) International Conference on Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing. RSCTC EI、ISTP 收录)International Confe rence 国际会议: (两年一次, 偶数年, Conference on Rough Sets and Current Trends in Computing. 国际会议:RST(每年一次)International Workshop on Rough Sets Theory. 国内会议:CRSSC(每年一次,部分收录杂志)中国 Rough 集与软计算学术研 讨会;CRSSC-CWI-CGrC 联合会议.
2012 年广西高校数学建模学术研讨会暨师资培训班
粗糙集方法建模
主讲人:吕跃进 lvyjin@126.com 2012 年 7 月
第1页 共58页
目录
一、粗糙集简介 二、粗糙集理论研究的对象及实例引入 信息表(玩具) ;决策表(疾病诊断) ;问题引入 三、粗糙集理论的基本概念 1. 等价关系(及其性质) ;2. 等价分类(划分) ;3. 等价关系与划 分之间的联系;4. 下近似,上近似(概念及其性质) ;5. 粗糙集的正 域、负域、边界域;6. 近似精度,粗糙度;7. 近似分类精度,近似 分类质量;8. 知识约简(属性约简,核) ;9. 相对正域,相对属性约 简;10. 属性约简的方法;11. 规则提取 四、粗糙集方法建模一般步骤 五、粗糙集理论的拓展及研究 1. 主要研究的问题; 2. 粗糙集模型拓展; 3. 应用研究
X i = U , ∀i, j ≤ k , X i ∩ X j = ∅ 。 称为等价分类) 。 U / R 满足 i =∪ 1,...k
例 4:在表 3 中,若取 R = {C1 , C2 } ,则可形成
令
U / R = {{x1 , x2 , x3},{x4 , x6 , x8 },{x5 , x7 }} ={ X 1 , X 2 , X 3} .
yRz ,则 xRz ) 。
第18页 共58页
1.等价关系(及其性质)
定义在粗糙集上的等价关系也称为称不可区分关系,一般记为
ind(R) ,其定义形式为:
ind ( R ) = {( x, y ) ∈ U × U | ∀a ∈ R, f ( x, a ) = f ( y , a )}.
其中 R ⊆ A 为信息表的一个属性子集。显然,粗糙集下的等价关系
第8页 共58页
二、粗糙集理论研究的对象
1.信息表、决策表
设四元组 S = (U , A,V , f ) 为一个知识表达系统,其中 U 为对象的非空 有限集合,称为论域,可记为 U = {x , x ,..., xn } ; A 为属性的非空有限集合,
wenku.baidu.com1 2
Va , V 是属性 a 的值域, f 代表一个 U × A → V 可记为 A = {a1 , a2 ,..., am } , V = a∪ ∈A
ind ( R) 表示在属性集 R 下,具有相同属性取值的对象对的集合。
例 3:在表 3 中,若取 R = {C1 , C2 } ,则有
ind ( R) = {( x1 , x1 ),( x1 , x2 ),( x1 , x3 ),( x2 , x1 ),( x2 , x2 ),( x2 , x3 ),( x3 , x1 ),( x3 , x2 ),( x3 , x3 ), ( x4 , x4 ),( x4 , x6 ),( x4 , x8 ),( x6 , x4 ),( x6 , x6 ),( x6 , x8 ),( x8 , x4 ),( x8 , x6 ),( x8 , x8 ), ( x5 , x5 ),( x5 , x7 ),( x7 , x5 ),( x7 , x7 )}
第3页 共58页
一、粗糙集简介
优势:该理论与其它处理不确定性问题理论(如概 率方法、模糊集方法、证据理论等)的最显著区别是它 无需提供所需处理的数据集合(信息表)之外的任何先 验信息。
第4页 共58页
粗糙集发展重大历程及相关文献:
(1)理论诞生:1982 年 [1] PAWLAK Z. Rough sets[J].International Journal of Computer and Information Science [J],1982,11(5):341-356. (2)进入活跃时期:1991 年 [2] PAWLAK Z. Rough Sets: Theoretical Aspects of Reasoning 0about Data [M]. Boston:Kluwer Academic Publishers Press,1991:9 1991:90166.
第5页 共58页
粗糙集发展重大历程及相关文献:
(3)粗糙集学术组织 S) 国际组织:国际粗糙集学会(International Rough Set Society,IRS IRSS) http://roughsets.home.pl/www/ http://www.roughsets.org 国内组织:中国人工智能学会粗糙集与软计算专业委员会 (CRSSC) http://cs.cqupt.edu.cn/crssc
第7页 共58页
粗糙集发展重大历程及相关文献:
(5)国内参考书
[1] 张文修,吴伟志,梁吉业,李德玉. 粗糙集理论与方法[M].北京:科学出版 社,2001. . [2] 张文修,梁怡,吴伟志. 信息系统与知识发现[M].北京:科学出版社,2003 2003. [3] 刘清. Rough 集与 Rough 推理[M].北京:科学出版社,2001. [4] 王国胤. Rough 理论与知识获取[M].西安:西安交通大学出版社,2001. [5] 梁吉业,李德玉. 信息系统中的不确定性与知识获取[M].北京:科学出版社, 2005. 07. [6] 张文修, 仇国芳. 基于粗糙集的不确定性决策. 北京: 清华大学出版社, 20 2007. ……
第20页 共58页
3. 等价关系与划分之间的联系
等价关系与划分之间是一一对应的。给定一个等价关系 ind ( R) , 可以导出该等价关系所对应的唯一划分 U / R ,同理,给定一个划分
第19页 共58页
2. 等价分类(划分)
设信息表 S = (U, A,V , f ) , R ⊆ A , [x]R ={y | (x, y) ∈ind(R)} 称为等价关系 R 下元素 x的等价类(不可区分类) ,等价类表示在某一属性集下取值相
U / R={[x]R | x∈U}称为论域 U 在属性集 R下的一个划 分( 或 同的对象集合。
第9页 共58页
例 1:信息表(玩具)
给定一玩具积木的集合 U = { x1 , x 2 , ..., x8 } ,并假设这些积木有不同 的颜色(红、黄、蓝) ,形状(方、圆、三角形) ,体积(小、大) 。 因此,这些积木都可以用颜色、形状、体积这些知识来描述,8 个玩 具的具体情况如下表所示:
第10页 共58页
第2页 共58页
一、粗糙集简介
简介: 粗糙集理论 ( Rough Sets) 是波兰数学家 Z. Pawlak 于 1982 年提出的一种数据分析理论,由于该理论在数据的决策与分析、模式 识别、机器学习与知识发现等方面的成功应用,使其逐渐引起了世界 各国学者的广泛关注。 粗糙集理论主要是基于信息表和等价关系,对不精确、不完整、 不确定数据进行处理。从大量的、杂乱无章的、强干扰的数据中提取 有用信息,形成决策或推理规则,用于指导决策的过程。
a 1 , a 2 , a 3 ,将红、蓝、黄三种颜色依次赋值为 1,2,3,对形状和体积下
的取值做类似的处理,则得规范化的信息表如表 2 所示:
第12页 共58页
例 1:信息表(玩具)
表 2. 规范化信息表示例
A
a1 a2 a3
U
x1 x2 x3 x4 x5 x6 x7 x8
1 2 1 2 3 3 1 3
“是”、“否”,“肌肉痛”属性下的取值为“是”、“否”,“体温”属性下的 取值为“正常”、“高”、“很高”。原始数据表如表 3 所示,对属性及属 性值进行符号化处理,得决策表如表 4 所示:
第14页 共58页
表 3. 流感病人数据表
A
条件属性 头痛 肌肉痛 是 是 是 是 否 是 否 是 体温 正常 高 很高 正常 高 很高 高 很高
a
的信息函数,它为每个对象的每个属性赋予一个信息值,即
∀a ∈ A, x ∈ U
, f ( x, a) ∈Va 。
知识表达系统也称为信息系统(信息表) ,通常也用 S = (U , A) 来代 替 S = (U , A,V , f ) 。若 A = C ∪ D ,且 C ∩ D = ∅ ,其中 C 称为条件属性集, D 称为决策属性集。则这类具有条件属性和决策属性的知识表达系统称 为决策表。
第17页 共58页
三、粗糙集理论的基本概念
1. 等价关系(及其性质)
等价关系 R 为一个二元关系,可表示为 R = {( x, y) ∈U × U } , U 为一个 元素集合,( x, y ) ∈ R 表示 x 与 y 存在关系 R ,亦可记为 xRy 。等价关系满 足自反性、对称性和传递性。 ①自反性:对 ∀x ∈U 都有 ( x, x) ∈ R (或 xRx ) ; ②对称性:若 ( x, y) ∈ R ,则必有 ( y, x) ∈ R (或若 xRy ,则 yRx ) ; ③传递性:若 ( x, y ) ∈ R ,且 ( y, z ) ∈ R ,则必有 ( x, z ) ∈ R (或若 xRy 且
第13页 共58页
1 2 3 3 1 2 3 3
1 2 1 1 1 1 2 2
例 2:决策表(疾病诊断)
表 3 给出了一个关于某些病人的决策表,其中 U ={x1, x2,..., x8}表示 8
体 温 D = { 流 感} 。 “ 头痛 ” 属性下的取值为 位测试病人, C={头 痛 , 肌 肉 痛 ,} ,
第16页 共58页
0 1 2 0 1 2 1 2
0 1 1 0 0 1 1 0
2.问题引入
1.对于给定的信息表(或决策表) ,其所有信息是否都是必要的,能否对 给定的信息表进行简化,减少数据规模,降低解决问题的难度。例如在表 3 中, 对于流感的判定, 上述三项指标是否都是必须的?能否仅根据其中一项或 两项指标判定某个测试病人患有流感?类似还有模式识别 (如人脸识别时可能 提取出成千上万个特征)等问题中,我们所获取的信息往往是大量的,但是否 所有信息都是有价值的。 这一问题值得深思, 数据规模对数据挖掘的效率将产 生重大影响。为解决这一问题,我们将引出属性约简的概念。 2.对于给定的决策表,如何由条件属性的取值确定其决策类取值,即如何 从大量数据中提取有用的知识或信息, 用于指导决策过程具有重大意义。 由此 引出规则提取(决策推理)的概念。
决策属性 流感 否 是 是 否 否 是 是 否
U
x1 x2 x3 x4 x5 x6 x7 x8
是 是 是 否 否 否 否 否
第15页 共58页
表 4. 规范化决策表示例
A
C C1 C2 C3
D
U
x1 x2 x3 x4 x5 x6 x7 x8
1 1 1 0 0 0 0 0
1 1 1 1 0 1 0 1