粗糙集的简单应用解析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
pos (C ?{P }) ( D ) ? {t1, t2 , t3 , t4 , t6 , t8} ? posC (D) pos (C ?{Q}) ( D ) ? {t1 , t2 , t3 , t4 } ? pos C ( D )
pos(C ?{ R}) ( D) ? ? ? pos C (D)
第二十一页,编辑于星期三:二点 三十分。
规则提取
提取决策规则可以得到以下确定性规则:
(购买Q)且(不购买 R)—— (不购买 S) (购买 Q)且(购买 R) ——(购买S)
不确定规则为:
(不购买 Q)且(购买 R) —— (购买 S) ? (不买 Q买R,买 S ) ? 0.5
(不购买Q)且(购买 R)——(不购买 S)
论域, U 中的每个 xi (i ? n) 称为一个对象;
(2)A 是属性的非空有限集合,即 A ? {a1 , a2 ,? , an } , A 中
的每个 a j ( j ? m) 称为一个属性;
(3)V
?
?
a?
A
Va,Va
是属性的值域;
( 4) f :U ? A ? V 称为信息函数,它为每个对象关于每个
i Cij 表示分辨矩阵 中第 行,第 j 列的元素,Cij 被定义为:
C ij
?
??{a ? ? ??
A a ( xi ) ? a ( xj )}, D( xi ) ?
? , D (xi ) ? D( x j )
D(xj )
其中 i, j ? 1,2,? , n; n ? U
定义2.10 区分函数 是从分辨矩阵中构造的。约简算法的方法
定理2 core ( A) ? ? red ( A),其中 red ( A) 表示 A 的所有约简。



第十页,编辑于星期三:二点 三十分。
2.知识约简
定义2.5 设 S ? (U, A? C ? D,V, f ) 为一个信息系统, C 是非
空属性集, B ? C , d ? D,pos B (d ) ? ? {B( X ) X ? {U / ind (d )}} 为
2.知识约简
定义 2.7 如果 P 上的每一个等价关系 R 都是 Q 不可约去的,
则 P 是Q 独立的或者 P 关于Q 是独立的。
定义2.8 所有P 中 Q 不可约去的等价关系的集合称为 P 的 Q
核,记为 coreQ (P ) 。

糙 集
第十二页,编辑于星期三:二点 三十分。
2. 知识约简
定义 2.9 设有信息系统 S ,a (x)是记录 x 在属性a 上的值,
下表是某电子商店的购物记录, P、 Q、R、S代表四种商品; Customer No.为客户号;“ Y”表示购买了某商品;“N”表示 没有购买某商品
粗 糙 集
第十六页,编辑于星期三:二点 三十分。
数据清洗
条件属性
决策属性
Customer No.
P
Q
R
S
t1
Y
Y
N
N
t2
Y
Y
YYt3Y NhomakorabeaY
Y
Y
t4
N
Y
N
? (不买Q买 R,不买 S) ? 0.5
粗 糙

第二十二页,编辑于星期三:二点 三十分。
知识评价
经过挖掘可得到大量的模式和规则,需对规则作进一步的筛 选、合并。上述例子经合并后最终得到两条确定性规则。
对于不确定规则,可作参考或直接删除均可。
基于上述规则,可作决策:在电子商店中,可将商品 P,Q,R 按
ind ( A? {a}) ? ind ( A) ,则称 a 在A 中是不必要的 ,否则称是 必要
的。
定义 2.2 设 S ? (U , A,V , f ) 为一个信息系统,如果 ? a ? A 在A
中都是必要的,则称属性集 A 是独立的 ,否则称是 相关的。
定理 1 如果 A 是独立的, P ? A,则 P 也是独立的。
pos (C? { P, Q}) ( D) ? {t1, t4 } ? pos C ( D) pos (C ?{ P, R}) ( D) ? ? ? pos C ( D) pos (C ?{Q ,R}) ( D ) ? ? ? pos C (D )
粗 糙

第十八页,编辑于星期三:二点 三十分。
数据清洗
数据挖掘
因此,C 的 D 约简为 {Q,R}。经过粗糙集数据清洗得到下表
条件属性
决策属性
Customer No.
Q
R
S
t1
Y
N
N
t2
Y
Y
Y
t3
Y
Y
Y
t4
Y
N
N
t5
N
Y
N
t6
Y
Y
Y

t7
N
Y
Y

t8
Y
Y
Y

第二十页,编辑于星期三:二点 三十分。
规则提取
定义决策规则 为:
rij : des ( Xi ) ? des (Yj ), Xi ? Yj ? ?
属性赋予了一个信息值,且对于任意 x ? U , a ? A,有 f (x, a) ? Va 。 在不引起混淆的前提下,信息系统通常可简写为 S ? (U , A) 。
粗 糙

第五页,编辑于星期三:二点 三十分。
1. 信息系统
设 R 是 U上的一个等价关系, U / R表示 R 的所有等价类,
或 U 上的划分构成的集合,[ X ]R 表示包含元素 X ? U 的 R 等价
二、利用区分矩阵约简
??
??
?R
?
?
?
R
?
?
?
PR PR
?
?
?
PQ PQ
? ?
? PR
RQ
?
? ? PQR ?? PR
?
QR Q
?
R
??
? ? RR(P ? R)(P ? Q ? R)( P ? R)( P ? R)(P ? Q)(P ? R)( P ? Q)R(Q ? R)RQQ 粗
? QR


第十九页,编辑于星期三:二点 三十分。
是先求 Cij 的每个属性的析取,然后再求所有 Cij 的合取。分辨 矩阵是一个对称 n ? n 矩阵。

在实际运用中,一般只列出它的下三角阵 。


第十三页,编辑于星期三:二点 三十分。
粗糙集的应用
———基于粗糙集的小型电子商务挖掘模型
工 作


第十四页,编辑于星期三:二点 三十分。
建立模型
数据挖掘的一般过程包括:数据采集、数据清洗、挖掘算法
不变的前提下,通过知识约简,导出问题的决策或分类规则。
第三页,编辑于星期三:二点 三十分。
1.信息系统
2.知识约简
粗 糙 集
的 相

基 本 概

第四页,编辑于星期三:二点 三十分。
1.信息系统
定义1.1 信息系统是一个四元组 S ? (U , A,V , f ,) 其中:
( 1)U 是对象的非空有限集合,即 U ? {x1, x2 ,? ,xn},称为
其中, des () 为对等价类的描述。
定义规则 rij 的确定性因子
? ( Xi , Yj ) ?
Xi ? Yj Xi
显然 0 ? ? ( Xi ,Yj ) ? 1
当? ( Xi ,Yj ) ? 1 时, rij 是确定的;
当0 ? ? ( Xi ,Yj ) ? 1 时,rij 是不确定的
粗 糙

头痛
肌肉痛
体温


正常








很高
决策属性
流感







第七页,编辑于星期三:二点 三十分。
1. 信息系统
定义 1.4 设S ? (U , A,V, f )为一知识表达系统,X ? ? 且 X ? U ,
一个等价关系 R ? ind ( A) 。称 RX ? ? {Y? U / R Y ? X} 为 X 关于 R
决策属性 d 相对于 B的相对正域。
定义2.6 设P 和 Q 都是等价关系族,如果
pos ind ( P ) (ind (Q)) ? posind ( p ?{R }) (ind (Q ))
则称 R ? P 是 P 上 Q 可约去的 ;否则 R 是 P 上 Q 不可约去
的。

糙 集
第十一页,编辑于星期三:二点 三十分。
顺序相邻摆放在一起,可提高销售。



第二十三页,编辑于星期三:二点 三十分。
讨论
通过以上分析,所建立的基于粗糙集的小型电子商务挖掘模
型是有效、可行的。已经提出很多可行的粗糙集算法,在实现挖
掘时可参考。上述只举出决策规则的例子,根据电子商务的实际, 开发挖掘系统时可确定更多的挖掘目标,从而揭示小型电子商务 网站的运营状况以及潜在的经济活动及规律。
N
t5
N
N
Y
N
t6
N
Y
Y
Y
t7
N
N
Y
Y
t8
N
Y
Y
Y
根据粗糙集理论,论域 U?{t1,t2,t3,t4,t5,t6,t7,t8} ,条件属性


集 C ? {P , Q, R} ,决策属性集 D ? {S}。

第十七页,编辑于星期三:二点 三十分。
数据清洗
一、利用正域约简 计算正域:
pos C ( D ) ? {t1 , t2 ,t3 , t4 , t6 , t8}
粗糙集的简单应用
作者 专业
第一页,编辑于星期三:二点 三十分。
主要内容
1、粗糙集理论基本概念 2、粗糙集的应用
第二页,编辑于星期三:二点 三十分。

作 成 粗糙集的相关基本概念 绩
粗糙集理论由波兰科学家Z.Pawlak于1982 年提出,它是一种新的
处理模糊和不确定性知识的数学工具。其主要思想就是在保持分类能力



第二十四页,编辑于星期三:二点 三十分。
谢谢!
第二十五页,编辑于星期三:二点 三十分。



第六页,编辑于星期三:二点 三十分。
1. 信息系统
定义 1.3 设S ? (U , A,V, f )为一知识表达系统, A ? C ? D, C ? D ? ? ,
C 称为条件属性集, D 称为决策属性集。具有条件属性和决策属
性的知识表达系统称为 决策表 。
患者 a
b
c
d
一个信息系统的例子
条件属性
的下近似 。称 RX ? ? {Y? U / RY ? X ? ?} 为 X 关于R 的上近似 。
定义 1.5 若 RX ? RX 则 X 为 R 粗糙集 。否则称 X 为R 精确集 。



第八页,编辑于星期三:二点 三十分。
2.知识约简
定义2.1 设 S ? (U , A,V, f ) 为一个信息系统,a ? A ,如果
粗 糙 集
第九页,编辑于星期三:二点 三十分。
2.知识约简
定义2.3 设 S ? (U , A,V, f ) 为一个信息系统,P ? A,如果 P 是
独立的,且 ind (P ) ? ind ( A),则称 P 是 A 的一个约简 。
定义2.4 设 S ? (U , A,V, f ) 为一个信息系统,A 中所有必要属 性组成的集合称为属性集 A 的核,记为 core ( A) 。
类。
定义 1.2 若 P ? R,且 P ? ? ,则 P 中全部等价关系的交集
称为P 上的 不可分辨关系 ,记为: ind (P ), ind (P ) ? ? P 且有
? [ X ]ind ( P ) ? [ x]H H? P
ind (P) ? {( x, y) ? U ? U ? q ? P, f (x, q) ? f ( y, q)}
确定、数据挖掘、模式解释及知识评价。从理论研究到应用实现,
设计的技术主要有分类技术、聚类技术、粗糙集技术、统计技术 和关联技术等。这里,结合粗糙集建立如图所示的挖掘模型。
数据采集
粗糙集数据清洗(预处理)
粗糙集数据挖掘 粗糙集规则提取
解释模型得出结论
粗 糙

第十五页,编辑于星期三:二点 三十分。
数据清洗
相关文档
最新文档