一种基于粗糙集的数据挖掘模型
一个基于粗糙集理论的数据挖掘模型及应用
可分辨关系 ( 等价关 系) 定给定 问题 的近似域 , 而找 出 确 从
该问题 中的内在规律 。
上, 为每一种类别找到一个合理 的描述 或模型 ;4 聚类规 () 则挖掘 : 客观地按被处理对象的特征分类 , 将有相 同特征 的 对象归为一类 ;5 预测及趋势 性规 则挖掘 : () 对数据进行 分
e lo ih n p a t a a at l i n h f r t n s t f a h lv l a d g t u es t v n u l .C n l so sa ea - lag rt mso r c i l t e i t g t e i o ma i e c e , n e sar l e e t a l c d O ci n o o e e e y o c u in r c
文 章编 号 :0 71 0 2 0) 90 0 -4 1 0-3X(0 7 0-160
一
个 基 于粗 糙集 理论 的数 据 挖掘 模 型及 应用 。
Ro g e e r n t p ia in i t iig u h S tTh o y a d IsAp l t n Da a M nn c o
理技术 。
模 式的非平凡过程[ , 是近年来随着人工智能 和数据库技 1’ ], 术 的发展而 出现的一门较新兴的技术 。知识发现包括数据
预处理 、 数据挖掘 、 模式评估 和知识表示等几个步骤 。按照 数 据挖掘技术所能发现的规律 , 以将挖掘任务分成五种 : 可
() 1 总结规则挖掘 : 从指定 的数 据中 , 不同的角度 或层次 从
的信 息集, 最后得到规则集。在进行推理和决策分析 时, 按照一定算 法进行 匹配得 出结论。另外 , 给 出了模 拟例 子说 明 还
一种基于粗糙集的分类数据挖掘算法
Abta t Atpee t sr c rsn ,Ro g e u hS tTh o ya dDa M iigh v eo e r n m nn a eb c meh t o i f o ue eerh o tpc mp trrsac .Thsp p rpe e t so c i a e rsns
完整 的数据 以及拥有众 多变量 的数据 ; 能够 处理数据 的不精 确性 和模棱两 可, 包括确定性 和非确 定性 的情 况 ; 能求知识 的 最小表达 和知识的各种不 同颗粒层 次 ; 能从数 据中揭示 出概 念简单 、 易于操作 的模式 ; 能产生精确而又易于检查和证实 的 规则 ; 因此特别适 于智能控 制 中规则 的 自动生成 。粗糙 集 的
水泥 窑生产控 制算法 、 地理学 、 动分析 、 振 飞行员技能评定 、 开 关 电路综 合、 语言识别 、 分类 、 近似 故障诊断 、 成本预测等 已得
到发 展。 19 , 0 0和 2 0 98 20 0 2年 , 别 召 开 了 三 届 R 分 ‘
( o g esa dC ret ed o uig 国际会议 , R u hS t n urn n si C mp t ) Tr n n 表
基于粗糙集的数据挖掘技术及其在临床医学诊断中的应用
[ sr c Da a miig i a t p fp o e s whc s s alk n s o n ltc lt o s t e rh t e Ab t a t 1 t n n s y e o r c s , ih u e l i d fa ay ia o l O s a c h
【 e o d ] d t nn ln a crda n s ru h s tt e r n u a n t r d c in K yw rs aamiig u g cn e i o i g s o g e h o y e rl ewo k eio — s
m a ng t e ki r e
1 De ar me f Elc r ni gi e i . p t nto e t o c En ne rng, la ni e st c nol Da in U v r iy ofTe h ogy( 6 24) 11 0 2 .Da i n Fre ds i la i n h p Hopia ( 6 01) t l 11 0 3 The 2 At a he s t lt la e i a ni e st 1 02 . t c d Ho pia O Da i n M d c lU v r iy( 6 3) 1
The Applc to f Ro h S t Ba e i a i n o ug e s d Da a M i ng t ni Te hni e i i c lDi g s s c qu n Clni a a no i
IINa Q I Tin s u n LI Hu Z n U a — h a g U i HU . y REN h a g y。 Ii u — S u n —i
*国家 自 然 科 学 基 金 (0 7 2 9 . 宁 省 科 学 技 术 基 金 (0 1 0 0 7 和 教 育部 留 学 回国 启 动 基 金 资 助 项 目 3 1 0 5 )辽 20115 )
基于粗糙集及信息增益的数据挖掘预测算法
Ab ta t An w aamiigag rh i rp sdb o iigteifr t ng i n lss to sr c : e d t nn lo tm spo o e y c mbnn h oma o ana ay i me dwi ter u hst e r. e i n i h h t h g t o y Th o eh atie a f t t n dd t a ao t map res ie o tu f m Jn ay 1 9 oJ l 0 deg te n i n na fcosa s cae us en r up tr o a u r 9 0t y 2 01a ihe ne vr me tl a tr so itdwi tn u s u n o h t u ap re
一
高预测系统的准确度和性能。因此,笔者研究工作的主要部 分就是建立关键因子集。
1 预测算法
在数据挖掘算法中, 有许多确定影响因子集的算法 ( 属 性化简的方法)且许多方法都采用信息增益来度量属}与给 , 生
o o g ta d i f r a i n g i n r u h s n o m t a e n o n
XuLiig ,Ja gZhwa g pn inoSaga o Si c a eho g,hnhi003C i ;2Sag i ulh g n P ii 1 s e co l n e i f hnhi r e e r cnl ySaga209 ,h a .hnh P bsi ad r tg B ns , v y f c n mT o n a in nn
粗糙集理论及其应用研究
粗糙集理论的核心内容
知识的约简与核
知识的约简: 通过删除不重 要的知识,保 留关键信息
核的概念:核 是知识的最小 表示,包含所 有必要信息
核的性质:核 具有独立性、 完备性和最小 性
核的求取方法: 基于信息熵、 信息增益等方 法进行求取
0
0
0
0
1
2
3
4
决策表的简化
决策表:用于描述决策问题的表格 简化目标:减少决策表的规模,提高决策效率 简化方法:合并条件属性,删除冗余属性 简化效果:提高决策表的可读性和可理解性,降低决策复杂度
粗糙集理论在聚类分析中的应用:利用粗糙集理论处理不确定和不完整的数据,提高聚类 分析的准确性和效率。
聚类分析在数据挖掘中的应用:可以帮助发现数据中的模式和趋势,为决策提供支持。
粗糙集理论在其他领域的应用
决策支持系统
粗糙集理论可以帮助决策者 处理不确定性和模糊性
粗糙集理论在决策支持系统 中的应用
粗糙集理论可以提高决策支 持系统的准确性和效率
粗糙集理论在决策支持系统 中的实际应用案例分析
智能控制
粗糙集理论在模糊控制中的 应用
粗糙集理论在智能控制中的 应用
粗糙集理论在神经网络控制 中的应用
粗糙集理论在自适应控制中 的应用
模式识别
粗糙集理论在模式 识别中的应用
粗糙集理论在图像 识别中的应用
粗糙集理论在语音 识别中的应用
粗糙集理论在生物 信息学中的应用
添加标题
添加标题
ห้องสมุดไป่ตู้添加标题
添加标题
机器学习
粗糙集理论在机器学习中的应用 粗糙集理论在数据挖掘中的应用 粗糙集理论在模式识别中的应用 粗糙集理论在自然语言处理中的应用
基于粗糙集理论的数据挖掘研究
【 yw r sD t MiigR uhSt h o ; nwe g i oe Ke o d ] aa nn;og e er K o ldeds vr T y c y
O 引 言
于每 一 个 子 集 X∈U和 一 个 等 价 关 系 R∈I S ( ND( )I S 为 S中 所 定 ND( )
su y i c mp e e a d u c ra n k o e g o e sn . a n l z n o c u e t n o l t aa a d t e ic v rk o e g mo h m. i t d n o l t n n e t i n wl d e pr c s i g I c n a ay e a d c n l d he i c mp ee d t . n h n d s o e n wld e a ng t e Ths t p p ri to u e h a i o c p a a mi i gr v e h a i d a o o g e h o , ic s e h t d o a a mi i a e n r u h s t a e n r d c s t e b sc c n e to d t n n , i wst e b sc i e f r u h s tt e r d s u s s t e meho fd t n ng b s d o o I e f e y g
【 键 词 】 据挖 掘 ; 糙 集 理 论 ; 识 发现 关 数 粗 知
Re e r h f Da a M i i s d o ug t Th o y s a c o t n ng Ba e n Ro h Se e r GUO n - e Do g m i
( l g fC mp tr S in ea d E gn e igAn u Col e o o u e ce c n n i e rn , h i e Umv  ̄ t f ce c n e h oo y Hu i a h i 2 2 0 ) e y o in ea d T c n l g , a n n An uFra bibliotek, 3 0 1 S
基于粗糙集的数据挖掘
表示 一 般采 用 信 息表 或 称 属性 / 系统 , 值 信息 表 是 一 个 由 三元 组 S {U, V ) 成 的 , 中 一 A, 组 其 U 表示 对 象集 合 , 是属 性 集合 , 是 A 的值 域. 际属 性 就 是对 象 上 的 等 价关 系 , A 是 等 A V 实 即
维普资讯
第l 第 3期Байду номын сангаас 6卷
2 0 年 7月 02
甘 肃教育 学院学报( 自然 科 学版 )
J u n l fGa s u a i n C l g ( t r lS in e ) o r a n u Ed c t o l e Na u a ce c s o o e
集理 论 中 的“ 度 ” 这 就 是不 能精 确 地 表示 知识 某 些 概 念 的原 因. 了描 述知 识 的精 确 程 度 , 粒 , 为 粗糙 集 理论 引 入上 近 似与 下近 似 的概 念 , 而刻 划不 精 确性 与模 糊性 . 从 在 人 工智 能 中 , 了易于 处理 与 操作 方 便就 要用 适 当 方法 来表 示知 识 , 为 粗糙 集 理论 的知识
2 数 据 挖 掘
随 着计 算 机技 术 的发 展 , 人们 对 数据 的处理 量 越来 越 大 , 如此庞 大 的数 据 对人 工处 理来 说 是非 常 困难 的 , 人们 需 要 能够 对数 据 进行 较 高层 次 的处 理 技术 , 中找 出对 人 们有 用 的数 据和 从 信息 进 行研 究 和决 策 , 而 出现 了数 据挖 掘 技 术. 据 挖掘 涉 及 的 学 科 领 域很 多 , 以根 据 开 从 数 可 采任 务 、 采对 象 、 采方 法 等多 个 方面 进 行分 类 . 面 就粗 糙 集 理 论 在 数 据 挖 掘 中进 行 了讨 开 开 下
基于粗糙集的数据挖掘技术在电子商务中的应用
其 中, = { ,: … , }为对 象的非空有限集 , U , 称为论域 ; A 为属性 的非空有 限集 ; V= U , 是属性 a的值域 UXA — y 一个 信息函数 , 是 它为每个对 象的每个属性赋 予一个 信 息值 , Vn∈A, 即 e U ,) V 如果 由条件属性 C和 n 。
定义 l 一个信 息系统是一个 四元组 S = ( A, U,
,
合 y U, _ C 使得 nFC Y _ 。对 于任意 的 置 ∈F, n( 若 F一{ } 置 ) y 则称 在 F中是 y可省 略的 , , 否则是不 可省略 的; F 若
中的所有 元素都是 y不可省略 的, 则称 F是 y独立的 。
1 粗糙集的理论背景
粗糙集理论 的出发点是 , 于我们所讨 论 的论 域 中的每 对
性值来描 述。同属性约 简的道 理一样 , 对于 每一个对 象而言 也可能存 在冗余 的属性值 , 因而为 了从 知识发 现系统 中发现 最简 洁的知识 , 应该将冗余的属性 值剔 除掉 。属 性值 的约简
对其它不确定理论的一种补充有着许 多不可替 代 的优 越性 。
本文在介绍 了粗糙集基本理论 的基础 上 , 阐述 了在 电子商务 网站中 , 面对海量 的客户 信息 , 如何 运 用粗糙 集 这一工 具进 行数据挖掘 , 为电子商务 网站 的决 策者提供 所需 的客户行 为
分析结果 , 并通过具体 的示例说 明了这一方法 的有效性 。
决策系统 。 信息系统 的数 据 以关 系 表 的形 式 表示 , 中行 表 其 示对象 , 表示 属性 , 列 对象 的信 息是通 过指 定对 象 的各属性
值来表达 。
一
对应到信息系统 S=( CUD, U,
一种基于粗糙集理论的XML数据挖掘模型
第一作 者简介 : 朱兴 统( 94 17 一), , 南文 昌人 , 士 , 男 海 硕 讲师 , 研究 方向 : 数据 挖掘、 计算智 能。
2 O期
< C t UB om em >
⑥
2 1 SiT c. nn . 0 c eh E gg 1 .
一
种 基 于 粗 糙 集理 论 的 X ML数 据 挖 掘 模 型
朱兴统 许 波
( 广东石油化工学院计算机与 电子信息学院 , 茂名 55 ML数据的 出现 , 给数据挖掘领域提 出了新的挑 战。传 统数据挖 掘是基 于关系数据 库和 数据 仓库的, 如
出现 , 好 地 兼 容 了原 有 的 We 用 , 且 可 以 更 很 b应 而 好地 实现 We b中 的信 息 共享 与交 换 。X ML在 信 息 管理 、 电子商 务 、 个性 化 出版 、 动 通 信 、 移 网络 教 育 、 电子 文档 交换 等诸 多 领 域 得 到 了广 泛 应 用 , 且 其 而 应用 范 围 还 在 不 断 扩 展 。对 于 这 些 越 来 越 多 的 采 用X ML文档 格 式 进 行存 储 、 换 和表 现 的数 据 , 交 除
朱兴统 , : 等 一种基 于粗 糙集理论 的 X ML数据挖掘模 型
价 关 系 的交 集 ) 是 一个 等 价 关 系 , 为 P上 的 不 也 称 可 区分 关 系 , 为 id P)且 有 记 n( , [ i() ]d =n[ R nP ] 。 这 样 ,/n ( 表示 与等价 关 系簇 P相关 的知 U id P) 识 , 为知识 库 K=( , 中关 于 的 P基 本 知 识 称 R)
一种改进的基于粗糙集的数据挖掘方法研究
圜 一
中的数 据 已经 不再 是原 始数 据 了 , 对 处 理 之 后 的 数 据 进 行 再 是 处 理 , 违 背 了我们 挖 掘 的初衷 , 数 据 挖掘 所 不可 取 的 。 这 是
针对 上述 问题 , 文 对 数 据 挖 掘 流 程 提 出 了 改 进 : 先 将 本 首
型 的基本 方 式 和方 法结 构 如 图 3所 示 。
定 义 1 设 s∈ P. s为P的 Q相 对 约简 , 称 当且仅 当 s为 P 的 Q 独 立 子族 , P S ( 且 O s Q)= P S ( 。 O P Q)
基 金 项 目 : 京 市 教 委 科研 基 金 资 助 项 目( 号 : 0 9 ) 北 京 工 业 大 学研 究 生 科 技 基 金 资 助 课 题 ( 号 : k一2 0 北 编 067 ; 编 y j 0 6—2 3 的部 分 研 究 成 果 。 0)
的L』 2。它 的 流 程 是 : 先 定 义 问 题 , 首 其
…
一
; 堡塑 壁… … 一 量 厦 亟 j
图 1 两 种 数 据挖 掘 流 程 比 较
次 将 数据 预 处 理导 人数 据 仓库 , 后进 然
行 数 据挖 掘 。 后对 挖 掘结 果 评价 。 然 最 而 。 据挖掘的结果是不可预料的 , 数 问 题 驱 动 型 的 数据 挖 掘 适 应 性 不 强 。在 数 据 预处 理 中 , 声 数 据 的 消 除 、 缺 噪 残 数 据 的填 补 又 是 一 项 非 常 艰 巨 的 任 务 。而 且 传 统 的 数 据 挖 掘
作 者 简 介 : 云 枫 , ,9 5年 生 , 士 , 教授 , 究 方 向为 企 业 管理 、 息管 理 与 信 息 系统 ; 刘 男 16 博 副 研 信 柯
一种基于粗糙集的数据挖掘模型
一种基于粗糙集的数据挖掘模型摘要:粗糙集理论是一种处理不确定和不精确问题的数学工具。
运用模拟例子通过不同简化层次的算法导出每个层次上的信息集,最后得到规则集来说明如何建立和运用这种数据挖掘模型。
关键词:粗糙集;数据挖掘;规则提取;算法数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
按照数据挖掘技术所能发现的规律,可以将挖掘任务分成5种:①总结规则挖掘:从指定的数据中,从不同的角度或层次上挖掘出平均值、极小值、极大值、总和、百分比等;②关联规则挖掘:从数据库中挖掘出满足一定条件的依赖性关系;③分类规则挖掘:在已知训练集的特征和分类结果的基础上,为每一种类别找到一个合理的描述或模型;④聚类规则挖掘:客观地按被处理对象的特征分类,将有相同特征的对象归为一类;⑤预测及趋势性规则挖掘:对数据进行分类或回归分析,或对数据将来的发展进行估计。
粗糙集(Rough Set)理论是由波兰数学家Z.Pawlak于1982年提出的一种处理不确定性问题的数学工具。
所谓粗糙集方法,是基于一个机构(或一组机构)关于一些现实的大量数据信息,以对观察和测量所得数据进行分类的能力为基础,从中发现推理知识和分辨系统的某些特点、过程、对象等。
粗糙集理论不仅为信息科学和认知科学提供了新的科学逻辑和研究方法,而且为智能信息处理提供了有效的处理技术。
粗糙集理论运用于数据挖掘中所带来的优点有以下几方面:①不需要数据集合之外的任何先验知识,仅利用数据本身所提供的信息;②可以从不同的抽象层次来对数据进行建模和分析,以更好地揭示数据间的依赖关系,发现数据间的规律;③基于集合理论,有效地分析和处理不精确、不完备和不一致数据,简化输入信息的表达空间;④生成规则简洁准确、易于验证。
1 粗糙集的基本概念决策表信息系统是Rough Set理论的主要研究对象。
基于粗糙集属性约简的数据挖掘技术
维普资讯
蕉全融管堡干部学院学报
20 0 2年第 5期 ( 7 期 总 O
基于 粗糙 集属性 约简的 数据挖 掘技 术
叶 东毅
( 福州大学 计算机系 福建 福州 3 00 ) 5 0 2
摘
要: 粗糙 集理论 ( o g e) R u hSt是波 兰学者 Z P WL K提 出的一种 新的软计 算方法 , .A A 它在处理 含噪 声 、 完整、 不 不精
了良好的社会和经 济效 益。数据 挖掘技术涉及多
个学科领 域 , 包含 了许 多 的核 心技 术 和方 法 , 其 识关 系 记 为 I D( ) 在 不 至 于 混 淆 情 况 下 , 以 N P. 可
中 , 糙 集 理论 是 一个 典 型 的 、 效 的方 法 。该 理 用 P代 替 I D( ) 粗 有 N P. 论 ( og e,S 是 波 兰 学者 Z P WL K 提 出 的 R uhStR ) .A A
L=( Q, , q , ∈Q U, F ) q
( )} P Y 。定义集合 y的 下 逼近 : y={ ∈UI ] y P [ }
上 逼 近 :y={ P ∈U1 ] ≠ } [ ny 下 逼 近P y定 义 了论 域 中一 定 属 于集 合 l ,
其中 是论域 , Q是属性集合 , 为属性取值
确 的信 息方 面具 有独特 的能 力, 已成为数据挖掘技 术 的一 个主要 方 法 , 在许 多科 学与 工程领 域 中得 到 了广泛 的应 用。本
文着重介 绍粗糙 集的基 本思想 , 以一 个具 体的属性 约简算 法和 实例 介 绍 它在 数 据挖掘 , 别是在 数据 浓 缩和规 则提 取 并 特 中的应用 。 关键字 : 糙集 粗 约简算法 数据挖掘
基于粗糙集的数据挖掘方法探讨
基于粗糙集的数据挖掘方法探讨引言:随着全球计算科学的不断发展和进步,许多行业都在应用网络信息过程中遇到数据量和信息量过大的问题,如何进行数据的筛选,从中提取信息的有用部分,是当今数据处理方面所面临的的最重要的一个课题,数据挖掘的方法正是为了满足此领域的要求被提出和发展。
而其中粗糙集的数据挖掘方法也得到了广泛的应用,它应用过程较为高效,且各方面优势都较其他方法明显,在数据挖掘中进行粗糙集的应用不但提高了相关数据分析能力,还能够从中发现很高的实用和商业价值。
本文就基于粗糙集的数据挖掘方法,简单介绍粗糙集和数据挖掘方法的相关概念,并对其中应用的几种简单方法进行阐述。
一、数据挖掘相关概念现代数据分析过程可以很好的完成数据的采集、统计、录入和查询工作,对于发现数据之间的关系和准则则没有系统的手段,这必然导致数据过大但是有用知识不足的现象。
传统上的数据表格和数据软件辅助处理技术,工作效率太低,工作量太大,得到的数据的数据结果并不是较为深层次的数据分析,隐含信息的获取不到位,真正的有效信息也就无法得到。
对数据进行自动筛选,得到隐藏且有用,可以被人们理解的数据是很重要的数据处理手段,被称为数据挖掘,其过程如图1所示。
数据挖掘应用智能数据转化技术,结构化、半结构化或者非结构化的原始数据被人们进行处理,交叉有数字可视化、模式识别、数理统计等其他学科,总结出易于理解,在特定条件下可以区分的知识,最好能用自然语言表达出发现的结果。
粗糙集是数据挖掘方法中比较常见且有效的一种,它用于研究不完整数据和不精确知识的表达、学习归纳的数学分析理论[1]。
它较为简单的算法和极少应用先验信息的优势促使其发展迅速,属性相对简单不断推进着这种方法的发展。
二、粗糙集的发展历程及理论特点介绍2.1 粗糙集发展历程数据是对客观事物的属性、数量、位置或它们之间的相互关系的形式表示,是各种信息的载体。
但是随着科技的发展,对于模糊数据的需求越来越小,分析事物的内在本质,需要对数据进行清晰明确的分析和筛选,含糊概念的研究由来已久,在上个世纪初,gfrgee教授就提出了含糊的概念,它表示在全域内不确定属于某个子集的那部分个体,直到上世纪六十年代左右,很多计算机科学家对含糊概念有进一步的研究,但是突破性的研究不多。
一种基于粗糙集的决策算法挖掘方法
维普资讯
科技信息
0本刊重稿 O
S IN E IF MA I N C E C N OR T O
20 07年
第7 期
一
种基于粗糙集的决策算法挖掘方法
王常伟 马英 红 朱颖 翠 ( 山东 师范 大学 管理 学 院 山东 济 南 2 0 1 ) 5 0 4
摘 要 : 性 约 简和 属 性 值 约 简 是 利 用 粗 糙 集 理 论 从 决 策 表 中挖 掘 决 策 规 则 的 基 础 , 掘 决 策 规 则 是 粗 糙 集 理 论 的 重 要 研 究领 域 之 一 。 文 属 挖 本
根 据 属 性 的 重 要 度 和 条 件 差 别 矩 阵 来进 行 条 件 属 性 约 简 , 出 有 效 约 简 。 同 时 定 义 了决 策 表 的 不 一致 度 , 根 据 属 性 重要 度 来进 行属 性 值 约 找 并 简 . 保 持 决 策 表 不 一 致 度 不 增 加 的 前 提 下挖 掘 出决 策规 则 , 决 策 规 则 集 满 足 独 立 性 、 盖 全 域 性 、 接 受性 和 一 致 性 , 决 策规 则 集 为 决 策 在 该 覆 可 即 算 法 . 后 运 用 实例 对 该 方 法 的 有 效 性 进 行 说 明 。 最 关 键 词 : 糙 集 ; 策规 则挖 掘 ; 性 约 简 ; 性 值 约 简 ; 一 致 度 粗 决 属 属 不
基于粗糙集的数据挖掘方法在电子商务中的应用
J 0U RNA L OF D0 NGGU AN U NI VER S I T Y OF T E C HNOL OGY
东 莞 理 工 学 院 学 报
V 0 1 . 2 0 N o . 5
Oc t . 2 0 1 3
7 4
东 莞 理 工 学 院 学 报
表 1 顾 客 购 买 行为 信 息 表
m
接 下来 对属 性进行 约简 , 去 悼冗佘 属性 。 U / C:{ { 1 } , { 2 } , { 3 } , { 4} , { 5 } , { 6 } , { 7} } , U / D ={ { 1 , 2} , { 3 , 4} , { 5 , 6 , 7 } } .
粗糙集 是 由著名科 学 家 P a w l a k在 1 9 8 2年提 出的一种处 理模 糊 和不 精确 性 问题 的 数学 工具 ,主要 用 于分 析数 据 ,他 的初 衷是 为 了开发 自动规则 生成 系统 ,并研 究软 计 算 问题 。经 过三 十 多年 的发展 , 粗 糙 集理 论 巳成功地 应用 于数 据挖掘 、人工 智能 、决策 管理 、风 险评估 、故 障诊 断 等 多个领 域 ( 参见 [ 1—
简。对于信息系统 , 大量的属性并不是具有等同地位 的, 甚至有些属性是负赘的。因此 , 在保持信息系 统 的划分 能力 不变 的情况 下删减冗 余 属性 , 这是 属性 约简 。 决策 表是粗 糙集 理论 主要 的研 究 对象 之 一 。对 决 策表 进 行 分析 是 有 决 策 的分 析 。对 于有 决 策 的分 析, 通 过属性 约简 可去 掉冗余 属性 。 由于 用户希 望得 到 的是决策规 则 。只依 靠属性 约 简是 不可 能达 到 目
基于粗糙集理论的数据挖掘技术在农业方面应用
基于粗糙集理论的数据挖掘技术在农业方面应用闫广州,张丽娜(河北农业大学理学院,河北保定071001)摘要:数据挖掘技术在农业领域中有着广阔的应用前景,在处理农业领域积累的大量农业数据信息中起着非常重要的作用。
为此,以在绿豆病虫害发生与预测方面应用为例,选择运用粗糙集的有关理论,通过数据分析及预处理对基于数据元表示的数据进行挖掘处理,为今后的农业专家系统提供一个可共享的和交互的知识库。
关键词:数据挖掘;粗糙集;农业中图分类号:S126;0159文献标识码:A文章编号:1003—188×(2012)04—0030—040引言数据挖掘(D M,D a t aM i ni ng)是一门广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化等方面的学者和工程技术人员。
农业是一巨型复杂系统,作物品种、土壤和气候等诸多因素相互影响,导致病虫害发生频繁且症象不断变化,它具有大量、多维和不确定等特性。
作为一种重要的数据处理和知识发现的技术一数据挖掘技术,能够有效地从大量农业信息数据中找出潜在的和有用的农业知识,为农业部门的科学决策和知识管理提供支持,因此数据挖掘技术在农业领域中有着广阔的应用前景。
常用的数据挖掘方法有聚类分析、决策树、关联规则、遗传算法和粗糙集等。
基于粗糙集理论的数据挖掘是一种处理模糊和不确定性知识的技术【1。
3】。
随着国家对“三农”的重视及农业信息化技术的成熟,本文选择运用粗糙集的有关理论及其规则挖掘方法对基于数据元表示的数据进行处理,并以绿豆病虫害预测为例,阐述其应用。
1粗糙集的基本理论粗糙集理论是一种新的处理模糊和不确定性知识的数学工具,其主要思想就是在保持分类能力不变的前提下,通过知识约简导出问题的决策或分类规则。
随着数学应用范围的扩大,粗糙集理论已被成功地应用于机器学习、决策分析、过程控制、模型识别与数据收稿日期:20l l—06一08基金项目:河北自然科学基金项目(F2010001044);河北农业大学非生命项目(Fs20l008)作者简介:闻广州(1980一),男,山东临沂人,讲师,硕士,(E一咖i l)gzh —yan@qq.c蛐o30挖掘等领域。
基于粗糙集的数据挖掘算法的研究
关 键 词 : 据挖 掘 ; 糙 集 ; 性 约 简 数 粗 属
1 引 曹 .
矩阵中某一元素 删所在 行对应 对象对( ' ) uu , p q 所在列对应条件属性
C1’
数据挖掘研究从大规模 的数据库 中提取隐含 的、以前未知 的、 具 有潜在应域
限集合 ,称为沦域 ; A表示 属性的非空有限集合 ; = v v u v 是属性 a 简。 若某一行元索全为 0 说明相应的两个对 象 u , 在任何属性下都 , pq u 的值域 ;表示 u A f —V是一个 信息函数, 它为每个对象的每个属性赋 不可分 辨 。 删除之人 不影 响约简。 根据以上分析 。 可以得 到二进制可变 予一个信息值 , aEA, ,xaEV 。每一个属性子集 PCA, 即 xEUf , ( ) a _ 决定 矩 阵 的 约 简 变 换 的集 中形 式 : 『 l一个二元不可分辨关 系 i [ ; &P= x ) U U f ∈Pr , = n P i [ { , E * Va x )f & )n 】 (Y (a () 进 制 町辨 矩 阵 中 首 先 将 全 为 。和 全 为 l的行 删 除 ; 1二 (, 1 ya 。 ) ( 对 l 两列 , a 列 与 a 列 , a a=j + 表示逻 辑加) a 2 篥 ) 如 i j 若 i ja “ ” + ( 。 i 则
粗 糙 集 理 论 的 特 点 是 不 需 要 预 先 给 定 某 些 特 征 或 属 性 的 数 量 描 充 要条 件 为 ; 由 B 中所 有 属 性 对 应 的各 列 所 构 成 的 Ml 在 的子 阵 中 . 与 述, 而是直接从 给定 问题的描述集 出发, 通过不可分辨 关系( 等价关系1 MT有 相 同 的不 全 为 O的 行 。 确 定 给 定 问题 的 近似 域 , 而 找 出 该 问题 中 的 内在 规律 。 下 面 首 先 给 从 根据定理 1 可 以很容 易的求 出属性集的相对核 。在求 属性集约 , 出粗 糙 集 理 沧 中 的 基 本 概 念f s l 简的过程 中, 可以看 到在可辨矩阵中 。 若某一行元 素全为 l 说明相对 , 定 义 21S ( A V 是 一 个 信 息 系 统 , 中 U 表 示 对 象 的 非 空 有 应 的两个对象 u , .:=U', 其 p q在任何一 个属性 下都可分辨 , u 删除此行不应项 约
基于粗糙集理论的数据挖掘方法ppt课件
资金是运动的价值,资金的价值是随 时间变 化而变 化的, 是时间 的函数 ,随时 间的推 移而增 值,其 增值的 这部分 资金就 是原有 资金的 时间价 值
粗糙集理论的特点
将知识定义为不可区分关系的一个族集, 使得知识具有了清晰的数学意义,便于 用集合运算处理。 不需要关于数据的附加信息
资金是运动的价值,资金的价值是随 时间变 化而变 化的, 是时间 的函数 ,随时 间的推 移而增 值,其 增值的 这部分 资金就 是原有 资金的 时间价 值
区分矩阵将此问题巧妙地转化成了布尔 推理问题.
区分矩阵D是|U|*|U|矩阵, 每一项Dij表示 能把对象i, j区分开来的属性集合.在存在 类属性时, 同类对象不做区分.
区分函数是区分矩阵每一项的和, 代表了 能区分开所有对象的属性组合. 化简后就 得到了所有可能的约简.
Diplo Experie 资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值
ma
nce
Fren ch
Reference
Decisio n
x1 MBA Medium Yes Excellent Accept
x2 MSc High
Yes Neutral
Accept
x3 MSc High
Yes Excellent Accept
x4 MBA High
No Good
Accept
x5 MBA Low
资金是运动的价值,资金的价值是随 时间变 化而变 化的, 是时间 的函数 ,随时 间的推 移而增 值,其 增值的 这部分 资金就 是原有 资金的 时间价 值
快速约简算法的考虑
区分函数的化简仍旧是NP-hard问题 启发式算法 - 属性重要性作为启发信息(X.HU) - 条件信息熵作为启发式信息(王国胤) - 充分利用区分矩阵的信息作为启发 - 基于进化计算方法(GA,PSO)的方法
一种基于变精度粗糙基模型的数据拉掘方法
Ke wo d :V r a l r c s o o g S t C a a t r R d c i n R l s i t l i g D t i i g v r s a i b e P e i i n R u h e ; h r c e e u t o ; u e D s i l n ; a a M n n
Ab ta t : h l m t t o s o a l k o g s t m d l h c s a p i d i a a m n n i n l z d n t s s r cs T e i i a i n f P w a r u h e o e w i h i p l e n d t i i g s a a y e i hi
o P S s u e o d a i h t e p o l m o h r c e e u i g a d r l sd s i l n o h e e t d t f w o f V R M i s d t e lw t h r b e f c a a t r r d c n n u e i t l i g f r t e d f c a a o o d
的 数 据 挖 堀 方 法
p p r n eh do a am n n a e nv ra l r c so o g e o e (P S) i r p sd h e hd a e ,a d a m t o f d t i i g b s d o a i b e p e i i n r u h s t m d l V R M s p o o e .T e m t o
0 引言
于其它数据集。 但在实际应用中, 往往需要将一些小 规模 的
基于粗糙集面向属性的数据挖掘及改进
策属性的负区. 重要度体现该对象在信息系统中的重要性 , , Ui mp由领域知识结台数据库操作得到.
定义 1 UI一 ( C, { al∈C)U i > 是一个 带不 确定性 因子 的信 息 系统 , 是 一个 非 S u, D,V a ,, mp u 空对 象 集 , 是非 空条 件属性 集 , 是 一个 带 不确定 因子 U的决 策属性 ,vI是 在条 件属性 a下 的值 C D { ) 域 , 任意 对象 o j 对 b∈U ao j∈{ i (h) 。 j UI (b) V ) mpoj是 b 在 S中的重要 度. 在 UI S中 , 每一 对象 在条件属 性 C下有 确定的值 , 在决 策属 性下有 一个 带 不确 定 因子 U的值 , 及 该对 象 的重要 度 i . mp 如表 1为一不 确定性 信 息系统. 在 表 l中 U一{ lx ,3x ,5x ) x ,2x ,4x ,6 c一{t ,t)条件属 性值 域 V ala2 , 一 {,)V 0 1 … 一{ + ,) 012
1 粗糙集模式的一种改进
11 带 不确 定性 因子 的信息 系统 . 在 通常情 况 下 , 息系统 中用 确定 的形式 表示 每一 对象 , 信 即对给 定的对 象 都有 相应确 定 的属性 值 相 对应 , 这种 确定性 在 一定 程度上 限 制了对对 象 的表征 能力 , 主要是 不能体 现对 象 的不确 定性 和 在决 策 中 的重要 度0. 为了能 表征 对象 在信 息系统 中 的不确定性 和重要 度 , 并且克 服 噪音 的干扰 , 前面所 述 传统 信息 在 系统基 础上 , 引入 带不 确定性 因子 的信息系统 , 该 系统 中根 据领 域 知识 为 每一对 象 赋 以不确 定 度 u 在 和 重要 度 i mp,o u 1如果 U (≤ ≤ ) 一1, 示该对 象对某 一结论 有 完全 肯定 的判 断 , 表 即该 对象 所 在 等价 类属 于某一 决 策属 性 的正 区; U 当 一0则表示 该 对象对 结论 有完 全 否定 的判 断 , 即该 对 象属 于 某一 决
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种基于粗糙集的数据挖掘模型作者:郑芸芸王萍游强华来源:《软件导刊》2012年第11期摘要:粗糙集理论是一种处理不确定和不精确问题的数学工具。
运用模拟例子通过不同简化层次的算法导出每个层次上的信息集,最后得到规则集来说明如何建立和运用这种数据挖掘模型。
关键词:粗糙集;数据挖掘;规则提取;算法中图分类号:TP391 文献标识码:A 文章编号:16727800(2012)011010203________________________________________作者简介:郑芸芸(1978-),女,硕士,川北医学院计算机数学教研室讲师,研究方向为数据挖掘。
0 引言数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
按照数据挖掘技术所能发现的规律,可以将挖掘任务分成5种:①总结规则挖掘:从指定的数据中,从不同的角度或层次上挖掘出平均值、极小值、极大值、总和、百分比等;②关联规则挖掘:从数据库中挖掘出满足一定条件的依赖性关系;③分类规则挖掘:在已知训练集的特征和分类结果的基础上,为每一种类别找到一个合理的描述或模型;④聚类规则挖掘:客观地按被处理对象的特征分类,将有相同特征的对象归为一类;⑤预测及趋势性规则挖掘:对数据进行分类或回归分析,或对数据将来的发展进行估计。
粗糙集(Rough Set)理论是由波兰数学家Z.Pawlak于1982年提出的一种处理不确定性问题的数学工具。
所谓粗糙集方法,是基于一个机构(或一组机构)关于一些现实的大量数据信息,以对观察和测量所得数据进行分类的能力为基础,从中发现推理知识和分辨系统的某些特点、过程、对象等。
粗糙集理论不仅为信息科学和认知科学提供了新的科学逻辑和研究方法,而且为智能信息处理提供了有效的处理技术。
粗糙集理论运用于数据挖掘中所带来的优点有以下几方面:①不需要数据集合之外的任何先验知识,仅利用数据本身所提供的信息;②可以从不同的抽象层次来对数据进行建模和分析,以更好地揭示数据间的依赖关系,发现数据间的规律;③基于集合理论,有效地分析和处理不精确、不完备和不一致数据,简化输入信息的表达空间;④生成规则简洁准确、易于验证。
1 粗糙集的基本概念决策表信息系统是Rough Set理论的主要研究对象。
1.1 决策信息系统定义1 一个决策表信息系统可以定义为:S=(U,A,V,f)(1)其中U为论域,是对象的集合,U={x1,x2,K,xn};A为属性集,A={a1,a2,K,am},A由两个部分组成A=C∪D且C∩D=,C为条件属性集,D为决策属性集;V为属性的值域,V={Va1,Va2,K,Vam};f为信息函数,对于a∈A,x∈U,有f(x,a)∈Va。
定义2 对于知识系统S=(U,A),令RA,ind(R)={(xi,xj)|f(xi,b)=f(xj,b),b∈R}称为S的不可区分关系。
显然不可区分关系为一个等价类,含x的等价类记为[x]ind(R)。
由不可区分关系ind(R)产生的所有等价类构成的集合用U/ind(R)表示,简称U/R。
1.2 粗糙集定义3 对于知识系统S=(U,A),令RA,R_X={x∈U|[x]ind(R)X}称为X的R下近似集;RX={x∈U|[X]ind(R)∩X≠}称为X的R上近似集;由此可知集合R_X的所有对象是根据属性子集R的知识可判断必然属于X的对象,而集合RX的对象是根据属性子集R推断可能属于X的对象。
若R_X=RX,则集合X是可定义的;否则集合X在U中是不可定义的,即粗糙集。
POSR(X)=R_X称为X的R的正域;NEGR(X)=U-R_X称为X的R的负域;BNR (X)=RX-R_X称为X的R边界。
1.3 简约和核定义4 设R为一等价关系簇,则r∈R,当ind(R)=ind(R-{r}),则称在R中是不必要的;否则,r是必要的。
若r∈R都为R中必要的称R是独立的;否则R是依赖的。
定义5 设QP,若Q是独立的,且ind(Q)=ind(P),则称Q是P一个约简,记为red (P)。
P可以有多个约简,则core(P)=∩red(P)为核。
1.4 依赖性定义6 对于知识系统S=(U,A),P,Q为U上的两个等价关系簇,Q的P正域记为POSP(Q)定义为:POSP(Q)=UX ∈ind(Q)P_(X)定义7 对于属性集P,QA,Q对P的依赖度k定义为:k=γp(Q)=POSp(Q)|U|(2)当k=1时,称Q完全依赖于P;当02 基于粗糙集的数据挖掘算法采用粗糙集方法,从数据库中发现规则,该模型的思想是:(1)数据预处理。
信息系统中的原始数据进行适当处理,如属性的离散化,缺失值的处理,确定条件属性集合和结论属性集合,选择各属性的相应值域,得到一个其满足粗糙集理论处理需要的信息系统。
(2)属性约简。
删除冗余属性,求取条件属性的一个满意约简。
此部分运用基于属性依赖度的属性简约算法。
该算法首先从求核开始,若核的依赖度和最初信息表的所有属性的依赖度一致则停止运算。
否则,在核基础上一次添加一个约简的属性,该属性要确保新属性集合的依赖度比未添加该属性前原集合的依赖度大,直到约简集和最初信息表的所有属性的依赖度一致为止。
(3)删除重复元组、属性值约简。
对于每一个对象删除冗余属性值,求取其值核和所有的最简形式。
(4)规则提取。
删除重复的规则,选取适当的简化形式为数据挖掘提供依据。
3 数据挖掘中规则挖掘实例下面应用上述算法对一个实例进行分析,完整地说明数据挖掘的过程。
(1)从原始问题出发得到满足处理需要的信息系统。
如表1所示,其中,论域U={k1,k2,k3,k4,k5,k6,k7,k8,k9,k10}是某网站服务的注册客户群体,条件属性C={a1,a2,a3,a4}={学历,收入,性别,年龄},决策属性D={d}={购买次数}。
a1表示客户的学历,0表示高中及以下,1表示本专科,2表示硕士及以上;a2表示收入,0表示3 000—5 000,1表示低于3 000,2表示高于5 000;a3表示性别,1和0表示男和女;a4表示年龄,0表示年龄小于等于20岁,1表示年龄介于21~30岁,2表示年龄介于31~40岁;d表示客户的购买次数,0表示从未购买,1表示偶尔购买(购买次数小于5次),2表示经常购买(大于等于5次)。
(2)利用基于属性依赖度的属性简约算法求出决策表的核。
可得:由此可得决策表的核Core=C-{a3},并由于γc-{a3}(D)=γC(D)=1,满足算法终止条件,得到C的一个约简{a1,a2,a4},约简后得表2,其中k6和k7、k10重复,删除k7和k10;k4和k8重复,删除k8;k2和k9重复,删除k9。
(3)属性值约简:属性值约简是用来得到最简规则集的。
决策表中每一行代表一条决策规则,每一行单独进行下列运算:首先观察决策表中条件属性,选择其中一列,如果删除该列,产生冲突记录,则保持属性值不变;删除该列后信息表既不发生冲突也不发生重复,则将该属性值标为“?”;删除该列后信息表不冲突但有重复记录,则将该列标记为“*”。
这样就计算出了每一条决策规则的条件属性的核值,即保留属性值的属性就是每一条决策规则条件属性的核值。
处理表2的属性值后如表3所示;接下来删除重复记录,并从上至下依次考察每条记录,若能使用所有的保留属性值来判断出决策,那么这就是一条决策规则;否则,在求出的决策规则的核值的基础上,开始一次一个地抽取“?”类属性值补充进来进行判断,若“?”类属性值抽取完后,还不能作出正确的决策,则再一次一个地抽取“*”类属性值补充进来,直至能够作出正确的决策为止;将在当前记录中为作出正确决策而使用到的属性和属性值以及决策属性值保存到规则集R中;将信息表中能利用当前规则作出正确决策的记录删除,从而产生新的信息表;如此循环(2)、(3)、(4)直至信息表为空。
规则集R就是约简后的规则集。
如表4所示。
表3 属性值的核值U a1 a2 a4 dk1 ? 0 * 1k2 1 ? * 1k3 0 ?? 0k4 ? 1 1 0k5 ?? 2 2k6 ??? 2表4 属性值最简约简U a1 a2 a4 dk1 1 0 - 1k3 0 - - 0k4 - 1 1 0k5 - - 2 2(4)规则提取:由表4可以产生最简规则如下:①学历高中及以下或收入低于3 000并年龄介于21~30岁的注册客户从未购买;②学历本专科并收入介于3 000~5 000之间的偶尔购买;③年龄介于31~40岁之间的经常购买。
5 结语数据挖掘的任务就是从海量数据信息中得到对决策者有用的数据。
传统的数据挖掘算法往往容易产生大量的冗余数据,而粗糙集可以较好地解决这方面的问题。
本文研究的基于粗糙集的数据挖掘算法主要就是解决了这个问题,基于粗糙集的数据挖掘算法将传统的数据挖掘分成了两步。
首先是属性约简,这样就能将得到的数据决策表进一步简化,然后在此基础上进行规则提取,从而在约简后的决策表中找到对决策表有用的最简规则。
参考文献:[1] MEHMED KANTARDZIC,闪四清.数据挖掘-概念、模型、方法和算法[M].北京:清华大学出版社,2003.[2] 韩家炜.数据挖掘,概念与技术[M].北京:机械工业出版社,2001.[3] PAWLAKZ.Rough sets[J].Computer and Information Sciences,1982(11).[4] 张文修,吴伟业,梁吉业.粗糙集理论与方法[M].北京:科学出版社,2001.[5] 张文东,李明壮.基于粗糙集理论的属性约简算法[J].计算机工程与设计,2008(22).(责任编辑:杜能钢)。