基于粗糙集的属性值约简算法研究概要
基于粗糙集的属性约简算法
第2 2卷
a= 表示不包含条件属性 a, a =1 0 而 表示包 含条件 属性 a。如果要识别所有 决策不同的记 录 , a( =12 …, ) 则 i ,, 与 ( =12 … , 之 中必然 至少各有 一个 条件属性 不能 ,, ) 被 删除 , 否则新决策表将与原决策表具 有不同的不科技开发项 目( 013) 2 435 0 作者简介 : 赵青杉(92 , 山西五 台 , 州师 范学院计算机 系讲师 , 17 一)男, 人 忻 从事数据挖掘 、 集理论研 究。 粗糙
维普资讯
忻 州 师 范 学 院 学 报
x 关于 R 的下近似集是 U 中根据 已有知识 判断必 定属于 X 的对象所组成 的最大集合 , =U{ ∈ U R1 即』 y / y∈X}
定义 2 设 R C称 R 为 C的 D一 : 约简当且仅 当 R 是 C
属性组合以布尔值表示其中是否包含某个条件属性。 比如
收稿 日期 :0 6 1 5 20 0 —0
的最小约简是 N P—hr a d问题 。解决 这类 问题 的方法一 般
的值, “ 是 “ D( ) 在属性D上的值, 可识别矩阵记为:
f a∈ A : ( 1 ≠ a “ )D( ≠ D( , a “) ( , , “) “)
是启发式搜索 , 进而获得最优解或近似最优解。 本文研究 了可辨识矩 阵的约简 , 从属性依赖度角度给 出
粗糙集理论是波兰数学家 Z P wl .a a k在 2 0世纪 8 o年代 初首先提 出 的一种 可 以分析 模糊 和不 确定 问 题 的数 学理
定义 3 C的所有 必要属 性组成 的集 合称 为 C 的核 , : 记
为 ∞ R C)它是 C的所 有约简 的交 , C RE( =n E( , 即 O C) R D( , 中 R D( 表示 的约 简。 E C)其 E C) 三、 基于可识别矩阵的约简方法 可辨识矩 阵由华 沙大学数学家  ̄o o 出 , wrn提 定义 为系 统 S=( A) U= { 1 “ , “ }a( ) “在属性 a上 U, , “ ,2… , “ 是
基于粗糙集的属性约简算法
} 。
…
3
的上 近似 集 B ) 根据 知识 判定 可 能属 ( , 于 的 中的对象 组成 的集合 B X)= { ∈ Ul ( X B( " X ≠ } X)I 1 。
定义 3 正域
收 稿 日期 :0 l 3 1 2 1 - —l 0 基 金项 目 : 国家 自然 科 学 基 金 资 助 项 目( 07 0 9 6543 )
D c u D =Q, = ) ( Cn D 两个不同的集合。 概念 2 完备信息系统与不完备信息系统 在决 策信息系统 D S=< , uD, , UC VP>中, 中每个对
1 2 基本 定义 .
L )= { ( Y∈ UI( Y ,)∈ L , } L = { ∈ UI ( X L ) } , L = { ∈ UJ ( X )n ≠ } 。
() 2 () 3 () 4
定义 1 不可 分辨 关 系
限制容 差关 系具 有 自反 性 和对 称性 , 是不 具 但 有 传递 性 。
步骤 有的约简属性集都包含的不可省略属性 的集合 , 记 为 C R P)=n R D( O E( E P)。
步骤 7 将 R d e 集里的属性与 c集合里剩余的
属性 分别结 合 。 步骤 8 采 用组合 属性 , 复步骤 2 ~6 重 。 步骤 9 从 R d的尾部 开 始 , 后 往前 对 每 个 e 从
2 2 知 识约 简算法 .
q }I D B 是一个等价关系。 )。 ( ) N 由这种等价关 系导
出 的对 的划 分记 为 U ID( , 中包 含样本 的 /N B)其 等价类 记 为 [ ] 。
基于粗糙集理论的概念格属性约简及算法
A src R u hst hoyhs d a tg l n e rbe f h eu t no bet a ditns ekn n btat o g e ter a vna ens v gt o l o e d ci f jcs n e t.se igmii a i oi hp ms t r o o n
st o e me h d fc n e tltierd cina ep e e tdwhc a et ea v n a eo o hr u hs ta d fr ll e ,smen w t o so o c p at e u t r rs ne ihtk h d a tg fb t o g e n la c o oT c n e ta ay i.Th i o hsp p ri t r d c o e meh d f o c p at erd cin b h o bn t n o cp n lss eam ft i a e o p o u es men w t o so n e tlti e u t yt ec m ia i S c c o o o ou h s tt e r n o ma o cp n l ss fr g e h o y a df r lc n e ta ay i .
Ke wod F r l o c p n lss Ro ghs tte r Re u t n y rs o ma n e ta ay i, u e h oy。 d ci c o
形式概念分析是一个从对象数据表里 自然 聚类抽取信息 的数 据分析方 法。从数据集 中( 形式概念分 析中称 为 ‘ 背景 ’ ) 生成概念 格的过程 实质 上是一个概念聚类 的过程 。这种 聚类 在传统意义上 被 自然地 解释 为概念 且具 有一个 子概 念 超概
基于粗糙集的属性约简优化算法研究
a r ) U [ ] p( =
收稿 日期 : 0 7—1 —1 20 1 1
( 上近似集 )
基金项 目:江苏省高校 自然科学基础研究项 目( 5 J 50 0 ) 南通大学 自然科 学基金项 目(5 0 1 0 K B 2 17 ; 0Z6 )
GENRED
—
G O H属性 约简 算法 , 通过 C I 器学 习数据 库 中相关 属性 约简实 验 , 该算法 的有效性 . R WT 并 U机 验证
1 粗 糙 集 基本 理论
1 1 基 本 定 义 .
定 义 1 信息 系统 ) 信息 系统是 有序对 S=( , d} , 中 是 非 空有 限集 合 , 为全 域.A是非 空 ( U AU{ ) 其 称
关 键 宇 :粗 糙 集 ; 性 约 简 ; 性 重 要度 ; 据 挖 掘 属 属 数
中图分类号 : P 0 . T 3 16
文献标识码 : A
文章编号 : 00— 0 3 20 )2— 0 2— 5 10 2 7 (0 8 0 0 5 0
0 引 言
粗糙 集 ( og e ) 论 由波 兰数 学家 Pwa R uhSt 理 s al k于 18 首 先提 出 , 9 2年 由于其 思想 新颖 、 方法 独 特 , 已成 为 近 年来获 得飞速 发展 的数据 挖掘有 力工具 , 它提 供 了一套严 格 处理 知识 发现 中基 本 分类 问题 的数学 方法 . 粗糙 集理 论不需 要先 验知识 , 即可 发现数据 中蕴 涵 的知识模式 , 在保 持分类 能力 的前提 下 , 通过 对属性 和属性 值 约简获 取最小 的规 则集 , 获取 的规则 易于被 专家解 读说 明 j 且 .
《基于粗糙集的连续值属性约简算法研究》范文
《基于粗糙集的连续值属性约简算法研究》篇一一、引言随着大数据时代的来临,数据挖掘和知识发现成为了研究的热点。
粗糙集理论作为一种有效的数学工具,被广泛应用于数据分析和知识约简。
在处理具有连续值属性的数据时,如何有效地进行属性约简是一个重要的研究问题。
本文旨在研究基于粗糙集的连续值属性约简算法,为数据处理和知识发现提供有效的方法。
二、粗糙集理论概述粗糙集理论是一种处理不确定性和模糊性的数学工具,主要研究的是集合与集合之间的关系。
在数据挖掘和机器学习中,粗糙集理论被广泛应用于特征选择和属性约简。
粗糙集通过上下近似集来描述一个概念或集合的粒度,从而实现对数据的分析和约简。
三、连续值属性约简问题在处理具有连续值属性的数据时,传统的粗糙集理论面临着一些挑战。
连续值属性的处理需要更复杂的算法和技术。
此外,连续值属性的约简还需要考虑到数据的分布、密度、相关性等因素。
因此,如何有效地进行连续值属性的约简是一个重要的研究问题。
四、基于粗糙集的连续值属性约简算法为了解决连续值属性的约简问题,本文提出了一种基于粗糙集的连续值属性约简算法。
该算法主要包括以下步骤:1. 数据预处理:对数据进行清洗、归一化等预处理操作,以便于后续的约简操作。
2. 计算上下近似集:利用粗糙集理论,计算每个属性的上下近似集。
3. 属性重要性评估:根据上下近似集,评估每个属性的重要性。
重要性的评估可以采用信息熵、增益率等方法。
4. 属性约简:根据属性重要性的评估结果,选择一部分属性进行约简。
约简的目标是在保持数据分类能力的同时,减少属性的数量。
5. 约简结果评估:对约简结果进行评估,包括分类准确率、约简率等指标。
五、实验与分析为了验证本文提出的算法的有效性,我们进行了实验分析。
实验数据采用UCI等公开数据集。
实验结果表明,本文提出的算法可以有效地进行连续值属性的约简,且约简后的数据分类准确率较高。
此外,我们还对约简结果进行了可视化展示,以便于更好地理解约简过程和结果。
基于粗糙集的属性约简算法概要
基于粗糙集的属性约简算法夏春艳 1李树平 2刘世勇 3牡丹江师范学院计算机科学与技术系,黑龙江省牡丹江市 157012The Approach for Attributes Reduction Based on Rough Set TheoryAbstract :This paper researches attributes reduction of Rough Set Theory. Put forward a heuristic attribute reduction algorithm based on the table of compatibility information and incompatible information at same time. The experimental results show that the algorithm is verified to be more feasible and effective.Key words: Rough Set Attribute Reduction Attribute dependencies摘要:本文主要研究基于粗糙集理论的属性约简算法。
提出了一种同时适合于相容信息表和不相容信息表的启发式约简算法,并通过算例验证了该算法的可行性和有效性。
关键词:粗糙集属性约简属性依赖度中图分类号:TP311 文献标识码:A0 引言粗糙集理论是由波兰华沙理工大学 Z.Pawlak 教授在 1982年提出的, 是一种研究不精确、不确定性知识的数学工具 [1]。
该理论已经在数据挖掘、机器学习、过程控制、决策分析和模式识别等领域得到了广泛的应用, 并取得了良好的效果。
属性约简就是在保持分类能力不变的前提下, 通过对知识的化简导出问题的决策或分类规则, 是粗糙集理论中的一个重要研究课题 [2]。
它的意义在于可以删除冗余信息,形成精简的规则库以便人们 (或者机器人作出快速、准确的决策。
基于粗糙集理论的评价指标属性约简
基于粗糙集理论的评价指标属性约简摘要:粗糙集理论是一种对数据进行约简的有效工具。
文章运用粗糙集理论对评价指标进行了属性约简,并根据各指标包含信息量的大小确定权重,构建了基于粗糙集理论的指标综合评价模型。
标签:指标评价;粗糙集;属性约简引言粗糙集(Rough set)是由波兰数学家Z.Pawlak于1982年提出的一种处理模糊、不确定信息的方法。
粗糙集理论把知识看做关于论域的划分,以不可分辨关系为基础,在保持分类能力不变的前提下,通过知识属性约简,导出问题的决策分类规则。
属性约简是指对知识库中冗余繁杂的信息进行精简,以较少的数据进行较多信息的表达,从而方便对数据的处理和分析。
根据其客观性和自身特点,其用在评价指标属性约简具有可行性,众多学者和专家们对该方法在各个领域运用的可行性方面进行了研究。
1 粗糙集理论1.1 信息表。
S=(U,R,V,f)表示为信息表,其中U是一个非空集合,称为论域,U={x1,x2,x3……xn},其中xi表示对象;R表示对象的属性集合,R=C∪D,即对象的属性集合是条件属性(C)和决策属性(D)的并集;V是属性值的集合,Va是属性a∈R的值域;f是U×R→V的一个信息函数,它为每个属性a赋予一个属性值,即a∈R,x∈U,fa(x)∈Va。
1.2 等价关系。
对于任意a∈A(A中包含一个或多个属性),A?R,x∈U,它们的属性值相同,即fa(x)=fa(y)成立,称对象x和y是对属性A的等价关系,表示为IND(A)={(x,y)|(x,y)∈U×U,?a∈A,fa(x)=fa(y)}。
1.3 等价类。
在U中,对属性集A中具有相同等价关系的元素集合称为等价关系IND(A)的等价类,表示为[x]A={y|(x,y)∈IND(A)}。
1.4 属性约简。
给定一个信息表IT(U,A),若有属性集B?A,且满足IND(B)=IND(A),称B为A的一个约简,记为red(A),即B=red(A)。
基于遗传算法的粗糙集属性约简算法_任永功概要
收稿日期 :2005-09-12基金项目 :辽宁省自然科学基金项目 (2050820 资助 ; 辽宁省教育厅高等学校科研基金项目 (20040206; 2004C 031 资助 . 作者简介 :任永功 , 男 , 1972年生 , 副教授 , 研究方向为可视化数据挖掘、图像处理等 ; 王杨 , 女 , 1978年生 , 硕士研究生 , 研究方向为数 . , , 基于遗传算法的粗糙集属性约简算法任永功 , 王杨 , 闫德勤(辽宁师范大学计算机系 , 辽宁大连 116029 E-mail:renyg@dl. cn摘要 :属性约简是粗糙集理论中的一个核心问题 , 为了有效获取属性最小相对约简 , 本文提出了一种基于遗传算法的粗糙集属性约简算法 . 该算法将核引入遗传算法的初始群体来提高算法的性能 , 依照决策属性对条件属性的依赖度 , 在加强局部搜索能力的同时保持了该算法全局寻优的特性 , 能够获得最佳的搜索效果 . 实验结果证明了该算法能够快速有效的进行属性约简 . 关键词 :粗糙集 ; 属性约简 ; 遗传算法 ; 相对约简 ; 核中图分类号 :T P 18文献标识码 :A 文章编号 :1000-1220(2006 05-0862-04Rough Set Attribute Reduction Algorithm Based on GAREN Y ong -go ng, WA N G Y ang , Y AN De-qin(S chool of Computer and I nf ormation Tech nology , L iaoning N orm al Univ ersity , Dalian 116029, ChinaAbstract :A ttr ibut e reduction is a key pr oblem for the ro ugh set theor y. I n o rder to achieve effectiv ely attr ibut e r eduction, the paper pro po ses a ro ug h set att ribute r eductio n alg or it hm based on G A. T he co re is joined initial population in G A in o rder to acceler ate capabilit y. A ccor ding to the dependability of decision attr ibute to the condition attr ibute, it can o bt ain the pr ime effect . Ex periment al r esults show the algo rit hm is fast and effective .Key words :ro ugh set; at tribut e r eduction; g enetic algo rithm; r elat ive r eduction; co re1引言粗糙集 (R ough Sets [1]理论是波兰数学家 P aw lak 于 1982年提出的一种处理不精确与不完全数据的数学理论 , 其主要特点是不需要预先给定某些特征或属性的数量描述 , 而是直接从给定问题的分类知识出发 , 通过不可分辨关系确定给定问题的知识约简 . 目前 , 粗糙集理论同神经网络、模糊理论、遗传算法等结合 , 已被应用于人工智能、模式识别、机器学习、决策支持与分析和数据挖掘等各种应用领域 . 属性约简是粗糙集理论中的一个核心问题 , 一般来讲 , 知识库中的知识并不是同等重要的 , 而且还存在冗余 , 这不利于作出正确而简洁的决策 . 属性约简就是在保持知识库分类能力不变的条件下 , 删除其中不相关或不重要的冗余知识 .遗传算法是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法 . 它最早由美国密执安大学的 Holland 教授提出 , 其搜索方式不是单一的方向或结构 , 它将多个个体作为可能的解并考虑搜索空间全局范围内的抽样 , 从而导致以更大的可能性收敛到全局最优解 , 因此遗传算法具有很强的全局搜索能力 , 能够在较短时间内找到全局最优解 .属性约简一直是粗糙集理论研究的重点 , 无论是研究问题域的关键还是求出刻划问题的最小规则集 , 都必须在决策表的最小约简求出的前提下才能得到解决 , 但是最小约简的求解是一个 N P 难问题 . 目前有许多求解最小约简的算法 [2-6], 但是对那些大数据量高维数的决策表上进行最小约简的求解就必须探询一种更好的解决问题的办法 . 由于遗传算法在求解这种复杂问题所表现出来的能力 , 本文提出了一种基于遗传算法的粗糙集属性约简算法 , 实验结果证明该算法是有效的 , 可快速收敛到全局最优解 .2相关基本概念设 S =(U , A , V , F 为一信息系统 , 其中U ={x 1, x 2, … , x n }是论域 , A 是属性集合 , V 是属性值集合 , F 是U ×A → V 的映射 , 它为 U 中各对象的属性指定唯一值 . 若 A =C ∪ D, C ∩ D = , C 称为条件属性集 , D 称为决策属性集 , 则该信息系统称为决策表 .定义 1. 设 X U 为论域的一个子集 , P C , X 的关于 P 的下近似为P -X ={x ∈ U [x ]P X }其中 [x ]P 表示 U 中在等价关系 P 下的等价类元素构成的集合 .定义 2. x , y ∈ U , 对于 Q A , Q 是 U 上的一个等价关系 , 如果满足 x Q y ( q ∈ Q (f q (x =f q (y , 则称 Q 是 x , y 的一个不可分辨关系 .定义 3. 设 U 为一个论域 , P , Q 为 U 上的两个等价关系第 27卷第 5期 2006年 5月小型微型计算机系统 M I NI -M ICRO SYST EM S Vo l . 27No . 5 M ay 2006簇 , Q 的 P 正域记为 P OS P (Q , 定义为PO S P (Q =∪ X ∈ U /QP -(X定义 4. 设 P C , 对于划分{Y 1, Y 2, … , Y k }的 P 的近似精度为P =∑ ki =1car d (P -Y i /car d (U (1其中 , card ( 表示集合的基数 . 性质1. 0≤ p ≤ 1.(1 当 p =1时 , 决策信息完全由条件信息确定 . (2 p =0时 , 决策信息完全独立于条件信息 .定义 5. 设 P C , 若 P = C , 且不存在 R P , 使得 R = P , 则称 P 为 C 的一个属性约简 . 所有 C 的属性约简的交称为 C 的核 , 记为 Core (C .性质 2. Core (C ={c ∈ C C -C ≠ C }3遗传约简算法 [7-8]寻找最小相对约简对决策问题具有十分重要的意义 . 将遗传算法与粗糙集相结合 , 往往能取得较好的结果 . 遗传算法主要运算过程如下 . 3. 1编码方法由于遗传算法不能直接处理解空间的解数据 , 因此我们必须通过编码将它们表示成遗传空间的基因型串结构数据 . 在此 , 我们使用固定长度的二进制符号串来表示群体中的个体 , 其等位基因是由二值符号集 {0, 1}所组成的 . 初始群体中各个个体的基因值可用均匀分布的随机数来生成 .如 :100111001000101101就可表示一个个体 , 该个体的染色体长度是 n=18, 其中每一位对应一个条件属性 , 若某位取值为 1, 则表示选择其对应的条件属性 , 若某位取值为 0, 则表示不选择其对应的条件属性 .3. 2个体适应度评价我们定义适应值函数如下 :F (x =(1-car d (x /n +k (2 其中 :card(x 为染色体中 1的个数 , 即染色体所含条件属性的个数 ; n 为染色体的长度 , 即条件属性的个数 ; k 为决策属性对该染色体所含的条件属性的依赖度 .该函数可以控制染色体朝着最小约简的方向进化 :k 越大 , 说明决策属性 D 依赖条件属性 C 越强 , 当 k =1时 , 决策信息完全由条件信息确定 ; 通过 card (x来控制染色体所含条件属性的长度 . 通过这两方面 , 我们构造的适应值函数可以在保持决策属性对整体条件属性依赖度不变的情况下找到所含条件属性最少的约简 .3. 3选择操作本文采用适应度比例选择方法 , 从当前群体中选出优良的个体 , 将其复制到下一代群体中 , 该方法也称为赌盘选择 .其具体执行过程是 :(1 先计算出群体中所有个体的适应度总和 .(2 其次计算出每个个体的相对适应度的大小 , 它即为各CF (x j =F(x j /∑ mj =1F (x J j=1, 2, … , m(3(3 最后使用模拟赌盘操作 (即 0到 1之间的随机数来确定各个个体被选中的次数 .3. 4交叉操作本文采用单点交叉算子 , 其具体执行过程为 :对群体中的个体进行两两随机配对 ; 对每一对相互配对的个体 , 随机设置某一基因座之后的位置为交叉点 ; 对每一对相互配对的个体 , 依设定的交叉概率 pc 在其交叉点出相互交换两个个体的部分染色体 , 从而产生出两个新的个体 .3. 5变异操作本文采用基本位变异算子 , 其具体执行过程为 :对个体的每一个基因座 , 依变异概率 pm 指定其为变异点 ; 对每一个指定的变异点 , 核中属性对应的基因位不发生变异 , 其它则对其基因值做取反运算 , 从而产生出一个新的个体 . 3. 6最优保存策略在得到新一代个体之后 , 如果其中最坏个体 (适应值最小的适应值小于上一代最好个体 (适应值最大的适应值 , 则用上一代最好的个体代替新一代最坏的个体 , 该方法确保算法收敛 .4基于遗传算法的粗糙集属性约简算法4. 1执行算法过程输入 :一个决策表 S =(U , A , V , F , A =C ∪ D , C 是条件属性 , D 是决策属性 .输出 :此决策表的一个属性约简 R . 第 1步 :由 (1 式计算出决策属性 D 对条件属性 C 的依赖度 C (D . 第 2步 :令 =Core (C = , 逐个去掉一个属性 c ∈ C, 若 C -C ≠ C , 则 Cor e (C =Core (C ∪ {c }, 即核为 Cor e (C ; 若 Co re (D = C (D , 则 Co re 即为最小相对约简 , 否则执行第 3步 .第 3步 :随机产生 m 个长度为 n(条件属性的个数的二进制串组成初始群体 :对于核中的属性 , 其对应位取 1; 其它则对应位随机取 0或 1.第 4步 :由 (1 式计算出决策属性对每个个体所含条件属性的依赖度 ; 由 (2 式计算出每个个体的适应值 ; 由 (3 式计算出每个个体被选择的概率 ; 最后使用模拟赌盘操作 (即 0到 1之间的随机数来选择个体 .第 5步 :根据交叉概率 pc 进行交叉操作 , 采用单点交叉方式 .第 6步 :根据变异概率 pm 进行变异操作 , 采用基本位变异方式 , 其中核中属性的对应位不发生变异 .第 7步 :采用最优保存策略 , 将最优个体复制到下一代群体中 .第 8步 :如果连续 keep 代的最优个体的适应值不再提高 , 则终止计算 , 否则转第 4步 .4. 2算法的可行性和计算复杂性分析8635期任永功等 :基于遗传算法的粗糙集属性约简算法证明 :(1 该算法是从一个初始群体出发 , 不断重复执行选择、交叉和变异的过程 , 使群体进化越来越接近某一目标 , 如果把每个个体看成是空间中的一个点 , 那么初始群体就是空间中的一组点 , 选择、交叉和变异就是在空间中点集变换的某种运算 , 通过这些运算最后达到解空间中的最优点 .(2 文中采用的适应值函数可以控制染色体朝着最小约简的方向进化 :k 越大 , 说明决策属性 D 依赖条件属性 C 越强 ; 再通过 car d(x 来控制染色体朝着最小约简的方向进化 . 本文算法保证了这两方面要求 , 所以该算法得到的 R 为问题的最优解 . 证毕 .命题 2. 该算法的计算复杂度为 O (GEN *popsize *m * n*lo gn .证明 :该算法的计算复杂度涉及了三个参数 :迭代次数、群体数目和适应值的计算 , 它们构成整个遗传算法的计算复杂度为 O (GEN *popsize *适应值的计算复杂度 . 本文引入了属性依赖度来定义适应值 , 它的计算复杂度为 O (m*n * log n , 所以该算法的计算复杂度为 O (GEN *popsize *m *n *log n. 证毕 .5实验结果为考察本算法的有效性 , 我们使用本文算法分别对不同的信息系统做了多项实验 .表 1是一个关于汽车数据的信息系统 . 其中论域U ={1, 2, … , 21}, 条件属性集为 C ={类型 , 气缸 , 涡轮式 , 燃料 , 排气量 , 压缩率 , 功率 , 换档 , 重量 }, 决策属性为 D ={里程 }.表 1汽车数据表类型气缸涡轮式燃料排气量压缩率功率换档重量里程小型 4Y 1型中高高自动中中小型 4N 1型中中高手动中中小型 4N 1型中高高手动中中小型 4Y 1型中高高手动轻高小型 4N 1型中中中手动中中小型 4N 2型中中中自动重低小型 4N 1型中中高手动重低微型 4N 2型小高低手动轻高小型 4N 2型小高低手动中中小型 4N 2型小高中自动中中微型 4N 1型小高低手动轻高微型 4N 1型小中中手动中高小型 4N 2型中中中手动中中微型 4Y 1型小高高手动中高微型 4N 2型小中低手动中高小型 4Y 1型中中高手动中中小型 4N 1型中中高自动中中小型 4N 1型中中高自动中中微型 4N 1型小高中手动中高小型 4N 1型小高中手动中高小型 4N 2型小高中手动中中 18, pc =0. 8, pm =0. 03, 结果显示了迭代次数 , 每一代的最优个体 , 最优个体的适应值和该最优个体连续出现的次数 . 在本例中 , 第一代就出现了最优个体 , 并连续 10代均不变 , 即求得属性约简后的结果为 {类型 , 燃料 , 排气量 , 重量 }.表 2表 1的计算结果迭代次数最优个体最优个体的适应值最优个体连续出现次数 11001100011. 555556121001100011. 555556231001100011. 555556341001100011. 555556451001100011. 555556561001100011. 555556671001100011. 555556781001100011. 555556891001100011. 5555569101001100011. 55555610为了进一步验证本算法的约简效果 , 我们从 U CI 机器学习数据库 [9]中选择了 Zoo Dat abase , 论域U ={1, 2, … , 101}, 条件属性集为 C ={animal name , hair , feathers , eg gs , milk , air bo rne, aquatic, predato r, to othed, backbone, br eathes, venomo us, fins, legs, tail, domestic, catsize }; 决策属性集 D= {ty pe }.表 3是利用本遗传算法求解最小约简的结果 . 其中 m= 10, pc=0. 6, pm =0. 02, 结果显示了迭代次数 , 每一代的最优个体 , 最优个体的适应值和该最优个体连续出现的次数 . 在本例中 , 第 16代出现了最优个体 , 并连续 10代均不变 , 即求得属性约简后的结果为 {anim al name}.表 3本文算法对 Zo o 数据的约简结果迭代次数最优个体最优个体的适应值最优个体连续出现次数 1101000000000100001. 82352967101000000000000001. 882353916100000000000000001. 94117610应用本文算法与文献 [4]、 [5]的算法对比实验的结果也证明了本文算法可以大大的节省运算时间 .6结束语粗糙集理论以其独特的优势引起了广泛的关注 , 其与遗传算法的结合也越来越成为研究的热点 [10-12], 属性约简是粗糙集理论研究的核心内容之一 , 但是找出一个决策表的最小约简是 N P 难问题 . 本文提出了一种基于遗传算法的粗糙集属性约简算法 , 在加强局部搜索能力的同时保持了该算法全局寻优的特性 , 实验结果表明 , 该算法能够有效地对决策表进行约简 , 特别是数据规模较大时更加节省计算时间 . 进一步的工作将是继续完善遗传约简算法 .:864小型微型计算机系统2006年[J ]. Cybern etics and Sys tem , 1998, 29(27 :661-688.[2]Hu X H, Cercone N. Learn ing in relational datab as e:a rough set approach [J ].C om putational Intelligence , 1995, 11(2 :323-337.[3]Hu X. Know led ge dis covery in databas es :An attribute-oriented rough set approach [D ]. Ph . D thes is , Regina u nivers ity , 1995. [4]Dai J ian -h ua, Li Yu an-chun. An algorith m for reduction of attributes in decis ion sys tem b as ed on rough s et [J ]. M ini -M icro S ystems, 2003, 3(3 :523-526.[5]Hu Ke-yun , L u Yu-ch ang , Shi C hun-yi. Feature ranking in rough s ets [J]. AI Comm unications, 16(2003 :41-50.[6]Zeng Huan g-lin. Rough Set T heory and Application [M]. Chong Qing :Chong Qing University Pres s , 1996.[7]Zhou M ing, Sun Sh u-dong. Genetic Algorithm Principle and Application [M ]. Beijin g :Defence In dustry Pres s , 1999.[8]Chen Gu o-lian g, W ang Xu-fa. Genetic Algorithm and Application[M ]. Beijing:Post&TelecomPres s, 1996.[9]UC I repository of machine learn ing database[EB/OL]. http:// w w w. cs. uci. edu /~mlearn /MLRepository. html.[10]T ao Zhi , Xu Bao -dong . Rough set know ledge reduction approach b as ed on GA[J ]. S ystem s Engineerin g, 2003, 7(4 :116-122. [11]W ang W en -h ui , Zhou Dong -h ua . An algorithm for know ledge reduction in rough s ets based on genetic algorithm [J]. Journal Of S ystem S imulation , 2001, 8(13 :91-94.[12]Dai Jian-hua, Li Yuan-chun. Heu ristic gen etic algorithm for r eduction of attributes in rough set theory[J]. Journ al of Xi an J iaotong University , 2002,12(12 :1286-1290.附中文参考文献 :[4]代建华 , 李元香 . 一种基于粗糙集的决策系统属性约简算法 [J]. 小型微型计算机系统 , 2003, 3(3 :523-526.[6]曾黄麟 . 粗集理论及其应用 [M ]. 重庆 :重庆大学出版社 , 1996. [7]周明 , 孙树栋 . 遗传算法原理及应用 [M ]. 北京 :国防工业出版社 , 1999.[8]陈国良 , 王煦法 . 遗传算法及其应用 [M ]. 北京 :人民邮电出版社 , 1996.[10]陶志 , 许宝栋 . 基于遗传算法的粗糙集知识约简方法 [J]. 系统工程 , 2003, 7(4 :116-122.[11]王文辉 , 周东华 . 基于遗传算法的一种粗糙集知识约简算法 [J]. 系统仿真学报 , 2001, 8(13 :91-94.[12]代建华 , 李元香 . 粗集中属性约简的一种启发式遗传算法 [J ]. 西安交通大学学报 , 2002, 12(12 :1286-1290.2006年全国软件与应用学术会议征文通知全国软件与应用学术会议 (NA SA C 由中国计算机学会软件工程专业委员会和系统软件专业委员会联合主办 , 是中国计算机软件领域一项重要的学术交流活动 . 第五届全国软件与应用学术会议 N A SA C2006将由国防科学技术大学计算机学院承办 , 于 2006年 9月 7日至 9日在湖南长沙举行 . 此次会议将由国内核心刊物 (计算机工程与科学以增刊形式出版论文集 , 还将选择部分优秀论文推荐到核心学术刊物 (EI 检索源发表 , 并将评选优秀学生论文 . 欢迎踊跃投稿 .一、征文范围 (但不限于下列内容1. 需求工程2. 构件技术与软件复用3. 面向对象与软件 A gent4. 软件体系结构与设计模式5. 软件开发方法及自动化6. 软件过程管理与改进7. 软件质量、测试与验证8. 软件再工程9. 软件工具与环境10. 软件理论与形式化方法11. 操作系统12. 软件中间件与应用集成13. 软件语言与编译 14. 软件标准与规范 15. 软件技术教育 16. 应用软件二、论文要求1. 论文必须未在杂志和会议上发表和录用过 .2. 论文篇幅限定 6页 (A 4纸内 .3. 会议只接受电子文档 P DF 或 PS 格式提交论文 . 排版格式请访问会议网址 .三、重要日期1. 论文投稿截止日期 :2006年 5月 31日2. 论文录用通知日期 :2006年 6月 30日3. 学术会议及活动日期 :2006年 9月 7日至 9日四、联系方式联系人 :舒绍娴 , 国防科技大学计算机学院T el:0731-*******Email:nasac2006@nasac. net 8655期任永功等 :基于遗传算法的粗糙集属性约简算法。
基于粗糙集理论的属性值约简算法研究
收稿 日期 :08 1 1 20- - 0 2 基金项 目: 河南工业大学科 研基金资助项 目( 6 J 0 3 0XC 1) 作 者简介 : 春燕 ( 99 ) 女 , 张 17 - , 江苏铜 山人 , 河南工业大学信息科学与工程学院助教 , 硕士 , 研究方 向: 数据挖掘 。
中 图 分 类 号 :P 9 T31 文献标识码 : A
Re e r h o g r t m o t i t l e Re u to s d o ug t s a c n Al o ih f r Atrbu e Va u d c i n Ba e n Ro h Se
重要的, 有些 条件 属 性是 多余 的 , 除这 些 属性 并 不 删
影响原来的系统。属性约简就是在不影响原来系统 的情况下 , 删除不相关或不重要的条件属性 , 原有 使 系统得 到简 化 。经 过 属性 约 简 后 的决 策 表 中 的每 一 条记录可以作为一条规则 , 但其中仍包含有大量 的冗 余信息。即在约简后的信息系统 , 并不是每一条记 录 的每一个属性值都对信息系统最后决策规则 的提取 产 生作用 , 因此必 须 对 属 性约 简后 的结 果 继 续 简 化 。
一
及其关键属性值对决策的影 响。因此我们可以认为 。 属性 的约 简 只是 在 一 定 程 度 上去 掉 了决 策 表 中 的冗
般情况下 , 信息系统 中的条件属性并不是同等
余属性 , 并没有去掉决策表 中的冗余信息 , 即并不 能 直接从中获得满意的决策规则 。对决策表而言, 属性 值的约简就是决策规则的约简。决策规则的约 简是 利用决策逻辑分别通过消去决策算法中每个决 策规 则 的不必 要 条件 , 掉 该 规则 中 的冗 余 属 性 值 , 去 以便
基于粗糙集的属性约简算法
I
f / I . - XiI I I Xi
对 于信 息量 的概念 , 已有 以下 的一 些结果 [6. 51 , 定 理 1 设 =< , , > 是 一个 信息 系统 , A, U I D A A, f P 若 /N ( )
, A) ( .
维普资讯
第 1 3卷
第3 期
兰州工业高等专科 学校学报
Junlo I nh uP ltc ncC l g o ra f . zo oyeh i ol e a e
V 11 N 3 0 . 3. o. S p ,0 6 e .20
2 0 年 9月 06
, Q l )= ( P
i =1
而X l Ii
j =l
[- 1
] 口 .目
,QI ) ( P :∑ P X ∑ P I 1 P I ) ( ) ( ) 一 ( 置), X(
其 中 ,I 表 示集 合 X的基 数 ; X )=I /I 表示 等价 类 X 在 U中 的概 率 P( I ): I X P( I I X U i
关 键 词 :属 性 约 简 ; 息量 ; 信 条件 信 息量 ; og t理论 Ru S s he 文献标 识码 : A 中图分类 号 :T 8 P 1
粗糙 集 ( og t 理 论是 由波 兰科 学家 Pwa Ru Ss he ) a l Z教授 于 18 年 提 出的一种研 究不 精确 、 确定 性知 k 92 不 识 的数学 工具 , 已广泛 应用 于机 器学 习 、 知识发 现 、 据挖 掘 、 策支持 与分 析 、 家系统 、 数 决 专 归纳 推理 和模 式 识 别等许 多科学 和工 程领域 [ . og 集 的最 大特 点是 无 需 提 供 除 问题 所需 处 理 的数据 之 外 的任何 先 卜 Ru h 验 信息 , 合于 发现数 据 中隐含 的潜在 有用 的规 律 , 适 即知识 , 出其 内部 数据 的关联 关 系和特征 . 找 属性 约简
基于最优近似粗糙集的属性约简
计算机应用研究 ApplicationResearchofComputers
Vol36No7 Jul.2019
基于最优近似粗糙集的属性约简
罗来鹏,刘二根,范自柱
(华东交通大学 理学院,南昌 330013)
摘 要:为了更好地获取由边界域产生的不确定性规则知识,提出最优近似粗糙集的属性约简方法。给出了近 似空间上粗糙集最优近似集 的 判 定 与 计 算,然 后 引 入 最 优 近 似 分 布 协 调 集、最 优 近 似 分 布 约 简 概 念。 讨 论 了 Pawlak属性约简、分布约简、最优近似分布约简之间的关系,最后得到在协调决策表中它们是等价的,在不协调 决策表中最优近似分布约简是分布约简子集。从 UCI数据集选取五个数据集进行实验,结果表明基于最优近似 分布约简能够获得近似集;分布约简;最优近似分布约简 中图分类号:TP391 文献标志码:A 文章编号:10013695(2019)07004194003 doi:10.19734/j.issn.10013695.2017.12.0856
属性约简是 粗 糙 集 理 论 [1]的 应 用 核 心,基 于 它 的 知 识 获 取往往存在不确定性,一方面是因为近似空间上知识的粒太大 而造成概念的不确定性;另一方面是由于近似空间上粗糙集边 界造成的系统 不 确 定 性 [2]。 对 于 一 个 给 定 的 近 似 空 间,概 念 的不确定性往往无法改变。所以,如何更好地挖掘系统不确定 性所蕴涵的知识一直是众多研究者关注的焦点。当前比较典 型的研究模型有变精度粗糙集模型和概率粗糙集模型。变精 度粗糙集模型主要是通过引进粗糙性测度或近似精度来实现。 Mi等人 [3~5]讨论了 变 精 度 粗 糙 集 模 型,并 利 用 它 进 行 属 性 约 简,取得了较好的效果[6],由此发展了粗糙集的三支决策[7~9]。 Ziarko等人[6,10]结合概率论和包含度提出了概率粗糙模型,也 取得了较好的理论成果。这两个模型都是在基本粗糙集模型 的基础上,通过引入一个在区间(0.5,1]上的阈值作为分类正 确率而建立的。阈值的具体取值对模型的属性约简结果具有 直接影响,在实际应用中很难确定一个最优的阈值。此外这两 个模型目标概念的表示仍然使用上、下近似的表示方法,那么 在目标概念的上、下 近 似 集 之 间 哪 个 集 合 更 为 近 似 目 标 概 念 呢?近几年张清华等人[11]对这个问题展开了研究,提出了目 标概念新的刻画,即粗糙集的最优近似。文献[12,13]以集合 的相似度大小为准则,通过模糊截集的方法,在目标概念的上、 下近似集之间构造一个隶属度大于或等于 λ集合 Rλ(X),讨 论 Rλ(X)和目标概念两个边界集作为目标概念最优近似集的 条件,并就最优近似集的问题作了进一步的研究,得到了一些
基于粗糙集理论的属性约简算法
基于粗糙集理论的属性约简算法作者:周彤来源:《电子技术与软件工程》2017年第07期摘要在数据处理和智能信息中,基于粗糙集理论的属性约简是非常具有研究价值的。
本文介绍了几种主要的属性约简算法,对他们的优缺点进行了概括和分析,并提出了进一步的研究内容。
【关键词】粗糙集;属性约简;正区域;信息熵;差别矩阵粗糙集理论作为一种新的数学工具,是用于处理模糊、不确定,不完备信息的。
它的主要思想是不需要提供知识库以外的任何信息,通过知识约简,所得到的新知识库分类能力不变。
目前在机器学习、数据挖掘、智能控制,模式识别等多个领域,甚至几乎所有的信息科学的分支中,粗糙集理论都取得了较好的研究成果。
在粗糙集理论中,属性约简是非常的重要的内容。
通常情况下,信息系统的属性集一般是很大的,但是对知识发现来说,并不是所有的属性都一样重要,有的属性绝对必要,有的属性相对必要,有的属性绝对不必要,如何在众多的属性中把不重要甚至冗余的属性去掉而不影响知识的分类,是属性约简的目的。
经过属性约简,知识得到简化,而人们所需要的基本信息也没有丢失。
人们一直都在寻求的目标是求得信息系统的一个最小属性约简,或者求得信息系统的所有属性约简。
但遗憾的是属性约简的搜索优化过程是多约束多目标的,所以作为很早就已经被学者证明了的NP-Hard问题,属性约简的研究是非常具有挑战性的,是很值得我们去研究的。
1 几种主要的属性约简算法的研究经过国内外学者几十年的不断努力,研究出很多属性约简算法,它们大部分是启发式算法。
1.1 基于正区域的属性约简算法基于正区域的属性约简算法是Pawlak提出来的一种启发式算法,也称为Pawlak属性重要度属性约简算法。
这种方法的基本思路是首先定义一个属性重要度的函数,计算出各个属性的重要度,按属性重要度的值从大到小选取属性依次并入约简集合中。
这种求解方法具有重大的理论指导意义。
该算法要求考察条件属性集的幂集中的所有元素,优点是它找到的一定是最优属性约简或者次优属性约简,缺点是可能寻解失败即不一定能找到,而且此方法计算速度慢,因为它的时间复杂度是指数级,不容易在计算机上实现,所以在实际应用中受到限制。
《基于粗糙集的连续值属性约简算法研究》范文
《基于粗糙集的连续值属性约简算法研究》篇一一、引言随着大数据时代的来临,数据约简技术在众多领域的应用愈发重要。
粗糙集理论作为一种处理不确定性和模糊性的数学工具,能够有效地进行属性约简,以揭示数据集中的隐含信息。
在传统粗糙集理论中,对连续值属性的处理通常需要进行离散化处理,然而这种处理方法可能会丢失部分有价值的信息。
因此,本文将探讨基于粗糙集的连续值属性约简算法的研究,以期在保持数据信息完整性的同时,实现属性约简。
二、粗糙集理论概述粗糙集理论是一种处理不确定性和模糊性的数学工具,它通过集合的上、下近似来描述不确定性的知识。
在特征选择和属性约简方面,粗糙集理论能够有效地处理不完整、不精确的数据。
然而,对于连续值属性的处理,传统的粗糙集理论需要进行离散化处理,这可能导致信息丢失。
因此,研究基于粗糙集的连续值属性约简算法具有重要意义。
三、连续值属性约简算法针对传统粗糙集理论在处理连续值属性时可能导致的信息丢失问题,本文提出一种基于粗糙集的连续值属性约简算法。
该算法首先利用核属性集初步约简数据,然后通过构建连续属性与决策类别的关系矩阵,计算各属性的重要性程度。
在保证数据分类性能的前提下,采用基于信息熵的属性约简策略进一步约简属性。
最后,通过交叉验证等方法评估约简效果。
四、算法实现与实验分析1. 算法实现:本文所提算法采用Python编程语言实现。
首先,通过计算各属性的核属性集,初步约简数据。
然后,构建连续属性与决策类别的关系矩阵,计算各属性的重要性程度。
在此基础上,采用基于信息熵的属性约简策略进一步约简属性。
最后,通过交叉验证等方法评估约简效果。
2. 实验分析:为了验证本文所提算法的有效性,我们采用UCI等公开数据集进行实验。
实验结果表明,本文所提算法在保证数据分类性能的同时,能够有效地约简属性,降低数据维度。
与传统的离散化处理方法相比,本文所提算法在约简效果和计算效率方面均有所提升。
五、结论本文研究了基于粗糙集的连续值属性约简算法。
基于记录过滤的粗糙集属性约简算法研究
基于记录过滤的粗糙集属性约简算法研究
粗糙集属性约简算法是一种用于进行数据挖掘过程中属性约简的有效方法。
针对记录过滤的粗糙集属性约简算法研究,具体内容如下:
一、算法的概述
记录过滤的粗糙集属性约简算法是一种自动筛选非关键属性的有效方法。
它利用概念解释来有效过滤不必要的属性,从而提高数据挖掘的效率。
二、算法框架
1.从数据集中抽取记录;
2.计算各属性的概率;
3.根据信息量来确定属性的保留与删除;
4.重复步骤2-3,反复迭代直至停止条件满足;
5.得到最终的整理后的属性结果。
三、算法的优缺点
优点:
缺点:(1)实现较为复杂,需要计算大量的概率;(2)当数据集较大时,过滤的小信息可能被漏掉,影响结果的准确性;(3)算法的可解释性不够。
四、实际应用
记录过滤的粗糙集属性约简算法已得到广泛的应用,例如商业数据挖掘、信息检索、情感分类等,都能有效地提高系统的性能。
五、未来趋势
记录过滤的粗糙集属性约简算法未来有被更广泛应用的可能性,并能用于更新的技术领域,例如自动驾驶、图像识别等。
因此,研究此算法的挑战性和有趣性也在不断升级。
基于记录过滤的粗糙集属性约简算法研究
基于记录过滤的粗糙集属性约简算法研究本文的主要目的是研究基于记录过滤的粗糙集属性约简算法.首先,本文提出了一种简单有效的属性约简算法,该算法使用记录过滤来对数据集中的每个属性进行约简,以显着减少数据集每个记录的规模.其次,本文详细探讨了记录过滤粗糙集属性约简算法的两个基本特征,即不精确依赖和相似度依赖.最后,本文提出了一个新的粗糙集属性约简框架,使用多种类型的不等式把记录过滤法和相似度依赖法结合起来.粗糙集是智能计算中一种重要的算法。
它由前苏联分形学家弗拉基米尔精沃夫斯基(Vladimir Zivanov)于1975年提出,它允许数据描述和处理模糊和不确定的内容。
粗糙集的应用得到了广泛的研究和实践,它在隐私保护、软件工程、社会网络分析和图像处理等领域得到了广泛的应用。
在数据分析领域,数据量大小一直是数据挖掘系统的限制因素之一。
这就要求需要提出高效的数据约简技术和方法,以便减少数据容量,不明显地损害数据分析结果的准确性。
因此,许多学者在属性约简算法的研究方面做出了新的努力,为实现快速的数据约简提供了有效的技术手段。
面对这一问题,基于记录过滤的粗糙集属性约简算法是一种满足要求的算法。
该算法从数据集中的每一个记录的一系列属性中提取有用的信息,通过将与其有关的属性结合起来,而不需要考虑其它无关属性,有效地减少了每条记录所需要的存储空间,从而实现了数据约简的目的.此外,粗糙集属性约简算法还兼顾了数据精度和准确性,因为它将不同类型的记录放在一起,按照不同的阈值选择与原始数据记录相似或者相关的子集作为新的数据表,为数据精度和准确性提供有效的保证。
本文提出的一种新的粗糙集属性约简框架,结合了记录过滤算法和相似度依赖算法,满足了大部分应用场景的要求,可以有效地减少属性过多的数据集的规模,提高每条记录的实用性。
该模型有助于属性约简算法在属性挖掘和机器学习等方面的进一步发展,为学术界和工业领域提供更多的应用场景和可能性。
基于模糊粗糙集混合属性约简的相关研究
基于模糊粗糙集混合属性约简的相关研究摘要:随着数据量的不断增大和复杂性的提高,属性约简在数据挖掘和机器学习领域中变得越来越重要。
然而,传统的属性约简方法在处理混合属性时存在一定的局限性。
为了克服这些限制,本文提出了一种基于模糊粗糙集的混合属性约简方法,并对其进行了研究和分析。
关键词:属性约简;混合属性;模糊粗糙集;数据挖掘1. 引言属性约简是数据挖掘和机器学习中的一个重要问题,它通过删除冗余和无关的属性,提高数据处理的效率和准确性。
然而,传统的属性约简方法往往只适用于处理离散或连续属性,对于混合属性的处理存在一定的困难。
2. 模糊粗糙集理论模糊粗糙集理论是一种处理不确定性和模糊性的数学工具,它可以有效地处理混合属性。
该理论将属性划分为模糊等价类,通过模糊相似度度量属性之间的相似性。
在混合属性约简问题中,模糊粗糙集理论可以更好地反映属性之间的关系。
3. 混合属性约简算法基于模糊粗糙集的混合属性约简方法主要包括以下步骤:首先,将混合属性转化为模糊等价类;然后,计算属性之间的模糊相似度;接着,根据相似度选择重要的属性;最后,通过删除冗余和无关的属性实现属性约简。
4. 实验结果与分析本文使用UCI机器学习库中的数据集进行了实验,比较了基于模糊粗糙集的混合属性约简方法与传统方法的性能。
实验结果表明,该方法在处理混合属性时具有较好的效果,能够提高数据挖掘和机器学习的准确性和效率。
5. 结论本文提出了一种基于模糊粗糙集的混合属性约简方法,并对其进行了研究和分析。
实验结果表明,该方法在处理混合属性时具有较好的效果。
在未来的研究中,我们将进一步优化该方法,提高其在实际应用中的适用性。
基于粗糙集理论的属性约简算法研究
基于粗糙集理论的属性约简算法研究
聂林娣
【期刊名称】《《电脑知识与技术》》
【年(卷),期】2009(005)009
【摘要】数据挖掘是近年来数据库领域中出现的一个新兴研究热点,它是从大量数据中获取知识。
进行数据挖掘的方法很多,粗糙集方法便是其中的主要方法之一。
属性约简算法是基于粗糙集理论的数据挖掘模型中的关键步骤,同时也是粗糙集理论研究中的一个研究重点。
通过对粗糙集理论的属性约简算法的深入研究,本文提出了一种改进的属性约简启发式算法。
该算法建立在可辨识矩阵计算基础上。
改进算法基于Hu的算法与Jelonek算法,在计算可辨识矩阵的基础上,保证最终能够找到决策信息系统的一个约简,同时较Jelonek算法相比,运算时间明显减少。
【总页数】2页(P2428-2429)
【作者】聂林娣
【作者单位】南京航空航天大学信息科学与技术学院江苏南京 210016; 南京工业大学信息科学与工程学院江苏南京 210009
【正文语种】中文
【中图分类】TP301
【相关文献】
1.基于粗糙集理论的属性约简算法研究 [J], 史运平
2.基于粗糙集的数据挖掘改进属性约简算法研究 [J], 卢秀芸
3.基于粗糙集理论的遗传属性约简算法研究 [J], 孙玲芳;许锋;周家波;侯志鲁
4.基于属性相容度和重要度的粗糙集属性约简混合算法研究 [J], 付光远;吴汉钊;杨小冈
5.基于差别矩阵的启发式粗糙集属性约简算法研究 [J], 田志军;李芳芳
因版权原因,仅展示原文概要,查看原文内容请购买。
基于粗糙集的属性约简算法研究的开题报告
基于粗糙集的属性约简算法研究的开题报告
【选题背景】
随着数据的不断增多和不断累积,如何从中挖掘出有价值的信息成为了数据挖掘的一个重要问题。
属性约简在数据挖掘中起着至关重要的作用,对于数据的压缩和简化,进一步挖掘数据的隐藏知识有很大的帮助。
粗糙集理论作为一种处理不确定性信息的数学工具,可以有效地处理属性约简中的不确定性问题。
【研究对象】
基于粗糙集的属性约简算法。
【研究内容】
1. 粗糙集理论及其应用
2. 属性约简的概念和意义
3. 基于信息熵的属性约简算法
4. 基于遗传算法的属性约简算法
5. 基于模拟退火算法的属性约简算法
6. 基于粒子群优化算法的属性约简算法
7. 基于人工神经网络的属性约简算法
8. 基于深度学习的属性约简算法
【研究方法】
使用实验方法,对比在不同应用场景下,使用不同属性约简算法的效果,从而得出最优算法。
【研究意义】
在数据挖掘领域,属性约简是一个非常重要的问题,其可以用来降
低数据的维度、提高分类效率等。
本文将研究基于粗糙集的属性约简算法,通过比较不同算法的优缺点,找出最优算法,并在实际应用中进行
验证和修改。
这将有望为数据挖掘领域提供更加准确、快捷的解决方案,对相关领域的研究和应用都具有重要的意义。
基于粗糙集理论的属性约简算法研究和设计的开题报告
基于粗糙集理论的属性约简算法研究和设计的开题报告题目:基于粗糙集理论的属性约简算法研究和设计选题背景:在信息化时代,数据挖掘和知识发现成为大数据时代的重要应用之一。
属性约简是数据挖掘领域中的一个重要问题,旨在找到最小且具有代表性的属性子集,使得数据集在该属性子集上的分类能力不降低。
属性约简可以减少冗余属性对分类过程的影响,提高分类性能和解释性能。
粗糙集理论是属性约简的重要理论基础之一,通过对决策属性和条件属性之间的关系进行描述和刻画,提出了统一表示和处理不确定性和模糊性的模型,成功地解决了许多实际问题。
而属性约简问题就是粗糙集理论的一个经典应用问题。
研究目的:本研究旨在探索粗糙集理论的各种属性约简算法,深入掌握各种约简算法的优缺点、应用范围,设计一种更为高效、精确的属性约简算法,以提高数据挖掘和知识发现的性能和实用性。
研究内容:1. 粗糙集理论及属性约简概述:介绍粗糙集理论的基本概念和理论体系,重点对属性约简问题进行讲解,分析约简问题的研究意义和应用背景。
2. 粗糙集约简算法综述:综述目前已经发展的各种基于粗糙集的属性约简算法,包括基于正域、基于区域、基于分组的约简算法等,分析各算法的优缺点、适用范围。
3. 基于粗糙集的属性约简算法设计:针对现有算法的不足,设计一种新的基于粗糙集的属性约简算法,以提高算法的效率和准确性。
4. 算法实现和性能分析:使用Python编程语言实现所设计的算法,并对算法进行测试和性能分析,以验证算法的有效性和实用性。
研究意义:本研究将深入剖析粗糙集理论和属性约简问题,对目前已有的约简算法进行分析和综述。
设计一种新的约简算法,通过实验验证算法的可行性和实用性。
该研究可为数据挖掘和知识发现领域的实际应用提供一定的理论和实践指导。
同时,还将推动粗糙集理论在相关领域的传播和应用。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
141科技资讯科技资讯SCIENCE&TECHNOLOGY INFORMATION 2007NO.34学术论坛1引言粗糙集(Rough set [1]理论是一种处理模糊和不确定信息的新型数据分析工具,目前已成为信息科学最活跃的研究领域之一。
基于粗糙集的属性值约简是利用决策逻辑消去决策算法中每条决策规则的不必要条件。
它是针对每条决策规则, 去掉表达该规则的冗余值,以便进一步使决策算法最小化。
属性值约简与属性约简的原理都是删除冗余信息过程,采用的手段都是通过求得核(核值、约简(约简值得到的。
将粗糙集理论应用到数据挖掘技术上,利用粗糙集的知识约简, 精简数据挖掘出的各类规则,对复杂系统的策略研究具有广泛的意义。
本文应用粗糙集理论,分析基于粗糙集的常用属性值约简算法和相应的算法的复杂度, 并结合一种新约简算法实例分析研究,说明这一算法的有效性。
2传统的属性值约简算法定义 1信息系统 S=(U,A,V,F 是一个决策表, 其中 U 为非空有限集合, 称为全域。
全域 U 的元素被称为对象或者实例; A =C ∪ D,C 为条件属性集,即对象的特征;D={d}为决策属性集,称为对象的分类, C ∩ D =; V 是属性值的集合。
设 a 是任一属性,x i 是任一个对象,则 f(x i ,a表示x i 在 a属性的取值。
信息系统可简化表示为 S=(U,A。
属性值约简的思想是:决策表中每一行代表一条决策规则,即计算每一条决策规则的条件属性的核值。
可以采用先将该行中一个条件属性的值从表中删去,然后检查剩下的该行中条件属性值是否可以唯一确定此行中的决策属性,若果不是,那么删去的条件属性值就是该行决策规则的核值。
在求出所有的决策规则的核值后的基础上,通过添加一些条件属性值到核值中,并保证每个条件属性是不可省的。
常用的属性值约简算法有数据分析法和区分矩阵法。
2.1数据分析法其基本思想:在信息系统的决策表中,逐一将属性集 A 中的属性删除,每删除一个属性就检查决策表。
如果没有出现新的不一致,则删除该属性,否则该属性不能被删除。
若决策表可以表示成R 1→ d 1,R 2→ d 2,当d 1≠ d 2时有R 1≠ R 2,那么决策表就是一致的,如果存在d 1≠ d 2而 R 1=R 2,那么决策表就是不一致的。
每次删除测试是否还保持原决策表的一致性可以转化为检查正区域是否被改变。
计算正区域的时间复杂度为O(|A||U|Log |U|,共有|A|次计算正区域,所以算法复杂度就是O(|A|2|U|Log|U|。
|A|为属性数,|U|为对象数。
基于粗糙集的属性值约简算法研究①赵慧娟骆解民(上海水产大学信息学院上海200090摘要:规则提取是数据挖掘的核心步骤, 在分析常用属性值约简算法思想的基础上, 给出基于不可分辨矩阵的属性值约简算法描述。
实验结果表明, 这种方法是可行的。
关键词:数据挖掘粗糙集属性值约简中图分类号:G 64文献标识码:A 文章编号:1672-3791(200712(a-0141-02的结构和机能达到一定的发达程度,同时要善于充分发挥大脑的机能。
根据大脑半球不对称原理, 左脑是理性、知识的脑,通过分析思维和集中思维来进行智力开发,而右脑则是感知、创造的脑,通过想象力、直觉思维、扩散思维来进行创造力开发。
通过对发明发现过程的研究分析, 创造学家们普遍认为, 由右脑所获得的形象、直觉、对整体的感知等是人们进行创造性活动的源泉, 也是创造性地解决问题的关键。
科学史上大量事例可以佐证这一成果。
但是, 进行创造性活动不仅需要充分开发利用右脑的功能,也需要积极调动左脑的功能,只有两者有效地相互配合激发,才能有效地实现创造性活动, 得到创造性活动的产品。
2.2创造性思维的实现从以上对创造性活动微观机制的讨论中, 可以看到要实现创造性思维,关键在于如何把人的创造能量由基态转到激发态,以及如何诱导人的创造性活动由低级向高级发展。
2.2.1创造性思维的激发创造性思维的激发可分为外部激发和内部激发两种,外部激发又可分为直接和间接之分。
譬如讨论交流激发了创造性思维就是一种外部直接的激发。
而解除了阻碍激发创造性思维的不良的外在条件,也是一种外部间接的激发。
如果由于依靠自身的能动性激发了创造性思维则认为是一种内部的激发。
卓越的科学家爱因斯坦在谈及自己的创造活动时总是说,我不过是抱着孩子般的好奇心去接触问题而已。
这就说明好奇心将会激发创造性思维,因为强烈的好奇心将在体内产生强大的“内驱力” , 这“内驱力”激发了创造因子,破坏了原来的创造体的稳定结构, 使得创造因子高速运动和大量碰撞,并同时又可能打碎创造核而释放其固有能量,大大提高了非稳态的创造体的重组效率,形成了高值的创造能, 导致了创造性思维的实现。
许多事例向我们表明,处于逆境之中,或处于不令人满意的状态中,或在面临着困难和难题的时候, 往往会激发一个人的创造性思维。
因为处于这种状态的个人由于感受到一种心理上的压迫,而为了消除或摆脱,反抗或解决就产生一种“作用力” ,这种“作用力” 达到了一定的“阀值” ,就犹如前述的“内驱力” 一样,会激发创造因子,产生创造性思维。
并且,这个时候,坚强的意志对创造性思维的产生也起着异常重要的作用。
古希腊哲学和逻辑学家苏格拉底曾指出, 可以通过提出问题来激发创造性思维。
因为每个人都或强或弱具有一种要求解决问题而“自我实现”的欲望, 这一欲望, 就会因为提出了问题而又为了解决问题而产生一种“原动力” , 这一原动力正如“内驱力”那样会激励创造能, 导致创造性思维的实现。
2.2.2影响创造性思维的诸因素一个人的个性品质、心理素质、能力高低和环境气氛等都对创造性思维的产生或多或少有着重要的影响。
托兰斯总结了许多研究成果,曾列出 84项可导致产生创造性思维的人格特征,其中最主要的前九项是:①容忍无秩序;②甘愿冒险;③勇于承担过于困难的工作;④渴望优越;⑤不满、发现缺陷;⑥有情绪感受性; ⑦不怕被人看作为“怪人” ;⑧好奇心强; ⑨喜欢孤独。
同时一个人的自信心、自尊心的大小, 思想观念的灵活性、意志的强弱、是否勇敢、大胆和不迷信权威, 是否善于怀疑、具有批判精神都对创造性思维的产生有着很重要的影响。
此外一个人的想象能力、坚持能力、自制能力、表达能力、质疑能力、洞察能力、交际能力、以及超越束缚的能力、摆脱习惯的能力、普遍联系的能力、发现问题的能力等等对创造性思维的产生有着决定性的作用。
3结语创造性思维是一种非常重要的思维方式, 是对人们原有的思维方式和内容的超越。
要学会和掌握创造性思维方式,人们必须自觉地培养和训练,才能逐步具备良好的思维功底和思维品质、积累丰富的知识经验和智慧,才能“厚积薄发” 、获得灵感、实现思维的飞跃、产生新观点和新办法, 从而创造出新成果。
参考文献 [1]王玉琳,王诤诤.创造性思维的系统分析[J]. 系统辩证学报,2002,10(3:13-16. [2]柴建芳.创造性思维系统特征初探[J].山西高等学校社会科学学报,2007,19(1:13-18.[3]程名,周昌乐.创造性思维计算模型研究综述[J].心理科学,2007,30(1:136-138. ①上海水产大学青年科研基金(6690606093142科技资讯科技资讯SCIENCE&TECHNOLOGY INFORMATION2007NO.34SCIENCE&TECHNOLOGY INFORMATION学术论坛表1汽车驾驶安全表表 2约简{C 2,C 3规则}表示2.2区分矩阵法定义2区分矩阵是一个对称|U|×|U|矩阵,矩阵的每一项 Cij 定义为:使用区分矩阵的属性值约简算法有 Z1ark0和 Shan 的属性值约简算法[1]。
基本思想:首先构造区分矩阵,该矩阵用来分辨不同分类值下条件属性取值间的差异。
针对每一个决策属性值 V d , 将决策表中的记录分为两部分,一个是属于 V d 的,另外一部分是不属于 V d 的, 通过比较这两部分记录集间条件属性取值的不同,构造出区分矩阵。
在该矩阵的基础上求出区分函数,然后应用吸收律化简区分函数,得到析取范式,则每个主蕴含式均为规则约简。
计算区分矩阵的代价是O(|A||U|2,合并和排序区分矩阵的时间复杂度为O(2|U|2|Log |U|;遍历区分矩阵并生成约简的时间复杂度是O(|A||U|2。
整个算法的时间复杂度的上限是O(2(|A|+Log|U||U|2。
通过以上分析,可以发现,如果条件属性的个数较大, 测试属性组合的代价是比较大的, 需要一种相对高效的属性值约简算法。
3基于不可分辨矩阵的属性值约简算法3.1算法的基本思想对每个条件属性进行等价类划分,如果一个等价内的多个实例都在一个分类属性的等价类里,那么就可以由该条件属性值确定地推导出此分类属性。
3.2不可分辨矩阵定义 3决策系统 S的不可分辨矩阵定义如其中 ind(a i 表示条件属性 a 等价类的个数,a i,j 表示条件属性 a i 的第 j 个等价类。
规则的属性值约简,要同时考虑条件属性值的等价类和条件属性值的等价类是否在一个分类属性值所在的等价类中,所以需要将条件属性不可分辨矩阵 Ea i,j 按照分类属性值的不同区别开来。
3.2算法Input:信息系统S(U,A ∪{d},其中A =∪ ai,i=1,…,nOutput;化简后的规则集 R Procedure:1.R 置为空集2.计算S中所有属性的等价类和不可分辨矩阵E3.对E中每个 e 的元素根据等价类进行分类4.WHILE(E不为空集5.对于E中的每个 e6. B E G I N7.if(e值为18. E =E -e9. R =R +e10.if(U为空集break 11.else12. U =U -{e 的规则号}13.END IF 14. E N D15.对R进行同分类属性值的合并 16.IF(E不为空集17.E=∩非同一条件属性项 18. E N D W H I L E 19. R E T U R N R计算等价类的代价与计算区分矩阵的代价都在O(|A||U|2|内,计算不可区分矩阵的代价为O(|A||U|2|内。
最坏情况下,每个属性的不可区分矩阵有|U|项,分类属性等价类也是|U|项,那么对等价类按照分类属性值进行整理最坏程度就是 O(|A||U|2|。
最坏情况下每一条规则的条件属性值都不能省,while 就要循环属性个数|A|次,内部E 的大小最多为|U|,所以代价为O(|A||U|。
总的属性值约简的代价为O(|A||U|2+O(|A||U|2+O(|A||U|,即O(|A||U|2。
明显小于区分矩阵的属性值约简算法的 O (2(|A|+LogU|U|2。