粗糙集理论学习心得与基于ROSETTA的决策表属性约简实验--陈涛
利用粗糙集理论进行属性权重计算的方法和实践

利用粗糙集理论进行属性权重计算的方法和实践引言:在数据挖掘和机器学习领域,属性权重计算是一个重要的问题。
属性权重的准确计算可以帮助我们更好地理解和分析数据集,从而提高模型的性能和预测能力。
粗糙集理论作为一种有效的数据处理方法,可以帮助我们解决属性权重计算的问题。
本文将介绍一种利用粗糙集理论进行属性权重计算的方法和实践。
一、粗糙集理论简介粗糙集理论是由波兰学者Pawlak于1982年提出的一种基于近似和不确定性的数据处理方法。
该理论通过将数据集划分为等价类来描述数据之间的关系,并通过近似集合来处理不确定性。
在粗糙集理论中,属性权重计算是一个重要的研究方向,它可以帮助我们确定数据集中各个属性对决策结果的重要程度。
二、属性权重计算方法1. 基于信息增益的属性权重计算方法信息增益是一种常用的属性权重计算方法,它通过计算属性对决策结果的贡献度来确定属性权重。
具体而言,信息增益计算方法通过计算每个属性的信息熵和条件熵来衡量属性对决策结果的影响程度,然后将两者的差值作为属性的权重值。
信息增益方法简单易懂,但是它忽略了属性之间的相关性,可能导致权重计算结果不准确。
2. 基于模糊熵的属性权重计算方法模糊熵是一种能够处理属性之间相关性的属性权重计算方法。
它通过计算属性的模糊熵来确定属性的权重值。
具体而言,模糊熵方法通过计算属性的模糊熵和条件模糊熵来衡量属性对决策结果的影响程度,然后将两者的差值作为属性的权重值。
模糊熵方法考虑了属性之间的相关性,可以更准确地计算属性的权重值。
三、属性权重计算实践为了验证属性权重计算方法的有效性,我们选择了一个实际的数据集进行实验。
该数据集包含了一些学生的个人信息和他们的成绩。
我们的目标是通过这些属性来预测学生的最终成绩。
首先,我们使用信息增益方法来计算属性的权重值。
通过计算每个属性的信息熵和条件熵,我们得到了各个属性的权重值。
然后,我们将这些权重值应用于模型训练中,通过交叉验证的方法评估模型的性能。
粗糙集_学习笔记

设 P 和 Q 是全域 U 上的等价关系的族集,R P。
若 不可省的﹔
,则称关系 R 在族集 P 中是 Q-可省的;否则称为 Q-
如果在族集 P 中的每个关系 R 都是 Q-不可省的﹐则称 P 关于 Q 是独立的﹐否则就称为是依
赖的。
3、定义 5
S P 称为 P 的 Q-约简(Q-reduct):当且仅当 S 是 P 的 Q-独立的子族集,且
10、新型的隶属关系
其中 R 是不分明关系 可以看到,这里的隶属关系是根据已有的分类知识客观计算出来的,可以被解释为一种条件概率, 能够从全域上的个体加以计算,而不是主观给定的。 11、近似度 Accuracy of Approximation
其中,|X| denotes the cardinality(基数) of X 12、近似性质 Properties of Approximations
K=(U,R) 其中 U 不为空集,是一个被称为全域或论域(universe)的所有要讨论的个体的集合,R 是 U 上等价 关系的一个族集。 7、不可区分关系:
8、概念(concept):给定近似空间 K=(U, R),子集 X 称为 U 上的一个概念(concept),形式上, 空集也视为一个概念; 基本知识(basic knowledge):非空子族集 P R 所产生的不分明关系 IND(P)的所有等价类关系 的集合即 U/IND(P) 相应的等价类称为基本概念 初等知识(elementary knowledge):特别地,若关系 Q R,则关系 Q 就称为初等知识
(二)相对约简 1、定义 3
设 P 和 Q 是全域 U 上的等价关系的族集,所谓族集 Q 的 P-正区域(P-positive region of Q),记作
学术研究中的粗糙集理论

学术研究中的粗糙集理论摘要:粗糙集理论是一种处理不确定性和模糊性的数学工具,广泛应用于数据分析、机器学习、决策支持系统等领域。
本文将对粗糙集理论的基本概念、性质、算法和应用进行深入探讨,以期为相关领域的研究提供有益的参考。
一、引言随着数据量的不断增加和数据类型的多样化,如何有效地处理不确定性和模糊性成为了一个重要的问题。
粗糙集理论作为一种处理这些问题的数学工具,已经在多个领域得到了广泛应用。
本文将对粗糙集理论的基本概念、性质、算法和应用进行详细介绍,以期为相关领域的研究提供有益的参考。
二、粗糙集理论的基本概念粗糙集理论的核心概念是“粗糙集”,它描述了一个数据集合中的数据点之间的相对关系。
在粗糙集理论中,一个数据集合被划分为几个等价类,每个等价类中的数据点具有相似的属性。
通过计算数据点的隶属度和不隶属度,可以确定数据集合中的数据点之间的相对关系,从而实现对数据的分类和预测。
三、粗糙集理论的性质1.分类性质:粗糙集理论通过等价类对数据进行分类,从而实现对数据的分类和预测。
这种分类方法具有客观性和可解释性,能够为决策者提供有价值的参考。
2.近似性质:粗糙集理论通过计算数据点的隶属度和不隶属度,实现对数据的近似表示。
这种近似表示能够有效地处理不确定性和模糊性,从而提高数据分析的准确性和可靠性。
3.独立性性质:粗糙集理论不依赖于数据集合中的具体数据值,只依赖于数据点的属性关系。
这种性质使得粗糙集理论具有广泛的应用范围和适用性。
四、粗糙集理论的算法1.粗糙集核算法:粗糙集核算法是一种计算数据点之间的相似度的方法,用于确定数据集合中的等价类。
该算法通过对数据点进行特征提取和相似度计算,得到每个数据点的隶属度和不隶属度,从而实现对数据的分类和预测。
2.属性约简算法:属性约简算法是一种用于去除数据集合中冗余属性的方法,以提高数据分析的准确性和效率。
该算法通过对数据点的特征提取和属性依赖度计算,确定哪些属性对分类和预测不产生影响,从而实现对数据的简化。
基于RS-SVM的输变电工程建设效益评价研究

基于RS-SVM的输变电工程建设效益评价研究摘要:电力行业的迅猛发展对其建设效益的评价提出了更高的要求。
文章将社会效益、环境效益和可持续能力纳入输变电工程建设效益评价体系中,旨在建立更为完善的输变电工程建设效益评价系统。
文章运用粗糙集理论和支持向量机模型简约效益评价指标,对样本进行训练和学习,并对测试样本的效益进行评价分类。
通过实例验证表明,基于RS-SVM的输变电工程建设效益评价模型大大缩短数据预处理以及模型运行时间,为输变电工程建设的投资决策提供了科学依据,从而提高输变电工程投资的管理水平。
关键词:粗糙集;支持向量机;输变电工程;效益评价0 前言伴随着“一带一路”战略的推进实施,电网作为国家基础设施与支柱产业,其建设效益的高低直接关系到国家经济发展的质量[1]。
因此,科学合理地对输变电工程进行建设效益评价成为重中之重。
目前的研究中,曾鸣引入三角模糊数和矩阵调整因子,有效模拟了专家评判的模糊性[2]。
王汉梅将BP神经网络法和模糊综合评价法有效结合[3]。
Morozowski等学者提出优点指数法,实现多方案比选[4]。
Barros等学者引入帕累托最优函数进行输变电工程效益排序分析[5]。
然而,这些方法泛化能力差,且研究主要集中在经济评价方面[6]。
因此,本文利用粗糙集和支持向量机评价模型对数据进行处理,为提高输变电工程投资管理水平提供指导。
1 粗糙集-支持向量机理论1.1 支持向量机理论支持向量机方法(Support Vector Machine,SVM)基于结构风险最小化原则,通过非线性变换将输入空间导入至高维空间中,并在其中求解有约束的凸二次规划问题,从而得到有且并唯一的全局最优解[7]。
假定训练样本集,其中X为输入指标,含d维向量,l个训练样本数量,Y为输出指标或决策属性,同时构造回归估计函数:其中是输入空间的权向量,是偏移向量在寻求最优分类面的过程中,选择一个满足Mercer条件的核函数使得在二维空间映射到高维空间的过程中实现某一非线性变换后的线性分类,此时表现为如下约束优化问题:(1)(2)用Lagrange乘子法化成其对偶形式以解决二次规划存在唯一极小点问题,(3)(4)式中为满足Mercer条件的核函数,最终求得决策方程为:(5)1.2 粗糙集理论及其简约方法粗糙集是通过知识简约剔除冗余数据,从大量数据中求取最小不变集合,找出最能反映本质特征因素的关键特征变量,从而实现输入数据的简化。
粗糙集理论与深度学习的结合及实践经验分享

粗糙集理论与深度学习的结合及实践经验分享近年来,人工智能技术的快速发展使得深度学习成为了热门话题。
然而,深度学习在处理不完备、不确定和模糊的数据时存在一定的局限性。
为了解决这个问题,粗糙集理论被引入到深度学习中,取得了一些令人瞩目的成果。
本文将探讨粗糙集理论与深度学习的结合,并分享一些实践经验。
首先,我们来了解一下粗糙集理论。
粗糙集理论是一种处理模糊和不完备信息的数学工具,它能够从不完全和模糊的数据中提取出有用的信息。
粗糙集理论的核心思想是基于属性约简和决策规则的概念。
通过属性约简,可以减少数据集中的冗余信息,提取出最重要的属性。
而决策规则则可以帮助我们做出准确的决策。
然而,粗糙集理论在处理大规模数据时存在一些问题,例如计算复杂度高和泛化能力弱。
为了解决这些问题,研究者们开始探索将粗糙集理论与深度学习相结合的方法。
深度学习是一种基于神经网络的机器学习方法,它通过多层次的神经网络来学习和提取数据中的特征。
深度学习在处理大规模数据和复杂模式识别等方面具有优势。
将粗糙集理论与深度学习结合的方法可以分为两个方向:一是利用深度学习来增强粗糙集理论的泛化能力,二是利用粗糙集理论来解释深度学习的决策过程。
在第一个方向上,研究者们提出了一些基于深度学习的属性约简方法,用于减少数据集中的冗余信息。
这些方法通过训练神经网络来学习最优的属性子集,从而提高了粗糙集理论的泛化能力。
在第二个方向上,研究者们提出了一些基于粗糙集理论的解释方法,用于解释深度学习的决策过程。
这些方法通过构建决策规则来解释神经网络的输出结果,从而增强了深度学习的可解释性。
这对于一些对模型解释性要求较高的应用场景非常重要,例如医疗诊断和金融风险评估等。
在实践应用中,我们需要注意一些问题。
首先,粗糙集理论与深度学习的结合需要充分理解两者的原理和方法。
只有深入理解它们的特点和优势,才能更好地将它们结合起来。
其次,我们需要选择合适的数据集和模型进行实验。
基于粗糙集的知识约简方法及应用的开题报告

基于粗糙集的知识约简方法及应用的开题报告一、研究背景在大数据时代,数据处理变得越来越复杂,数据维度和属性数量也越来越多。
为了更好地利用这些数据,需要对数据进行分析和处理,但是数据维度过多会导致处理时间和空间开销增大。
同时,大数据中存在很多不必要的冗余信息和噪声,这些信息对于数据分析和处理不利。
为了解决这一问题,我们需要对数据进行简化和优化。
知识约简技术是一种有效的数据优化方法,可以在不损失信息的前提下,将数据集中的冗余信息和噪声去除,从而提高数据的处理效率和准确性。
二、研究内容本文将研究基于粗糙集理论的知识约简方法及其在实际应用中的效果。
具体研究内容如下:1. 粗糙集理论的基本概念和原理。
介绍粗糙集理论的起源、发展历程和基本原理,包括正域、约简、决策类等相关概念和理论。
2. 基于粗糙集的知识约简方法。
探讨基于粗糙集的知识约简方法,包括正域约简、决策规约、属性规约等相关算法和技术。
3. 粗糙集约简方法的应用案例分析。
通过实际应用案例,分析粗糙集约简方法的应用效果和优势,探讨其在数据挖掘、分类、聚类等领域的应用前景。
4. 粗糙集约简方法的改进和发展。
在分析粗糙集约简方法的基础上,提出一些改进和发展的思路和方法,探索进一步提高其效率和准确性的手段和途径。
三、研究意义知识约简技术在数据分析和处理领域具有广泛的应用前景,尤其是在大数据时代下更显得尤为重要。
本文研究基于粗糙集的知识约简方法,具有以下重要意义:1. 深入探讨粗糙集约简方法的理论基础和技术原理,为数据分析和处理提供了新的思路和方法。
2. 实际案例分析,验证了粗糙集约简方法在实际应用中的有效性和优越性。
3. 提出改进和发展的思路和方法,进一步推动粗糙集约简方法的发展和应用,为数据处理和分析提供更加高效、准确的手段和途径。
四、研究方法本文采用文献综述和案例分析的方法,通过收集、整理和分析相关文献和案例,深入探讨基于粗糙集的知识约简方法及其应用。
具体方法如下:1. 收集和整理与粗糙集约简方法相关的文献和资料,包括国内外学术期刊、论文、专著等。
如何利用粗糙集理论进行变量选择与模型构建的技巧总结

如何利用粗糙集理论进行变量选择与模型构建的技巧总结粗糙集理论是一种用于数据分析和决策支持的方法,它可以帮助我们进行变量选择和模型构建。
在本文中,我将总结一些利用粗糙集理论进行变量选择和模型构建的技巧。
1. 数据预处理在利用粗糙集理论进行变量选择和模型构建之前,首先需要对数据进行预处理。
这包括数据清洗、缺失值处理和数据标准化等步骤。
数据清洗可以去除异常值和噪声,缺失值处理可以使用插补方法填充缺失值,数据标准化可以将不同尺度的变量转化为相同的尺度,以便进行比较和分析。
2. 粗糙集属性约简属性约简是粗糙集理论的核心概念之一,它可以帮助我们选择最重要的变量。
属性约简的目标是找到最小的子集,使得该子集中的变量能够保留原始数据集中的所有信息。
常用的属性约简算法有基于启发式规则的快速约简算法和基于遗传算法的全局优化算法。
通过这些算法,我们可以找到最重要的变量,从而减少模型的复杂性和计算成本。
3. 粗糙集模型构建在进行变量选择后,我们可以利用粗糙集理论构建模型。
粗糙集模型是一种基于不确定性和近似推理的方法,它可以帮助我们理解数据之间的关系和规律。
常用的粗糙集模型包括粗糙集分类模型和粗糙集聚类模型。
粗糙集分类模型可以用于分类和预测问题,而粗糙集聚类模型可以用于数据分析和模式发现。
4. 模型评估和优化在构建粗糙集模型后,我们需要对模型进行评估和优化。
模型评估可以使用交叉验证和混淆矩阵等方法,以评估模型的准确性和鲁棒性。
模型优化可以通过调整模型参数和特征选择等方法来提高模型的性能和泛化能力。
通过不断地评估和优化模型,我们可以得到更好的结果。
5. 模型解释和应用最后,我们需要对构建的模型进行解释和应用。
模型解释可以帮助我们理解模型的预测结果和决策依据,以便进行进一步的分析和决策。
模型应用可以将模型应用于实际问题中,例如医学诊断、金融风险评估和工业质量控制等领域。
综上所述,利用粗糙集理论进行变量选择和模型构建可以帮助我们提高数据分析和决策支持的能力。
基于粗糙集理论的心悸阴虚火旺证辨证系统的建立

基于粗糙集理论的心悸阴虚火旺证辨证系统的建立刘白洁;解君;孟凡波;杜雪翠;李运伦【摘要】收集心悸古今医案病例573例,对其症状和体征进行语言规范化处理及量化赋值,使用基于粗糙集理论的KDD决策分析系统Rosetta软件约简病证属性,获取心悸阴虚火旺证的专家知识,并提供该系统决策规则的统计信息,为进一步研究心悸阴虚火旺证奠定基础.【期刊名称】《山西中医学院学报》【年(卷),期】2012(013)004【总页数】3页(P39-41)【关键词】心悸;阴虚火旺证;Rosetta软件;约简;决策规则;证候客观化【作者】刘白洁;解君;孟凡波;杜雪翠;李运伦【作者单位】山东中医药大学,山东济南250355;山东中医药大学,山东济南250355;山东中医药大学,山东济南250355;山东中医药大学,山东济南250355;山东中医药大学附属医院心内科,山东济南250011【正文语种】中文【中图分类】R256.2粗糙集(rough set)理论作为一种新的处理模糊和不确定性知识的数学工具,可以在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则,能够将中医四诊思辨性的经验描述和宏观性概括过渡到高层次的分析与综合相结合,使中医能够从宏观症状学的角度进行证的规范化研究[1]。
本文以心悸阴虚火旺证和心悸非阴虚火旺证的古今医案为研究对象,将粗糙集理论应用到中医证候研究中,构建心悸阴虚火旺证的辨证要素系统,为心悸阴虚火旺证的防治提供依据。
本研究收集心悸医案573例,其中心悸阴虚火旺证医案428例,心悸非阴虚火旺证医案145例,作为学习数据论域,进行症状及体征的研究。
对病案的四诊资料信息,包括原始症状、二便、舌、苔、脉象进行语言规范化处理。
统计涉及到的症状和体征数目,删除出现频数很小的症状和体征(如频数小于4),计算最后入选的指征数目,最后入选的条目共有44个。
选取了44个条目作为条件属性,包括:心悸、胸闷、胸痛、乏力、活动后气短气促、面色无华、面赤、眠差、失眠、多梦、善惊易恐、五心烦热、急躁易怒、易饥、纳呆、口舌生疮、口干咽燥、口苦、潮热盗汗、恶心呕吐、头晕、眼花、腰膝酸软、咳嗽、下肢浮肿、畏寒肢冷、大便不爽、便溏、便秘、尿赤、尿少、尿道灼热或涩痛、舌暗、苔薄黄、舌质鲜红、苔白、苔腻、舌质红、苔少/剥/无苔、脉弦、脉数、脉滑、脉细、脉结代。
《基于粗糙集的连续值属性约简算法研究》范文

《基于粗糙集的连续值属性约简算法研究》篇一一、引言随着大数据时代的来临,数据挖掘和知识发现成为了研究的热点。
粗糙集理论作为一种有效的数学工具,被广泛应用于数据分析和知识约简。
在处理具有连续值属性的数据时,如何有效地进行属性约简是一个重要的研究问题。
本文旨在研究基于粗糙集的连续值属性约简算法,为数据处理和知识发现提供有效的方法。
二、粗糙集理论概述粗糙集理论是一种处理不确定性和模糊性的数学工具,主要研究的是集合与集合之间的关系。
在数据挖掘和机器学习中,粗糙集理论被广泛应用于特征选择和属性约简。
粗糙集通过上下近似集来描述一个概念或集合的粒度,从而实现对数据的分析和约简。
三、连续值属性约简问题在处理具有连续值属性的数据时,传统的粗糙集理论面临着一些挑战。
连续值属性的处理需要更复杂的算法和技术。
此外,连续值属性的约简还需要考虑到数据的分布、密度、相关性等因素。
因此,如何有效地进行连续值属性的约简是一个重要的研究问题。
四、基于粗糙集的连续值属性约简算法为了解决连续值属性的约简问题,本文提出了一种基于粗糙集的连续值属性约简算法。
该算法主要包括以下步骤:1. 数据预处理:对数据进行清洗、归一化等预处理操作,以便于后续的约简操作。
2. 计算上下近似集:利用粗糙集理论,计算每个属性的上下近似集。
3. 属性重要性评估:根据上下近似集,评估每个属性的重要性。
重要性的评估可以采用信息熵、增益率等方法。
4. 属性约简:根据属性重要性的评估结果,选择一部分属性进行约简。
约简的目标是在保持数据分类能力的同时,减少属性的数量。
5. 约简结果评估:对约简结果进行评估,包括分类准确率、约简率等指标。
五、实验与分析为了验证本文提出的算法的有效性,我们进行了实验分析。
实验数据采用UCI等公开数据集。
实验结果表明,本文提出的算法可以有效地进行连续值属性的约简,且约简后的数据分类准确率较高。
此外,我们还对约简结果进行了可视化展示,以便于更好地理解约简过程和结果。
利用rosseta软件研究粗糙集在糖尿病诊断中的应用

湖北中医馭学Hubei University of Chinese Medicine本科毕业论文粗糙集应用于中医症状诊断权重中的研究题目:姓名:指导老师:学■专业:医学信息工程年级:实习单位:完成日期:20 年月日毕业论文原创性声明本人郑重声明:所呈交毕业论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。
除文中已经注明引用的内容外,本论文不包含任何其他人或集体已经发表或撰写过的作品成果。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律结果由本人承担论文作者签名:摘要* .... 第一章研究的准备工作研究背景及意义 (5)粗糙集及其在中医辨证中应用的发展现状 (5)一、粗糙集发展现状 (5)二、粗糙集在中医上的应用 (6)研究内容及研究方法 (7)研究的数据来源使用的工具的介绍第二章研究的过程及结论 (7)研究过程中所用到的基础理论 (7)信息表知识表达系统和决策表 (7)Rough集的基本概念 (8)约简算法 (9)研究过程再现 (9)导入数据至Rosetta软件 (9)数据运算及结果分析 (10)研究结论 (17)一、研究过程的总结 (17)二、研究经验的总结 (17)参考文献: (17)摘要中医讲究辨证施治,欲治病,必先辨证。
辩证的正确与否,直接决定着治疗的结果。
为了提高医师的辩证能力,除了医师自身的刻苦努力外,其实还可以借助数据分析的手段,通过数据分析,来总结出某种症状下的证,给症状和证之间建立一个普遍适用的联系,供医师参考,从而使医师的辩证能力提高。
本文的研究建立在名医施今墨的医案上,是将《施今墨医案解读》这本书中的125个病案,及关于糖尿病的47个症状属性建立信息表,使用粗糙集的数学方法,借助Rosetta 软件,来探索这个普遍适用的联系。
最终得出了判断为糖尿病的关键症状为:烦渴引饮,小便频数,身倦乏力,脉弦,尿糖,舌质黯苔口,多食善饥,大便秘结,脉数,难入睡,小漫如膏。
粗糙集理论的属性约简方法及其在实际问题中的应用

粗糙集理论的属性约简方法及其在实际问题中的应用引言粗糙集理论是一种基于不确定性的数据分析方法,它通过对数据集中属性之间的关系进行分析,提供了一种有效的数据降维和特征选择的方法。
在实际问题中,属性约简是粗糙集理论的一个重要应用,它可以帮助我们从大规模的数据中提取出最为关键和有价值的属性,减少数据处理的复杂性,提高数据分析的效率和准确性。
一、粗糙集理论概述粗糙集理论是由波兰学者Pawlak于1982年提出的,它是一种处理不确定性信息的数学工具,主要用于数据分析和知识发现。
粗糙集理论的核心思想是基于近似和不确定性,通过对属性之间的关系进行分析,找出属性的重要性和相关性,从而对数据进行降维和特征选择。
二、属性约简方法属性约简是粗糙集理论的一个重要应用,它可以帮助我们从大规模的数据中提取出最为关键和有价值的属性,减少数据处理的复杂性,提高数据分析的效率和准确性。
常用的属性约简方法主要有以下几种:1. 正域约简:正域约简是一种基于属性重要性的约简方法,它通过计算属性的依赖度和冗余度来评估属性的重要性,从而选择出最为重要的属性。
正域约简方法在处理具有大量属性的数据集时具有较好的效果。
2. 直接约简:直接约简是一种基于属性关系的约简方法,它通过计算属性之间的相似度和相关性来选择出最为相关的属性。
直接约简方法在处理具有复杂关系的数据集时具有较好的效果。
3. 快速约简:快速约简是一种基于属性搜索的约简方法,它通过快速搜索算法来选择出最为关键的属性。
快速约简方法在处理大规模数据集时具有较好的效果。
三、属性约简方法在实际问题中的应用属性约简方法在实际问题中具有广泛的应用价值,可以帮助我们从大规模的数据中提取出最为关键和有价值的属性,减少数据处理的复杂性,提高数据分析的效率和准确性。
以下是属性约简方法在实际问题中的一些应用案例:1. 医学诊断:在医学诊断中,属性约简方法可以帮助医生从大量的医学数据中提取出最为关键和有价值的属性,辅助医生进行疾病诊断和治疗方案选择。
粗糙集理论的属性重要性评估方法及其实际应用

粗糙集理论的属性重要性评估方法及其实际应用引言:粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它在数据挖掘、模式识别和决策分析等领域中得到了广泛的应用。
在粗糙集理论中,属性重要性评估是一个重要的问题,它能够帮助我们识别出对决策结果具有重要影响的属性,从而提高决策的准确性和可靠性。
本文将介绍一种基于粗糙集理论的属性重要性评估方法,并探讨其在实际应用中的价值。
一、粗糙集理论概述粗糙集理论是由波兰学者Pawlak于1982年提出的,它是一种处理不确定性和模糊性问题的数学工具。
粗糙集理论通过将对象的属性进行划分,将属性值之间的差异进行模糊化处理,从而实现对不完备和不精确数据的分析和决策。
粗糙集理论的核心思想是近似和约简,即通过近似的方法对数据进行简化和压缩,从而提取出最重要的信息。
二、属性重要性评估方法在粗糙集理论中,属性重要性评估是一个关键问题。
属性重要性评估的目标是确定哪些属性对决策结果的影响最大,从而帮助我们进行决策和分析。
常用的属性重要性评估方法有正域、核和约简等方法。
1. 正域方法正域方法是一种基于粗糙集的属性重要性评估方法。
它通过计算属性在正域中的覆盖度来评估属性的重要性。
正域是指在给定条件下能够唯一确定决策结果的属性取值,它反映了属性对决策结果的贡献程度。
正域方法的优点是简单直观,容易理解和计算,但它没有考虑属性之间的依赖关系。
2. 核方法核方法是一种基于粗糙集的属性重要性评估方法。
它通过计算属性在核中的约简度来评估属性的重要性。
核是指在给定条件下能够唯一确定决策结果的最小属性集合,它反映了属性对决策结果的决定性影响。
核方法考虑了属性之间的依赖关系,能够更准确地评估属性的重要性,但计算复杂度较高。
3. 约简方法约简方法是一种基于粗糙集的属性重要性评估方法。
它通过对属性集合进行约简,得到一个最小的属性子集,从而实现对属性的重要性评估。
约简方法的优点是能够同时考虑属性之间的依赖关系和决策结果的覆盖度,能够更全面地评估属性的重要性。
《基于粗糙集的连续值属性约简算法研究》范文

《基于粗糙集的连续值属性约简算法研究》篇一一、引言随着大数据时代的来临,数据约简技术在众多领域的应用愈发重要。
粗糙集理论作为一种处理不确定性和模糊性的数学工具,能够有效地进行属性约简,以揭示数据集中的隐含信息。
在传统粗糙集理论中,对连续值属性的处理通常需要进行离散化处理,然而这种处理方法可能会丢失部分有价值的信息。
因此,本文将探讨基于粗糙集的连续值属性约简算法的研究,以期在保持数据信息完整性的同时,实现属性约简。
二、粗糙集理论概述粗糙集理论是一种处理不确定性和模糊性的数学工具,它通过集合的上、下近似来描述不确定性的知识。
在特征选择和属性约简方面,粗糙集理论能够有效地处理不完整、不精确的数据。
然而,对于连续值属性的处理,传统的粗糙集理论需要进行离散化处理,这可能导致信息丢失。
因此,研究基于粗糙集的连续值属性约简算法具有重要意义。
三、连续值属性约简算法针对传统粗糙集理论在处理连续值属性时可能导致的信息丢失问题,本文提出一种基于粗糙集的连续值属性约简算法。
该算法首先利用核属性集初步约简数据,然后通过构建连续属性与决策类别的关系矩阵,计算各属性的重要性程度。
在保证数据分类性能的前提下,采用基于信息熵的属性约简策略进一步约简属性。
最后,通过交叉验证等方法评估约简效果。
四、算法实现与实验分析1. 算法实现:本文所提算法采用Python编程语言实现。
首先,通过计算各属性的核属性集,初步约简数据。
然后,构建连续属性与决策类别的关系矩阵,计算各属性的重要性程度。
在此基础上,采用基于信息熵的属性约简策略进一步约简属性。
最后,通过交叉验证等方法评估约简效果。
2. 实验分析:为了验证本文所提算法的有效性,我们采用UCI等公开数据集进行实验。
实验结果表明,本文所提算法在保证数据分类性能的同时,能够有效地约简属性,降低数据维度。
与传统的离散化处理方法相比,本文所提算法在约简效果和计算效率方面均有所提升。
五、结论本文研究了基于粗糙集的连续值属性约简算法。
基于粗糙集理论的决策表属性约简算法

2O 07年 l 月 2 第 2 卷 第 4期 2
山 东 师 范 大 学 学 报 ( 然 科 学 版) 自 Junl f hnogN u a U i rt( a r c ne ora o adn onl n e i N t a Si c) S v sy ul e
是属性值 的集合 , 即属 性 的值 域集 , 中 是 属性 。 其
∈A的值 域 ; 是信 息函数 ,: . 厂 厂 U×A+ , . ,o ∈V 它指定了 U中每一对象 的属性值 . 即厂 ( ) , 我们将具 有条件属 性和决策 属
在决策表 中, 对于属性子 集 Rc A, 可 分辨 关 系 1D( 定 义 为 :N R)={ 不 N R) I D( ( ,Y E U×UI f ,。 ) VoE R, ( ):
便于叙述 , 设决策表 中对象 的个数 为 n 条件属性集 合 C有 m个属性 , , 其值 域为有 限离散集 合 , 用 I 表示集 合 的基 . 并 *I 由决
策属性 D导 出的等价类构成 U的一个划分 : :{ 。 , , , } … , . 在决策表 C 中, D 若一些对象具有相 同的条件属性值而属 于不 同的决策类 , 则称 这些对象为不一致对象 , 否则称为一致 性
- Y ) . D( 是一个等价关 系 , 厂 ,o } 1 ) ( N 对象 在属性集 R上 的等 价类[ ( 义为 : () YI E U, D( }为方 ] 刚定 [ ] :{ y1 R) . y N
便起见 , 在不 产生混淆的情况下用 R代替 1D( . N R)等价关 系 ID( ) 1 D( 中的等价类 分别称 为条件 类 和决策类 . 了 N C 和 N D) 为
但在理论上证 明它们对 最小约简是不完备 的 . 文献 [ ] 5 中利用 区分矩 阵 的特性 , 出的算 法 只是 针对 一致性 的决 策表和在 核 提 值存在 的情况 下才 能适 用 ; 文献 [ ] [ ] 6和 7 虽然算法的效率较高 , 但不一定能 找到系统的最小约简 . 因为在进 行求解决策表属性约简 P过程 中 , 实际上是 寻找使 得所有一致性对象在 P上 也是 一致 性对象 的过程 . 即是说在
基于粗糙理论的属性约简在决策树中的应用

基于粗糙理论的属性约简在决策树中的应用刘远峰;杨碧华【摘要】分类问题是数据挖掘和机器学习中的一个核心问题.为了得到最高的分类准确率,决策树分类过程中,决策属性的选择非常关键.分析了粗糙理论的属性约简方法,提出了基于粗糙理论的属性约简在决策树中的应用,并产生多个相对约简的选择问题.【期刊名称】《电脑与电信》【年(卷),期】2010(000)009【总页数】2页(P30-31)【关键词】粗糙理论;简约知识:决策树【作者】刘远峰;杨碧华【作者单位】暨南大学信息技术研究所,广东,广州,510075;暨南大学信息科学技术学院,广东,广州,510632【正文语种】中文【中图分类】TP31.引言粗糙集理论[1-4]是一种处理不确定和不精确性问题的新的数学工具,它是波兰华沙理工大学科学家帕克拉克(Paw lak)于1982年提出的,该理论具有很强的定性分析能力,能够有效地表达不确定的或不精确的知识,善于从数据中获取知识,并能利用不定性、不完整的经验知识进行推理等。
粗糙集理论中对象的隶属函数值依赖于知识库,它可以从所需处理的数据中直接得到,无需外界的任何信息,所以用它来反映知识的模糊性是比较客观的。
1.1 粗糙集理论的基本概念定义1知识库K=(U,R),对于每个子集XU⊆U和一个等价关系R,定义两个子集:下近似集和上近似集=∪{Y∈U/R|YX}称为X的R下近似集=∪{Y∈U/R|Y∩X≠Φ}称为X的R上近似集POSR(X)=X称为X的R正域1.2 知识约简粗糙集知识约简[5-7],就是在保持知识库的分类和决策能力不变的条件下,删除其中不相关或不重要的知识。
定义2设P和Q是U中的等价关系族,R∈P,如果POSP(Q)=POS(P-{R})(Q),则称R为P中Q不必要的;否则称R为P中Q必要的。
如果P中每个R都是Q 必要的,则称P为Q独立的;否则称为依赖的。
定义3给定一个知识库K=(U,S)和知识库上的两个等价关系簇P,Q属于S,对任意的G属于P,若G满足以下两条:(1)G是Q独立的,即G是P的Q独立子集(2)PosG(Q)=POSP(Q)则称G是P的一个Q约简。
粗糙集理论中的属性约简方法介绍

粗糙集理论中的属性约简方法介绍粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它在数据挖掘、机器学习和模式识别等领域得到了广泛应用。
属性约简是粗糙集理论中的一个重要概念,它能够帮助我们从大量的属性中找到最为重要的属性,减少数据处理的复杂性。
本文将介绍粗糙集理论中的一些常用属性约简方法。
1. 正域约简方法正域约简方法是粗糙集理论中最为常用的一种属性约简方法。
其基本思想是通过比较不同属性对决策类别的区分能力,来确定最为重要的属性。
具体步骤如下:首先,计算每个属性与决策类别之间的依赖度,依赖度越大表示属性对决策类别的区分能力越强。
然后,根据依赖度的大小进行排序,选择依赖度最大的属性作为初始约简。
接下来,逐步添加其他属性,并计算约简后的属性集对决策类别的依赖度。
如果添加属性后的依赖度没有显著提高,则停止添加,得到最终的约简属性集。
2. 相关属性约简方法相关属性约简方法是一种基于属性之间相关性的约简方法。
它通过计算属性之间的相关系数或互信息量来评估属性之间的相关性,并选择相关性较低的属性进行约简。
具体步骤如下:首先,计算属性之间的相关系数或互信息量。
然后,根据相关系数或互信息量的大小进行排序,选择相关性较低的属性作为初始约简。
接下来,逐步添加其他属性,并计算约简后的属性集的相关系数或互信息量。
如果添加属性后的相关性没有显著提高,则停止添加,得到最终的约简属性集。
3. 基于粒计算的约简方法基于粒计算的约简方法是一种基于粒度理论的属性约简方法。
它通过将属性集划分为不同的粒度,来减少属性的数量。
具体步骤如下:首先,将属性集划分为不同的粒度。
每个粒度包含一组相关性较高的属性。
然后,选择每个粒度中最为重要的属性作为初始约简。
接下来,逐步添加其他粒度,并计算约简后的属性集的重要性。
如果添加粒度后的重要性没有显著提高,则停止添加,得到最终的约简属性集。
4. 基于遗传算法的约简方法基于遗传算法的约简方法是一种基于进化计算的属性约简方法。
粗糙集实验报告

粗糙集实验报告引言粗糙集是一种基于信息不完备的数学工具,它在数据挖掘、特征选择等领域有着广泛的应用。
本实验旨在通过实际操作,深入理解粗糙集的原理和应用,并掌握使用粗糙集进行特征选择的方法。
实验目的1. 学习粗糙集的基本原理和概念。
2. 掌握粗糙集的基本算法和操作方法。
3. 理解和应用粗糙集进行特征选择的过程。
实验方法数据集本实验使用了一个包含多个特征的数据集,共有100个样本。
每个样本包含了5个特征,其中一个特征是目标属性。
实验步骤1. 导入数据集,并对数据进行预处理,如缺失值处理和数据归一化。
2. 使用粗糙集的算法计算每个特征的重要性得分。
3. 根据重要性得分进行特征选择。
4. 对比不同特征选择结果,评估特征选择对分类性能的影响。
实验结果数据预处理首先,对数据集进行了缺失值处理。
检查每个特征的缺失值情况,如果某个样本的某个特征值缺失,则使用该特征的均值进行填充。
然后,对数据进行了归一化处理。
使用了最小-最大归一化方法将数据缩放到0到1的范围内。
特征重要性得分根据粗糙集的算法,计算了每个特征的重要性得分。
重要性得分表示了特征对分类结果的贡献程度,得分越高表示该特征越重要。
特征重要性得分如下所示:特征重要性得分特征1 0.75特征2 0.61特征3 0.82特征4 0.69特征5 1.00特征选择根据特征的重要性得分,选择了其中重要性得分较高的特征作为分类模型的输入特征。
可以选择重要性得分在前80%的特征作为最终的特征集合。
特征选择结果如下所示:特征1、特征3和特征5被选择为最终的特征。
讨论和结论通过本次实验,我们深入了解了粗糙集的原理和应用,并学会了使用粗糙集进行特征选择。
通过特征重要性得分的计算,我们能够确定数据集中对分类结果有更大贡献的特征,从而选择出最终的特征集合。
通过对比不同特征集合下分类模型的性能,我们可以评估特征选择对分类结果的影响。
根据实验结果,特征1、特征3和特征5被确定为最重要的特征。
粗糙集理论及其应用研究

粗糙集理论及其应用研究摘要粗糙集理论是一种建立在模糊数学基础上的不确定性约简方法,因其广泛应用于特征选择、数据挖掘、模式识别等领域而被广泛研究。
本文将从粗糙集理论的概念、特征约简、决策规则等方面入手,对粗糙集理论及其应用进行综述,并以真实数据为例进行探究与验证。
研究表明,粗糙集理论具有很好的应用前景和实用性。
关键词:粗糙集理论;不确定性;特征选择;决策规则;应用AbstractRough set theory is an uncertain reduction method based on fuzzy mathematics, which has been widely used in feature selection, data mining, pattern recognition and other fields, and has been extensively studied. This paper will start with the concept, feature reduction, decision rules and other aspects of rough set theory, summarize rough set theory andits application, and explore and verify it with real data asan example. The research shows that rough set theory has good application prospects and practicality.Keywords: Rough set theory; uncertainty; feature selection; decision rules; application1. 引言粗糙集理论(rough set theory)是一种约简方法,是多学科交叉研究的成果之一。
粗糙集理论学习心得与基于ROSETTA的决策表属性约简实验--陈涛

是属性的有限集合,A={A1,A2,...Am};V 是属性的值域集,V={V1,V2,...,Vm},其中 Vi 是属性 Ai 的值域。f 是信息函数(information function),f:U×A→V,f(xi,Aj)∈Vj。
粗糙集理论中,一个对象是否隶属于某一集合(概念),不是该元素的客观性质,而 是取决于我们对它的了解程度,即知识 R 的分类能力。
粗糙集中的粗糙包含关系,粗糙相等关系。主要是比较集合的拓扑结构而不是集合元素。 在给定的知识库中,基于不同的知识,两个集合可能是精确相等,也可能是粗糙(近似) 相等,或许是粗糙不相等。相等是相对的概念。 1.6 信息论的度量
减弱知识的分类能力。 参数重要度强的属性对知识的分类能力越强,但将参数重要度强的知识结合在一起,
分类能力不一定强。 如果所有 P 中的知识对于论域 U 中的对象正确地划分到知识 Q 的基本范畴
(IND(Q)等价类)都是必不可少的,那么知识 P 就是 Q 独立的。知识 P 的 Q 核是知识 P 最基本的特征部分。
图 1 集合的上下近似 如图 1 所示,折线相连构成的闭合区域表示不确定的概念 X,灰色外边界和黑色外边 界表示人们使用能够确定表达的概念,也就是概念 X 的外延和内涵。人们无法直接表达概 念 X,但可以通过 X 的外延和内涵间接表达。同时概念 X 的外延和内涵可以用来反映 X 的 不确定性即概念的不精确性。图中灰色区域越大,表示概念 X 的精确性越低。 由图 1 可以看出,概念 X 的表达只依赖于人们所了解的关于 X 的外延知识和内涵知识, 不需要预先知道额外信息。粗糙集理论对事物的不精确性表达不 需 要 任 何 假 定 的 先 验 知 识 , 只依赖于所给定的知识表达系统,通过上下近似算子直接计算得到,这一点与概率论和模 糊集合理论完全不同,这也是粗糙集理论受到广泛关注的原因之一。 1.2 知识是一种分类能力 粗糙集理论受到广泛关注的另一个原因是它对知识的观点。在粗糙集理论中,知识(人 的智能)是一种对对象进行分类的能力。这里的“对象”包括:实物,状态,抽象概念,过 程和时间等。我们通常用等价关系或关系来表示分类和知识。 粗糙集理论把知识定义为关于论域的划分模式,从而使知识具有了颗粒性,我们称其 为信息粒度或知识粒度,简称粒度。 1.3 信息系统
《粗糙集理论与方法》读书笔记

《粗糙集理论与方法》读书笔记智能信息处理是当前信息科学理论和应用研究中的一个热点领域。
由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息,信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获取其潜在的知识。
特别是近20年间,知识发现(规则提取、数据挖掘、机器学习)受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。
1 粗糙集概述粗糙集(Rough Set,有时也称Rough集、粗集)理论是Pawlak 教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具粗糙集理论最初的原型来源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规则,通过等价关系的分类以及分类对于目标的近似实现知识发现。
由于粗糙集理论思想新颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术,该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。
目前,有三个有关粗糙集的系列国际会议,即:RSCTC、RSFDGrC和RSKT。
中国学者在这方面也取得了很大的成果,从2001年开始每年召开中国粗糙集与软计算学术会议;RSFDGRC2003、IEEE GrC2005、RSKT2006、IFKT2008、RSKT2008、IEEE GrC2008等一系列国际学术会议在中国召开。
粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。
经典Pawlak模型中的不分明关系是一种等价关系,要求很高,限制了粗糙集模型的应用。
因此,如何推广定义近似算子成为了粗糙集理论研究的一个重点。
目前,常见的关于推广粗糙集理论的研究方法有两种,即:构造化方法和公理化方法。
构造化方法是以论域上的二元关系、划分、覆盖、邻域系统、布尔子代数等作为基本要素,进而定义粗糙近似算子,从而导出粗糙集代数系统。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 粗糙集理论学习心得:
1.1 概念的外延和内涵 人类认知具有不确定性。人们表达一个不确定的概念时一般有两种方法:外延法和内涵
法。符合某概念对象的全体构成此概念的外延,区别于其他概念的全体本质属性就是此概念 的内涵。一个概念可以用枚举式的外延法表示,也可以用描述式的内涵法表示。
信息论的度量主要任务是度量颗粒性知识属性特征的重要性和属性特征之间关系的相 依性程度。度量方法主要有:信息熵、条件熵和互信息。
信息熵度量了信息源提供的平均信息量的大小。互信息量度了一个信息源从另一个信息 源获取的信息量的大小。信息熵和互信息都随着知识粗糙性的增加而单调下降,通常反过来 不成立。 1.7 知识约简
集合的近似与划分的近似是两个不同的问题。划分中每一个范畴,如果我们能确定论域 中哪些元素是它的正例,也必然能确定它的反例。与粗糙集合的补集意义不同。 1.5 粗糙集的基本性质
粗糙集的基本性质,如成员的隶属关系、集合的包含关系、集合的相等关系都是相对的, 都与我们掌握的知识 R 相关。因此,可以认为粗糙集的方法是经典集合论方法的主观认识。
只有一个 Q 约简的知识 P 是确定的,因为当我们依照只是 P 的基本范畴将论域中的对 象划分到知识 Q 的基本范畴中时只有一种 P 的知识基(P 商集)可用。P 有多个 Q 约简时是 不确定的,因为有多种 P 的知识基可利用。
P 的 Q 核为空集时,知识 P 的不确定性达到最强。 不相容决策表,粗糙集理论的处理方法是对每个决策概念计算其上下近似,从下近似 导出的规则肯定成立,从上近似导出的规则可能成立,前者直接用于逻辑推理,后者有实 例支持。 属性约简算法分两种:1.盲目删除属性约简算法 2.启发式算法:通过定义属性的一个 重要度函数或差别函数来获取信息系统的属性约简。 常见的属性约简算法有:1.基于 Pawlak 属性重要度的属性约简算法。2.基于 Skowron 差 别矩阵的 IS 属性约简算法。3.基于信息熵的 IS 属性约简算法 粗糙集理论的重要作用之一是提供了一种有效的从数据中获取规则的方法和工具。 1.8 粗糙集与自然语言的不确定性 自然语言在表达事物的不确定性时往往用数量、频率、概率和程度等方式来描述事件从 模糊到精确的变化,以便表示对某一命题的信任程度。 程度型(A):considerably, a great deal, (very) much, (quite) a lot, rather, somewhat, a bit , a little , slightly, scarcely, hardly, only just; 程 度 型 (B) : exactly, precisely, just, virtually, practically, more or less, almost, nearly, approximately, about; 数 量 型 (C) : all/every/each, most, a majority, many/much, a lot, enough, some, a number, several, a minority, a few/little, no/none/not/any; 频率型(D) :always, not numerable, usual(ly), general(ly), regular(ly), often, frequent(ly), sometimes, occasional(ly), rate(ly), seldom, hardly ever; 概 率 型 (E) : certain(ly), definite(ly), undoubtedly, probably/probale, maybe, unlikely, improbable, doubtful, almost impossible 不确定性语言是可以度量的; 事物的不确定性具有一定的不确定性区间; 自然语言表示 事物的不确定性和进行不确定性推理时,虽然信息本身有随机性,但人的表示和推理不是 随机的,而是遵循一定的认识规律和行为法则。
它的 C++库源代码可以在网站:http://www.lcb.uu.se/tools/rosetta/上免费下载。
图 3 ROSETTA 图形界面展示 1 如图 3 所示,结点 A 表示从数据库导入的数据,结点 A1 表示对数据进行了补全操作 。 A2 和 A3 结点表示将数据分为训练数据和测试数据两类,A4,A5,A6,A7 是数据预处理 阶段,分别对训练数据和测试数据进行部分离散化和全部离散化操作。RED 结点表示对数 据进行了约简,双击该结点可以看到属性约简的结果。RUL 结点表示规则生成。 图标的 结点表示生成的结果数据文件。
图 2 是一个具体的信息系统实例。结合图 2,U={x1,x2,x3,x4,x5,x6},可以理解为 x1,x2…x6,6 个病人。A={头疼,肌肉疼,体温,流感}。V 是 A 的值域,对于属性头疼 V(头 疼)={是,否}。信息函数 f 是粗线框框出的部分。 1.4 粗糙集的特征
上文介绍了粗糙集理论中的概念:信息系统,上下近似集,划分等。下面介绍两种刻画 粗糙集的方法:用近似程度的精确度来表示粗糙集的数字特征(表示集合边界域的大小, 但没有说明边界域的结构);用粗糙集分类表示粗糙集的拓扑特征(没有边界域大小的信息, 提供了边界域的结构)。
粗糙集理论学习心得与
基于 ROSETTA 的决策表属性约简实验
陈 涛 (@chentao1999)
/chentao1999
chentao1999@
摘要
人类认知具有不确定性。粗糙集理论是处理这种不确定性的数学理论。粗糙集理论不断 发展的同时,粗糙集的应用也越来越广泛。主要集中在两个方面:1.粗糙集的知识约简 2.粗 糙集与其他方强的属性对知识的分类能力越强,但将参数重要度强的知识结合在一起,
分类能力不一定强。 如果所有 P 中的知识对于论域 U 中的对象正确地划分到知识 Q 的基本范畴
(IND(Q)等价类)都是必不可少的,那么知识 P 就是 Q 独立的。知识 P 的 Q 核是知识 P 最基本的特征部分。
图 2 信息系统实例 粗糙集理论研究的对象一般是如图 2 所示的表格(信息表或决策表)。用形式语言表示 为一个四元有序组 S=<U,V,f,A>。其中 U 是对象(事例)的有限集合,U={x1,x2,...,xn};A
是属性的有限集合,A={A1,A2,...Am};V 是属性的值域集,V={V1,V2,...,Vm},其中 Vi 是属性 Ai 的值域。f 是信息函数(information function),f:U×A→V,f(xi,Aj)∈Vj。
系统参数的重要度越大,集合 X 的 R 边界域越小,当它达到 1 时表明用知识 R 可精确 描述集合 X,对划分而言也是一样的。当它为 0 表明用知识 R 无法判定论域 U 中任意元素是 否属于概念 X,也就是说知识 R 是可以约简的。
知识 Q 依赖于知识 P 的程度 k,记为 P→kQ,表示由 Q 导出的分类 U/Q 的正域覆盖来 知识库中论域 U 的 k×100%个元素。换句话说,论域中有 k×100%个元素可以通过知识 P 准 确划入到分类 U/Q 的等价类中。
ROSETTA 粗糙集数据分析工具集是挪威人 Aleksander Øhrn 以他在博士论文期间开发 的粗糙集工具基础上发展而来的。具有数据导入导出、补全、离散化、知识约简、过滤、分类、规 则生成以及获取等价类、上下近似集等功能。
本文是《软计算方法及其应用》课程学习期间的心得和实验总结。共分四部分。第一部分 回顾《软计算方法及其应用》课程粗糙集部分的学习心得;第二部分介绍 ROSETTA 工具集 的功能、使用方法和应用实例。第三部分介绍基于 ROSETTA 的决策表属性约简实验。第四部 分是实验分析与总结。
信息系统和决策表中存在两种冗余:1.属性从整体角度而言存在冗余。2.属性从整体上 讲是必要的,但对某对象在该属性上的取值可能存在冗余,即属性值的冗余。
知识约简的一般步骤:1.删除表中重复对象。2.删除冗余的条件属性。3.删除每个对象的 冗余属性值。4.求出其约简。
知识的核是它最重要的部分,也就是最能体现知识特征的部分。1.核可以作为所有约简 的计算基础。2.核可以解释为知识特征的最主要部分,在知识约简时它不能被删除,否则将
粗糙集的精度是下近似集元素个数与上近似集元素个数之商。集合(范畴或概念)的不 精确性事由于边界域的存在而引起的,它的边界域越大,其精确性则越低。粗糙集中,精度 反映对概念了解的程度,粗糙度反映对概念了解的不完全程度。
近似分类的精度描述的是当前使用知识 R 对对象分类时,可能的决策中正确决策的百 分比。近似分类质量表示的是应用知识 R 能确切地划入划分 PI(U)的分类的对象的百分比。
粗糙集理论中,一个对象是否隶属于某一集合(概念),不是该元素的客观性质,而 是取决于我们对它的了解程度,即知识 R 的分类能力。
粗糙集中的粗糙包含关系,粗糙相等关系。主要是比较集合的拓扑结构而不是集合元素。 在给定的知识库中,基于不同的知识,两个集合可能是精确相等,也可能是粗糙(近似) 相等,或许是粗糙不相等。相等是相对的概念。 1.6 信息论的度量
图 4 ROSETTA 图形界面展示 2 图 4 展示的是 ROSETTA 的主要算法,包括数据补全、数据离散化、属性约简、过滤、分 类、规则生成、上下近似集计算、等价类获取等。其中有 RSES 标注的是与粗糙集理论相关的 算法。
3 实验操作
3.1 导入数据
图 5 导入数据 1
图 6 选择数据格式
图 7 导入的数据 如图 7 所示,快速双击结点“No name”即可看到导入的数据。慢速双击结点“ No name”将其重命名为“流感诊断数据”。 3.2 进行属性约简
图 8 选择属性约简算法
2 ROSETTA 工具集介绍:
ROSETTA 粗糙集数据分析工具集可能是目前最完整、最灵活和先进的粗糙集软件。它 是由波兰华沙大学和挪威科技大学用 C++联合开发的一个基于粗糙集理论框架的数据分析 工具包。它的雏形是挪威人 Aleksander Øhrn 在完成博士论文期间开发的粗糙集工具。