粗糙集理论学习心得与基于ROSETTA的决策表属性约简实验--陈涛
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关键词:不确定性、粗糙集、知识约简、ROSETTA 工具集
1 粗糙集理论学习心得:
1.1 概念的外延和内涵 人类认知具有不确定性。人们表达一个不确定的概念时一般有两种方法:外延法和内涵
法。符合某概念对象的全体构成此概念的外延,区别于其他概念的全体本质属性就是此概念 的内涵。一个概念可以用枚举式的外延法表示,也可以用描述式的内涵法表示。
粗糙集的精度是下近似集元素个数与上近似集元素个数之商。集合(范畴或概念)的不 精确性事由于边界域的存在而引起的,它的边界域越大,其精确性则越低。粗糙集中,精度 反映对概念了解的程度,粗糙度反映对概念了解的不完全程度。
近似分类的精度描述的是当前使用知识 R 对对象分类时,可能的决策中正确决策的百 分比。近似分类质量表示的是应用知识 R 能确切地划入划分 PI(U)的分类的对象的百分比。
图 2 信息系统实例 粗糙集理论研究的对象一般是如图 2 所示的表格(信息表或决策表)。用形式语言表示 为一个四元有序组 S=<U,V,f,A>。其中 U 是对象(事例)的有限集合,U={x1,x2,...,xn};A
是属性的有限集合,A={A1,A2,...Am};V 是属性的值域集,V={V1,V2,...,Vm},其中 Vi 是属性 Ai 的值域。f 是信息函数(information function),f:U×A→V,f(xi,Aj)∈Vj。
粗糙集理论中,一个对象是否隶属于某一集合(概念),不是该元素的客观性质,而 是取决于我们对它的了解程度,即知识 R 的分类能力。
粗糙集中的粗糙包含关系,粗糙相等关系。主要是比较集合的拓扑结构而不是集合元素。 在给定的知识库中,基于不同的知识,两个集合可能是精确相等,也可能是粗糙(近似) 相等,或许是粗糙不相等。相等是相对的概念。 1.6 信息论的度量
图 4 ROSETTA 图形界面展示 2 图 4 展示的是 ROSETTA 的主要算法,包括数据补全、数据离散化、属性约简、过滤、分 类、规则生成、上下近似集计算、等价类获取等。其中有 RSES 标注的是与粗糙集理论相关的 算法。
3 实验操作
3.1 导入数据
wk.baidu.com
图 5 导入数据 1
图 6 选择数据格式
图 7 导入的数据 如图 7 所示,快速双击结点“No name”即可看到导入的数据。慢速双击结点“ No name”将其重命名为“流感诊断数据”。 3.2 进行属性约简
图 8 选择属性约简算法
系统参数的重要度越大,集合 X 的 R 边界域越小,当它达到 1 时表明用知识 R 可精确 描述集合 X,对划分而言也是一样的。当它为 0 表明用知识 R 无法判定论域 U 中任意元素是 否属于概念 X,也就是说知识 R 是可以约简的。
知识 Q 依赖于知识 P 的程度 k,记为 P→kQ,表示由 Q 导出的分类 U/Q 的正域覆盖来 知识库中论域 U 的 k×100%个元素。换句话说,论域中有 k×100%个元素可以通过知识 P 准 确划入到分类 U/Q 的等价类中。
它的 C++库源代码可以在网站:http://www.lcb.uu.se/tools/rosetta/上免费下载。
图 3 ROSETTA 图形界面展示 1 如图 3 所示,结点 A 表示从数据库导入的数据,结点 A1 表示对数据进行了补全操作 。 A2 和 A3 结点表示将数据分为训练数据和测试数据两类,A4,A5,A6,A7 是数据预处理 阶段,分别对训练数据和测试数据进行部分离散化和全部离散化操作。RED 结点表示对数 据进行了约简,双击该结点可以看到属性约简的结果。RUL 结点表示规则生成。 图标的 结点表示生成的结果数据文件。
粗糙集理论学习心得与
基于 ROSETTA 的决策表属性约简实验
陈 涛 (@chentao1999)
http://weibo.com/chentao1999
chentao1999@gmail.com
摘要
人类认知具有不确定性。粗糙集理论是处理这种不确定性的数学理论。粗糙集理论不断 发展的同时,粗糙集的应用也越来越广泛。主要集中在两个方面:1.粗糙集的知识约简 2.粗 糙集与其他方法的融合。
只有一个 Q 约简的知识 P 是确定的,因为当我们依照只是 P 的基本范畴将论域中的对 象划分到知识 Q 的基本范畴中时只有一种 P 的知识基(P 商集)可用。P 有多个 Q 约简时是 不确定的,因为有多种 P 的知识基可利用。
P 的 Q 核为空集时,知识 P 的不确定性达到最强。 不相容决策表,粗糙集理论的处理方法是对每个决策概念计算其上下近似,从下近似 导出的规则肯定成立,从上近似导出的规则可能成立,前者直接用于逻辑推理,后者有实 例支持。 属性约简算法分两种:1.盲目删除属性约简算法 2.启发式算法:通过定义属性的一个 重要度函数或差别函数来获取信息系统的属性约简。 常见的属性约简算法有:1.基于 Pawlak 属性重要度的属性约简算法。2.基于 Skowron 差 别矩阵的 IS 属性约简算法。3.基于信息熵的 IS 属性约简算法 粗糙集理论的重要作用之一是提供了一种有效的从数据中获取规则的方法和工具。 1.8 粗糙集与自然语言的不确定性 自然语言在表达事物的不确定性时往往用数量、频率、概率和程度等方式来描述事件从 模糊到精确的变化,以便表示对某一命题的信任程度。 程度型(A):considerably, a great deal, (very) much, (quite) a lot, rather, somewhat, a bit , a little , slightly, scarcely, hardly, only just; 程 度 型 (B) : exactly, precisely, just, virtually, practically, more or less, almost, nearly, approximately, about; 数 量 型 (C) : all/every/each, most, a majority, many/much, a lot, enough, some, a number, several, a minority, a few/little, no/none/not/any; 频率型(D) :always, not numerable, usual(ly), general(ly), regular(ly), often, frequent(ly), sometimes, occasional(ly), rate(ly), seldom, hardly ever; 概 率 型 (E) : certain(ly), definite(ly), undoubtedly, probably/probale, maybe, unlikely, improbable, doubtful, almost impossible 不确定性语言是可以度量的; 事物的不确定性具有一定的不确定性区间; 自然语言表示 事物的不确定性和进行不确定性推理时,虽然信息本身有随机性,但人的表示和推理不是 随机的,而是遵循一定的认识规律和行为法则。
集合的近似与划分的近似是两个不同的问题。划分中每一个范畴,如果我们能确定论域 中哪些元素是它的正例,也必然能确定它的反例。与粗糙集合的补集意义不同。 1.5 粗糙集的基本性质
粗糙集的基本性质,如成员的隶属关系、集合的包含关系、集合的相等关系都是相对的, 都与我们掌握的知识 R 相关。因此,可以认为粗糙集的方法是经典集合论方法的主观认识。
2 ROSETTA 工具集介绍:
ROSETTA 粗糙集数据分析工具集可能是目前最完整、最灵活和先进的粗糙集软件。它 是由波兰华沙大学和挪威科技大学用 C++联合开发的一个基于粗糙集理论框架的数据分析 工具包。它的雏形是挪威人 Aleksander Øhrn 在完成博士论文期间开发的粗糙集工具。
ROSETTA 实现了数据挖掘和知识发现的整个过程,包括多种数据导入导出、数据补全、 数据离散化、知识约简、过滤、分类、规则生成验证与分析以及获取等价类、上下近似集等功能。
信息论的度量主要任务是度量颗粒性知识属性特征的重要性和属性特征之间关系的相 依性程度。度量方法主要有:信息熵、条件熵和互信息。
信息熵度量了信息源提供的平均信息量的大小。互信息量度了一个信息源从另一个信息 源获取的信息量的大小。信息熵和互信息都随着知识粗糙性的增加而单调下降,通常反过来 不成立。 1.7 知识约简
减弱知识的分类能力。 参数重要度强的属性对知识的分类能力越强,但将参数重要度强的知识结合在一起,
分类能力不一定强。 如果所有 P 中的知识对于论域 U 中的对象正确地划分到知识 Q 的基本范畴
(IND(Q)等价类)都是必不可少的,那么知识 P 就是 Q 独立的。知识 P 的 Q 核是知识 P 最基本的特征部分。
粗糙集理论中的上下近似集就相当于人们日常表达的概念的外延和内涵。
图 1 集合的上下近似 如图 1 所示,折线相连构成的闭合区域表示不确定的概念 X,灰色外边界和黑色外边 界表示人们使用能够确定表达的概念,也就是概念 X 的外延和内涵。人们无法直接表达概 念 X,但可以通过 X 的外延和内涵间接表达。同时概念 X 的外延和内涵可以用来反映 X 的 不确定性即概念的不精确性。图中灰色区域越大,表示概念 X 的精确性越低。 由图 1 可以看出,概念 X 的表达只依赖于人们所了解的关于 X 的外延知识和内涵知识, 不需要预先知道额外信息。粗糙集理论对事物的不精确性表达不 需 要 任 何 假 定 的 先 验 知 识 , 只依赖于所给定的知识表达系统,通过上下近似算子直接计算得到,这一点与概率论和模 糊集合理论完全不同,这也是粗糙集理论受到广泛关注的原因之一。 1.2 知识是一种分类能力 粗糙集理论受到广泛关注的另一个原因是它对知识的观点。在粗糙集理论中,知识(人 的智能)是一种对对象进行分类的能力。这里的“对象”包括:实物,状态,抽象概念,过 程和时间等。我们通常用等价关系或关系来表示分类和知识。 粗糙集理论把知识定义为关于论域的划分模式,从而使知识具有了颗粒性,我们称其 为信息粒度或知识粒度,简称粒度。 1.3 信息系统
ROSETTA 粗糙集数据分析工具集是挪威人 Aleksander Øhrn 以他在博士论文期间开发 的粗糙集工具基础上发展而来的。具有数据导入导出、补全、离散化、知识约简、过滤、分类、规 则生成以及获取等价类、上下近似集等功能。
本文是《软计算方法及其应用》课程学习期间的心得和实验总结。共分四部分。第一部分 回顾《软计算方法及其应用》课程粗糙集部分的学习心得;第二部分介绍 ROSETTA 工具集 的功能、使用方法和应用实例。第三部分介绍基于 ROSETTA 的决策表属性约简实验。第四部 分是实验分析与总结。
信息系统和决策表中存在两种冗余:1.属性从整体角度而言存在冗余。2.属性从整体上 讲是必要的,但对某对象在该属性上的取值可能存在冗余,即属性值的冗余。
知识约简的一般步骤:1.删除表中重复对象。2.删除冗余的条件属性。3.删除每个对象的 冗余属性值。4.求出其约简。
知识的核是它最重要的部分,也就是最能体现知识特征的部分。1.核可以作为所有约简 的计算基础。2.核可以解释为知识特征的最主要部分,在知识约简时它不能被删除,否则将
图 2 是一个具体的信息系统实例。结合图 2,U={x1,x2,x3,x4,x5,x6},可以理解为 x1,x2…x6,6 个病人。A={头疼,肌肉疼,体温,流感}。V 是 A 的值域,对于属性头疼 V(头 疼)={是,否}。信息函数 f 是粗线框框出的部分。 1.4 粗糙集的特征
上文介绍了粗糙集理论中的概念:信息系统,上下近似集,划分等。下面介绍两种刻画 粗糙集的方法:用近似程度的精确度来表示粗糙集的数字特征(表示集合边界域的大小, 但没有说明边界域的结构);用粗糙集分类表示粗糙集的拓扑特征(没有边界域大小的信息, 提供了边界域的结构)。
1 粗糙集理论学习心得:
1.1 概念的外延和内涵 人类认知具有不确定性。人们表达一个不确定的概念时一般有两种方法:外延法和内涵
法。符合某概念对象的全体构成此概念的外延,区别于其他概念的全体本质属性就是此概念 的内涵。一个概念可以用枚举式的外延法表示,也可以用描述式的内涵法表示。
粗糙集的精度是下近似集元素个数与上近似集元素个数之商。集合(范畴或概念)的不 精确性事由于边界域的存在而引起的,它的边界域越大,其精确性则越低。粗糙集中,精度 反映对概念了解的程度,粗糙度反映对概念了解的不完全程度。
近似分类的精度描述的是当前使用知识 R 对对象分类时,可能的决策中正确决策的百 分比。近似分类质量表示的是应用知识 R 能确切地划入划分 PI(U)的分类的对象的百分比。
图 2 信息系统实例 粗糙集理论研究的对象一般是如图 2 所示的表格(信息表或决策表)。用形式语言表示 为一个四元有序组 S=<U,V,f,A>。其中 U 是对象(事例)的有限集合,U={x1,x2,...,xn};A
是属性的有限集合,A={A1,A2,...Am};V 是属性的值域集,V={V1,V2,...,Vm},其中 Vi 是属性 Ai 的值域。f 是信息函数(information function),f:U×A→V,f(xi,Aj)∈Vj。
粗糙集理论中,一个对象是否隶属于某一集合(概念),不是该元素的客观性质,而 是取决于我们对它的了解程度,即知识 R 的分类能力。
粗糙集中的粗糙包含关系,粗糙相等关系。主要是比较集合的拓扑结构而不是集合元素。 在给定的知识库中,基于不同的知识,两个集合可能是精确相等,也可能是粗糙(近似) 相等,或许是粗糙不相等。相等是相对的概念。 1.6 信息论的度量
图 4 ROSETTA 图形界面展示 2 图 4 展示的是 ROSETTA 的主要算法,包括数据补全、数据离散化、属性约简、过滤、分 类、规则生成、上下近似集计算、等价类获取等。其中有 RSES 标注的是与粗糙集理论相关的 算法。
3 实验操作
3.1 导入数据
wk.baidu.com
图 5 导入数据 1
图 6 选择数据格式
图 7 导入的数据 如图 7 所示,快速双击结点“No name”即可看到导入的数据。慢速双击结点“ No name”将其重命名为“流感诊断数据”。 3.2 进行属性约简
图 8 选择属性约简算法
系统参数的重要度越大,集合 X 的 R 边界域越小,当它达到 1 时表明用知识 R 可精确 描述集合 X,对划分而言也是一样的。当它为 0 表明用知识 R 无法判定论域 U 中任意元素是 否属于概念 X,也就是说知识 R 是可以约简的。
知识 Q 依赖于知识 P 的程度 k,记为 P→kQ,表示由 Q 导出的分类 U/Q 的正域覆盖来 知识库中论域 U 的 k×100%个元素。换句话说,论域中有 k×100%个元素可以通过知识 P 准 确划入到分类 U/Q 的等价类中。
它的 C++库源代码可以在网站:http://www.lcb.uu.se/tools/rosetta/上免费下载。
图 3 ROSETTA 图形界面展示 1 如图 3 所示,结点 A 表示从数据库导入的数据,结点 A1 表示对数据进行了补全操作 。 A2 和 A3 结点表示将数据分为训练数据和测试数据两类,A4,A5,A6,A7 是数据预处理 阶段,分别对训练数据和测试数据进行部分离散化和全部离散化操作。RED 结点表示对数 据进行了约简,双击该结点可以看到属性约简的结果。RUL 结点表示规则生成。 图标的 结点表示生成的结果数据文件。
粗糙集理论学习心得与
基于 ROSETTA 的决策表属性约简实验
陈 涛 (@chentao1999)
http://weibo.com/chentao1999
chentao1999@gmail.com
摘要
人类认知具有不确定性。粗糙集理论是处理这种不确定性的数学理论。粗糙集理论不断 发展的同时,粗糙集的应用也越来越广泛。主要集中在两个方面:1.粗糙集的知识约简 2.粗 糙集与其他方法的融合。
只有一个 Q 约简的知识 P 是确定的,因为当我们依照只是 P 的基本范畴将论域中的对 象划分到知识 Q 的基本范畴中时只有一种 P 的知识基(P 商集)可用。P 有多个 Q 约简时是 不确定的,因为有多种 P 的知识基可利用。
P 的 Q 核为空集时,知识 P 的不确定性达到最强。 不相容决策表,粗糙集理论的处理方法是对每个决策概念计算其上下近似,从下近似 导出的规则肯定成立,从上近似导出的规则可能成立,前者直接用于逻辑推理,后者有实 例支持。 属性约简算法分两种:1.盲目删除属性约简算法 2.启发式算法:通过定义属性的一个 重要度函数或差别函数来获取信息系统的属性约简。 常见的属性约简算法有:1.基于 Pawlak 属性重要度的属性约简算法。2.基于 Skowron 差 别矩阵的 IS 属性约简算法。3.基于信息熵的 IS 属性约简算法 粗糙集理论的重要作用之一是提供了一种有效的从数据中获取规则的方法和工具。 1.8 粗糙集与自然语言的不确定性 自然语言在表达事物的不确定性时往往用数量、频率、概率和程度等方式来描述事件从 模糊到精确的变化,以便表示对某一命题的信任程度。 程度型(A):considerably, a great deal, (very) much, (quite) a lot, rather, somewhat, a bit , a little , slightly, scarcely, hardly, only just; 程 度 型 (B) : exactly, precisely, just, virtually, practically, more or less, almost, nearly, approximately, about; 数 量 型 (C) : all/every/each, most, a majority, many/much, a lot, enough, some, a number, several, a minority, a few/little, no/none/not/any; 频率型(D) :always, not numerable, usual(ly), general(ly), regular(ly), often, frequent(ly), sometimes, occasional(ly), rate(ly), seldom, hardly ever; 概 率 型 (E) : certain(ly), definite(ly), undoubtedly, probably/probale, maybe, unlikely, improbable, doubtful, almost impossible 不确定性语言是可以度量的; 事物的不确定性具有一定的不确定性区间; 自然语言表示 事物的不确定性和进行不确定性推理时,虽然信息本身有随机性,但人的表示和推理不是 随机的,而是遵循一定的认识规律和行为法则。
集合的近似与划分的近似是两个不同的问题。划分中每一个范畴,如果我们能确定论域 中哪些元素是它的正例,也必然能确定它的反例。与粗糙集合的补集意义不同。 1.5 粗糙集的基本性质
粗糙集的基本性质,如成员的隶属关系、集合的包含关系、集合的相等关系都是相对的, 都与我们掌握的知识 R 相关。因此,可以认为粗糙集的方法是经典集合论方法的主观认识。
2 ROSETTA 工具集介绍:
ROSETTA 粗糙集数据分析工具集可能是目前最完整、最灵活和先进的粗糙集软件。它 是由波兰华沙大学和挪威科技大学用 C++联合开发的一个基于粗糙集理论框架的数据分析 工具包。它的雏形是挪威人 Aleksander Øhrn 在完成博士论文期间开发的粗糙集工具。
ROSETTA 实现了数据挖掘和知识发现的整个过程,包括多种数据导入导出、数据补全、 数据离散化、知识约简、过滤、分类、规则生成验证与分析以及获取等价类、上下近似集等功能。
信息论的度量主要任务是度量颗粒性知识属性特征的重要性和属性特征之间关系的相 依性程度。度量方法主要有:信息熵、条件熵和互信息。
信息熵度量了信息源提供的平均信息量的大小。互信息量度了一个信息源从另一个信息 源获取的信息量的大小。信息熵和互信息都随着知识粗糙性的增加而单调下降,通常反过来 不成立。 1.7 知识约简
减弱知识的分类能力。 参数重要度强的属性对知识的分类能力越强,但将参数重要度强的知识结合在一起,
分类能力不一定强。 如果所有 P 中的知识对于论域 U 中的对象正确地划分到知识 Q 的基本范畴
(IND(Q)等价类)都是必不可少的,那么知识 P 就是 Q 独立的。知识 P 的 Q 核是知识 P 最基本的特征部分。
粗糙集理论中的上下近似集就相当于人们日常表达的概念的外延和内涵。
图 1 集合的上下近似 如图 1 所示,折线相连构成的闭合区域表示不确定的概念 X,灰色外边界和黑色外边 界表示人们使用能够确定表达的概念,也就是概念 X 的外延和内涵。人们无法直接表达概 念 X,但可以通过 X 的外延和内涵间接表达。同时概念 X 的外延和内涵可以用来反映 X 的 不确定性即概念的不精确性。图中灰色区域越大,表示概念 X 的精确性越低。 由图 1 可以看出,概念 X 的表达只依赖于人们所了解的关于 X 的外延知识和内涵知识, 不需要预先知道额外信息。粗糙集理论对事物的不精确性表达不 需 要 任 何 假 定 的 先 验 知 识 , 只依赖于所给定的知识表达系统,通过上下近似算子直接计算得到,这一点与概率论和模 糊集合理论完全不同,这也是粗糙集理论受到广泛关注的原因之一。 1.2 知识是一种分类能力 粗糙集理论受到广泛关注的另一个原因是它对知识的观点。在粗糙集理论中,知识(人 的智能)是一种对对象进行分类的能力。这里的“对象”包括:实物,状态,抽象概念,过 程和时间等。我们通常用等价关系或关系来表示分类和知识。 粗糙集理论把知识定义为关于论域的划分模式,从而使知识具有了颗粒性,我们称其 为信息粒度或知识粒度,简称粒度。 1.3 信息系统
ROSETTA 粗糙集数据分析工具集是挪威人 Aleksander Øhrn 以他在博士论文期间开发 的粗糙集工具基础上发展而来的。具有数据导入导出、补全、离散化、知识约简、过滤、分类、规 则生成以及获取等价类、上下近似集等功能。
本文是《软计算方法及其应用》课程学习期间的心得和实验总结。共分四部分。第一部分 回顾《软计算方法及其应用》课程粗糙集部分的学习心得;第二部分介绍 ROSETTA 工具集 的功能、使用方法和应用实例。第三部分介绍基于 ROSETTA 的决策表属性约简实验。第四部 分是实验分析与总结。
信息系统和决策表中存在两种冗余:1.属性从整体角度而言存在冗余。2.属性从整体上 讲是必要的,但对某对象在该属性上的取值可能存在冗余,即属性值的冗余。
知识约简的一般步骤:1.删除表中重复对象。2.删除冗余的条件属性。3.删除每个对象的 冗余属性值。4.求出其约简。
知识的核是它最重要的部分,也就是最能体现知识特征的部分。1.核可以作为所有约简 的计算基础。2.核可以解释为知识特征的最主要部分,在知识约简时它不能被删除,否则将
图 2 是一个具体的信息系统实例。结合图 2,U={x1,x2,x3,x4,x5,x6},可以理解为 x1,x2…x6,6 个病人。A={头疼,肌肉疼,体温,流感}。V 是 A 的值域,对于属性头疼 V(头 疼)={是,否}。信息函数 f 是粗线框框出的部分。 1.4 粗糙集的特征
上文介绍了粗糙集理论中的概念:信息系统,上下近似集,划分等。下面介绍两种刻画 粗糙集的方法:用近似程度的精确度来表示粗糙集的数字特征(表示集合边界域的大小, 但没有说明边界域的结构);用粗糙集分类表示粗糙集的拓扑特征(没有边界域大小的信息, 提供了边界域的结构)。