概念格
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
概念格
在哲学中,概念被理解为由外延和内涵所组成的思想单元。基于概念的这一哲学理解,德国数学家Wille R.于1982年首先提出了形式概念分析用于概念的发现,排序和显示。形式概念分析,也成为概念格。形式概念分析理论是一种基于概念和概念层次的数学化表达。
形式概念分析的基础是形式背景(U、A。I),一个由对象集U,属性集A,以及U与A间的二元关系I构成的三元组。在形式背景的基础上,获得形式概念(X、B),其中X称为概念的外延,是属于这个概念的所有对象的集合;B称为内涵,是所有这些对象所具有的属性(特征)集。概念是外延和内涵的统一体。这种实现了对概念的哲学理解的形式化。
所有的概念同他们之间的泛化/例化关系构成一个概念格。概念格的每一个节点是一个形式概念。概念格结构模型是形式概念分析理论中的核心数据结构。它本质上描述了对象和特征之间的联系,表明了概念之间的泛化和例化关系,对应的Hasse图实现了对数据的可视化。因此,概念格被认为是进行数据分析的有力工具。
知识发现是从数据集中忠识别正确、新颖、有潜力应用价值的、以及最终可以为人们理解的模式的方法,数据库知识发现的过程就是讲数据库中蕴含的知识形式化成有用概念的过程,是人工智能的核心问题。概念格作为一种具有极大潜力的有效的知识发现工具,因此备受关注。
概念格主要用于机器学习,模式识别,专家系统,计算机网络,数据分析,决策分析,数据挖掘,信息检索等领域。
研究概念格的价值在于解决知识发现领域中所涉及的关联规则、蕴含规则、分类规则的提取,和实现信息的有机组织,减少冗余度,简化信息表等。
概念格理论的研究主要集中在一下几个方面:
(1)概念格的建造。
从数据集(概念格中称为形式背景)中生成概念格的过程实质上是一种概念聚类过程。对于同一批数据,所生成的格式唯一的。建格算法可以分为:批处理算法、渐进式算法(或称增减算法)、并行算法。
对于给定的形式背景(U、A、I)(其中对象集U,属性集A,以及U与A间的二元关系I),存在唯一一个偏序集合与之对应。由偏序集构成一种格结构,并且此偏序集满足自反性,反对称性和传递性。若u∈U,a∈A,uIa表示对象U具有a属性。
格中的每一个节点称之为概念,记作C(X,Y),X∈U是概念C(X,Y)的外延,Y ∈A是概念中对象的共有属性(内涵)。
节点概念与节点概念之间存在着偏序关系,若有概念C1=(X1,Y1)C2=(X2,Y2),并且X1〉X2〈=〉Y1〈Y2,称C1为C2的父节点。概念格的实行背景通常是由如下表所示的二维数组来表示,第i行J列的数值为一表示存在该属性,为0表示不存在该属性。
批处理算法根据去构造格的不同方式,可以分为三类:从顶向下算法,从底向上算法,枚举算法。1、从顶向下算法是先构造全概念,也就是由最上层的节点,然后依次生成该节点的所有可能的子节点,并且对每个子节点做上述操作,最后将所有存在父子关系的节点相连,算法的关键在于如何生成子节点,虽然简洁直观且易实现,但存在生成许多冗余节点的问题。2、自底而上算法关键在于如何完成下一个层次的各个序对到上一个层次的合并,并且要对生成的节点进行重复性判断。如果在上层中出现操作之前删除该节点。问题是:合并过程中会产生大量的重复性节点,效率不高,不能生成相应的Hasse图,不具备直观性。3、枚举算法则按照一定的顺序枚举出格内的节点,在生成Hasse图的同时,表达出各个节点之间的关系。4、增量算法或者说是渐进算法的主要思想是将待插入的对象与格内已存在的概念节点进行交运算,根据结果的不同使用相应的处理方法。
对于新插入的实例,对格内的节点会产生以下三种不同的影响:(1):更新节点,该类节点内涵包含在心的对象内涵之中,仅仅需要将新对象的外延加入到外延中即可:(2):不变节点,这种节点的内涵和新对象的内涵关系,没有任何交集,不做任何修改;(3):新增节点。信节点对象的内涵与格内节点内涵的交集首次出现,即原格内所没有的新概念需要添加的节点。
渐进式生成概念格的求解过程忠,要着重解决三类问题:如何生成新节点、如何避免重复节点的产生和如何更新链接节点的边。下面是一个渐进式算法建造概念格的简要过程:基本思想是先求属性(对象)基本概念,再由基本概念生成其他概念,由于在生成信得概念进行集合的交运算时,对象集(属性集)会不断的变小,而对象集(属性集)是有限,故当对象集或属性集交为空时,算法结束空。
构造形式背景表3-1相应概念格的过程
并行算法是针对数据规模较大时,概念格求解子啊时间复杂度和空间复杂度上计算量日益突出而替补。问题的主要矛盾在于如何协调集中式的数据存储方式与串行式的算法设计。并行算法思想的提出依赖于高性能计算机与网络并行计算的能力,综合了批处理算法的并行性和渐进算法的高性能性。
(2)概念格的约简。
概念格的约简能够有效地提高概念格的维护效率。使形式背景中所蕴含的知识易于发现,简化知识的表示方式。约简概念格实际上是在保持对象集不变的条件下,如何求得最小的属性集的过程。国内的研究主要是以张文秀等提出的理论为基础。给出概念格属性约简的判定定理,引入形式背景的可辨识属性矩阵。并以此为基础求得属性求得约简的方法。在最坏的情况下,概念格中的节点是按指数增长的,所以在非常大的数据集的情况下,控制概念格忠的节点的增长是必须的。概念格的简化就是对概念格的修剪以控制概念格中节点的增长。一般建格的方法的不同采用的修剪方法也不同。比如,建格的批处理算法Bordat是引入一个支持度门限,在建格过程忠对于支持度小雨门限的节点不予继续展开而达到修剪的目的,增量算法情形复杂一些,由于维护格的特性,修剪只能从格的底部开始进行。
(3)规则提取
概念格上的规则提取具有广泛的应用前景。规则挖掘时今年来数据挖掘的研究课题,每个概念格节点本质上就是一个最大项目集,为关联规则挖掘提供了平台,体现了概念之间的包含与分类关系。更加易于理解和表示。由于规则本身是由包含和被包含关系,正式由于概念节点同一了内涵与外延之间的关系,给予概念格的分类规则的提取在知识发现等方面有着广泛的应用。目前,对于概念格上分类规则的研究主要集中在优化概念格的构建和求解算法上。
(4)模糊概念格和基于神经网络的概念格。
由于各个应用领域中存在的信息具有复杂性和不确定性,在处理以上问题时。传统的形式概念分析很难将模糊理论与形式概念分析结合起来,由此产生了模糊形式概念分析。
粗糙集理论是一种新的处理模糊和不确定性知识的数学工具。其理论的主要思想是在保持基本分类能力不变的前提下。利用不可分辨关系来描述等价关系上不可定义的知识。即