大数据挖掘的粒计算理论与方法-JiyeLiang
粒计算研究综述
第2卷第6期 智 能 系 统 学 报 V ol.2 .62007年12月 CAAI T ransactions on Intelligent Systems D ec.2007粒计算研究综述王国胤1,2,张清华1,2,胡 军1,3(1.重庆邮电大学计算机科学与技术研究所,重庆400065; 2.西南交通大学信息科学与技术学院,四川成都610031;3.西安电子科技大学电子工程学院,陕西西安710071)摘 要:粒计算(gr anular computing)是当前计算智能研究领域中模拟人类思维和解决复杂问题的新方法.它覆盖了所有有关粒度的理论、方法和技术,是复杂问题求解、海量数据挖掘、模糊信息处理的有效工具.首先回顾了粒计算研究和发展状况,介绍了粒计算的基本组成和问题,综述了粒计算的基本模型和方法,并讨论了它们之间的相互关系,最后探讨了构建统一的粒计算模型、复杂问题空间的粒化、粒层之间的转换、高效的粒计算方法、新的粒计算模型、动态粒计算模型、自主粒计算模型、粒计算方法的模糊化以及粒计算模型的应用和推广等几个方面的关键问题.关键词:粒计算;数据挖掘;智能信息处理;粗糙集;模糊集;商空间中图分类号:T P18 文献标识码:A 文章编号:1673 4785(2007)06 0008 19An overview of granular computingWAN G Guo yin 1,2,ZHANG Qing hua 1,2,HU Jun 1,3(1.Institute of Comput er Science &T echno lo gy ,Cho ng qing U niversit y of Po st s and T eleco mmunications,Chong qing 400065,China;2.Scho ol of Infor matio n Science &T echnolog y,Southwest Jiao tong U niv ersit y,Chengdu 610031,China; 3.School of Electro nic Engineer ing,Xidian U niver sity,Xi an 710071,China)Abstract:In the field of com putational intelligence,granular computing (GrC)is a new w ay to simulate hu m an thinking to help solve co mplicated problems.Gr C involv es all the theories,methodo logies and tech niques o f granularity,pr oviding a pow erful to ol for the so lution of complex problems,m assiv e data min ing,and fuzzy information pr ocessing.In this paper,first the current situation and the developm ent pros pects of GrC are introduced,then the fundamental and ex isting problem s r elated to GrC ar e presented and its basic models and metho ds summ arized.Finally,som e future research topics abo ut GrC are presented,such as,uniform granular co mputing mo del,granulation of complex pro blem space,transform ation be tw een granule spaces,efficient g ranular co mputing algor ithm,nov el g ranular co mputing model,dy namic granular co mputing m odel,data driven g ranular co mputing m odel,fuzzy gr anular co mputing method,and the applications of gr anular computing models,etc.Keywords:g ranular computing;data m ining;intelligent inform ation processing;roug h sets;fuzzy sets;quotient space收稿日期:2007 04 02.基金项目:国家自然科学基金资助项目(60573068);新世纪优秀人才支持计划;重庆市教委科学技术研究资助项目(KJ060517).自Zadeh 1979年发表论文!Fuzzy sets and in form ation granularity ∀以来[1],研究人员对信息粒度化的思想产生了浓厚的兴趣.Zadeh 认为很多领域都存在信息粒的概念,只是在不同领域中的表现形式不同.自动机与系统论中的!分解与划分∀、最优控制中的!不确定性∀、区间分析里的!区间数运算∀、以及D S 证据理论中的!证据∀都与信息粒密切相关.H obss 在1985年直接用!粒度(granularity)∀作为论文题目发表论文[2],讨论了粒的分解和合并,以及如何得到不同大小的粒,并提出了产生不同大小粒的模型.Lin 在1988年提出邻域系统并研究了邻域系统与关系数据库之间的关系[3].1996年,他在U C Berkeley 大学访问时,向Zadeh 提出作!granular computing∀的研究,Zadeh称之为!g ranular mathematics∀,Lin改称为!granular co mputing∀,并缩写成Gr C.他发表了一系列关于粒计算与邻域系统的论文[4-10],主要是研究二元关系(邻域系统、Rough集和信任函数)下的粒计算模型,论述基于邻域系统的粒计算在粒结构、粒表示和粒应用等方面的问题,讨论了粒计算中的模糊集和粗糙集方法,并将粒计算方法引入数据挖掘和机器发现.依据人们在解决问题时能从不同的粒度世界去分析和观察同一问题,并且很容易地从一个粒度世界转到另一个粒度世界,张钹和张铃在1990年针对复杂问题求解,建立了一种复杂问题求解的商结构形式化体系,给出了一套解决信息融合、启发式搜索、路径规划和推理等问题的理论和算法[11-12].1997年,Zadeh进一步指出[13],世上有3个基本概念构成人类认知的基础:粒化、组织及因果关系.其中,粒化是整体分解为部分,组织是部分结合为整体,而因果关系则涉及原因与结果间的联系.物体的粒化产生一系列的粒子,每个粒子即为一簇点(物体),这些点难以区别,或相似、或接近、或以某种功能结合在一起.一般来说,粒化在本质上是分层次的,时间可粒化为年、月、日、小时、分、秒就是大家熟悉的例子.在Lin的研究基础上,Yao结合邻域系统对粒计算进行了详细的研究[14-16],发表了一系列研究成果[17-22],并将它应用于知识挖掘等领域,建立了概念之间的if then规则与粒度集合之间的包含关系,提出利用由所有划分构成的格求解一致分类问题,为数据挖掘提供了新的方法和视角.结合粗糙集理论,Yao探讨了粒计算方法在机器学习、数据分析、数据挖掘、规则提取、智能数据处理和粒逻辑等方面的应用.Yao给出了粒计算的3种观点[22]:1)从哲学角度看,粒计算是一种结构化的思想方法;2)从应用角度看,粒计算是一个通用的结构化问题求解方法;3)从计算角度看,粒计算是一个信息处理的典型方法.随着粒计算研究的发展,近年来国内外又有很多学者加入到了粒计算研究的领域.为了探讨粗糙集理论在各种环境下的应用,Skow r on[23-27]以包含度概念来研究粒近似空间上的Rough下近似和Rough上近似.刘清[28-30]在Roug h逻辑的基础上,提出了粒-逻辑的概念(G 逻辑),构造了这种逻辑的近似推理系统,并应用于医疗诊断.近几年来,在掀起粒计算研究的热潮中,商空间理论被人们广泛认识和推广,2003年张铃和张钹将模糊概念与商空间理论结合,提出模糊商空间理论,为粒计算提供了新的数学模型和工具,并成功应用于数据挖掘等领域[31-35].2002年苗夺谦等人[36]对知识的粒计算进行探讨,引入属性的重要度,并在求最小属性约简方面得到应用.王飞跃等人[37]对词计算和语言动力学进行了探讨,以词计算为基础,对问题进行动态描述、分析和综合,提出了设计、控制和评估的语言动力学系统.王国胤等人[38-44]提出了基于容差关系的粒计算模型,利用属性值上的容差关系给出了不完备信息系统的粒表示、粒运算规则和粒分解算法,同时结合粗糙集中的属性约简问题,提出了不完备信息系统在粒表示下属性必要性的判定条件,对粒计算方法在规则提取方面进行了探索.郑征等人[45-47]提出了相容粒度空间模型,并在图像纹理识别和数据挖掘中取得了成功,他们认为,人类具有根据具体的任务特性把相关数据和知识泛化或者特化成不同程度、不同大小的粒的能力,以及进一步根据这些粒和粒之间的关系进行问题求解的能力.卜东波等人[48]从信息粒度的角度剖析聚类和分类技术,试图使用信息粒度原理的框架来统一聚类和分类,指出从信息粒度的观点来看,聚类是在一个统一的粒度下进行计算,而分类却是在不同的粒度下进行计算,并根据粒度原理设计了一种新的分类算法,大规模中文文本分类的应用实践表明,这种分类算法有较强的泛化能力.Zhang等人[49-50]对粒神经网络进行了探讨,并在高效知识发现中得到很好的应用.李道国等人[51]研究了基于粒向量空间的人工神经网络模型,在一定程度上提高了人工神经网络的时效性、知识表达的可理解性.杜伟林等人[52]根据概念格[53]与粒度划分在概念聚类的过程中都是基于不同层次的概念结构来进行分类表示,而且粒度划分本身构成一个格结构的特点,研究了概念格与粒度划分格在概念描述与概念层次转换之间的联系,通过对概念的分层递阶来进行概念的泛化与例化,使概念在递阶方面忽略不必要的冗余信息.Yager[54]探讨了基于粒计算的学习方法和应用.Lin[55]在2006年粒计算国际会议上提出了新的研究思路!infrastruc tures for AI engineering∀.同时,Bargiela和Pe dry cz[56]也从各个侧面对粒计算的根源和实质进行了详细的探讨和总结.Yag er指出,发展信息粒的操作方法是当前粒计算研究的一个重要任务[57].1 粒计算的基本组成粒计算的基本组成主要包括3部分:粒子、粒层#9#第6期 王国胤,等:粒计算研究综述和粒结构.1 1 粒 子粒子是构成粒计算模型的最基本元素[58-59],是粒计算模型的原语.一个粒可以被解释为许多小颗粒构成的一个大个体,现实生活中,粒子无处不在,如在地图上观察洲、国家、海洋、大陆和山脉等是一些粗的粒子(大的粒子),观察省、市、区等是一些中等的粒子,而观察街道、饭店、机场等是一些相对较小的粒子.一个粒子可以被同时看作是由内部属性描述的个体元素的集合,以及由它的外部属性所描述的整体.一个粒子的存在仅仅在一个特定的环境中才有意义.一个粒子的元素可以是粒子,一个粒子也可以是另外一个粒子的元素.而衡量粒子!大小∀的概念是粒度,一般来讲,对粒子进行!量化∀时用粒度来反映粒化的程度[59].1 2 粒 层按照某个实际需求的粒化准则得到的所有粒子的全体构成一个粒层,是对问题空间的一种抽象化描述.根据某种关系或算子,问题空间产生相应的粒子.同一层的粒子内部往往具有相同的某种性质或功能.由于粒化的程度不同,导致同一问题空间会产生不同的粒层.粒层的内部结构是指在该粒层上的各个粒子组成的论域的结构,即粒子之间的相互关系.在问题求解中,选择最合适的粒层对于问题求解尤为关键,因为,在不同粒层求解同一问题的复杂度往往不同.在高一级粒层上的粒子能够分解成为下一级粒层上的多个粒子(增加一些属性),在低一级粒层上的多个粒子可以合并成高一级粒层上的粒子(忽略一些属性).粒计算模型的主要目标是能够在不同粒层上进行问题求解,且不同粒层上的解能够相互转化.1 3 粒结构一个粒化准则对应一个粒层,不同的粒化准则对应多个粒层,它反应了人们从不同角度、不同侧面来观察问题、理解问题、求解问题.所有粒层之间的相互联系构成一个关系结构,称为粒结构[20].粒结构给出了一个系统或者问题的结构化描述.通过从系统思维、复杂系统理论和层次结构理论(技术)中得到的启发至少需要确定一个粒结构网[20]中3个层次的结构:粒子的内部结构、粒子集结构和粒子网的层次结构.粒子集的集体结构可以看作是全部层次结构中一个层次或者一个粒度视图中的结构.它本身可以看作是粒的内部连接网络.对于同一个系统或者同一个问题,许多解释和描述可能是同时存在的.所以,粒结构需要被模型化为多种层次结构,以及在一个层次结构中的不同层次.虽然一个粒子在某个粒层上被视为一个整体,但粒子内部元素(子粒子)的结构在问题求解时也很重要,因为它能提供粒子更为详细的特性.而在同一层上的粒子之间也具有某种特殊的结构,它们可能是相互独立,或者部分包含.如果同一粒层上的粒子之间的独立性越好,可能问题求解后合并起来越方便;反之,如果粒子之间的相关性越好,则问题求解后的合并工作相对越繁杂.粒子网的层次结构是对整个问题空间的概括,它的复杂性在一定程度上决定了问题求解的复杂程度.2 粒计算的基本问题粒计算中存在2个最基本的问题,即粒化和粒的计算.问题空间的粒化是指将问题空间分解为许多子空间,或是基于有用的信息和知识将问题空间中的个体聚集成不同的类,这些类称之为粒.粒中的元素可以理解为对应概念的实例.可以把粒计算和概念生成、知识发现和数据挖掘联系起来,因为概念生成的目的之一是对具有某些概念的粒的表示、特征化、描述和解释,而知识发现和数据挖掘就是在粒之间建立关联和因果等联系.2 1 粒 化粒化是问题求解空间的一个构造性过程,它可以简单理解为在给定粒化准则下得到一个粒层的过程,是粒计算基础单元的构建,包括粒子、粒视图、粒网和层次结构.在不同的粒化准则下就得到多个粒层,进而得到粒层的网络结构.通常的粒化方法有自顶而下通过分解粗粒子得到细粒子的方法,和自底向上将细粒子通过合并得到粗粒子的方法.粒化过程是粒计算的必要过程.问题空间的粒化过程主要涉及粒化准则、粒化算法(方法)、粒子和粒结构的表示(描述)以及粒子和粒结构的定性(定量)描述等问题[59].粒化准则主要是语义方面的问题,解决为什么2个对象能放进同一个粒子内的问题.它是根据实际问题求解的具体需求和具体精度要求得到的.粒化准则的一个基本要求是忽略掉那些无关紧要的细节,从而达到降低问题求解复杂度的目的.粒化方法面对实际问题,回答如何对问题空间进行粒化,采用什么算法或工具实现粒层的构造,它属于算法方面的问题.如在粗糙集理论中,如何对对象集进行划分产生粒层,如何高效实现属性的约简等问题.粒子的结构描述主要是用粒化方法得到的粒子,如何用形式化的语言表述出来,以便后面进行计算.例如在粗糙集理论模型中,粒子的表示可能是一个子集.而#10#智 能 系 统 学 报 第2卷在概念格理论中,粒子的表述就是一个概念,它包括概念的外延(一个对象子集)和内涵(一个属性子集) 2部分.粒结构的描述往往形式多样,在商空间理论模型中,粒结构是一种分层递阶的结构,在概念格模型中,粒结构是一种H asse图.粒子和粒结构的定性、定量描述主要指粒子和粒结构的大小(主要是指粒度的结果)和复杂性度量.当前,成功的粒化方法往往都是以将解空间形成划分空间为主要的目标,这样便于将子空间上的解合成原问题空间的解,商空间理论就是这样一个成功的实例.当然,如果用某种粒化方法形成的解空间不是划分(如覆盖),这将增加合成的复杂度.2 2 粒的计算以粒子为运算对象进行问题的求解或推理,是狭义的粒计算.粒计算可以通过系统访问粒结构来解决问题,包括在层次结构中向上和向下2个方向的交互,以及在同一层次内的移动,主要分为2种[59]:同一粒层上粒子之间相互转换和推理,不同粒层上粒子之间的转换或推理.不同粒层之间的联系可以由映射来表示,在不同粒层上同一问题以不同的粒度、不同的细节表示,粒层之间的映射就建立了同一问题的不同细节描述之间的关系.商空间理论模型就是通过自然投影建立了分层递阶的商空间链式结构.粒计算的主要特点是同一问题的解可以在不同粒层之间自由转化.正是基于这一点,人们才能用粒计算方法高效地实现复杂问题的求解.模糊商空间上的分层递阶结构可以通过模糊等价关系的截关系建立相应的转化联系;粗糙集理论中的划分粒度可以通过属性的增加或删减来控制;而概念格理论模型中的概念粒子的相互转化可以通过改变概念的内涵来实现.这些转化虽然方式不同,但一个共同的特点是在转化的过程中,问题求解的重要性质必须能在不同粒层上表现出来,这也是评价粒化方法好坏的一个重要指标.如果在粒化后粒层之间的相互转化过程中,某些重要属性不能体现出来,这不但不利于问题的求解,反而会导致问题求解过程发散,从而增加问题求解的复杂度.商空间理论模型中的!保真∀和!保假∀原理使得粒化后形成的商空间具有!保序∀性,使得问题求解的搜索空间大大减少,复杂度由相乘变为相加.粒计算的2个基本问题中,粒化是关键,它直接决定粒计算的成功与否.因此,粒化方法是人们研究的热点问题.目前,粒化方法很多,如基于等价关系的划分产生粒子[17],基于模糊集产生模糊信息粒[1],基于模糊等价关系截集产生分层递阶粒空间[35],基于概念格产生概念信息粒和概念知识粒[60],基于邻域系统产生邻域粒子[3]等等.总之,粒计算是一个多准则学科,它从许多领域中获得其基本的思想、准则和方法,是基于不同层次粒度和细节的问题求解的一般性理论.在粒计算的!大伞∀下进行统一的研究,可以发现不同学科之间原理的关联,它与具体的学科研究是相互独立的[59].一旦掌握了粒计算中的结构化思维和结构化问题求解的抽象思想,就可以很容易地在任何领域中运用.3 粒计算的主要模型与理论方法3 1 词计算模型高标准的精确表达,普遍存在于数学、化学、工程学和另外一些!硬∀科学之中,而不精确表达却普遍存在于社会、心理、政治、历史、哲学、语言、人类学、文学、文艺及相关的领域中[61].针对复杂且非明晰定义的现象,无法用精确的数学方法来描述,但可以用一些程度词语,如不很可能、十分不可能、极不可能等,来对某些模糊概念进行修饰.尽管普通的精确方法(如数学)在某些科学领域应用相当广泛,也一直尝试着应用到人文学科中,但人们在长期的实践中已经清楚地认识到精确的方法应用到人文学科有很大的局限性.面对巨大而又复杂的人文学科系统,区别于传统方法的新方法∃∃∃模糊计算方法被Zadeh提出.在人类的认识中,粒的模糊性直接源于无区别、相似性、接近性以及功能性等这些概念的模糊性.人类具有在不精确性、部分知识、部分确定以及部分真实的环境下作出合理决策这一不同寻常的能力,而模糊信息粒化正是这种能力的基础.在模糊逻辑中,模糊信息粒化是语言变量、模糊!if then∀规则以及模糊图的基础.词计算(com puting w ith w o rds)是用词语代替数进行计算及推理的方法[62].如何利用语言进行推理判断,这就要进行词计算.信息粒化为词计算提供了前提条件,词计算在信息粒度、语言变量和约束概念上产生了自己的理论与方法,意在解决模糊集合论的数值化隶属度函数表示法的局限性、表达的概念缺乏前后联系、逻辑表达和算子实现的复杂性等问题,使它们能够更符合人类的思维特点.词计算有狭义和广义2个方面的概念.狭义的模糊词计算理论是指利用通常意义下的数学概念和运算(如加、减、乘、除等)构造的带有语义的模糊数值型的词计算的理论体系;广义的词计算理论统指用词进行推理、用词构建原型系统和用词编程,前者是后者的基#11#第6期 王国胤,等:粒计算研究综述础[63].模糊逻辑在词计算中起中心作用,它可以近似地被认为与词计算相同[62].在词计算中存在2个核心问题:模糊约束的表现问题和模糊约束的繁殖问题,它们是模糊信息粒化的基本准则.信息粒化(infor mation granulation)是粒化的一种形式.在众多的信息粒化中,非模糊粒化的方法很多,如将问题求解空间形成划分空间,每个粒子都是精确的.但这种粒化方法不能解决很多现实问题,如将人的头部粒化为脸、鼻子、额头、耳朵、头盖、脖子等粒子,这些粒子之间没有明确的分界线,它们都是模糊的粒子.模糊信息粒化是传统信息粒化的一种推广.模糊信息粒化理论[64-65](theor y of fuzzy information g ranulation,TFIG)建立在模糊逻辑和信息粒化方法基础之上,是从人类利用模糊信息粒化方式中获得的启发,其方法的实质是数学.Zadeh指出[64],除模糊逻辑外,没有一种方法能提供概念框架及相关技术,它能在模糊信息粒化起主导作用.继Zadeh之后,许多学者开始了有关词计算的研究工作,Wang[66]编写了词计算一书.广义词计算理论的研究工作,中国刚刚起步,李征等人[67-68]通过研究模糊控制器的结构,认为模糊控制实际上是应用了信息粒化和词计算技术,但却只是应用了该技术的初级形式,而基于信息粒化和词计算(IGCW)的模糊控制系统,将具有更强的信息处理和推理判断能力,是对人类智能更高程度的模拟.他们指出,基于信息粒化和词计算的模糊控制系统是通过信息粒化和重组、多层次的思维决策,动态地改变下层控制器的参数和推理方法或控制规则,因而使控制器具有变结构和多模态的特性.信息太多会延误推理计算的时间,给系统带来不必要的处理任务;而信息太少,则会降低推理结果的完善性.因此,提出了合理重新组织信息的研究课题.随着近年来智能信息处理的不断深入与普及,特别是处理复杂系统分析与评估时的迫切需要,人们越来越发现排除自然语言的代价太大了.首先,从应用角度来看,人类已习惯于用自然语言描述和分析事物,特别是涉及社会、政治、经济和管理中的复杂过程.人类可以方便地利用以自然语言表示的前提进行推理和计算,并得到用自然语言表达的结果;其次,从理论角度来看,不利用自然语言,现有的理论很难甚至不能够处理感性信息,而只能处理测度信息.感性信息或知识通常只能用自然语言来描述,由于人类分辨细节和存储信息的认知能力的内在限制,感性信息在本质上是不精确的[69-72].W ang利用自然语言知识和信息,建立以词计算为基础的语言动力学系统(linguistic dynamic system s,LDS),并通过融合几个不同领域的概念和方法[37],提出基于词计算的语言动力学系统的计算理论框架,根据这个计算理论框架,利用常规或传统数值动力学系统中已有的成熟概念和方法,对语言动力学系统进行动力学分析、设计、控制和性能评估.这些研究的目的是建立连接人类的语言知识表示与计算机的数字知识表示的桥梁,成为下一代智能化人机交互的理论基础之一.总之,词计算理论和方法对于复杂信息系统的模糊推理和控制非常重要,但由于自身的局限性,它必须和其他理论体系相结合,才能更有效地处理复杂信息.3 2 粗糙集模型一个对象属于某个集合的程度随着属性粒度的不同而不同,为了更好地刻画集合边界的模糊性,波兰学者Paw lak[73]在20世纪80年代提出了粗糙集理论,其本质思想是利用不可分辨关系(等价关系)来建立论域的一个划分,得到不区分的等价类(即不同属性粒度下的概念粒),从而建立一个近似空间(由不同大小的概念粒形成).在近似空间上,用2个精确的集合(上近似集和下近似集)来逼近一个边界模糊的集合.如果近似空间的粒度较粗,被近似的集合的边界域较宽,而如果近似空间的粒度较细,被近似集合的边界域较窄.给定集合X上的一个划分等价于在X上给定一个等价关系R.X/R表示U上由R导出的所有等价类,[x]R表示包含元素x的等价类,其中x%U. Paw lak称之为在论域上给定了一个知识基(X,R),然后讨论一个一般的概念X(U中的一个子集)如何用知识基中的知识来表示.对那些无法用(X,R)中的集合的并来表示的集合,借用拓扑中的内核和闭包的概念,引入下近似和上近似的概念:R-(X)= {x%U|[x]R X}和R-(X)={x%U|[x]R&X∋ }.当R-(X)∋R-(X)时,就称X为粗糙集,从而创立了!粗糙集理论∀.粗糙集理论是一种软计算方法.软计算(soft computing)概念是由模糊集创始人Zadea提出的[61-65].传统的计算方法即所谓硬计算,使用精确、固定和不变的算法来表达和解决问题;而软计算的指导原则是利用所允许的不精确、不确定性和部分真实性得到易于处理、鲁棒性强和成本较低的解决方案,以便更好地与现实系统相协调.粗糙集理论的研究,已经经历了20多年的时间,无论是在系统理论、计算模型的建立和应用系统的研制开发上,都已经取得了很多成果,也建立了一套较为完善的粗糙集理论体系[74-75].目前粗糙集理#12#智 能 系 统 学 报 第2卷。
基于粒计算的数据挖掘与数据分析
聚类结果评估
粒计算可以用于评估聚类 结果的质量,以便更好地 理解数据分布。
特征选择
粒计算可以用于选择对聚 类结果影响最大的特征, 以提高聚类效果。
粒计算在异常检测中的应用
基于密度的异常检测
01
粒计算可以用于基于密度的异常检测算法中,以更好
地识别异常点。
基于距离的异常检测
02 粒计算可以用于基于距离的异常检测算法中,以更好
02
基于粒计算的数据挖掘
粒计算在数据挖掘中的应用
01
02
03
简化数据集
通过将数据集划分为不同 的粒度,可以简化数据集 ,提高数据挖掘的效率。
特征提取
粒计算可以用于提取数据 集中的特征,以便更好地 表示数据。
数据预处理
粒计算可以用于数据预处 理,例如去除噪声、填充 缺失值等。
粒计算在关联规则挖掘中的应用
离群点检测
基于粒计算的离群点检测方法通过检测离群点,将离群点剔除,实 现数据的压缩。
粒计算在数据融合中的应用
多源数据融合
基于粒计算的多源数据融合方法通过对不同来源的数据进行融合 ,获得更全面和准确的数据。
数据去重
基于粒计算的数据去重方法通过对数据进行近似处理,去除重复 数据,提高数据的质量。
数据插值
基于粒计算的数据插值方法通过对数据进行插值处理,获得更准 确的数据。
04
基于粒计算的算法优化
基于粒计算的算法优化方法
规则合并法
将多条规则合并为一条规则,从而减少规则的数量,降低算法的复 杂度。
规则约简法
在保持分类准确度的基础上,删除冗余的规则,从而减少规则的数 量,提高算法的效率。
规则优化法
根据一定的评价标准,对生成的规则进行排序,选择优质的规则,从 而提高算法的精度。
基于粒计算的数据挖掘算法研究
基于粒计算的数据挖掘算法研究一、引言在信息时代的今天,数据的产生和积累呈现出爆炸式的增长,如何从庞杂的数据中发现有用的信息成为了数据挖掘的重要任务之一。
粒计算作为一种新兴的计算模型,可以有效地处理模糊和不确定的信息,因此被广泛应用于数据挖掘领域。
本文将基于粒计算的数据挖掘算法进行研究。
二、粒计算概述粒计算是一种计算模型,通过将对象划分为粒来处理模糊和不确定的信息。
粒的概念首次由日本学者石井裕引入,并在随后的研究中不断完善和发展。
粒计算以粒为基本单位,通过对粒的特征和关系进行分析和推理来处理数据。
粒计算将数据分为粗糙粒、模糊粒和概率粒等不同类型,根据具体问题选择合适的粒计算模型进行处理。
三、粗糙粒数据挖掘算法粗糙集理论是粒计算的一种具体实现方式,通过将数据划分为粗糙集来处理不确定的信息。
粗糙集理论在数据挖掘中可以用来处理特征选择、属性约简、关联规则挖掘等任务。
粗糙粒数据挖掘算法通过计算属性之间的上近似和下近似来挖掘数据之间的关系和规律。
其中,基于粗糙集的特征选择算法主要通过计算属性之间的依赖度来选取最具代表性的特征,以达到降低数据维度和提高分类准确率的目的。
四、模糊粒数据挖掘算法模糊粒数据挖掘算法是通过将数据划分为模糊粒来处理模糊和不确定的信息。
模糊粒数据挖掘算法主要包括模糊聚类、模糊关联规则挖掘和模糊分类等任务。
其中,模糊聚类算法通过将数据划分为模糊粒来将相似的对象聚类在一起,以揭示数据的内在结构和关系。
模糊关联规则挖掘算法通过挖掘数据中的模糊关联关系,发现隐藏在数据背后的有价值模式。
模糊分类算法通过对数据进行建模和分类,实现精细的分类效果。
五、概率粒数据挖掘算法概率粒数据挖掘算法通过将数据划分为概率粒来处理不确定和随机的信息。
概率粒数据挖掘算法主要包括贝叶斯网络、隐马尔可夫模型和条件随机场等算法。
其中,贝叶斯网络通过建立概率图模型来表示变量之间的依赖关系,并通过给定观测数据来进行推理和预测。
隐马尔可夫模型通过组合隐含状态和观测数据,来建模和预测具有时序关系的数据。
粒计算理论的研究及其应用
粒计算理论的研究及其应用在现代科技越来越发达的时代,我们的生活中充满了科技的影响。
科技的进步不仅给我们的生活带来了更多的便利,同时也改变了我们的生活方式。
粒计算理论作为一种新兴的计算模型,其应用将给我们的生活带来更多的可能性。
1. 粒计算理论的研究粒计算理论是一种计算理论模型,与传统的图灵计算模型相比,其主要特点是在计算处理中具有模糊性、不确定性、粗糙性和近似性。
该理论的研究起初是为了解决现实问题中的模糊性和不确定性,而后逐渐发展为一种新的计算模型。
粒计算理论的主要研究内容包括:粗糙集理论、模糊集理论、格理论、近似推理算法等。
这些理论的研究为粒计算的应用提供了坚实的基础。
2. 粒计算理论在人工智能中的应用粒计算理论在人工智能领域中的应用非常广泛,其主要应用包括:模糊控制、模糊逻辑、人工神经网络、智能优化算法等。
模糊控制是指利用模糊数学理论来进行控制的方法。
通过对模糊控制系统的研究,可以使得控制系统的效果更加优良,并且能够适应更多的场景。
模糊逻辑是将模糊数学中的模糊概念引入到逻辑中,从而使得我们可以用更贴近人类思维的方式来进行推理。
利用模糊逻辑进行推理的方式非常符合人类思维方式,因此可以帮助我们更好地理解环境和问题,并且能够在问题处理中对结果进行更准确的预测。
人工神经网络是一种模仿人脑神经活动的计算系统,其主要采用了模拟神经元之间的相互作用来解决问题。
通过引入粒计算理论,我们可以更好地处理具有不确定性和模糊性的问题。
智能优化算法是指一种可以求取最优解的算法。
常见的智能优化算法包括遗传算法、粒子群算法、蚁群算法等。
将粒计算理论引入到这些算法中,可以更好地解决一些经典的优化问题。
3. 粒计算理论在其他领域中的应用除了在人工智能领域中的应用之外,粒计算理论在其他领域中也有着广泛的应用。
例如,在医疗领域中,可以利用粒计算理论来预测疾病的治疗效果和预后情况;在金融领域中,可以利用该理论来进行金融风险评估和股票预测等。
基于粒计算的系统建模及数据特征构建
基于粒计算的系统建模及数据特征构建汇报人:2023-12-11•引言•基于粒计算的模型构建•数据特征构建目录•基于粒计算的模型评估•实验与分析•结论与展望01引言当前,随着大数据时代的到来,数据呈现出爆炸式增长的趋势,如何有效地管理和处理这些大规模数据成为一个亟待解决的问题。
它通过对数据进行粒度划分,以更粗粒度的方式对大规模数据进行处理和分析,从而提高了数据处理效率。
粒计算作为一种处理大规模数据的理论和技术,近年来受到了广泛关注。
基于粒计算的系统建模及数据特征构建对于解决实际应用问题具有重要意义,如推荐系统、图像处理、自然语言处理等。
研究背景与意义研究内容与方法本文旨在研究基于粒计算的系统建模及数据特征构建方法,主要包括粒计算的基本理论、系统模型的构建方法、数据特征的提取与表示方法等。
研究方法本文采用理论分析和实证研究相结合的方法,首先对粒计算的基本理论进行深入探讨,然后构建基于粒计算的模型,最后通过实验验证模型的有效性和可行性。
02基于粒计算的模型构建粒计算是一种处理不确定、模糊和不完全信息的理论框架,通过将问题中的对象或属性进行划分,形成不同的粒度,从而简化问题的复杂性。
粒计算包括粗糙集理论、商空间理论、概念格理论等多种理论,这些理论都强调对信息的粒度划分和处理。
粒计算的基本思想是将问题中的信息进行分层抽象,形成一系列的粒度,每个粒度都具有特定的性质和特征。
粒计算基本原理在构建基于粒计算的模型前,需要明确问题的目标和约束条件,以便为后续的粒度划分提供指导。
确定问题的目标和约束条件对问题进行粒度划分建立粒度之间的关系建立基于粒计算的模型根据问题的特性和目标,将问题中的对象或属性进行划分,形成不同的粒度。
在确定了问题的粒度划分后,需要建立粒度之间的关系,以便为后续的模型构建提供基础。
根据问题的特性和目标,结合粒度之间的关系,建立基于粒计算的模型。
粒计算模型构建流程1 2 3粒计算通过对信息的分层抽象和处理,能够有效地处理不确定性和模糊性,为系统建模提供了有力的支持。
基于粒计算的基因挖掘(全文)
基于粒计算的基因挖掘1.引言粒计算是一门进展迅速的新学科,它通过把复杂问题抽象划分,从而转化成若干简单的问题,符合当今基因研究的现状。
它融合了粗糙集、模糊集及人工智能等多种理论的研究成果,而粗糙集理论已成为研究粒计算的重要工具。
尽管针对基因挖掘已开展大量研究,但由于基因所具有的数量大、可研究样本少、噪音高等特点,目前人们仍不能确切了解基因蕴含的无尽奇异,因而运用粒计算技术,通过采纳有效的分类约简方法,对特征基因进行系统分类、分析、挖掘,找出其相关联的基因模块,可为疾病的研究、分类及诊断提供有效的平台,也可为临床医学、病理学等学科的研究提供更有价值的基因研究数据及重要的理论依据。
2.粒计算自20世纪70年代起,人们从物理学划分大型物质为颗粒、分子、原子这一思想中得到启发,并将其应用到信息领域来实现对现实世界里不完整、不精确的海量信息进行处理,以达到“智能”的目的。
此后,Zdeh、Zdzislw Pwlk、Hobss、T.Y.Lin教授等人分别针对这一理论对粒计算进行一系列相关论述,奠定了粒计算理论的雏形。
此后,对粒计算的研究不断增多,逐渐深入,已形成专门的研究群体。
粒化和粒的计算是粒计算存在的两个最基本问题。
粒子是粒计算模型构成的最基本元素,不仅可以看作由内部属性描述的个体元素的集合和外部属性描述的整体,同时也是它的环境属性所描述的对外界动态变化环境的回应。
粒度是用来衡量粒子“尺度”的一个概念,它将性质相似的元素归结为一个新元素,反映了粒子进行“量化”时的粒化程度。
模糊集合理论、粗糙集理论和商空间理论是当前粒计算最主要的三大理论基础,由此衍生的几种典型的复合粒计算模型有:粗糙模糊集模型、模糊粗糙集模型、模糊商空间模型、模糊概念格模型、随机粗糙集模型[3-5]。
由于粒计算研究日臻完善,目前这些模型已不能够满足研究需要,未来的复合粒计算模型进展方向有:将粗糙集与商空间理论相结合构建系统化的粒计算理论和方法;将粗糙集和形式概念分析、概率论、群代数结合使数据处理更有效。
基于粒计算的大数据处理研究
• 82•作品的后期合成是通过设备和软件运用各种编辑技巧,摆脱单一的平面束缚,运用仿真、特效和剪辑等手段多角度展现艺术形式,给予观众视觉上的流畅、真实、唯美的画面。
做好这一环节对整个作品流程的制作起到事半功倍的效果,后期合成软件的选择和运用也变得尤为重要,常用的后期合成软件如:Combustion 软件能提供大量并且独特的工具在视觉特效的设计上比较前端;After Effects 软件目前最流行,与其他软件可以无缝衔接、灵活度极高并且拥有先进的设计理念;MayaFusion 软件支持所有的图像文件格式,是PC 平台口碑较好的合成软件;Premiere 软件的操作界面友好,视频编辑功能强大,应用最为广泛。
音频处理方面软件如:Cool Edit 、Edius 等,后期软件技术使动画制作更加的完美,大胆的创作理念给予观众视觉享受。
而如After Effects 软件现将素材导入,对不同类型的文件进行一些对应的设置,通过帧尺寸的大小和像素等方面的因素渲染合成图像,再运用蒙版和效果的制作对多个画面进行叠加,微调亮度、颜色等细节问题,高效精准的动态图形呈现震撼人心的视觉效果。
图8 After Effects软件合成界面 图9 Cool Edit音频处理界面三、二维动画新技术创新艺术形式的展现离不开二维动画,它的地位不会随着三维动画的发展而被淘汰,然而两者相偎相依,三维动画先进的技术在当前市场却有很大的优势,但若没有二维动画的艺术基础,也不会有优秀的作品呈现,二维动画将三维动画中骨骼动画技术(如:Flash 、Moho )的优势引荐,结合自身的情况缩短动画制作时间,该技术可以直接调节动作,无需逐帧绘制。
二维动画引入唇语同步技术(如:Papagayo )也是非常必要的,动画中的口型动作已被规范化,即绘制出九类基本的音素口型动作一一对应,软件中可将输入的语音划分成不同的音素并自动生成对应的口型动作,该技术大大提高了动画制作效率。
面向动态数据的三支粒计算知识获取方法
2023-11-05CATALOGUE 目录•引言•三支粒计算基本理论•面向动态数据的三支粒计算知识获取方法•方法验证与分析•结论与展望01引言背景随着大数据时代的到来,动态数据呈现出快速增长的态势,给知识获取带来了巨大挑战。
意义研究面向动态数据的三支粒计算知识获取方法,有助于提高知识获取的效率和准确性,为决策提供有力支持。
研究背景与意义现状目前,针对动态数据的处理主要采用流处理和批处理两种方式,但它们在处理速度和实时性方面存在局限性。
问题现有的方法在处理动态数据时,难以保证知识的实时性和准确性,无法满足实际需求。
研究现状与问题研究内容与方法研究内容本研究旨在提出一种面向动态数据的三支粒计算知识获取方法,提高知识获取的效率和准确性。
方法该方法采用三支粒计算技术对动态数据进行处理,通过构建数据粒度不同的三个层次,实现对动态数据的快速处理和实时响应。
02三支粒计算基本理论三支粒计算基本概念三支粒变换是指对三支粒空间进行的一系列计算操作,它可以用于提取动态数据的特征、进行数据分类和聚类等。
三支粒空间是指由一组三支粒构成的空间,它可以表示动态数据的整体变化情况。
三支粒度是指每个三支粒所包含的时间范围,它可以是一个固定的时间间隔,也可以是根据数据变化情况动态调整的时间间隔。
三支粒计算是面向动态数据处理的一种计算模型,其基本概念包括:三支粒、三支粒度、三支粒空间和三支粒变换。
三支粒是指将动态数据划分为不同的时间粒度,每个时间粒度对应一个三支粒。
三支粒计算模型三支粒计算模型包括三个基本组成部分:数据源、三支粒变换和结果输出。
数据源是指用于进行三支粒计算的动态数据,它可以是来自传感器、数据库或其他数据源的数据。
三支粒变换是三支粒计算的核心,它通过对数据源进行一系列的计算操作,提取出数据的特征或进行数据分类、聚类等。
结果输出是指经过三支粒变换处理后的数据结果,它可以是一个或多个分类结果、聚类结果或其他形式的数据分析结果。
基于粒计算模型的知识推理理论与方法
要点二
详细描述
关联规则挖掘是一种发现数据之间有趣关系的方法,基 于粒计算模型的知识推理能够利用粒计算模型对知识进 行关联规则挖掘。它通过构建粒度化的知识表示,对数 据进行关联规则挖掘,发现数据之间的有趣关系。在关 联规则挖掘中,基于粒计算模型的知识推理能够提高挖 掘效率,降低复杂度,并适用于多种数据类型。
要点三
多种推理规则结合
基于粒计算模型的推理方法通常有多 种,不同的推理规则有各自的优缺点 。为了提高推理效果,可以将多种推 理规则结合使用,取长补短。例如, 可以将确定性推理和概率性推理结合 起来,以得到更全面的推理结果。
04
基于粒计算模型的知识推 理应用
分类问题中的应用
总结词
基于粒计算模型的知识推理在分类问题中具有广泛的应用。
根据实验结果分析,得出基于 粒计算模型的推理算法的性能 评估总结,并指出其在实际应 用中的优缺点。
06
结论与展望
研究成果与贡献
粒计算模型在知识推 理中的应用
该研究提出了一种基于粒计算模 型的知识推理方法,将复杂的知 识表示为粒度的形式,从而方便 进行推理和决策。这种方法在处 理不确定性和大规模知识表示方 面具有一定的优势。
02
基于粒计算模型的知识表 示
知识表示方法概述
知识表示方法的定义和分类
知识表示方法是指将知识以计算机可以理解的形式表示出来的技术方法。根据不同的需求和场景,知识表示方法可以分为不 同的类型,如基于逻辑的知识表示、基于框架的知识表示、基于本体的知识表示等。
知识表示方法的作用和意义
知识表示方法的作用是将现实世界中的知识转化为计算机可理解的形式,从而实现知识的自动化处理和应用。它对于人工 智能和知识工程领域的发展具有重要的意义,是实现智能信息处理的关键技术之一。
粒度计算的理论, 模型与方法
第43卷 第5期2004年10月复旦学报(自然科学版)Journal of Fudan University(Natural Science)Vol.43No.5Oct.2004 文章编号:042727104(2004)0520837205Ξ粒度计算的理论、模型与方法李道国1,2,苗夺谦1,张红云1(1.同济大学计算机科学与工程系,上海 200092;2.太原理工大学阳泉学院,阳泉 045001)摘 要:粒度计算(Granular Computing,GrC)是信息处理的一种新的概念和计算范式,覆盖了所有有关粒度的理论、方法、技术和工具的研究.它是词计算理论、粗糙集理论、商空间理论、区间计算等的超集,也是软计算科学的一个分支.它已成为模糊的、不完整的、不精确的及海量的信息处理的重要工具和人工智能研究领域的热点之一.另着重介绍了粒度计算的研究现状、基本问题、主要模型与方法,并提出了进一步的研究方向.关键词:粒度计算;词计算理论;粗糙集理论;商空间理论中图分类号:TP393 文献标识码:A1 粒度计算的研究现状粒度计算是信息处理的一种新的概念和计算范式,覆盖了所有有关粒度的理论、方法、技术和工具的研究1,现已成为人工智能领域研究的热点之一.20世纪60年代,美国著名数学家Zadeh提出模糊集合论,在此基础上,于1979年首次提出并讨论了模糊信息粒度化问题,推动了模糊逻辑理论及其应用的发展,但在当时未引起足够的重视.接着,Zadeh在1996年提出“词计算理论”2,标志着模糊粒度化理论的诞生.其旨在解决利用自然语言,进行模糊推理和判断,以实现模糊智能控制.随后,美国多特蒙德大学的Helmut Thiele教授于1998年发表了“词计算理论的语义模型”3,促进了词计算理论的发展.词计算理论对因特网上的海量信息资源的高效利用有着深远的影响.基于Zadeh的模糊集论,进行粒度计算理论和方法的研究,已成为“粒度计算”的重要研究方向之一.波兰学者Pawlak于1982年提出了粗糙集理论4.由于粗糙集理论具有很强的定性分析能力,能够有效地表达不确定的或不精确的知识,善于从数据中获取知识,并能利用不确定、不完整的经验知识进行推理等,因此在知识获取、机器学习、规则生成、决策分析、智能控制等领域获得了广泛应用,特别是在数据挖掘领域,获得了巨大成功,业已成为粒度计算研究领域的主要方向之一.加拿大Regina大学教授Y.Y. Yao在研究粗糙集理论的基础上,提出了基于邻域系统的粒度计算模型5,并成功应用于知识发现领域.粒度计算作为专门的术语,首次出现在Zadeh的文献6中.后来,T.Y.Lin、Y.Y.Yao和Zadeh又在文献7中着重描述了粒度计算的重要性,这激发了人们对它的研究兴趣.随后,大量的关于粒度计算研究的文献相继发表,而且在国际上形成了专门的研究群体,定期召开关于粒度计算的国际研讨会.在国内,张钹院士和张铃教授提出了基于商空间的粒度计算模型8.其利用子集来表示概念,不同粒度的概念就体现为不同粒度的子集,一簇概念就构成空间的一个划分———商空间(知识基),不同的概念簇就构成不同的商空间.而粒度计算问题,也就等价于研究在给定知识基上的各种子集合之间的关系和转换.对同一问题,可以采取不同的粒度,通过对不同的粒度的分析,综合获取对原问题的求解.在此基础上,张铃、张钹于2003年提出了模糊商空间理论9.总的来看,粒度计算的研究在国内属于起步阶段,尚Ξ收稿日期:2004205212基金项目:国家自然科学基金资助项目(60175016)作者简介:李道国(1965—),男,副教授,博士生;苗夺谦(1964—),男,教授,博士生导师.838复旦学报(自然科学版) 第43卷未引起广泛关注.但我们相信,不久的将来会有越来越多的学者加入到该领域的研究中来.2 粒度计算的基本问题粒度计算的基本问题包括两个主要的方面,一个是如何构建信息粒度,另一个是如何利用粒度去计算.前者处理粒度的形成、粗细、表示和语义解释,而后者处理怎样利用粒度去求解问题.信息粒度的形成、表示、粗细、语义解释;信息粒子的大小;信息粒度粗细与求解有效度的关系;信息粒度的运算法则;信息粒度之间及其与外部环境的关系等,这些内容构成一个粒度世界.粒度世界是否构造得合理极大地影响着问题求解的效率.定义1 (粒度)设给定论域U和U上的一个关系R∶U P(U),]U=∪G i,则称每一个G i为一i∈τ个信息粒子,{G i}i∈τ是论域的一种粒度.其中,P(U)表示论域U的幂集;R可代表等价关系、不可区分关系、功能相近关系、相似关系、相等关系、约束、相容关系、复合关系、模糊关系、属性、投影、结构关系和一般的函数等.当Πi,j∈τ,i≠j]G i∩G j= ,则称{G i}i∈τ是论域的无重叠粒度划分,简记为{G i}i∈τ=[U;当ϖi,j∈τ,i≠j]G i∩G j≠ ,则称{G i}i∈τ是论域的一种覆盖,简记为{G i}i∈τ=<U>.定义2 (粒子的大小)设U是给定的一个论域,粒度划分U=∪G i,则称粒子G的大小为d(G)=i∈τCard(G)=|G|=∫G d x.注意:当论域为离散情形时,积分表示信息粒子G所含个体的总个数,也可能是可列个;当论域为连续状态时,积分表示信息粒子G长度的度量值,也可能是无穷大或不可数;当G为模糊信息粒子时,公式中的G表示集合{x|μG(x)>0,Πx∈U}.定义3 (信息粒度粗细)设 是论域上关系的全体,且R1,R2∈ ,若对Πx,y∈U,x R1y]x R2y,则称R1比R2细,简记为R2<R1.一个关系代表一种分类,因此,也可表示粒度粗细.设R0<R1<R2<…<R end,表示一个嵌套关系簇,其中R0代表论域本身是一个等价类,即最粗的划分;R end代表Πx,y∈U,x R end yΖx=y,即最细的划分;其他的表示中间层次的划分.注意:同一论域的粒度之间存在不能比较粗细的情形.我们知道,信息粒度的粗细影响着计算复杂度和问题的求解效度.在问题求解过程中,同一个粒度世界或不同粒度世界所要求描述的信息含量和相互变换决定了信息粒度的粗细优化.粒度计算的目的就是在误差允许的范围内,尽量找到计算复杂度最小的足够满意的可行近似解.因此,可以认为粒度计算是降低计算复杂度的有效工具.总之,如何在问题求解时选择恰当的粒度层次,以使求解效度达到最佳,这是粒度计算的一个关键内容之一.3 粒度计算的主要模型与方法3.1 基于模糊集合论的词计算模型Zadeh认为人类在进行思考、判断、推理时主要是用语言进行的,而语言是一个很粗的粒度,如何利用语言进行推理判断,这就是要进行“词计算”.狭义的模糊词计算理论是指利用通常意义下的数学概念和运算,诸如,加、减、乘、除等构造的带有不确定或模糊值的词计算的数学体系.它借助模糊逻辑概念和经典的群、环、域代数结构,构造出以词为定义域的类似结构.例如,模糊数及其运算2.尽管这种数值型模糊粒度的理论体系,在模糊控制、图像识别、语言处理、故障诊断、信息检索、人工智能等领域获得了较大的成功.但是由于自身存在的不足限制了它的应用范围.广义的模糊词计算理论统指用词进行推理、用词构建原型系统和用词编程.总之,基于词计算理论的推理、决策和识别方式是最贴近人类的思维形式来求解问题,它对复杂的系统的信息处理有着广阔的应用前景.3.2 基于粗糙集理论的粒度计算模型基于知识代表分类的能力的观点,Pawlak创立了粗糙集理论.粗糙集理论的核心思想是给定一个论域U (有限的非空集合),及论域U 上的一个等价关系R ΑU ×U ,称序对(U ,R )是一个近似空间或知识库.在近似空间中,等价关系将论域U 分割成两两互不相交的等价类,每一个等价类对应一个粒子,等价关系的实质是从论域U 到论域U 的幂集2U 上的一个映射R ∶U 2U ,同时称商集U/R ={x ]R |Πx ∈U}是近似空间的一组知识基,也代表了论域的一种粒度.这样对于论域上的任何一个子集X (近似空间的一个概念)就可以用它的上、下近似算子来刻画,其中,(1)apr (X )=R (X )={x |x ∈X ,x ]R ΑX }为X 的下近似,表示论域中完全肯定隶属于X 的元素组成的集合,即代表X 包含的最大内核;(2)apr (X )= R (X )={x |x ∈U ,x ]R ∩X ≠ }为X 的上近似,表示论域中所有肯定和有可能隶属于X 的元素组成的集合,即代表包含X 的最小闭包.在粗糙集理论中,一个对象是否隶属于某一集合(概念),不是该元素的客观性质,而是取决于我们对它的了解程度,同样,集合的相等和包含也没有绝对的意义,也是取决于我们对所研究的问题中的集合的了解程度,这更符合人类的认知过程.而且对一些特殊类型的信息系统,例如数据挖掘等,Pawlak 的粗糙集理论获得了巨大成功.但它同样存在着“瓶颈”问题,诸如,(1)知识表示依赖于论域上的关系;(2)缺少有效处理现实问题的代数运算体系;(3)缺乏基本粒度的语义解释;(4)缺乏描述粒度之间结构信息的方法等.3.3 基于商空间的粒度计算模型张钹院士和张铃教授在研究问题求解时,独立地提出了商空间理论.该模型是用一个三元组(U ,F ,T )来描述一个问题,其中U 表示论域,F 是属性集,T 是U 上的拓扑结构.在该模型中,论域的一种粒度化就等同于给定一个等价关系R 或一个划分,于是得到一个对应于R 的商集[U ,对应的三元组为([U ,F ,T ]),称之为对应于R 的商空间.商空间理论就是研究各商空间之间的关系、合成、综合、分解和推理.它的最重要的性质是同态原则,即保真原理(或保假原理).当面对一个复杂问题时,常先将问题化成在一个较粗粒度商空间对应的问题进行初步分析,若得出该问题在粗粒度空间中是无解,则由“保假原理”,立即得原问题是无解的.这样我们就可以以很少的计算量得出所要的结果,达到“事半功倍”的目的.同样利用“保真原理”也可达到降低求解的复杂性目的.在此基础上建立了“粒度世界模型”以及一整套理论和相应的算法,并将其应用于启发式搜索、路径规划等方面,取得一定成效.他们又将模糊集合论引入商空间,利用模糊等价关系实现了商空间模型的推广,这必将有助于粒度计算的发展,能够更好地反映人类处理不确定问题的若干特点,诸如信息的确定与不确定、概念的清晰与模糊等都是相对的,都与问题的粒度有关.因此,构造合理的分层递阶的粒度结构,可以高效地求解问题和处理信息.另一方面,商空间理论同样缺少实现粒度与粒度之间、粒度与粒度世界之间、粒度世界与粒度世界之间转换的手段和技术方法.如果能够探索出有效的技术和方法来解决这个问题,将会拓宽商空间的应用范围,极大丰富粒度计算的理论.另外,基于模糊集合论产生的Shadowed Sets 7,用三元组(0,1,0,1)描述一个模糊集合,将模糊性局限在影集中,优越于隶属函数的表示方法,减少了运算过程中有用信息的损失,缩短了模糊集与粗糙集的概念和算法的距离,使它更有效地求解一些特殊类型的问题.区间理论、定性分析理论、量化理论和证据理论都是粒度计算的一种工具,对它们的研究也不可忽视.经典的分组、聚类和分类方法在许多应用领域获得了不少成功,形成了比较完善的理论体系,对粒度计算有着重要的指导意义和借鉴价值.4 模型之间的关系分析对三种主要模型的比较分析,有益于我们深刻理解它们之间的联系与区别,有益于我们找到它们的融合点,实现构建统一的更加有效的处理复杂和模糊的信息系统的理论平台.模糊集和粗糙集理论都能够处理不确定和不精确的问题.然而它们的侧重点不同,模糊集合论中的对象x 的隶属度不依赖于论域中的其他对象,一般是由专家直接给出,因此带有很强的主观性且缺乏精度的概念;而粗糙集理论中对象的隶属函数值却依赖于知识库,它可以从所需处理的数据中直接得到,所938第5期 李道国等:粒度计算的理论、模型与方法048复旦学报(自然科学版) 第43卷以用它来反映知识的模糊性是比较客观的.同时二者也存在着联系,因为近似空间中的任何一个子集A (概念)实际上都对应于一个模糊集μA,其上下近似分别等价于该模糊集的核和支撑,即:R(A)= core(μA)={x|μA(x)=1}, R(A)=supp(μA)={x|μA(x)>0}.由此可见,下近似是μA的12截集,上近似是μA的强02截集.总之,模糊集合论与粗糙集理论有很强的互补性,这两个理论优化、整合去处理知识的不确定性和不完全性已显示出更强的功能.例如,Shadowed Sets是在模糊集合的框架体系上发展起来的,但处理信息的方法却类似于粗糙集,在一些领域的应用显示出了优势.还有许多的模糊粗糙集混合模型解决了一些单一模型无法解决的实际问题.这说明,理论的融合是求解复杂问题的一种有效途径.商空间理论与粗糙集理论都是利用等价类来描述“粒度”,再用“粒度”来描述概念.但是,讨论的出发点有所不同.商空间理论的着重点是研究不同粒度世界之间的互相转换、互相依存的关系,是描述空间关系学说的理论,而粗糙集理论主要是研究粒度的表示、刻画和粒度与概念之间的依存关系;商空间理论是在论域元素之间存在有拓扑关系的前提下进行研究的,即论域是一个拓扑空间,而粗糙集理论的论域只是对象的点集,元素之间拓扑关系不在考虑之内,这些差异对问题求解都有一定的影响.模糊集合论的粒度计算模型与商空间理论讨论的粒度问题也不尽相同.模糊集合论模型主要讨论粒度的表示问题,即当人类进行各种思考和推理时,都离不开粒度.粒度一般就是用语言、词来表示,这就涉及到“词计算”问题.对于词计算,目前主要是基于模糊集合论的方法.商空间模型主要论述的是,当一个问题很复杂时,人们常从比较“粗”的粒度层次出发来考察问题,一步步细化,直到问题得到确定解答.从商空间的观点看,三者之间表面上完全不同,但本质上有着紧密的联系.粗糙集理论相当于无拓扑结构的商空间理论,模糊粒度计算理论与商空间理论有许多等价之处.所以,商空间理论是粒度计算的重要工具之一.5 结论这些主要模型纵向的扩展和横向的融合是推动粒度计算发展的先决条件.因此,进一步的研究在于: (1)如何借鉴模糊数及其运算的成功经验,构建出有效的非数值型词计算的语义描述、推理机制、代数结构,以实现因特网上的海量信息资源的高效利用;(2)如何从等价关系的泛化、知识表示的拓广、代数结构的延伸三个方面推广粗糙集理论;(3)探索商空间理论中不同粒度层次的转换技术与方法,实现与模糊集及粗糙集的粒度计算模型的结合;(4)构造出基于粒度计算的求解问题的高效算法,寻找理论模型融合的技术和方法,最终实现构建统一的、更加有效的、能够处理复杂的和模糊的信息的粒度计算的理论平台.总之,粒度计算从实际出发,用可行的满意近似解替代精确解,改变了传统的计算观念,使信息的处理更科学、合理、经济和易于操作.它必将会成为信息处理的一种高效实用的技术和方法,在人工智能、问题求解、知识发现、图像压缩、神经网络、语义Web服务等众多领域有广阔的应用前景,而且随着信息科学和数字技术的飞速发展,它必将发挥越来越重要的作用. 参考文献:1 Y ao Y Y.Granular computing:Basic issues and possible solutions A.In:Paul P,ed.Proceedin gs of the5th Joint Conference on Information Sciences A:Elsevier Publishin g Company,2000.1862189.2 Zadeh L A.Fuzzy logic=Computing with words J.I EEE T ransactions on Fuzzy S ystems,1996,2:1032111.3 Thiele Helmut.On semantic models for investigating computing with words A.In:Jain L C,ed.Proceedin gs of the Second International Conference on Knowled ge Based Intelligent Electronic Systems(KES’98)C.USA:Institution of Electrical and Electronic Engineers Inc,1998.32298.4 Pawlak Z.Rough sets J.International Journal of Com puter and Inf orm ation Seience,1982,11:3412356.5 Y ao Y Y.Granular computing using neighborhood systems A.In:Ro y R,ed.Advances in soft com puting: Engineering design and manufacturing M.London:S pringer2Verlag Company,1999.5392553.6 Zadeh L A.The key roles of information granulation and fuzzy logic in human reasoning A .In :H yatt R ,ed.Proceedings of the Fifth IEEE International Conference on Fuzz y Systems ,FUZZ ———IEEE ’96C.G erman y :Physica 2Verlag GmbH Heidelberg ,1996.1002106.7 Zadeh L A.S ome reflections on information granulation and its centrility in granular computing ,computing withwords ,the computational theory of perceptions and precisiated natural language A .In :Lin T Y ,ed.Data Min 2ing ,Rough Sets and Granular Com puting M .G erman y :Physica 2Verlag GmbH Heidelberg ,2002.1102153.8 张 铃,张 钹.问题求解理论及应用M .北京:清华大学出版社,1990.9 张 铃,张 钹.模糊商空间理论(模糊粒度计算方法)J .软件学报,2003,14(4):7702776.The Theory Models and Approaches of G ranular ComputingLI Dao 2guo 1,2,MI AO Duo 2qian 1,ZH ANG H ong 2yun 1(1.Depart ment of Com puter Science and Technology ,Tongji U niversity ,S hanghai 200092,China ;2.Yangquan College of Tai Y uan U niversity of Technology ,S hanxi ,Yangquan 045001,China )Abstract :Granular computing is an emerging conceptual and computing paradigm of information processing.J ust as a great umbrella ,it may be regarded as a label of theories ,methodologies ,techniques ,and tools that make use of granules ,i. e.,groups ,classes ,or clusters of a universe.“GrC ”is a superset of the theory of fuzzy information granulation ,rough set theory ,the theory of quotient space and interval computing etc ,which is a branch of soft com puting science.It plays a important role in information processing for fuzzy ,uncertainty ,partial truth and unnumbered and becomes one of the main study stream in A I.It lays stress on the introduction of the research status ,the basic problems and main approaches of GrC.Finally ,the further investigation objects are proposed.K eyw ords :granular computing ;fuzzy sets ;rough sets ;the theory of quotient space~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(上接第836页)Possibilistic Entropy ClusteringWANGLei ,J I H ong 2bing ,G AO X in 2bo(School of Elect ronic Engineering ,Xidian U niversity ,Xi ’an 710071,China )Abstract :It deals with clustering analysis within the framework of possibilistic entropy theory.First ,the possibilistic entropy is defined with brief discussion.Then the Possibilistic Entro py Clustering (PEC )algorithm is developed ,which takes into account both global effect and local effect of entropy based clustering and is of clear physical meaning and well 2defined mathematical features.Besides ,it can automatically control the resolution parameter during the clus 2tering proceeds and overcome the sensitivity to noise and outliers.Simulation ex periments show that even when the clusters vary significantly in size and shape ,and the data set is contaminated by heavy noise ,this novel algorithm can provides efficient and accurate estimation of the cluster centers.K eyw ords :possibilistic entropy ;unsupervised learning ;clustering ;automatically controlled parameter 148第5期 李道国等:粒度计算的理论、模型与方法。
大数据挖掘的粒计算理论与方法-JiyeLiang
中国科学:信息科学2015年第45卷第11期:1355–1369大数据挖掘的粒计算理论与方法梁吉业xy*,钱宇华xy,李德玉xy,胡清华zx山西大学计算智能与中文信息处理教育部重点实验室,太原030006y山西大学计算机与信息技术学院,太原030006z天津大学计算机科学与技术学院,天津300072*通信作者.E-mail:ljy@收稿日期:2015–05–07;接受日期:2015–06–08;网络出版日期:2015–09–18国家自然科学基金(批准号:61432011,U1435212,61322211)、国家重点基础研究发展计划(973计划)(批准号:2013CB329404)和教育部新世纪人才支持计划(批准号:NCET-12-1031)资助项目摘要大数据往往呈现出大规模性、多模态性以及快速增长性等特征.粒计算是智能信息处理领域中大规模复杂问题求解的有效范式.从推动大数据挖掘研究角度,本文首先概要地讨论了大数据的特征对可计算性、有效性与高效性提出的3大挑战;其次,结合粒计算的思维模式特点,概述了已有研究成果,分析论述了以粒计算应对大数据挖掘挑战的可行性,认为粒计算有望为大数据挖掘提供一条极具前途的崭新途径;最后,对大数据挖掘的粒计算理论与方法中的若干科学问题进行了梳理与展望,以期抛引这一领域的学术思考与研究工作.关键词大数据数据挖掘模式发现粒计算信息粒化多粒度1引言根据维基百科的定义,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合.大数据=海量数据+复杂类型的数据.大数据通常来源于以互联网为载体的虚拟社会系统,或者来源于复杂的工业控制系统、物联网系统、经济与金融系统,现实社会的各种管理与监控系统,以及诸如空间探测、大气与地球科学、生物信息学等科学研究领域[1∼3].2011年IDC公司发布的《数字宇宙研究报告》称:全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB.预计到2020年,全球将总共拥有35ZB的数据量.大数据在现代信息社会中的数据资源主体地位已成为学术界与企业界的共识.由于对经济活动与社会发展具有可预见的重要推动作用,大数据已经进入了世界主要经济体的战略研究计划.正如美国政府启动的“Big Data Research and Development Initiative”计划指出的“将大力推进大数据的收集、访问、组织和开发利用等相关技术的发展,提高从海量复杂的数据中提炼信息和获取知识的能力与水平”.从大数据中进行数据挖掘与知识发现是大数据应用的战略问题之一.梁吉业等:大数据挖掘的粒计算理论与方法2大数据挖掘面临的挑战2008年,Nature出版的专辑“Big Data”从互联网技术、网络经济学、超级计算、环境科学和生物医药等多个方面介绍了大数据带来的挑战[4].2011年2月Science杂志刊发了海量数据处理专题,指出“倘若能够更有效地组织和利用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用”[5].大数据的特征常被总结为4V,即Volume(体量浩大)、Variety(模态繁多)、Velocity(快速增长)、Value(价值巨大但密度很低).其中,“价值巨大但密度很低”从大数据的利用潜力和当前分析与处理的技术局限性角度概括了大数据的特征,是指大数据的价值虽高,但利用密度很低.本文重点针对大数据的外在形态特征,即大数据的规模海量性、多模态性以及快速增长性等对传统的数据挖掘理论、方法与技术在可计算性、有效性与时效性等方面提出的严峻挑战进行研究.而为应对这些挑战所涌现的新的计算理论、方法与技术将有效推动大数据挖掘的发展与应用.2.1大规模性VS可计算性数据规模的急剧膨胀给数据挖掘,特别是面向互联网的数据挖掘带来了巨大挑战[6,7].为了使巨量数据可计算,一些新的高性能计算方法逐渐涌现.2004年,Google公司首先推出了以MapReduce 为代表的非关系数据管理技术,作为面向大数据分析和处理的并行计算模型,很快引起了学术界和工业界的广泛关注.在面向大数据的挖掘技术方面,国内外学者也进行了一些初步探索.比如,针对传统分析软件扩展性差以及Hadoop分析功能薄弱的特点,IBM致力于对R和Hadoop进行集成[8].R 是开源统计分析软件,通过R和Hadoop的深度集成,把并行框架下的计算推向数据.另有研究者实现了Weka(类似于R的开源机器学习和数据挖掘工具软件)和MapReduce的集成[9].标准版Weka 工具只能在单机上运行,并且存在内存不能超越1GB的限制.经过算法的并行化,在MapReduce集群上,Weka突破了原有的可处理数据量的限制,可以轻松地对超过100GB的数据进行分析.另有开发者发起了Apache Mahout项目的研究,该项目是基于Hadoop平台的大规模数据集上的机器学习和数据挖掘开源程序库,为应用开发者提供了丰富的数据分析功能.针对频繁模式、分类和聚类等数据挖掘任务,研究人员也提出了相应的大数据解决方案.比如,Miliaraki等[10]提出了一种可扩展的在MapReduce框架下进行频繁序列模式挖掘的算法,Ene等[11]用MapReduce实现了大规模数据下的K-Center和K-Median聚类方法,Yu等[12]提出了针对线性分类模型的大数据分类方法,Kang等[13]使用Belief Propagation算法(简称BP)处理大规模图数据挖掘异常模式.针对大规模图数据分析, Yang等[14]对基于集群上的大规模图数据管理和局部图的访问特征(广度优先查询和随机游走等)进行了研究,提出了分布式图数据环境和两级划分管理架构.另一种应对大数据可计算性挑战的思路是使用数据采样技术,通过采样使数据规模变小,以便利用现有的技术手段进行数据分析[15].然而,这一思路可能会遭受两方面的质疑.一方面,大数据的混杂性使得抽样所获得的样本未必能反映大数据总体;另一方面,普遍认为:大数据条件下,基于小样本学习理论的传统数据挖掘、机器学习方法的“独立同分布假设”难以保障,致使样本数据模式能否代表总体数据模式受到质疑.事实上,MapReduce是在大规模非结构化数据的管理层面为人们提供了一种并行处理架构.而在大数据数据分析与挖掘层面遭遇的可计算性挑战方面,尽管已有一些工作,但还处于借用MapReduce 对数据进行管理的阶段,还没进入面向数据挖掘任务、针对大数据本身研究其拆分理论与方法,以应对可计算性挑战的阶段.1356中国科学:信息科学第45卷第11期2.2多模态性VS有效性多模态是大数据的另一个显著特点.当前,数据采集方式、手段的多样性一方面为人们提供了从不同视角观测自然系统、工业系统、社会系统中复杂现象的可能性,另一方面也使得观测对象的数据描述呈现出多模态特征.比如,在医疗检测中,提供的心电、脑电、超声、X射线、电子计算机断层扫描(CT)、磁共振成像(MRI)、正电子发射断层扫描(PET)、单光子发射断层成像(SPECT)及功能磁共振成像(FMRI)等多种模态信息是互为差异、互相补充的,对不同模态信息进行适当的融合成为临床诊断和疾病治疗的迫切需求.在天体物理研究中,太阳大气成像仪记录了太阳内部结构和磁场结构、太阳的极紫外线辐射、太阳盘面的数个不同波长紫外线和极紫外线影像,一天生成的数据将近2T.太阳物理学家需要从如此海量的多模态数据中发现太阳活动的物理规律,以揭示空间天气的形成机理,并建立可靠的预报模型.当前,在一些领域已经开展了多模态数据分析的探索性研究[16∼19],主要思路是:将分别从不同模态的数据中提取的特征合并成一个更大的特征空间,然后在这个特征空间中进行数据分析与挖掘.现有方法属于特征层面融合后的分析思路,其有效性依赖于根据先验知识提取的特征,难以推广到先验知识匮乏的前沿探索领域.现有方法的主要局限性表现在以下3个方面.其一,所获取的数据模式(知识)表现出高度非线性特点,难以被用户理解;其二,难以对带有分支、层次、网络等结构的复杂问题进行数据层面的建模;其三,融合仅限于特征层面,还没有深入到知识和推理层面.如何充分利用大数据的多模态性,发展面向复杂问题求解,能从数据、特征、知识、推理等不同层面体现融合思想,具有分层递阶、分而治之特点的高效挖掘理论与方法是多模态大数据分析的主要挑战.2.3增长性VS时效性大数据的又一个显著特点是数据量随着时间快速积累、迅速增长,人们可以充分利用历史数据和新增数据分析对象的状态、预测事件的发展趋势.许多实际应用领域的数据挖掘任务具有较高的时效性要求.比如,在客户购买行为模式的分析中,电子商务平台上的数据几乎每时每刻都在动态增加和更新,决策者需要及时掌握客户行为的模式和消费趋势,以便更精准地投放广告进行商品推荐.在股票投资决策中,股票交易数据在开盘期间实时累积,如何及时做出优化组合投资决策对降低投资风险、提高收益率至关重要.在社会网络中,大量的节点上的状态在不断发生变化,节点与节点之间的链接情况也在不断发生变化,这给面向社会网络的数据挖掘的实时性要求带来了挑战.OLAP(online analytical processing)正是为了契合这种数据分析的时效性需求而被提出的.然而,在大数据时代,数据的增长不仅仅体现在其快速性上,而且体现在分析所需时间段内数据增量的大规模性,这使得传统的单增量或小规模批增量机器学习技术的局限性凸显,大数据呼唤更高效的在线数据分析技术.最主要的挑战在于:基于大规模批增量数据的模式更新机制以及高效算法.综合上述分析可以看出,大数据的大规模性、多模态性与快速增长性给大数据挖掘提出的挑战是多方面的、多层面的.衍生出的问题既具有领域相关性,又具有多学科交叉性.为此,需要在现有研究成果的基础上,以全新的视角发展大数据挖掘的新理论与新方法,推动大数据学科的发展与应用.3粒计算——大数据挖掘的新途径粒计算是专门研究基于粒结构的思维方式、问题求解方法、信息处理模式的理论、方法、技术和1357梁吉业等:大数据挖掘的粒计算理论与方法工具的学科,是当前智能信息处理领域中一种新的计算范式.从人工智能角度来看,粒计算是模拟人类思考和解决大规模复杂问题的自然模式,从实际问题的需要出发,用可行的满意近似解替代精确解,达到对问题的简化、提高问题求解效率等目的.从数据分析与处理层面看,粒计算通过将复杂数据进行信息粒化,用信息粒代替样本作为计算的基本单元,可大大提高计算效率.粒计算主要包括数据粒化、多粒度模式发现与融合、多粒度/跨粒度推理等核心研究内容.大数据的表现性态、大数据挖掘面临的挑战、基于大数据的复杂问题建模与粒计算框架的契合之处主要表现在以下3个方面.3.1大数据经常具有多层次/多粒度特性1990年,我国著名科学家钱学森先生在其论文《一个科学新领域——开放的复杂巨系统及其方法》[20]中就指出:“只有一个层次或没有层次结构的事物称为简单的系统,而子系统种类很多且有层次结构,它们之间关联关系又很复杂的系统称为复杂巨系统.任何一个复杂系统都是一个具有层次结构的系统”.Friedman等[21]在Science上发表的论文认为在诸如复杂细胞网络、蛋白质互作用网络等生物大数据中都广泛存在着多层次、多尺度特性.Clauset等[22]在Nature上发表的论文也指出,在复杂社会网络中也存在天然的层次结构.Ahn等[23]则专门研究了大数据的多尺度复杂性.著名社会网络科学家Watts[24]在其提出的小世界网络研究中,也指出网络中嵌套的诸多社区内部也满足小世界网络的要求.大数据往往来自于对复杂的自然/人工巨系统的观测记录,或者由人类社会系统借助网络自主产生.这就意味着,反映复杂巨系统形态及运动规律的大数据必然隐含着由这些系统所决定的局部与整体关系,以及复杂的层次结构,即数据的多粒度/多层次特性.3.2挖掘任务通常呈现多层次/多粒度特性数据挖掘总是面向实际应用的,即使面对同一个数据集,用户需求的多层次/多粒度特性也决定了挖掘任务的多层次/多粒度特性.比如,在金融大数据领域,决策任务可能是面向国家层面、区域层面,或者是地方层面的,甚至是面向某个银行的;也可能是面向不同种类的存款、贷款,或理财产品.这就使得挖掘任务可能同时面向不同层面、不同方面.挖掘任务的多层次/多粒度特性必然要求数据挖掘工具不仅能够从不同视角探索大数据不同层面隐含的模式,而且还能够进行复杂有效的融合、自动的跳转,以及便捷的定制.3.3大数据挖掘要求算法具有高效近似求解性在2012年出版的大数据著作《大数据时代:生活、工作与思维的大变革》[25]中指出:“大数据意味着所有数据”.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合.因此,大数据挖掘首先要解决“大数据能算的问题”,这就要求对大数据进行合理的分解,即大数据集的粒化,然后采用并行处理策略,MapReduce正是基于这种策略在大数据管理方面的实践结果.基于大数据的复杂问题建模往往具有极其复杂的结构,这就要求大数据挖掘算法能够按照任务的要求自动地或人机交互地从大数据中抽取与组织出具有多层次/多局部特征的结构,并能在这种复杂结构上进行推理,以达到挖掘的预期目标.大数据挖掘算法的高效近似求解特性,主要来自于用户对挖掘过程、挖掘结果的时效性要求,大数据的巨量增长性对在线挖掘技术提出了严峻挑战.与传统的小数据集上的挖掘与学习不同,大数据的混杂性、不确定性,以及高噪声对“独立同分布假设”的破坏使得追求问题的最优/精确解变得几乎1358中国科学:信息科学第45卷第11期不可能,迫使我们转向寻找问题的满意近似解.另一方面,满意近似解在很多环境下已能很好地满足实际应用的需要,无需一味追求问题的最优/精确解.综上分析可知,从隐含于大数据中的结构特征,大数据挖掘任务的类型特征,到大数据挖掘算法的性能特征,综合这些角度,大数据挖掘的计算框架与粒计算所蕴含的计算范式具有高度契合性.鉴于这一认识,可以推测:粒计算将为大数据挖掘提供一条极具前途的崭新途径.4现状分析早在1979年,美国著名控制论专家Zadeh[26]就首次提出了模糊信息粒化问题.他认为,人类认知能力可概括为粒化(granulation,全体分解为部分)、组织(organization,部分集成为整体)和因果(causation,因果的关联)3个主要特征.1985年,Hobbs[27]提出了粒度(granularity)的概念.在20世纪90年代初,我国的张钹和张铃[28,29]在其专著《问题求解理论及应用》中特别指出“人类智能的一个公认特点,就是人们能从极不相同的粒度上观察和分析同一问题.人们不仅能在不同粒度世界上进行问题的求解,而且能够很快地从一个粒度世界跳到另一个粒度世界,往返自如,毫无困难”.这种处理不同粒度世界的能力,正是人类问题求解的强有力的表现.Yager和Filev[30]进一步指出“人们已形成了一个关于世界的粒度观点,······,在此观点下,人类的观察、度量、概念化和推理都是在粒度意义下进行的”.这些观点都认为,粒化作为人类认知的重要特征之一,对复杂数据的知识发现具有重要作用.1997年,Zadeh[31]第一次提出了粒计算(granular computing)的概念.随后国际上许多不同领域的学者都开始关注和研究这个问题,其逐渐形成了智能信息处理中一个新的研究方向.自粒计算这一概念提出以来,大量关于粒计算研究的学术论文相继发表,在国际上形成了专门的研究群体.近年来,国际上两个系列会议“IEEE International Conference on Granular Computing”与“International Conference on Rough Sets,Fuzzy Sets,Data Mining and Granular Computing”每年举办一次.在国内,2001年以来,粒计算的研究成果集中在每年举办的“中国粗糙集与软计算学术会议”上报道和交流.由于粒计算在国内的迅速发展,2007年开始每年举办“中国粒计算学术会议”.短短十余年的发展已经凸显出它对信息科学特别是对计算机科学的作用和影响.粒计算已逐渐成为数据分析领域的新分支,在数据粒化、多粒度模式发现以及粒度推理等方面的研究已经取得了一些重要的进展.4.1数据粒化研究进展数据粒化是基于粒计算的数据分析的基础,是按照给定的粒化策略将复杂数据分解为信息粒的过程.根据不同的数据建模目标和用户需求,可以采用多种多样的粒化策略.单纯依赖数据的常用粒化策略大多可以归结为基于数据二元关系的粒化策略,其本质是将满足预先定义的二元关系的两个数据样本分配到同一个数据粒中.诸多粒化策略通过使用等价关系、相似关系、极大相似关系、模糊等价关系、模糊相似关系、邻域关系、优势关系等二元关系可将数据粒化为相应的二元粒结构[32∼39].再如,图数据中的连通分支,极大全连通子图、各种路及圈,以及树中的子树、链等.基于聚类的粒化策略尽管本质上也是依赖于二元关系,但它是在目标函数引导下,通过一个迭代寻优过程学习得到隐含于数据中的簇团结构[40].聚类可以被理解为数据簇团结构的发现方法,也可以被理解为一种数据粒化策略.聚类粒化具有很强的数据针对性,如针对高维数据,其代表性方法有基于子空间的聚类[41]、联合聚类[42]以及基于超图的聚类[43]等;针对复杂数据,Brendan[44]在Science发表了一个基于消息传递的聚类算法,成功应用于人脸图像聚类、基因外显子发现、手稿中心句识别以及最优航线搜索等1359梁吉业等:大数据挖掘的粒计算理论与方法方面;针对多模态数据,Ahmad等[45]提出了一种数值型和符号型并存的多模态数据的K-Means算法.Huang[46]提出了用于解决符号数据聚类的K-Modes算法,并将其与K-Means算法相融合用于多模态数据聚类.此外,在图像处理领域里,有一类通过提取图像本身的纹理、边缘、灰度值等特征,并将其作为多模态特征来进行图像数据的粒化方法[18,19,47].目前的数据粒化策略与方法很少考虑适应大数据的可计算性需求,多是从单一模态特征出发,在不同模态特征之间设置权重参数或者简单地对结果进行集成,并没有从本质上进行融合,不能够保证其语义一致性或语义相关性,无法有效解决具有多模态特征的数据协同粒化问题.4.2多粒度模式发现研究进展多粒度模式发现与融合是粒计算框架下复杂问题求解的内在逻辑要求.所谓多粒度,可以是多个数据子集、表示空间的多个子空间、多个不同的模态变量集、也可以是问题求解过程中的多个局部或中间结果,它对应于问题的多个角度、多个局部或多个层次.为了获得整体数据集或问题的全局解,需要对多个单一粒度上发现的模式进行融合.尽管没有使用多粒度这一术语,国内外学者已经针对医学图像分析、网络、视频语义分析、标注和检索、情感识别等领域的多模态问题开展了融合研究,主要考虑从不同模态的数据中分别提取特征,构成多模态特征空间,发展具有多模态特征的模式发现理论与方法.目前的研究主要集中在3个方面:基于多核学习的多模态数据分类[48],基于多字典协同表达的多模态数据建模[49]和基于深度学习的多模态数据融合[50].比如,在多模态视频挖掘中,Hershey[51]将视觉和音频从视频中提取出来,利用参数模型的方法对音频信号在视频画面中对应的发生区域进行了挖掘.Darrel等[52]则提出了一种基于参数模型的新方法.这些多模态融合方法主要分为乘积融合、线性融合、非线性融合等.在多模态Web挖掘中,网页上丰富的图片、音频、视频以及文本等多种模态信息构成了典型的多模态数据挖掘问题.一些学者提出了语义网方法来描述单词和图片之间的相关性,并利用文本信息帮助进行图像的检索.多模态图像检索系统iFind[53]提出了一种同时利用文本和图像视觉信息的相关反馈算法.胡清华[54]系统地研究了数值型数据和符号型数据并存的多模态数据的粗糙集方法,并将粗糙集方法推广应用到了太空天气预报、风力发电故障识别等领域.Hwang等[55]研究了多模态数据的聚类问题,将图像数据中的纹理、灰度值、线条等提取出来作为多个模态来研究. Wang等[56]将网页中的图片和图片周围文字分离成两类事物,通过两者之间的关联矩阵将同一事物中的相似度传播到另一类事物中,得到了更为精确的图片之间的相似度.Qian等[57]系统提出了多粒度粗糙集理论,通过挖掘不同粒度下的隐含模式来对目标概念与目标决策进行融合学习,用于更加高效合理地进行决策.然而,目前的研究多集中在基于聚类的多粒度结构发现以及基于表示空间的多粒度多模态分类问题,还很少考虑基于多粒度的分类、回归和相关关系分析等数据分析任务,尤其是多模态数据的分层多级的分类回归分析较少有人涉及.此外,多个粒化结构之间的关系研究也鲜见报道,它也应是多粒度理论与方法中的重要研究内容.4.3粒计算推理研究进展推理是人类智能中的重要能力之一.推理是一种形式逻辑,是用于研究人们思维形式、规律以及逻辑方法的科学.推理的作用是可从已知的知识得到未知的知识.粒计算推理指的是利用已知的信息粒或粒空间进行演绎的逻辑方法.在粒计算领域中,已经有一些关于粒计算推理的研究.Yao[58]对粒计算的基本问题、基本方法进行了系列研究,通过采用决策逻辑语言(DL-语言)来描述论域的粒度,构建粒度世界的逻辑框架;将1360。
基于粒计算的数据挖掘技术研究
基于粒计算的数据挖掘技术研究随着互联网的不断发展,数据量的爆炸式增长已经成为了当今时代的一个重要现象。
无论是企业还是个人,都面临着海量数据如何处理和利用的问题。
数据挖掘技术的出现,一定程度上缓解了这一问题。
其中基于粒计算的数据挖掘技术更是近年来备受关注。
本文将从粒计算的定义、数据挖掘技术的基本原理、粒计算与数据挖掘相结合应用等方面进行探讨。
一、粒计算的定义粒计算是一种计算智能方法,属于粗糙集理论的一种拓展。
粒计算通过建立粒度模型,对复杂问题进行分解、细化,以提高解决问题的精度。
如图1所示,一个普通的物体在宏观层面看可能是一张桌子或者一个灯泡,在微观层面看可能是由质子、中子和电子构成的。
在不同的粒度层面,物体表现出不同的特性。
图1 粒度模型二、数据挖掘技术的基本原理数据挖掘是从大量数据中挖掘出有用信息的过程。
其原理是通过统计学、概率论、模式识别、机器学习等多种方法,找到数据中的规律、趋势和异常。
在数据挖掘的过程中,数据的预处理是一个非常重要的步骤。
数据预处理包括数据清洗、数据变换和数据归约等操作,以保证所挖掘的信息真实有效。
三、粒计算与数据挖掘应用1. 粒计算在数据预处理中的应用数据预处理是数据挖掘过程中的一个重要环节,粒计算在此方面应用十分广泛。
例如,对于一个包含缺失值的数据集,常见的处理方法是将缺失值填充为某个默认值,但这样做容易导致数据失真。
使用粗糙集理论中的粒计算方法,可以将数据集中的每一个属性进行分类,从而找到与其相似度最高的数据进行缺失值的填充处理。
这样做不仅可以降低数据失真的程度,还可以提高数据挖掘的精度。
2. 粒计算在数据挖掘模型构建中的应用基于粒计算的决策树算法是一种典型的数据挖掘模型构建方法。
粒度模型可以对复杂的问题进行分解,将原始数据集分成多个子集以构建决策树。
在决策树的构建过程中,根据不同的粒度层面和不同的属性,可以得到多个候选答案。
通过对这些答案进行综合评估,最终可以得到最优解。
基于粒计算的数据挖掘算法研究
基于粒计算的数据挖掘算法研究一、引言在信息化时代,数据成为了一个无法绕过的关键词汇。
数据挖掘是一种从复杂的数据中提取有效信息的过程,对于数据分析和知识发现具有重要意义。
在现有数据挖掘技术中,基于粒计算的数据挖掘算法已经成为了目前研究的热点之一。
本文将针对基于粒计算的数据挖掘算法进行详细的探究。
二、粒计算概述粒计算是由菜根和周以忠于2002年首次提出的一种新型计算方法。
它是基于粒度理论和信息学的交叉学科,以计算智能的研究为基础,旨在解决现实问题中的不确定性、不精确性和复杂性。
在粒计算中,粒度是指把一个事物或对象划分成多个粒子。
每个粒子可以看作是事物或对象的一个子集,这个子集具有可描述性、可判别性、可计算性和可设计性等特点。
通过对多个粒子进行整合、简化和聚合的过程,可以得到符合实际应用需要的信息和知识。
三、基于粒计算的数据挖掘算法基于粒计算的数据挖掘算法是一种利用粒度理论和信息学的交叉学科,对大量数据进行分类、聚类、回归、预测等过程的技术。
其主要原理是将数据集划分成多个粒子,利用这些粒子进行数据挖掘分析,从而得出具有可解释性和可视化性的结果。
1、基于粗糙集理论的数据挖掘算法基于粗糙集理论的数据挖掘算法是一种利用概念格和属性约简方法进行数据分析的技术。
在这种算法中,首先将数据集划分成多个粗糙集,然后基于上近似和下近似对数据进行分类和聚类。
2、基于模糊理论的数据挖掘算法基于模糊理论的数据挖掘算法是一种利用模糊数学、集合论和统计学等多学科的知识进行数据分析的技术。
在这种算法中,将数据集划分成多个模糊集,利用模糊概念与算法对数据进行分类和聚类。
3、基于小波分析的数据挖掘算法基于小波分析的数据挖掘算法是一种利用小波变换和小波分解等方法进行数据分析的技术。
在这种算法中,将数据集进行小波变换和小波分解,从而得到具有不同分辨率和特征的数据子集,利用这些子集进行数据挖掘分析。
四、基于粒计算的数据挖掘算法优势和应用基于粒计算的数据挖掘算法相比于传统数据挖掘算法具有以下优势:1、具有可解释性和可视化性,能够直观地给出数据挖掘结果。
粒关联规则的属性挖掘算法及有关标记方法
粒关联规则的属性挖掘算法及有关标记方法邱京伟【摘要】粒关联规则挖掘是一种关系数据挖掘的新方法,用于在多对多关系表中挖掘关联规则.在挖掘关联规则的时候,利用信息表中属性所存在的包含和被包含关系可以有效减少比较次数,从而有效减少时间消耗,而不影响规律挖掘结果.【期刊名称】《宁德师范学院学报(自然科学版)》【年(卷),期】2013(025)004【总页数】3页(P373-375)【关键词】粒关联规则;数据挖掘;属性;数据标记【作者】邱京伟【作者单位】宁德师范学院计算机系,福建宁德352100【正文语种】中文【中图分类】TP311.13粒关联规则是数据挖掘的一种新方法,主要用于在多对多关系表中挖掘关联规则.一般用四个度量标准来评估粒关联规则的强度,分别是源覆盖、目标覆盖、源置信度和目标置信度.当源覆盖和目标覆盖都为100%的时候,称为完全匹配.在多对多实体关系系统里挖掘关联规则,首先要根据要求对有关数据集合进行筛选,粒度是一个三元组,即g为该粒度的名称,i(g)是粒度的内涵,e(g)是粒度的外延,e(g(A',x))=EA’(x).粒度的置信度是指其外延的大小除以论域的大小,即根据公式(2),最终从两个数据表中筛选出两个数据集合,假设一个为SC集合,一个为TC集合.如果采用对两个集合中的所有粒度进行逐个比较的方法挖掘关联规则,当数据表中数据量比较大时,SC集合或TC集合数据量就会比较大,比较的次数就会比较多.假设SC集合中有M个粒度,TC集合中有N个粒度,那么需要比较M*N次,往往要消耗大量时间.在数据集合中,由于包含属性多少的关系,粒度往往在包含另几个粒度的同时,也有可能被其他几个粒度包含.当存在完全匹配的时候,如果粒度A与粒度B存在关联规则,那么粒度A的所有包含项也与粒度B以及粒度B的所有包含项存在相同的关联规则.利用粒度在属性上所存在的包含和被包含关系的有关性质,建立格的数据结构,当发现某个粒度存在规则的时候,通过对其所有孩子节点的遍历,减少比较操作,节省下在其孩子节点上比较的时间,提高查找关联规则的效率.在信息系统中,若A"⊂A'⊆A且x∈U,则从粒计算的角度上看,g(A',x)比g(A",x)粒度细,g(A",x)比g(A',x)粒度粗.可以通过添加或删除属性的办法得到不同粗细的粒度,这在粒度计算中分别被称为放大操作和缩小操作.获得合适的粒度的技术在数据挖掘中称为特征选择,在粗糙集中称为属性约简.粒度包含的属性越少,其外延越大,包含的其他粒度越多.如果数据库足够大且包含关系足够复杂,那么用新方法节省的时间也就越多.在最理想状况下,如果SC集合和TC集合中的所有粒度都存在包含关系,那么只要比较到第1个存在关联规则的粒度对,就可以输出所有关联规则.为了保证挖掘的正确并避免数据的重复比较,减少不必要的时间消耗,需要对比较过的数据进行处理,但是直接对比较过的粒度进行标记会使挖掘结果出错,总结如下(实心箭头表示包含,空心箭头表示存在规则).(1)关于TC数据集合的第一个问题,如图1所示,A与B存在规则,C与B也存在规则,但是A与C不存在包含关系,如果过早标记B,会导致没有输出相应的C与B的规则.例如,A为中国男人,B为酒,C为美国男人,假设所有的中国男人喜欢所有的酒,但是也有可能所有的美国男人也喜欢所有的酒,如果在发现所有的中国男人喜欢所有的酒的时候把酒标记了,那么就不能得到所有的美国男人喜欢所有的酒的规律了. (2)关于TC数据集合的第二个问题,如图2所示,A与B存在规则,C与D存在规则,B包含D,但是A与C不存在规则,可以推出A与D存在规则.如果过早标记D,会导致没有输出相应的C与D的规则.例如,A为中国男人,B为酒,C为美国男人(甚至可以是美国女人),D为白酒.如果所有的中国男人喜欢所有的酒,那么可以推出所有的中国男人喜欢所有的白酒,但是有可能所有的美国男人喜欢所有的白酒,如果在发现所有的中国男人喜欢所有的白酒的时候把白酒标记了,那么就不能得到所有的美国男人喜欢所有的白酒了. (3)关于SC[i]数据集合的问题,如图3所示,A包含C,A与B存在规则,C与D存在规则,但是A与D不存在规则,可以推出C与B存在规则.如果C由于被其他概念包含而被过早标记,则有可能会没有输出相应的C与D的规则.例如,A为男人,B为酒,C为中国男人,D为肉.如果所有的男人喜欢所有的酒,那么可以推出所有的中国男人喜欢所有的酒,但是有可能不是所有的男人喜欢所有的肉,而所有的中国男人喜欢所有的肉.如果在发现所有的中国男人喜欢所有的酒的时候把中国男人标记了,或者所有的男人喜欢所有的酒的时候把中国男人标记了,那么就不能得到所有的中国男人喜欢所有的肉了.为避免第1、2个问题,在每次SC[i]开始的时候,需要对TC[j]的标志数组进行清零操作,可以保证结果正确.但是这样多了几步操作,对时间有影响.而第3个问题则表明如果要求挖掘结果正确的话,SC数据集合不能用这种标记查找过的数据的方法.为避免上述问题,在程序中不单独记录挖掘出的SC[i]或TC[j],而是建立一个2维标记数组jl[][],每次输出规则的时候,记录输出过的SC[i]和TC[j]的下标,即令jl[i][j]的数值为1.每当要检查SC[i]和TC[j]是否存在规则前和输出SC[i]和TC[j]的包含项规则前,先检查标记数组中是否被标记过,这样就可以解决因为某些粒度被标记导致的规律未被发现,也可以避免重复输出造成规则数目增加.以图3为例,当发现A与B存在规律的时候,输出规律A=>B和C=>B,标记数组[A][B]=1,数组[C][B]=1,当准备检查C、B是否存在规律的时候,发现数组[C][B]=1,于是跳过,在确认数组[C][D]=0后,检查C、D是否存在规律,输出规律C=>D,并标记数组[C][D]=1.对于粒关联规则挖掘中出现的比较操作,除了要注意属性间相互包含的问题,还要注意数据标记时避免重复查找和数据丢失.【相关文献】[1]F.Min,H.P.He,Y.H.Qian,et al.Test-cost-sensitive attribute reduction[J].Information Sciences,2011(181):928-4942.[2]A.Skowron,C.Rauszer.The discernibility matrices and functions in information systems[J].Intelligent Decision Support,1992:331-362.[3]W.Zhu,F.Wang.Reduction and axiomization of covering generalized roughsets[J].Information Sciences,2003,152(1):217-230.。
基于粒计算的数据挖掘算法研究
代分号学号 密1020121208题(中、英文)作者姓指导教师姓名、学科门创新性声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。
尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。
与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。
申请学位论文与资料若有不实之处,本人承担一切的法律责任。
本人签名:日期关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。
学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。
同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。
(保密的论文在解密后遵循此规定)本人签名:导师签名:日期:日期:摘要数据挖掘是当今计算机科学中快速发展的一个研究方向,它涉及到多个领域的知识。
数据挖掘能从大量的数据中发现一些人们事先未知的、潜在的、有趣的知识,因此广泛被应用于商业分析、机器学习、网络个性化服务等领域。
数据挖掘有很多研究方向,关联规则和序列模式是其中重要的两类,其中关联规则的研究重点在于频繁项集的发现,而序列模式则强调数据的序列特性。
本文基于粒计算的相关原理和模型,对关联规则和序列模式的挖掘算法进行了研究。
本文的主要工作概括如下:1. 概述了数据挖掘和粒计算的基本原理,说明了数据挖掘的主要研究方向和粒计算的几个重要的计算模型,对关联规则、序列模式和粗糙集的基础理论知识进行了介绍,对常见的关联规则挖掘算法和序列模式挖掘算法进行了简单的汇总和分析。
2. 详细分析了关联规则挖掘算法Apriori算法的原理。
大数据分析理论和技术(全文)
大数据分析理论和技术(全文)胡经国本文作者的话:本全文由已在百度文库发表的本文3篇连载文档汇集而成。
特此说明。
一、大数据分析基本方法从所周知,对于大数据最重要的是现实大数据分析。
只有通过数据分析,才能获取有价值的信息。
越来越多的应用涉及到大数据,而且又都显示了大数据不断增长的复杂性。
所以在大数据领域,大数据分析方法就显得尤为重要。
可以说,大数据分析方法是确保数据分析最终信息或结果是否具有价值的决定性因素。
那么,大数据分析方法有哪些呢?下面简要介绍大数据分析的五个基本方法。
1、数据挖掘算法大数据分析的理论核心就是数据挖掘算法(Data Mining Algorithms)。
各种数据挖掘的算法基于不同的数据类型和格式,才能更加科学地呈现出数据本身具备的特点。
也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能够深入数据内部,挖掘出公认的价值。
另外一个方面,也正是因为有这些数据挖掘的算法才能更快速地处理大数据。
如果一个算法要花上好几年才能得出结论,那么大数据的价值也就无从说起了。
数据可视化是给人看的,而数据挖掘则是给机器看的。
集群、分割、孤立点分析,还有其他的算法,让我们深入数据内部,挖掘价值。
这些算法不仅要处理大数据的量,也要处理大数据的速度。
2、预测性分析大数据分析最重要的应用领域之一就是预测性分析(Predictive Analytic )。
从大数据中挖掘出特点,通过科学地建立模型,之后通过模型带入新的数据,从而预测未来的数据。
数据挖掘可以让分析员更好地理解数据;而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。
因此,具备预测性分析能力(Predictive Analytic Capabilities)对于预测性分析十分重要。
3、数据质量和数据管理大数据分析离不开数据质量和数据管理(Data Quality and Master Data Management)。
基于粒计算的大数据处理研究
Research on Big Data Processing Based on Granular Computing
Xu Can
(Guangzhou Panyu District Business and Technical College, Guangzhou Guangdong 511400, China)
Abstract: In recent years, big data has been developing rapidly and the efficiency of big data processing has been greatly improved. Data analysis is the core of big data, which is both dynamic and multi-dimensional. Big data is facing severe challenges in the current era. Improve big data processing capability, strengthen effective innovation in various fields such as computing model, network and processor, scientifically analyze the status quo of big data processing, timely break through the limitations of big data processing research, and further understand the advantages of big data processing. This paper mainly studies the big data processing of grain calculation.
粒计算方法论81引言-theDepartmentofComputerScience
第8章粒计算方法论姚一豫(Yiyu Yao)加拿大里贾纳大学8.1 引言粒计算研究虽然受到很多关注[1-24],但仍有不少学者持有怀疑和批评的态度。
在很多场合,经常会碰到非常尖锐的质问和批评。
例如,粒计算研究的范围和目的是什么?粒计算的思想在很多学科中都有体现,粒计算的研究是不是缺少独创性?它在科学中的价值是什么?粒计算中的粒和聚类分析中的类具有相似的特征和结构,粒计算的方法也和聚类中的方法相似,粒计算和聚类分析是不是一回事?粒计算是不是一些方法、算法、计算模式和工具的简单组合或重新包装?在粒计算的发展中,有几个重要工作。
其一,粒计算这个概念是在模糊集研究的环境下提出的[12],主要结果是一个基于词计算的粒计算模型。
其二,粗糙集理论的研究[25-32]给出了一个具体的粒计算模型,它将粒与分类、学习紧密地结合起来。
其三,人工智能中关于粒度(granularity)[33-35]、抽象(abstraction)[36-42]和多层次问题求解(hierarchical problem solving)[43-45]的研究给出了另一个粒计算模型,它将粒计算与人类认知与机器智能联系起来。
商空间理论可以看作是该方向的一个结果[46-48]。
从粒计算前十年所发表的文章看,粒计算研究的主要工作是围绕在粗糙集、模糊集和聚类分析上进行的[49-51]。
国内很多的研究是基于商空间问题求解理论[20,24,46-48,52,53]。
因此,大家认为粗糙集、模糊集和商空间理论是粒计算的主要三大理论[54]。
粒计算概念的提出是基于模糊集,这限制了粒计算的发展,例如,人工智能中的粒计算思想并没有受到应有的关注[55,56]。
粒计算研究应走出模糊集和粗糙集的圈子。
三大理论的观点也没有真正地反映粒计算的深度、广度及普适性。
如果粒计算是一个新学科,那么它的研究不应该是几个现有理论的组合,而应该有自己的思想、方法和理论体系,这要求为粒计算这个概念赋予新的意义。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中国科学:信息科学2015年第45卷第11期:1355–1369大数据挖掘的粒计算理论与方法梁吉业xy*,钱宇华xy,李德玉xy,胡清华zx山西大学计算智能与中文信息处理教育部重点实验室,太原030006y山西大学计算机与信息技术学院,太原030006z天津大学计算机科学与技术学院,天津300072*通信作者.E-mail:ljy@收稿日期:2015–05–07;接受日期:2015–06–08;网络出版日期:2015–09–18国家自然科学基金(批准号:61432011,U1435212,61322211)、国家重点基础研究发展计划(973计划)(批准号:2013CB329404)和教育部新世纪人才支持计划(批准号:NCET-12-1031)资助项目摘要大数据往往呈现出大规模性、多模态性以及快速增长性等特征.粒计算是智能信息处理领域中大规模复杂问题求解的有效范式.从推动大数据挖掘研究角度,本文首先概要地讨论了大数据的特征对可计算性、有效性与高效性提出的3大挑战;其次,结合粒计算的思维模式特点,概述了已有研究成果,分析论述了以粒计算应对大数据挖掘挑战的可行性,认为粒计算有望为大数据挖掘提供一条极具前途的崭新途径;最后,对大数据挖掘的粒计算理论与方法中的若干科学问题进行了梳理与展望,以期抛引这一领域的学术思考与研究工作.关键词大数据数据挖掘模式发现粒计算信息粒化多粒度1引言根据维基百科的定义,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合.大数据=海量数据+复杂类型的数据.大数据通常来源于以互联网为载体的虚拟社会系统,或者来源于复杂的工业控制系统、物联网系统、经济与金融系统,现实社会的各种管理与监控系统,以及诸如空间探测、大气与地球科学、生物信息学等科学研究领域[1∼3].2011年IDC公司发布的《数字宇宙研究报告》称:全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB.预计到2020年,全球将总共拥有35ZB的数据量.大数据在现代信息社会中的数据资源主体地位已成为学术界与企业界的共识.由于对经济活动与社会发展具有可预见的重要推动作用,大数据已经进入了世界主要经济体的战略研究计划.正如美国政府启动的“Big Data Research and Development Initiative”计划指出的“将大力推进大数据的收集、访问、组织和开发利用等相关技术的发展,提高从海量复杂的数据中提炼信息和获取知识的能力与水平”.从大数据中进行数据挖掘与知识发现是大数据应用的战略问题之一.梁吉业等:大数据挖掘的粒计算理论与方法2大数据挖掘面临的挑战2008年,Nature出版的专辑“Big Data”从互联网技术、网络经济学、超级计算、环境科学和生物医药等多个方面介绍了大数据带来的挑战[4].2011年2月Science杂志刊发了海量数据处理专题,指出“倘若能够更有效地组织和利用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用”[5].大数据的特征常被总结为4V,即Volume(体量浩大)、Variety(模态繁多)、Velocity(快速增长)、Value(价值巨大但密度很低).其中,“价值巨大但密度很低”从大数据的利用潜力和当前分析与处理的技术局限性角度概括了大数据的特征,是指大数据的价值虽高,但利用密度很低.本文重点针对大数据的外在形态特征,即大数据的规模海量性、多模态性以及快速增长性等对传统的数据挖掘理论、方法与技术在可计算性、有效性与时效性等方面提出的严峻挑战进行研究.而为应对这些挑战所涌现的新的计算理论、方法与技术将有效推动大数据挖掘的发展与应用.2.1大规模性VS可计算性数据规模的急剧膨胀给数据挖掘,特别是面向互联网的数据挖掘带来了巨大挑战[6,7].为了使巨量数据可计算,一些新的高性能计算方法逐渐涌现.2004年,Google公司首先推出了以MapReduce 为代表的非关系数据管理技术,作为面向大数据分析和处理的并行计算模型,很快引起了学术界和工业界的广泛关注.在面向大数据的挖掘技术方面,国内外学者也进行了一些初步探索.比如,针对传统分析软件扩展性差以及Hadoop分析功能薄弱的特点,IBM致力于对R和Hadoop进行集成[8].R 是开源统计分析软件,通过R和Hadoop的深度集成,把并行框架下的计算推向数据.另有研究者实现了Weka(类似于R的开源机器学习和数据挖掘工具软件)和MapReduce的集成[9].标准版Weka 工具只能在单机上运行,并且存在内存不能超越1GB的限制.经过算法的并行化,在MapReduce集群上,Weka突破了原有的可处理数据量的限制,可以轻松地对超过100GB的数据进行分析.另有开发者发起了Apache Mahout项目的研究,该项目是基于Hadoop平台的大规模数据集上的机器学习和数据挖掘开源程序库,为应用开发者提供了丰富的数据分析功能.针对频繁模式、分类和聚类等数据挖掘任务,研究人员也提出了相应的大数据解决方案.比如,Miliaraki等[10]提出了一种可扩展的在MapReduce框架下进行频繁序列模式挖掘的算法,Ene等[11]用MapReduce实现了大规模数据下的K-Center和K-Median聚类方法,Yu等[12]提出了针对线性分类模型的大数据分类方法,Kang等[13]使用Belief Propagation算法(简称BP)处理大规模图数据挖掘异常模式.针对大规模图数据分析, Yang等[14]对基于集群上的大规模图数据管理和局部图的访问特征(广度优先查询和随机游走等)进行了研究,提出了分布式图数据环境和两级划分管理架构.另一种应对大数据可计算性挑战的思路是使用数据采样技术,通过采样使数据规模变小,以便利用现有的技术手段进行数据分析[15].然而,这一思路可能会遭受两方面的质疑.一方面,大数据的混杂性使得抽样所获得的样本未必能反映大数据总体;另一方面,普遍认为:大数据条件下,基于小样本学习理论的传统数据挖掘、机器学习方法的“独立同分布假设”难以保障,致使样本数据模式能否代表总体数据模式受到质疑.事实上,MapReduce是在大规模非结构化数据的管理层面为人们提供了一种并行处理架构.而在大数据数据分析与挖掘层面遭遇的可计算性挑战方面,尽管已有一些工作,但还处于借用MapReduce 对数据进行管理的阶段,还没进入面向数据挖掘任务、针对大数据本身研究其拆分理论与方法,以应对可计算性挑战的阶段.1356中国科学:信息科学第45卷第11期2.2多模态性VS有效性多模态是大数据的另一个显著特点.当前,数据采集方式、手段的多样性一方面为人们提供了从不同视角观测自然系统、工业系统、社会系统中复杂现象的可能性,另一方面也使得观测对象的数据描述呈现出多模态特征.比如,在医疗检测中,提供的心电、脑电、超声、X射线、电子计算机断层扫描(CT)、磁共振成像(MRI)、正电子发射断层扫描(PET)、单光子发射断层成像(SPECT)及功能磁共振成像(FMRI)等多种模态信息是互为差异、互相补充的,对不同模态信息进行适当的融合成为临床诊断和疾病治疗的迫切需求.在天体物理研究中,太阳大气成像仪记录了太阳内部结构和磁场结构、太阳的极紫外线辐射、太阳盘面的数个不同波长紫外线和极紫外线影像,一天生成的数据将近2T.太阳物理学家需要从如此海量的多模态数据中发现太阳活动的物理规律,以揭示空间天气的形成机理,并建立可靠的预报模型.当前,在一些领域已经开展了多模态数据分析的探索性研究[16∼19],主要思路是:将分别从不同模态的数据中提取的特征合并成一个更大的特征空间,然后在这个特征空间中进行数据分析与挖掘.现有方法属于特征层面融合后的分析思路,其有效性依赖于根据先验知识提取的特征,难以推广到先验知识匮乏的前沿探索领域.现有方法的主要局限性表现在以下3个方面.其一,所获取的数据模式(知识)表现出高度非线性特点,难以被用户理解;其二,难以对带有分支、层次、网络等结构的复杂问题进行数据层面的建模;其三,融合仅限于特征层面,还没有深入到知识和推理层面.如何充分利用大数据的多模态性,发展面向复杂问题求解,能从数据、特征、知识、推理等不同层面体现融合思想,具有分层递阶、分而治之特点的高效挖掘理论与方法是多模态大数据分析的主要挑战.2.3增长性VS时效性大数据的又一个显著特点是数据量随着时间快速积累、迅速增长,人们可以充分利用历史数据和新增数据分析对象的状态、预测事件的发展趋势.许多实际应用领域的数据挖掘任务具有较高的时效性要求.比如,在客户购买行为模式的分析中,电子商务平台上的数据几乎每时每刻都在动态增加和更新,决策者需要及时掌握客户行为的模式和消费趋势,以便更精准地投放广告进行商品推荐.在股票投资决策中,股票交易数据在开盘期间实时累积,如何及时做出优化组合投资决策对降低投资风险、提高收益率至关重要.在社会网络中,大量的节点上的状态在不断发生变化,节点与节点之间的链接情况也在不断发生变化,这给面向社会网络的数据挖掘的实时性要求带来了挑战.OLAP(online analytical processing)正是为了契合这种数据分析的时效性需求而被提出的.然而,在大数据时代,数据的增长不仅仅体现在其快速性上,而且体现在分析所需时间段内数据增量的大规模性,这使得传统的单增量或小规模批增量机器学习技术的局限性凸显,大数据呼唤更高效的在线数据分析技术.最主要的挑战在于:基于大规模批增量数据的模式更新机制以及高效算法.综合上述分析可以看出,大数据的大规模性、多模态性与快速增长性给大数据挖掘提出的挑战是多方面的、多层面的.衍生出的问题既具有领域相关性,又具有多学科交叉性.为此,需要在现有研究成果的基础上,以全新的视角发展大数据挖掘的新理论与新方法,推动大数据学科的发展与应用.3粒计算——大数据挖掘的新途径粒计算是专门研究基于粒结构的思维方式、问题求解方法、信息处理模式的理论、方法、技术和1357梁吉业等:大数据挖掘的粒计算理论与方法工具的学科,是当前智能信息处理领域中一种新的计算范式.从人工智能角度来看,粒计算是模拟人类思考和解决大规模复杂问题的自然模式,从实际问题的需要出发,用可行的满意近似解替代精确解,达到对问题的简化、提高问题求解效率等目的.从数据分析与处理层面看,粒计算通过将复杂数据进行信息粒化,用信息粒代替样本作为计算的基本单元,可大大提高计算效率.粒计算主要包括数据粒化、多粒度模式发现与融合、多粒度/跨粒度推理等核心研究内容.大数据的表现性态、大数据挖掘面临的挑战、基于大数据的复杂问题建模与粒计算框架的契合之处主要表现在以下3个方面.3.1大数据经常具有多层次/多粒度特性1990年,我国著名科学家钱学森先生在其论文《一个科学新领域——开放的复杂巨系统及其方法》[20]中就指出:“只有一个层次或没有层次结构的事物称为简单的系统,而子系统种类很多且有层次结构,它们之间关联关系又很复杂的系统称为复杂巨系统.任何一个复杂系统都是一个具有层次结构的系统”.Friedman等[21]在Science上发表的论文认为在诸如复杂细胞网络、蛋白质互作用网络等生物大数据中都广泛存在着多层次、多尺度特性.Clauset等[22]在Nature上发表的论文也指出,在复杂社会网络中也存在天然的层次结构.Ahn等[23]则专门研究了大数据的多尺度复杂性.著名社会网络科学家Watts[24]在其提出的小世界网络研究中,也指出网络中嵌套的诸多社区内部也满足小世界网络的要求.大数据往往来自于对复杂的自然/人工巨系统的观测记录,或者由人类社会系统借助网络自主产生.这就意味着,反映复杂巨系统形态及运动规律的大数据必然隐含着由这些系统所决定的局部与整体关系,以及复杂的层次结构,即数据的多粒度/多层次特性.3.2挖掘任务通常呈现多层次/多粒度特性数据挖掘总是面向实际应用的,即使面对同一个数据集,用户需求的多层次/多粒度特性也决定了挖掘任务的多层次/多粒度特性.比如,在金融大数据领域,决策任务可能是面向国家层面、区域层面,或者是地方层面的,甚至是面向某个银行的;也可能是面向不同种类的存款、贷款,或理财产品.这就使得挖掘任务可能同时面向不同层面、不同方面.挖掘任务的多层次/多粒度特性必然要求数据挖掘工具不仅能够从不同视角探索大数据不同层面隐含的模式,而且还能够进行复杂有效的融合、自动的跳转,以及便捷的定制.3.3大数据挖掘要求算法具有高效近似求解性在2012年出版的大数据著作《大数据时代:生活、工作与思维的大变革》[25]中指出:“大数据意味着所有数据”.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合.因此,大数据挖掘首先要解决“大数据能算的问题”,这就要求对大数据进行合理的分解,即大数据集的粒化,然后采用并行处理策略,MapReduce正是基于这种策略在大数据管理方面的实践结果.基于大数据的复杂问题建模往往具有极其复杂的结构,这就要求大数据挖掘算法能够按照任务的要求自动地或人机交互地从大数据中抽取与组织出具有多层次/多局部特征的结构,并能在这种复杂结构上进行推理,以达到挖掘的预期目标.大数据挖掘算法的高效近似求解特性,主要来自于用户对挖掘过程、挖掘结果的时效性要求,大数据的巨量增长性对在线挖掘技术提出了严峻挑战.与传统的小数据集上的挖掘与学习不同,大数据的混杂性、不确定性,以及高噪声对“独立同分布假设”的破坏使得追求问题的最优/精确解变得几乎1358中国科学:信息科学第45卷第11期不可能,迫使我们转向寻找问题的满意近似解.另一方面,满意近似解在很多环境下已能很好地满足实际应用的需要,无需一味追求问题的最优/精确解.综上分析可知,从隐含于大数据中的结构特征,大数据挖掘任务的类型特征,到大数据挖掘算法的性能特征,综合这些角度,大数据挖掘的计算框架与粒计算所蕴含的计算范式具有高度契合性.鉴于这一认识,可以推测:粒计算将为大数据挖掘提供一条极具前途的崭新途径.4现状分析早在1979年,美国著名控制论专家Zadeh[26]就首次提出了模糊信息粒化问题.他认为,人类认知能力可概括为粒化(granulation,全体分解为部分)、组织(organization,部分集成为整体)和因果(causation,因果的关联)3个主要特征.1985年,Hobbs[27]提出了粒度(granularity)的概念.在20世纪90年代初,我国的张钹和张铃[28,29]在其专著《问题求解理论及应用》中特别指出“人类智能的一个公认特点,就是人们能从极不相同的粒度上观察和分析同一问题.人们不仅能在不同粒度世界上进行问题的求解,而且能够很快地从一个粒度世界跳到另一个粒度世界,往返自如,毫无困难”.这种处理不同粒度世界的能力,正是人类问题求解的强有力的表现.Yager和Filev[30]进一步指出“人们已形成了一个关于世界的粒度观点,······,在此观点下,人类的观察、度量、概念化和推理都是在粒度意义下进行的”.这些观点都认为,粒化作为人类认知的重要特征之一,对复杂数据的知识发现具有重要作用.1997年,Zadeh[31]第一次提出了粒计算(granular computing)的概念.随后国际上许多不同领域的学者都开始关注和研究这个问题,其逐渐形成了智能信息处理中一个新的研究方向.自粒计算这一概念提出以来,大量关于粒计算研究的学术论文相继发表,在国际上形成了专门的研究群体.近年来,国际上两个系列会议“IEEE International Conference on Granular Computing”与“International Conference on Rough Sets,Fuzzy Sets,Data Mining and Granular Computing”每年举办一次.在国内,2001年以来,粒计算的研究成果集中在每年举办的“中国粗糙集与软计算学术会议”上报道和交流.由于粒计算在国内的迅速发展,2007年开始每年举办“中国粒计算学术会议”.短短十余年的发展已经凸显出它对信息科学特别是对计算机科学的作用和影响.粒计算已逐渐成为数据分析领域的新分支,在数据粒化、多粒度模式发现以及粒度推理等方面的研究已经取得了一些重要的进展.4.1数据粒化研究进展数据粒化是基于粒计算的数据分析的基础,是按照给定的粒化策略将复杂数据分解为信息粒的过程.根据不同的数据建模目标和用户需求,可以采用多种多样的粒化策略.单纯依赖数据的常用粒化策略大多可以归结为基于数据二元关系的粒化策略,其本质是将满足预先定义的二元关系的两个数据样本分配到同一个数据粒中.诸多粒化策略通过使用等价关系、相似关系、极大相似关系、模糊等价关系、模糊相似关系、邻域关系、优势关系等二元关系可将数据粒化为相应的二元粒结构[32∼39].再如,图数据中的连通分支,极大全连通子图、各种路及圈,以及树中的子树、链等.基于聚类的粒化策略尽管本质上也是依赖于二元关系,但它是在目标函数引导下,通过一个迭代寻优过程学习得到隐含于数据中的簇团结构[40].聚类可以被理解为数据簇团结构的发现方法,也可以被理解为一种数据粒化策略.聚类粒化具有很强的数据针对性,如针对高维数据,其代表性方法有基于子空间的聚类[41]、联合聚类[42]以及基于超图的聚类[43]等;针对复杂数据,Brendan[44]在Science发表了一个基于消息传递的聚类算法,成功应用于人脸图像聚类、基因外显子发现、手稿中心句识别以及最优航线搜索等1359梁吉业等:大数据挖掘的粒计算理论与方法方面;针对多模态数据,Ahmad等[45]提出了一种数值型和符号型并存的多模态数据的K-Means算法.Huang[46]提出了用于解决符号数据聚类的K-Modes算法,并将其与K-Means算法相融合用于多模态数据聚类.此外,在图像处理领域里,有一类通过提取图像本身的纹理、边缘、灰度值等特征,并将其作为多模态特征来进行图像数据的粒化方法[18,19,47].目前的数据粒化策略与方法很少考虑适应大数据的可计算性需求,多是从单一模态特征出发,在不同模态特征之间设置权重参数或者简单地对结果进行集成,并没有从本质上进行融合,不能够保证其语义一致性或语义相关性,无法有效解决具有多模态特征的数据协同粒化问题.4.2多粒度模式发现研究进展多粒度模式发现与融合是粒计算框架下复杂问题求解的内在逻辑要求.所谓多粒度,可以是多个数据子集、表示空间的多个子空间、多个不同的模态变量集、也可以是问题求解过程中的多个局部或中间结果,它对应于问题的多个角度、多个局部或多个层次.为了获得整体数据集或问题的全局解,需要对多个单一粒度上发现的模式进行融合.尽管没有使用多粒度这一术语,国内外学者已经针对医学图像分析、网络、视频语义分析、标注和检索、情感识别等领域的多模态问题开展了融合研究,主要考虑从不同模态的数据中分别提取特征,构成多模态特征空间,发展具有多模态特征的模式发现理论与方法.目前的研究主要集中在3个方面:基于多核学习的多模态数据分类[48],基于多字典协同表达的多模态数据建模[49]和基于深度学习的多模态数据融合[50].比如,在多模态视频挖掘中,Hershey[51]将视觉和音频从视频中提取出来,利用参数模型的方法对音频信号在视频画面中对应的发生区域进行了挖掘.Darrel等[52]则提出了一种基于参数模型的新方法.这些多模态融合方法主要分为乘积融合、线性融合、非线性融合等.在多模态Web挖掘中,网页上丰富的图片、音频、视频以及文本等多种模态信息构成了典型的多模态数据挖掘问题.一些学者提出了语义网方法来描述单词和图片之间的相关性,并利用文本信息帮助进行图像的检索.多模态图像检索系统iFind[53]提出了一种同时利用文本和图像视觉信息的相关反馈算法.胡清华[54]系统地研究了数值型数据和符号型数据并存的多模态数据的粗糙集方法,并将粗糙集方法推广应用到了太空天气预报、风力发电故障识别等领域.Hwang等[55]研究了多模态数据的聚类问题,将图像数据中的纹理、灰度值、线条等提取出来作为多个模态来研究. Wang等[56]将网页中的图片和图片周围文字分离成两类事物,通过两者之间的关联矩阵将同一事物中的相似度传播到另一类事物中,得到了更为精确的图片之间的相似度.Qian等[57]系统提出了多粒度粗糙集理论,通过挖掘不同粒度下的隐含模式来对目标概念与目标决策进行融合学习,用于更加高效合理地进行决策.然而,目前的研究多集中在基于聚类的多粒度结构发现以及基于表示空间的多粒度多模态分类问题,还很少考虑基于多粒度的分类、回归和相关关系分析等数据分析任务,尤其是多模态数据的分层多级的分类回归分析较少有人涉及.此外,多个粒化结构之间的关系研究也鲜见报道,它也应是多粒度理论与方法中的重要研究内容.4.3粒计算推理研究进展推理是人类智能中的重要能力之一.推理是一种形式逻辑,是用于研究人们思维形式、规律以及逻辑方法的科学.推理的作用是可从已知的知识得到未知的知识.粒计算推理指的是利用已知的信息粒或粒空间进行演绎的逻辑方法.在粒计算领域中,已经有一些关于粒计算推理的研究.Yao[58]对粒计算的基本问题、基本方法进行了系列研究,通过采用决策逻辑语言(DL-语言)来描述论域的粒度,构建粒度世界的逻辑框架;将1360。