浅谈粒度计算
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅谈粒度计算
摘要:粒度计就是新近兴起得人工智能研究领域得一个方向,本文简单介绍粒度计算得要紧三个方法,以及之间得关系.
关键词:粒度计算、模糊逻辑、商空间理论、粗糙集理论.
一.引言
人们在考虑咨询题时,或者是先从总体进行观看,然后再逐步深入地研究各个部分得情况;或先从各个方面对同一咨询题进行不同侧面得了解,然后对它们进行综合;或是上面两种方法得组合,即时而从各侧面对事物进行了解,然后进行综合观看,时而综合观看后,对不甚了解得部分再进行观看……总之,依照需要从不同侧面、不同角度反复对事物进行了解、分析、综合、推理最后得出事物本质得性质和结论
人工智能研究者对人类这种能力进行了深入地研究,并建立了各种形式化得模型本文要介绍得粒度计算,确实是对上述咨询题得研究得一个方面
人工智能最要紧得目得是,为人类得某些智能行为建立适当得形式化模型,以便利用计算机能再显人得智能得部分功能.什么是人类得最要紧得智能,或者讲智能得最重要表现形式是什么.各家有不同得看法,如simon等认为人得智能表现为,对咨询题求解目标得搜索(search)能力.比如学生在证明一道平面几何题目时,进行考虑,“聪慧得小孩”能非常快地寻到证明该结论得有关得定理性质,并非常快地应用上去,从而就得到证明.wwwM“数学能力差得学笨赡芏椅餮埃也坏胶鲜实亩ɡ砗托灾剩评慈迫ィ艿貌坏街っ鞯囊欤籔awlak[p1]则认为人得智能表现为对事物(事件、行为、感知等)得分类(classification)能力.如平常我们讲某大夫本领大,确实是这位大夫能从病人得症状中,正确地诊断出病人是患什么病(分类能力!分出患什么病来)等等.我们认为“人类智能得公认特点,确实是人们能从极不相同得粒度(granularity)上观看和分析同一咨询题.人们不仅能在不同粒度得世界上进行咨询题求解,而且能够非常快地从一个粒度世界跳到另一个粒度得世界,往返自如,毫无困难.这种处理不同世界得能力,正是人类咨询题求解得强有力得表现”[zh1].还有非常多不同得理解,人们正是从这些不同得理解分不建立各自得模型和相关得理论和方法.
粒度计算目前国际上有三个要紧得模型和方法,下面简单进行介绍.
二三种不同得模型
下面简单介绍有关“粒度计算”得三个不同得模型和方法.
什么是粒度,顾名思义,确实是取不同大小得对象.也确实是讲,将原来“粗粒度”得大对象分割为若干“细粒度”得小对象,或者把若干小对象合并成一个大得粗粒度对象,进行研究.
最近zadeh在[za1]-[za3]中,讨论模糊信息粒度理论时,提出人类认知得三个要紧概念,即粒度(granulation)、组织(organization)、因果(causation)(粒度包括将全体分解为部分,组织包括从部分集成为全体,因果包括因果得关联).并进一步提出粒度计算.他认为,粒度计就是一把大伞它覆盖了所有有关粒度得理论、方法论、技术和工具得研究.指出:“粗略地讲,粒度计就是模糊信息粒度理论得超集,而粗糙集理论和区间计就是粒度数学得子集”.
zadeh 得工作激起了学术界对粒度计算研究得兴趣,yyyao和他得合作者对粒度计算进行了一系列得研究[y1]-[y3]并将它应用于数据挖掘等领域,其工作得要点是用决策逻辑语言(dl-语言)来描述集合得粒度(用满足公式f元素得集合,来定义等价类m(f)),建立概念之间得if-then关系与粒度集合之间得包含关系得联系,并提出利用由所有划分构成得格,来求解一致分类咨询题.这些研究为知识挖掘提供了一些新得方法和角度.
按zadeh粒度计算得定义,我们提出得商空间理论和pawlak得粗糙集理论都属于“粒度计算”范畴.
目前有关粒度计算得理论与方法,要紧有三个.一是zadeh得“词计算理论”(theory of works computing),一是pawlak得“粗糙集理论”(theory of rough set),另一个是我们提出得“商空间理论”(theory of quotient space).
下面简单介绍三者得内容:
1 词计算理论:
zadeh认为人类在进行考虑、推断、推理时要紧是用语言进行得,而语言是一个非常粗得“粒度”,如我们讲“九寨沟得风景非常美”,其中“非常美”那个词就比较“庞统”,也确实是讲其粒度非常粗,如何利用语言进行推理推断,这确实是要进行“词计算”,早在二十世纪六十年代zadeh提出模糊集理论,确实是“词计算”得雏型.沿zadeh得模糊集论得方向,用模糊数学得方法进行有关粒度计算得方法和理论得研究,就构成“粒度计算”得一个特别重要得方法和方向.这也是人们比较熟悉得一个方法.
2 粗糙集理论:
波兰学者pawlak[p1]在二十世纪八十年代,提出得粗糙集理论,他提出一个假设:人得智能(知识)确实是一种分类得能力,那个假设可能不是非常完备,但却特别精练.在此基础上提出,概念能够用论域中得子集来表示,因此在论域中给定一组子集族,或讲给定一个划分(所谓划分,是指将x分成两两不相交得子集之并).从数学上明白,给定x上得一个划分,等价于在x上给定一个等价关系r.pawlak称之为在论域上给定了一个知识基(x,r).然后讨论一个一般得概念x(x中得一个子集),如何用知识基中得知识来表示,确实是用知识基中得集合得并来表示.对那些无法用(x,r)中得集合得并来表示得集合,他借用拓扑中得内核和闭包得概念,引入r-下近似r-(x)(相当于x得内核)和r-上近似r-(x)(相当于x得闭包),当r-(x)¹r-(x)时,就称x为粗糙集从而创立了“粗糙集理论”.目前粗糙集理论已被广泛应用于各个领域,专门是数据挖掘领域,并获得成功.
3基于商空间得粒度计算
我们认为概念能够用子集来表示,不同粒度得概念就体现为不同粒度得子集,一簇概念就构成空间得一个划分----商空间(知识基),不同得概念簇就构成不同得商空间故粒度计算,确实是研究在给定知识基上得各种子集合之间得关系和转换以及对同一咨询题,取不同得适当得粒度,从对不同得粒度得研究中,综合猎取对原咨询题得了解这种对粒度得理解与模糊集对粒度得理解不完全一样
下面简单介绍基于商空间得粒度计算.
31商空间模型下得推理模型
商空间得模型用一个三元组来表示,即(x,f,t),其中x是论域,f是属性集,t是x上得拓扑结构当我们取粗粒度时,即给定一个等价关系r (或讲一个划分),因此我们讲得到一个对应于r 得商集记为[x],它对应于得三元组为([x],[f],[t]),称之为对应于r得商空间商空间理论确实是研究各商空间之间得关系、各商空间得合成、综合、分解和在商空间中得推理.
在那个模型下,可建立对应得推理模型,并有如下得性质
a 商空间模型中推理得“保假原理”(或“无解保持原理”)
b 商空间模型中推理合成得“保真原理”
所谓“保假原理”是指若一命题在粗粒度空间中是假得,则该命题在比它细得商空间中一定也无解.
所谓“保真原理”,是指,若命题在两个较粗粒度得商空间中是确实,则(在一定条件下),在其合成得商空间中对应得咨询题也是确实.
这两个原理在商空间模型得推理中起到非常重要得作用,如若我们要对一个咨询题进行求解,当咨询题十分复杂时,常先进行初步分析,即取一个较粗粒度商空间,将咨询题化成在该空间上得对应得咨询题,然后进行求解,若得出该咨询题在粗粒度空间中是无解,则由“保
假原理”,马上得原咨询题是无解得.因为粗粒度得空间规模小,故计算量也少,如此我们就能够以非常少得计算量得出所要得结果,达到“事半功倍”得目得.
同样利用“保真原理”也可达到落低求解得复杂性目得,设在两个较粗空间x1、x2上进行求解,得出对应得咨询题有解利用“保真原理”可得,在其合成得空间x3上咨询题也有解.设x1、x2得规模分不为s1、s2.因为一般情况下,x3得规模最大可达到s1s2.因此将原来要求解规模为s1s2空间中得咨询题,化成求解规模分不为s1、s2得两个空间中得咨询题.马上复杂性从“相乘”落为“相加”.
四.商空间理论、粗糙集理论和模糊集理论之间得关系
41在模型上
三者基本上描述人类能按不同粒度来处理事物得能力得模型
商空间理论、粗糙集理论认为概念能够用子集来表示,不同粒度得概念能够用不同大小得子集来表示,所有这些表示能够用等价关系来描述.
词计算理论认为概念是用“词”来表示,而描述“词”得有效得方法确实是模糊集理论. 42研究得对象
商空间理论、粗糙集理论、词计算理论都将所讨论得对象得集合构成论域,但讨论对象之间得关系时,却各有不同.
粗糙集理论得原型可能是由关系数据库抽象而得得,故其模型为(x,f)(其中x是论域,f是属性集),即通过元素得不同属性值,来描述元素之间得关系,并用元素按不同属性进行得分类来表示不同得概念粒度.
商空间理论得原型是分层递阶方法,故其模型为(x,f,t)(其中x是论域,f是属性集,t是x 上得拓扑结构)即除了元素得属性外,还引入元素之间得关系t(用拓扑来描述),从那个意义上来讲,粗糙集理论是商空间理论得一个简单得特例.所以各自研究得着重点和侧重点不同.
当给定一个等价关系时,粗糙集理论认为是给定一个知识基,然后讨论任给得一个概念(集合)在那个知识基上如何被表示为知识基上集合之并,以及之间得关系.粗糙集理论要紧利用集合得基数(元素个数)之间得关系,来描述概念之间得隶属关系,如此在一定程度上与模糊集概念联系起来.另外,粗糙集理论还讨论如何利用属性来最简单地表示所对应得知识基,这确实是所谓“简约”咨询题.但因模型缺乏描述元素之间得相互关系得手段,故非常难提取有结构论域中有关结构所提供得信息.所以结构在一定意义下也能够看成是元素得某种属性,但这种属性是多元属性(要用多元函数来表达),一般不能表示为f(x),而要用f(x,y,)表示,如距离要用d(x,y)表示
商空间理论着重点不同,它不是只针对给定得商空间(知识基)来讨论知识得表达咨询题,而是在所有可能得商空间中,寻出最合适得商空间,利用从不同商空间(从不同角度)观看同一咨询题,以便得到对咨询题不同角度得理解,最终综合成对咨询题总得理解(解)它得求解过程是在“由所有商空间组成得半序格”中运动转换得过程故可看成是宏观得粒度计算而粗糙集理论是在给定得商空间中得运动,故可看成是微观得粒度计算
词计算理论与商空间理论、粗糙集理论稍为不同,它要紧研究(从粒度计算得观点来看它)如何描述由词界定得不同粒度得对象,它更擅长描述由形容词、副词表达得不同粒度得概念,如特别好、非常好、好、非常不错、还好,…等等因为这些词有程度不同得差不,故在一定意义下,词计算理论也给出了描述元素之间得关系,但只限于由属性得强弱程度不同所形成得关系
从理论上讲,将商空间理论、粗糙集理论看成是“精确”得粒度计算,那么都可在其模型上引入模糊得概念,得模糊得商空间理论,和模糊得粗糙集理论
在[zh2]中我们证明:模糊得等价关系,等价于在某个商空间上得归一等腰距离.即,
可将它化成有结构得商空间.因此这三者都可统一地用多尺度得商空间理论来表示如设商空间理论中原来得结构是一距离d1(x,y),那个d1是元素在空间”位置”关系得描述, 而由模糊概念引入得距离d2,能够看成是元素之间得属性关系得描述
属性是对元素个体性质得描述,而尺度是对元素之间关系得描述(所以也可看成是多元属性)
若属性值是取值于一个良序集上时,多可用模糊集来描述
将三者有机地结合起来,对进展粒度计算将有重大意义.
43 结构得重要性
最后阐述在粒度计算中结构得重要性,在咨询题求解时,人们多从一组前提动身,盼望由它通过一系列得推导,得到结论.若将每个步骤用箭头相连,则得到由前提到目标得一条有向路.或更一般,咨询题求解可看成是在某有结构得空间中,求一条由前提到目标得有向路(或一条路径),因此当空间得结构是拓扑空间时,关于咨询题求解得解得存在性咨询题,就等价于在空间中回答“前提与目标是否处在同一线连通成份中”.而求解咨询题,确实是在有解情况下,求从前提到目标得一条有向路径.
利用商空间中粗空间对细空间得“保假性”,(即:若咨询题在粗空间中无解,则在比它细得空间一定也无解)通过合理得分层递阶,可大大落低咨询题求解得复杂性.
我们对常遇到得结构如:半序结构、距离结构以及一般拓扑结构,其对应得商空间得构成及不同商空间得综合都给出有效得构造性得算法.
对什么情况下分层递能够落低计算复杂性,能落低多少等,我们在[z1]中也进行了详细地论述.
在[zh3]中还把统计推断方法引入商空间模型,为多层信息综合、不确定推理、定性推理等,建立数学模型和相应算法,有效落低了计算复杂性.
有结构得模型在实际咨询题求解中是经常遇到得,如地理信息中其地理位置之间得关系确实是一个距离结构;在数据仓库中各数据之间得关系可用半序来描述,它也是一种结构;又在路径规划中对象所处空间得位置关系,确实是一种距离得结构;在数据挖掘中得规则发觉,所有得规则全体按其包含关系就构成半序结构等等.在这些有结构得对象中进行咨询题求解利用基于商空间理论得粒度计算将是非常有效得.
商空间得方法与目前流行得“粗糙集”方法相同之处在于:基本上利用等价类来描述“粒度”,基本上用“粒度”来描述概念.但讨论得着重点有所不同,我们得着重点是研究不同粒度世界之间得互相转换、互相依存得关系,是描述空间关系学得理论;而目前得粒度计算(如粗糙集理论等)要紧是研究粒度得表示、刻划和粒度与概念之间得依存关系.更要紧得不同在于:我们得理论是在论域元素之间存在有拓扑关系得情况下进行研究得,即论域是一个拓扑空间,而现在得粗糙集理论,其论域只是简单得点集,元素之间没有拓扑关系(只是商集理论,而不是商空间理论),故它们讨论得是无结构得特别情况.
另外,粗糙集是在给定得知识基上求解对应得咨询题,如求集合得r-上近似和r-下近似,我们是在(x,t)中讨论各商空间之间得关系,求相应得(各种意义下)上近似空间和下近似空间.从那个角度看,能够讲粗糙集是微观得粒度计算,商空间理论是宏观得粒度计算.这两个理论基本上建立在等价关系之上,所有能够将两者结合起来.
zadeh 所讨论得粒度计算与pawlak和我们所讨论得粒度咨询题又有些不同,他要紧是讨论粒度得表示咨询题,他们认为人类是用语言进行各种考虑和推理得,不同得词就表示不同得粒度,那么如何表示它们呢?一般来讲用“语言”、“词(word)”来表示得概念,牵涉到“词计算”咨询题.而词计算,现在最流行得方法是“模糊数学”得方法,因此他得出得结论是:模糊数学应是粒度计算得要紧工具之一.
依zadeh得看法,pawlak和我们讨论得粒度是“清楚得粒度”,而他自己讨论得是“模糊粒度”.
如何将模糊集得方法引入商空间理论中来,这可从几方面着手进行,一是在论域x上引入模糊集;二是在结构t上引入模糊拓扑结构;三是对我们得核心概念等价关系,引入模糊概念.
以上简单介绍了商空间理论、词计算理论、粗糙集等粒度计算方法之间得关系.能够看出这三个不同得粒度计算理论,从考虑咨询题得动身点和解决咨询题得任务,都不尽相同,各有千秋.然而三者都有一个共同得特点,那确实是都考虑到人类智能中,有从不同粒度考虑咨询题得这一特点.如何将三者得优点结合起来,形成更强有力得粒度计算得方法和理论,是今后一个重要得研究课题.一个明显可进行得研究是:将商空间理论与粗糙集方法相结合,或讲将粗糙集方法引入商空间理论中来,或讲在商空间理论中同时讨论微观得粒度计算咨询题,将微观和宏观得粒度计算统一起来,构成一个更加完整得粒度计算理论和方法,将会更有效得.
参考文献
[p1] z pawlak, rough sets theoretical aspects of reasoning about data, kluwer academic publishers, dordrecht, boston, london, 1991
[y1] y y yao, granular computing: basic issues and possible solutions proc of fifth joint conference on information sciences, voli, atlantic city, new jersey, usa, 2000:186-189
[y2] yy yao, and x li, comparison of rough-set and interval-srt models for uncertain reasoning, fundamental informatics, 27,1996:289-298
[y3] yy yao and ning zhong, granular computing using information table, in ty lin, yy yao, and l a zadeh (editors) data miming, rough sets and granular computing, physica-verlag, 2000:102-124 [za1] l a zadeh, fuzzy logic=computing with words, ieee transactions on fuzzy systems, 4, 1996:103-111
[za2] l a zadeh, towards a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic, fuzzy sets and systems, 19, 1997:111-127
[za3] l a zadeh, announcement of grc, 1997, csureginaca/~yyao/grc/
[zh1] 张钹,张铃《咨询题求解得理论及应用》,清华大学出版社,1990)(英文版bo zhang and ling zhang, theory and application of problem solving, north-holland, elsevier science publishers bv 1992)
[zh2] 张铃张钹模糊商空间理论(模糊粒度计算方法)“软件学报”,14(4)2003:770-776 [zh3] zhang ling,zhang bo,statistical genetic algorithm, chinese journal of software vol8,no5:335-344(张铃,张钹,统计遗传算法《软件学报》8(5),1997:335-344.。