模糊数学在数据挖掘领域综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
模糊数学在数据挖掘研究综述
一、模糊数学
关于数学的分类,根据所研究对象的确定性可以分为经典数学、随机数学以及模糊数学。三者的关系如图1所示。经典数学建立在集合论的基础上,一个对象对于一个集合要么属于,要么不属于,两者必居其一,且仅居其一,绝不可模棱两可,由于这个要求,大大限制了数学的应用范围,使它无法处理日常生活中大量的不明确的模糊现象与概念。随着发展,过去那些与数学毫无关系或关系不大的学科如生物学,心理学,等都迫切要求定量化和数学化。
图1依照研究对象是否确定的数学分类
在日常生活中,我们经常会遇到一些模糊不清的概念。例如,“高个子”、“矮个子”等。如果把1.80米的人算高个子,那么,身高1.76米的人算不算高个子呢?这就很难说,因为“高个子”,“矮个子”并没有二者明确的标准,因而这些概念就显得模糊不清。为了适应这些学科自身的特点,只有通过改造数学,使它应用的面更为广泛。模糊数学就是研究事物这种模糊性质的一门数学学科。
模糊数学诞生于1965年,创始人是美国自动控制专家查德,他最早提出了模糊集合的概念,引入了隶属函数。自诞生之日起,就与电子计算机息息相关。今天精确的数学计算当然是不可少的,然而,当我们要求脑功能的时候,精确这个长处反而成了短处。例如,我们在判别走过的人是谁时,总是将来人的高矮,胖瘦、走路姿势与大脑存储的样子进行比较,从而作出判断。一般说来,这不是件难事,即使是分别多年的老友,也会很快地认出他来,但是若让计算机做这件事,使用精确数学就太复杂了。得测量来人的身高、体重、手臂摆的角度以及鞋底对地面的正压力、磨擦力、速度、加速度等数据,而且非要精确到后几十位才肯罢休。如果有位熟人最近稍为瘦了或胖了一些,计算机就“翻脸不认了”。显然,这样的“精确”容易使人糊涂。由此可见,要使计算机能模拟人功能,一定程度的模糊是必要的。模糊数学就是在这样的背景下诞生的。
随机数学与模糊数学都是对不确定性量的研究,但与模糊数学不同的是,随机数学是研究随机现象统计规律性的一个数学分支,涉及四个主要部分:概率论、随机过程、数理统计、随机运筹。随机数学更强调对数据的统计规律;而模糊数学强调的是变量的定义的模糊性。
模糊数学是一门新兴学科,过去那些与数学毫不相关或关系不大的学科(如生物学、心理学、语言学、社会科学等)都有可能用定量化和数学化加以描述和处理,从而使数学的应用范围大大扩展。它已初步应用于模糊控制、模糊识别、模糊聚类分析、模糊决策、模糊评判、系统理论、信息检索、医学、生物学等各个方面,并且在气象、结构力学、控制、心理学等方面已有具体的研究成果。模糊数学最重要的应用领域是计算机职能,它与新一代计算机的研制有密切的联系。
二、模糊计算
精确的数学语言、定量化分析传统计算的方式无法解决概念模糊的问题,如大房子,小个子等,所以需要引入模糊计算来对模糊概念变量的计算。普通计算一般是指函数式,自变量与因变量是一一对应的关系。而模糊计算,一个变量,可以对应于多个状态值。当然,这些个状态与普通的函数表示也不是完全相同的,并不是完全确定的,它们有一个隶属度,或者说概率,来表示这个状态。隶属度表示程度,它的值越大,表明这个状态的概率越高,反之则表明这个状态的概率越低,其原因在于有一些概念模糊的问题,需要模糊计算来处理。
本节讨论关于模糊数学计算的基本知识。
1、模糊集、隶属函数及模糊集的运算
对于普通集合A ,对x ∀,有A x ∈或A x ∉。
如果要进一步描述一个人属于年轻人的程度大小时,仅用特征函数就不够了。模糊集理论将普通集合的特征函数的值域推广到[0,1]闭区间内,取值的函数以度量这种程度的大小,这个函数(记为)(x E )称为集合E 的隶属函数。即对于每一个元素x ,有[0,1]内的一个数)(x E 与之对应。
模糊子集的定义:射给定论域U ,U 到[0,1]上的任一映射:
))((],1,0[:U u u A u U A ∈∀→→
都确定了U 上的一个模糊集合,简称为模糊子集。)(u A 称为元素u 属于模糊集A 的隶属度。映射所表示的函数称为隶属函数。
模糊集合的运算:
)}(),.....,(),({21n u A u A u A A =,)}(),.....,(),({21n u B u B u B B =,
并集:)}()(),.....,()(),()({2211n n u B u A u B u A u B u A B A ∨∨∨=⋃,
交集:)}()(),.....,()(),()({2211n n u B u A u B u A u B u A B A ∧∧∧=⋂,
补集:
)}(1),.....,(1),(1{21n c u A u A u A A ---=, 包含:B A u B u A U u ⊂≤∈∀,则有有若)()(,。
2、模糊数学基本定理
①、模糊截积:
已知U 上模糊子集))((],1,0[:U u u A u U A ∈∀→→
对]1,0[∈λ,A λ也是U 上模糊集,其隶属函数为:)(),())((U u u A u A ∈∀∧=λλ; 称为A λ为λ与A 的模糊截积。
②、分解定理1:已知模糊子集)(U F A ∈,则λλλA A ]
1,0[∈⋃= 推论1:对,U u ∈∀}],1,0[{)(λλλA u u A ∈∈∨=
③、分解定理2:已知模糊子集)(U F A ∈,则S A A λλλ]
1,0[∈⋃= 推论2:对,U u ∈∀}],1,0[{)(S A u u A λλλ∈∈∨=
三、模糊聚类
1、模糊聚类分析法与聚类分析法
模糊聚类分析是聚类分析的一种。聚类分析按照不同的分类标准可以进行不同的分类。就好像人按照性别可以分成男人和女人,按照年龄可以分为老中青一样。聚类分析如果按照隶属度的取值范围可以分为两类,一类叫硬聚类算法,另一类就是模糊聚类算法。
隶属度的概念是从模糊集理论里引申出来的。传统硬聚类算法隶属度只有两个值 0 和
1。 也就是说一个样本只能完全属于某一个类或者完全不属于某一个类。举个例子,把温度分为两类,大于10度为热,小于或者等于10度为冷,这就是典型的“硬隶属度”概念。 那么不论是5度 还是负100度都属于冷这个类,而不属于热这个类的。而模糊集里的隶属度是一个取值在[0 1]区间内的数。一个样本同时属于所有的类,但是通过隶属度的大小来区分其差异。比如5度,可能属于冷这类的隶属度值为0.7,而属于热这个类的值为0.3。这样做就比较合理,硬聚类也可以看做模糊聚类的一个特例。
2、模糊聚类步骤
模糊聚类法和一般的聚类方法相似,先将数据进行标准化,计算变量间相似矩阵或样品间的距离矩阵,将其元素压缩到0与1之间形成模糊相似矩阵,进一步改造为模糊等价矩阵,最后取不同的标准λ,得到不同的-λ截阵,从而就可以得到不同的类。具体步骤如下: 第一步:数据标准化
1).数据矩阵
设论域},...,,{21n x x x U =为被分类的对象,每个对象又由m 个指标表示其性状:
},...,,{21im i i i x x x x =(n i ,...,2,1=)
于是得到原始数据矩阵为
⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡nm n n m m x x x x x x x x x (2122221)
11211
2).数据标准化
在实际问题中,不同的数据一般有不同的量纲。为了使有不同的量纲的量也能进行比较,通常需要对数据作适当的变换。但是,即使这样得到的数据也不一定在区间[0,1]上。因此,这里所说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。通常需要作如下变换:平移标准差变换、平移级差变换。
第二步:建立模糊相似矩阵