云模型简介
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章云模型简介
在人类认知以及进行决策过程中,语言文字是一种强有力的思维工具,它是人类智能和其他生物智能的根本区别。
人脑进行思维不是纯粹地应用数学知识,而是靠自然语言特别是客观事物在人脑中的反映而形成的概念。
以概念为基础的语言、理论、模型是人类描述和理解世界的方法。
自然语言中,常常通过语言值,也就是词来表示概念。
而语言值、词或概念与数学和物理的符号的最大区别就是其中包含太多的不确定性。
在人工智能领域,不确定性的研究方法有很多,主要有概率理论,模糊理论,证据理论和粗糙集理论;对于确定性系统的不确定性的研究还有混沌和分形的方法。
这些方法从不同的视角研究了不确定性,优点是:有切入点明确、边界条件约束清楚、能够对问题进行深入研究等,但是在研究中常常将不确定性分成模糊性和随机性分开进行研究,然而两者之间有很强的关联性,往往不能完全的分开。
随机性是指有明确定义但是不一定出现的事件中所包含的不确定性。
例如在投掷硬币试验中,硬币落地时要么有国徽的一面向上,要么标有分值的一面向上,结果是明确的可以预知的,但是每次试验结果是随机的。
概率论和数理统计是研究和揭示这种随机现象的一门学科,至今已有几百年的研究历史.模糊性是另一种不确定性,是已经出现的但是很难精确定义的事件中所包含的不确定性。
在日常工作和生活中存在着许多模糊概念,如“胖子”“年轻人”“收入较高”等。
为处理这些模糊概念,引入了模糊集的概念[41],使用隶属度来刻画模糊事物彼此间的程度。
隶属度函数常用的确定方法有模糊统计法、例证法专家经验法等,这些方法确定隶属度函数的过程是确定的,本质上说是客观的,但每个人对于同一个模糊概念的认识理解存在差异,因此有很强的主观性,而且一旦隶属度函数确定之后,得到的概念、定理等包含着严密的数学思维,其不具有任何模糊性。
针对上述问题李德毅院士在传统的概率统计理论和模糊理论的基础上提出了定性定量不确定性转换模型——云模型,实现定性概念和定量值之间的不确定性转换。
在此工作上,一些学者对云模型做了深入系统的研究,使其日趋成熟,并将它成功地应用于不确定性推理、关联规则挖掘,空间数据的挖掘,智能控制及时间序列预测等领域。
云模型能模拟人类思维灵活划分属性空间,在较高的概念层上泛化属性值,完成定量数值到定性概念间的转换,同时允许相邻属性值或语言之间有重叠,这种划分使发现的知识具有稳健性。
而由于计算机系统的行为存在随机性和不确定性,云模型能够很好地处理具有随机性和不确定性的数据,所以可将云模型引入到入侵检测中来,通过云模型建立的入侵检测系统具有较准确的检测能力和适应能力。
3.1 云模型的引入
云模型能够实现定性概念与定量值之间的不确定性转换。
同时数据挖掘是基于不同认知层次的“数据-概念-知识”视图,“数据”中包含大量的不确定性知识,而云模型能够更准确地将数据表达为概念,进而发现准确、完整的知识。
因此将云模型应用于数据挖掘中可以提高数据挖掘的准确度。
下面简单介绍云模型的一些概念和数字特征,重点介绍云的概念、正态云发生器及正态云的数学性质。
3.1.1 云和云滴
定义3.1[42] 设U 是一个精确数值表示的定量论域,C 是U 上的定性概念,若定量值U x ∈,且x 是定性概念C 的一次随机实现,x 对C 的确定度]1,0[)(∈x μ是有稳定倾向的随机数
]1,0[:→U μ U x ∈∀ )(x x μ→ (3.1)
则x 在论域U 上的分布称为云(Cloud),每一个x 称为一个云滴[42]。
云具有以下性质[42] :
(1)论域U 可以是一维或多维的;
(2)定义中所提及的随机实现,是概率意义下的实现;定义中所提到的确定度,是模糊集意义下的隶属度,同时又具有概率意义下的分布;
(3)对于任意一个U x ∈,x 到区间[0,1]上的映射是一对多的变换,x 对C 的确定度不是一个固定的数值,而是一个概率分布;
(4)云由云滴组成,云滴之间无次序性,一个云滴是定性概念在数量上的一次实现,云滴越多,越能反映这个定性概念的整体特征;
(5)云滴出现的概率大,云滴的确定度大,则云滴对概念的贡献大。
3.1.2 云的数字特征
云的数字特征能够反映概念的整体性和定性知识的定量特性,它对定性概念的理解有很重要的意义。
云一般用期望Ex 、熵En 和超熵He 这三个数字特征来整体表征一个概念[43],如图3-1所示。
图3-1 云的数字特征
Fig.3-1 Digital Characteristics of the Cloud
期望Ex :云滴在论域空间分布的期望,是概念在论域中的中心点,它是最可以代表定性概念的点[43]。
熵En :定性概念的不确定性度量,由概念的随机性和模糊性共同决定。
一
方面熵是定性概念随机性的度量,反映了能代表这个定性概念的云滴的离散程度;另一方面又是定性概念模糊度的度量,反映了论域空间中可被概念接受的云滴的取值范围,此外熵还能反映随机性和模糊性之间的关联性[43]。
超熵He :是熵的不确定性的度量,即熵En 的熵,由熵的随机性和模糊性共同决定,反映了云滴的离散程度,超熵的大小间接地反映云的厚度,超熵越大,云的厚度越大[43]。
3.1.3 云模型的类型
云模型是云的具体实现方法,是云运算、云推理、云控制、云聚类等方法的基础。
由定性概念到定量表示的过程,即由云的数字特征产生云滴的过程,称为正向云发生器。
由定量表示到定性概念的过程,即由云滴群得到云的数字特征的过程,称为逆向云发生器。
云有多种实现方法,可构成不同类型的云,如半云模型、对称云模型、组合云模型等,还可以扩展到多维云模型。
3.2 正态云
正态分布是概率理论中重要分布之一,通常用均值和方差两个数字特征表示;钟形隶属度函数是模糊理论中使用最多的隶属函数,通常用2
2
2)()(b a x e x -=μ来表示。
正态云正是在二者基础上发展起来的全新模型。
定义3.2 设U 是一个精确数值表示的定量论域,C 是U 上的定性概念,若定量值U x ∈,且x 是定性概念C 的一次随机实现,若x 满足:),(~2'En Ex N x ,其中),(~2'He En N En ,且x 对C 的确定度满足:
2'2
2)()(En Ex x e
x -=μ
(3.2) 则x 在论域U 上的分布称为正态云[43]。
3.2.1 正态云发生器
正态云发生器[44]是指用计算机实现的一种特定算法,其可以用集成的微电子器件来实现,包括正向云发生器和逆向云发生器。
(1) 正向云发生器
正向云发生器是实现定性概念到定量值的转换模型,其由云的数字特征
(He En Ex ,,)产生云滴,如图3-2所示。
图3-2 正向云发生器
Fig.3-2 Forward Cloud Generator
(2) 逆向云发生器
逆向云发生器[44]是实现定量值到定性概念的转换模型,它可以将一定数量的精确数据转换为以数字特征(He En Ex ,,)表示的定性概念,如图3-3所示。
图3-3 逆向云发生器
Fig.3-3 Backward Cloud Generator
逆向正态云发生器的算法基于统计原理思想,基本算法有两种:一是无需确定度信息的逆向云发生器算法;二是需要确定度信息的逆向云发生器算法[44]。
3.2.2 云滴对概念的贡献
在正向正态云模型中,云滴群对概念的贡献是不同的。
本文以一维正向正态云为例来说明云滴群对概念的贡献程度。
定义3.3 在一维论域U 中,X 中任一小区间上的云滴群x ∆对定性概念A 的贡献C ∆[43]为
)2/()(En x x C A πμ∆*≈∆
(3.3)
易得,论域(+∞∞-,)上所有元素对概念A 的总贡献C 为
122)()2/()(22===
⎰⎰+∞
∞---+∞∞-En
dx e En dx x C Ex Ex x A
ππμ (3.4) 同理,可得论域[En Ex En Ex 3,3+-]上所有元素对概念A 的总贡献En Ex C 3±为:
En Ex C 3±=%74.99)(2133=⎰+-En
Ex En Ex A dx x En μπ
(3.5)
因此论域U 中对定性概念A 有所贡献的云滴,主要落在]3,3[En Ex En Ex +-区间中,通常可以忽略区间]3,3[En Ex En Ex +-之外的云滴对定性概念所做的贡献,这即为正向正态云的“En 3规则”[44]。
同理位于]67.0,67.0[En Ex En Ex +-区
间内的云滴,占所有定量值的22.33%,它的贡献占总贡献的50%,这部分云滴被称为“骨干元素”;位于],[En Ex En Ex +-区间内的云滴,占所有定量值的33.33%,这部分的贡献占总贡献的68.26%,这部分元素被称为“基本元素”;位于
],[En Ex En Ex +-区间和]2,2[En Ex En Ex +-区间内的云滴,占所有定量的33.33%,它们对定性概念的贡献占总贡献的27.18%,该部分元素被称为“外围元素”;位于]2,2[En Ex En Ex +-区间和]3,3[En Ex En Ex +-区间内的云滴,占全部定量值的33.33%,它们对定性概念的贡献占总贡献的4.3%,这部分云滴被称为“弱外围元素”[44]。
不同区域内的云滴群对定性概念所做的贡献不同,如图3-4所示。
图3-4 云滴群对定性概念的贡献 这图能不能小点儿
Fig.3-4 Cloud Droplets Contribute to Qualitative Concept
3.3 正态云的数学性质
3.3.1 云滴分布的统计分析
根据正态云发生器算法,所有云滴x 的集合构成随机变量X ,'En 服从以En 为期望、2He 为方差的正态分布,所以'En 的概率密度函数[44]为
22'2)(21)(He En x En e He x f -=
π
(3.6) 如果'En 为定值时,X 服从以Ex 为期望、'En 为方差的正态分布,此时X 的概率密度函数[44]为
2
'22)(''21)(En Ex x x e En En x f -=π
(3.7)
由于'En 是随机变量,由条件概率密度公式可知X 的概率密度函数为
dy e y He En x f x f x f He En y y Ex x x En x ⎰∞+∞----=⨯=2222'2)(2)('21)()()(π
(3.8)
式(3.8)是一个概率密度函数,它不具备解析形式,对于任意的变量x ,通过数值积分可以得到与之相应的函数值。
当云滴个数为n 时,采用Parzen 窗的方法可以估算出X 的概率密度函数[44]。
特别地,当0=He 时,X 的概率密度函数为
222)(21)(En Ex x e En x f -=
π
(3.9) 因为所有的云滴x 都来自于期望为Ex 的正态随机变量,所以期望Ex EX =,方差22He En DX +=。
由此可得,由正态云发生器所产生的云滴,是期望为Ex 、方差为22He En +的一个随机变量[44]。
3.3.2 云滴确定度的统计分析
根据正态云发生器算法,随机变量Y 由所有云滴的确定度构成,随机变量
2'2
)(2)(i En Ex x i e
Y -=
(3.10)
产生的样本可以作为一个云滴的确定度。
经过计算可知,无论'En 取什么值,随机变量i Y 的概率密度函数均保持不变,也就是全部的确定度都来自一个密度为
⎪⎩
⎪⎨⎧-=0ln 1)(y y f π 其他10<<y (3.11)
的随机变量。
所以,随机变量Y 的概率密度函数即为)(y f ,由此可以看到,确定度的概率密度函数与正态云的三个数字特征没有关系[43]。
对于论域空间U 中的i x ,还可研究联合分布),(i i x C μ的概率密度函数。
当论域空间U 是一维时,),(i i x C μ是一个二维的随机变量,可以计算它的联合概率密度函数[43]。
对任意'ln 2En y Ex X y -±==,μ,其中),(~2'He En N En ,结合公式3.11
可知X 也服从正态分布。
经计算得到),(i i x C μ的联合概率密度函数为
===)|()()(,y x f y f x f X X μμμ⎪⎪⎩⎪⎪⎨⎧-+----y He En y Ex x y He En y Ex x e y He e y He ln 4)ln 2(ln 4)ln 2(22
22
ln 21ln 21ππ),10(),10(Ex x y x Ex y ≤<-∞≤<+∞<≤≤< (3.12)
当论域空间是高维的时候,它的联合概率密度函数会更加复杂[43]。
3.4 本章小结
本章详细的介绍了云模型理论,包括云的概念、正态云的数学性质、云滴对概念的贡献等。
云模型理论作为新的研究不确定性的理论,该方法可应用于数据挖掘算法,提高挖掘效率。
本文第五章应用该理论提出了一种基于云模型的异常挖掘算法。