1.6 云模型及其应用1
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3En
Ex
图 1-6-4 正态云模型示意图 正态云的生成算法: (1)生成以 Ex 为期望值,En 为均方差的正态随机数 xi; (2)生成以 En 为期望值,He 为均方差的正态随机数 En';
i exp[ (3) 计算:
( xi Ex) 2 ] 2( Eni' ) 2
(1-6-12)
的一组云滴 drop(xi, μi)作为样本, 产生云模型对应的定性概念的三个数字特征 (Ex, En, He),称为逆向云发生器,如图 1-6-3 所示。 Ex
云发生器
En
drop(xi,μi)
He
图 1-6-2 正向云发生器
算法 1 正向云发生器算法 输入:表示定性概念的 3 个数字特征(Ex,En,He),云滴数量 N。 输出:N 个云滴 xi 及其确定度 μ(每个云滴对概念的隶属度),即(drop(xl,μT (x1)),drop(x2,μT(x2)),…,drop(xN,μT(xN)))。 算法步骤 : ① 生成以 En 为期望值,He 为方差的一个正态随机数 En'i: Eni' NORM ( En, He) ; ② 生成以 Ex 为期望值,En'i 绝对值为方差的一个正态随机数 xi:xi =NORM(Ex, En'i); ③ 计算 xi 的确定度(xi 属于概念的隶属度)
② Ex ຫໍສະໝຸດ BaiduX ; E n
2
d ; He
S 2 En 2
加权逆向云生成算法[56] 输入:N 个云滴的集合 X' ={x1,x2,…,xN}及云滴的权值集合 {w1,w2,…,wN}; 输出:N 个云滴所表示的定量概念的期望值 Ex、熵 En 和超熵 He; (1)根据 xi 及其权值计算样本均值 X
(4)使(xi,μi)成为一个云滴; (5)重复步骤(1)~(4)直至要求数目的云滴产生。 正态随机数的生成是整个算法实现的关键。正态随机数可用以下程序代码生成:
float Rande(el,e2) float el,e2; { float Rt,Rx,Y,randel(); Rt=2.0*3.1415926*randel(); Rx=randel(); Y = cos(Rt)*e2*sqrt(2.0*log(1.0/Rx))+ e1; return(Y); }
d 一阶样本绝对中心矩: 1 N wi xi X N i 1
1 N wi xi N i 1
(1-6-6) (1-6-7) (1-6-8)
样本方差:S 2 1.6.3 正态云模型
1 N 2 wi ( xi X ) N 1 i 1
1、正态云模型及其数字特征 正态云模型主要反映客观世界中事物或人类知识中概念的两种不确定性:模糊性 (边界的亦此亦彼性)和随机性(发生的概率),并把二者完全集成在一起,构成定性 和定量相互间的映射[48]。
[6]
。 (1)期望 Ex:云滴在论域空间中分布的期望,是最能够代表这个定性概念的点,
反映了云的重心位置,代表相应的定性概念的中心值。 (2)熵 En:是不确定度的度量。代表一个定性概念的可度量粒度,通常熵越大概 念越宏观。熵还反映了定性概念的不确定性,表示在论域空间可以被定性概念接受的取 值范围大小,即模糊度,是定性概念亦此亦彼的度量。由概念的随机性和模糊性共同决 定。 熵一方面反映了在数域空间可被语言值接受的范围,即模糊度,是定性概念亦此亦 彼性的度量;另一方面还反映了在数域空间的点能够代表这个语言值的概率,表示定性 概念的云滴出现的随机性,熵揭示了模糊性和随机性的关联性。 (3) 超熵 He: 熵的不确定性的度量, 它反映代表定性概念值的样本出现的随机性, 揭示了模糊性和随机性的关联。He 反映云滴的散布程度,He 越大,云滴的散布程度越 大,隶属函数的随机性越大,云滴越厚。 超熵 He 是熵的不确定度量,即熵的熵,反映了在数域空间代表该语言值的所有点 的不确定度的凝聚性。即云滴的凝聚度。在二维云模型里,它反映的是云层的厚度[7]。 1.6.2 云模型及其特点 云模型是云的具体实现,其主要特点包括: (1)云模型的数据 T 在区间[0, 1]上存在一对多的映射关系, 而不是一条明晰的隶 属曲线,从而产生了“云”(cloud)的概念。 (2)云模型中的分布概率具有可伸缩、边缘不确定、一定的弹性的特点。
图 1-6-1 射手甲、乙、丙打靶情况(示意图) 表 1-6-1 射手成绩分析结果 云模型数字特征 (Exl,Ex2) (Enl,En2) (Hel,He2) 射手甲 (0.08,0.1)偏右上 (0.45,0.3) (0.05,0.07) 较离散不稳定 射手乙 (0.1,0.12)偏右下 (0.25,0.2) (0.02,0.02) 较集中较稳定 射手丙 (0.0,0.03)靠近靶中心 (0.4,0.3) (0.04,0.07) 较离散不稳定
i e
( xi Ex ) 2 2( Eni' ) 2
(1-6-1)
④ 令带有确定度μi 的 xi 成为数域中的一个云滴(xi,μi); ⑤ 重复 ① ~ ④ ,直至产生 N 个云滴为止。 Ex
云发生器
drop(xi,μi)
En
He
图 1-6-3 逆向云发生器
算法 2 逆向云发生器算法 输 入:n 个云滴 xi,即样本点 xi,其中 i=1,2,…,n
(1-6-9)
则 x 在论域 U 上的分布称为正态云(Normal Cloud)。该定性概念可用正态云模型 的 3 个数字特征表示为: ~ C ( Ex, En, He)
(1-6-10)
给定正态云的三个数字特征值(Ex,En,He ),可以用上面的算法生成任意个数 云滴组成的正 态云,该算法生成的云自然地具有不均匀厚度的特性。 正态云是最重要的云模型, 正态云理论建立在正态分布的普遍性与正态隶属函数普 遍性的基础上。它的期望曲线是一个正态型曲线,定义: y=exp[-(x-Ex)2/2(En)2] 为正态云 (X,Y)的期望曲线[49]。 图 1-6-4 为一个正态云模型 C(Ex,En,He),其期望为 20,熵为 3,超熵为 0.3。 (1-6-11)
~ 设 U 是一个用精确数值表示的定量论域, C 是 U 上的定性概念,若定量值 x∈U, ~ 且 x 是定性概念 C 的一次随机实现,若 x 满足 x~ N ( Ex, En2 ) ,其中 En ~ N ( En, He 2 ) , ~ 且 x 对 C 确定度为:
e
( x Ex ) 2 2 ( En ) 2
输 出:反映定性概念的数字特征(Ex,En,He)。 算法步骤: ① 根据 xi 计算数据的样本均值:X 一阶样本中心距: d
1 n xi n i 1
(1-6-2) (1-6-3) (1-6-4) (1-6-5)
1 n xi X n i 1 1 n 1 n 2 样本方差 (有两式) : S 2 ( xi X ) 2 , S 2 ( xi X ) n i 1 n 1 i 1
由于多方面随机因素(天气、心理等)的影响,射手很难每一次都击中靶心,使得 射击结果具有一定的随机性和模糊性, 通过云模型的定性定量分析可以看出射手乙的成 绩要优于甲和丙。 由云数字特征产生云滴的实现称为正向云发生器(forward cloud generator),是用 语言值描述的某个基本概念与其数值表示之间的不确定性转换模型, 是从定性到定量的 映射。 而由云滴群得到云数字特征的实现称为逆向云发生器 (backw ard cloud generator) , 是实现数值和其语言值之间的随时转换的不确定性转换模型,是从定量到定性的映射。 由于正态分布的普适性,建立在其上的正态云是各种云模型中最重要的一种。 根据云的三个数字特征:期望 Ex、熵 En 和超熵 He,即(Ex,En,He),生成云 滴 drop(xi,μi),称为正向云发生器,如图 1-6-2 所示。给定一组样本,且符合正态分布
(3)云模型强调的是数据的整体分布特征,而不是特定的单一样本数据的状态。 (4)云模型的规模应用需要大量的数据处理和模糊运算,一般需要在强大的 IT 系 统支持下才能实现。 为了更好地理解云模型,引用如图 1-6-1 所示的打靶例子[45]。 甲射击成绩为 5076665675,乙成绩为 5978663957,丙成绩为 995798246。射手的 每次射击弹着点可以看作是一个云滴,射击若干次后的整体特征反映了射手总体水平, 即云。用正态云模型分别从水平和垂直二维(Exl,Ex2;Enl,En2;Hel,He2)来描述总 的射击情况。经过逆向云发生器(Backward Cloud Generator,BCG)的计算结果如表 1-6-1 所示。
第 1 章 抽样调查数据处理方法及其应用
1.6 云模型及其应用
1.6.1 云概念及其数字特征[6] 云是用自然语言值表示的某个定性概念与其定量表示之间的不确定性转换模型。 云 的数字特征用期望 Ex(Expected Value)、熵 En(Entropy)、 超熵 He(Hyper Entropy) 三个数值来表征,它把模糊性和随机性完全集成到一起,构成定性与定量相互间的映射
词汇量估计值 样本词汇掌握数量 词汇总量 样本词汇量
(1-6-3)
在进行词汇量测试评估的背景下,U 表示测试结果,如 2000;T 表示词汇量掌握程 度,如初级; μ表示某一测试结果对于某一程度的隶属度。
词汇量云(Vocabulary Cloud)是一种特殊形式的云模型,它将测试人员所掌握词 汇量用云模型 方式反映出来。将词汇量云定性表示成:VC=Cloud(Ex,En,He)。其中, Ex、En、He 是反映词汇量云的 3 个数字特征:Ex 是词汇量期望,是最能代表词汇量概 念的点,表明测试人员所掌握的基本词汇量;En 是词汇量熵,反映了测试人员掌握词 汇量达到某种程度所具有的不确定性,一方面 En 反映了能够代表这个词汇量概念的云 滴所具有的离散程度,另一方面也反映了对词汇量概念是一种亦此亦彼的度量;He 是 词汇量超熵,反映了词汇量熵的不确定性,由熵的随机性和模糊性共同决定。 若要用云模型表示 “词汇量约 2000” 这一定性概念, 则可将期望 Ex 的值定为 2000, 设 En 和 He 的值分别为 150, 20。 图 1-6-5 就是利用正向云发生器算法生成的语言值 “词 汇量约 2000”的隶属云。 云模型具有 3En 规则,就是对于某一个定性概念或者知识,其相应的云对象大部分 位于[Ex-3En,Ex+ 3En]之内,位于[Ex-3En,Ex+3En]之外的云滴元素只是小概率事件, 通常都可忽略。图 1-6-5 中就体现了这一规则。
表 1-6-2 用户兴趣 兴趣度语言值 高 一般 低 Ex 0.7543 0.4785 0.1987 En 0.0819 0.0547 0.0657 He 2.80 2.81 1.62
实例 基于云模型的外语词汇量评估[47]
传统的词汇量测试方法主要有词频法和词典法, 就是在词表中随机抽取若干词汇作 为测试样本。其中,词频法是以词汇频率为依据进行词汇抽样,词典法则是以一本词典 为调查对象等距离抽样。抽取好测试样本后,采用多项选择法、翻译法、是非判断法、 填空法或释义法评测外语学习者对样本词汇掌握程度; 再根据样本词汇测试结果按比例 计算总体词汇量,最终给出被测人员词汇量大小的估计值,可用式(1-6-3)表示。
float randel(void) { int r,rand(); float x; r=rand(): x= (float)(r)/32767.0; return(x); }
给定正态云的 3 个数字特征值(Ex,En,He),可以用上面的算法生成任意个数 云滴组成的正态云。该算法生成的云自然地具有不均匀厚度的特性,云的腰部、顶部、 底部等并不需要精确地定义,3 个数字特征值足以描述整个云的形态。 如表 1-6-2 为对某一 web 站点中的一个网页的用户兴趣度的转换。从该表中的数字 特征中可以看出对用户的兴趣度进行了概念划分,可称其为兴趣度高、兴趣度一般、兴 趣度低。兴趣度高的部分为数值在 0.7543 左右的兴趣度,数值集中在(0.5086,1); 兴趣度一般的部分为数值在 0.4758 左右的兴趣度,数值集中在(0.3144,0.6428);兴 趣度低的部分为数值在 0.1987 左右的兴趣度,数值集中在(0,0.3958)。