数据的无量纲化处理及示例

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据的无量纲处理方法及示例
在对实际问题建模过程中，特别是在建立指标评价体系时，常常会面临不同类型的数据处理及融合。

而各个指标之间由于计量单位和数量级的不尽相同，从而使得各指标间不具有可比性。

在数据分析之前，通常需要先将数据规范化，利用规范化后的数据进行分析。

数据规范化处理主要包括同趋化处理和无量纲化处理两个方面。

数据的同趋化处理主要解决不同性质的数据问题，对不同性质指标直接累加不能正确反应不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对评价体系的作用力同趋化。

数据无量纲化主要解决数据的不可比性，在此处主要介绍几种数据的无量纲化的处理方式。

（1）极值化方法
可以选择如下的三种方式：
xx'ii=x=）（A i max-min R即每一个变量除以该变量取值的全距，规范化后的每个变量的取值范围限于[-1,1]。

x-min x-min'ii==x(B)i max-min R即每一个变量与变量最小值之
差除以该变量取值的全距，规范化后各变量的取值范围限于[0,1]。

x'i=x，即每一个变量值除以该变量取值的最大值，规范化后使变量的最大取(C) i max值为1。

采用极值化方法对变量数据无量纲化是通过变量取值的最大值和最小值将原始数据
由于极值化方法对变量无从而消除量纲和数量级的影响。

转换为界于某一特定范围的数据，这使而与其他取值无关，量纲化过程中仅仅对该变量的最大值和最小值这两个极端值有关，得该方法在改变各变量权重时过分依赖两个极端取值。

2）规范化方法（x-x'i=x来计算，即每一个变量值与其平均值之差除以该变量的规范差，无量利用i s纲化后各变量的平均值为0，规范差为1，从而消除量纲和数量级的影响。

虽然该方法在无量纲化过程中利用了所有的数据信息，但是该方法在无量纲化后不仅使得转换后的各变量均值相同，且规范差也相同，即无量纲化的同时还消除了各变量在变异程度上的差异。

．
（3）均值化方法
x'i=x，该方法在消除量纲和数量级影响的同时，保留了各变量取值差计算公式为：i x i异程度上的信息。

（4）规范差化方法x'i=x。

该方法是规范化方法的基础上的一种变形，两者的差别仅在无计算公式为：i s量纲化后各变量的均值上，规范化方法处理后各变量的均值为0，而规范差化方法处理后各变量均值为原始变量均值与规范差的比值。

综上所述，针对不同类型的数据，可以选择相应的无量纲化方法。

如下的示例就是一个典型的评价体系中无量纲化的范例。

示例：近年来我国淡水湖水质富营养化的污染日益严重，如何对湖泊水质的富营养化进行综合评价与治理是摆在我们面前的任务，下面两个表格分别为我国5个湖泊的实测数据和湖泊水质评价规范。

表2-2 全国五个主要湖泊评价参数的实测数据
总磷（mg/L）耗氧量(mg/L)透明度(m)总氨(mg/L)
130杭州西湖105武汉东湖20青海湖30巢湖20滇池
表2-3 湖泊水质评价规范
评价参数极贫营养贫营养极富营养富营养中营养
4>660<123110总磷<>耗氧量>3712<透明
度．总
要求:（1）试用以上数据，分析总磷，耗氧量，透明度，总氨这4个指标对湖泊水质评价富营养化的作用。

（2）对这5个湖泊的水质综合评价，确定水质等级。

在进行综合评价之前，首先要对评价的指标进行分析。

通常评价指标分成效益型，成本型和固定型指标。

效益型指标是指那些数值越大影响力越大的统计指标（也称正向型指标）；成本型指标是指数值越小越好的指标（也称逆向型指标）；而固定型指标是指数值越接近于某个常数越好的指标（也称适度型指标）。

如果每个评价指标的属性不一样，则在综合评价时就容易发生偏差，必须先对各评价指标统一属性。

建模步骤
（ⅰ）建立无量纲化实测数据矩阵和评价规范矩阵，其中实测数据矩阵和等级规范矩阵如下，轾13010.30.352.76犏轾1423110660犏犏2.010510.70.4犏犏0.090.361.87.1027.1犏
犏=Y=X0.22201.44.5，，犏犏37122.40.550.17犏犏1.67300.256.26犏犏
0.020.060.311.24.6臌犏0.232010.130.5犏臌AB，其中和无量纲化等级规范矩阵然后建立
无量纲化实测数据矩阵
ì1ì3xx/j?13y/yk max?max??ijijktkt??jk=b=aíí
kt?ij?3=ky/y3=x/xj min min??ktktijij????kj得到轾1.00000.96260.71431.0000犏犏1.00000.80770.62500.7246犏犏=A0.13080.15380.05560.0797，犏犏
0.58501.00000.23080.6051犏犏0.08330.50000.15380.9467犏臌
轾1.00000.16670.00150.00610.0348犏犏1.00000.00330.26200.01330.0664犏=B。

犏
1.00000.30910.07080.01420.0046犏犏1.00000.26090.01300.00430.0674臌（ⅱ）计算各评
价指标的权重计算矩阵B的各行向量的均值和规范差，5?2)b-m(iij51?1=j 4,m=sb,=i=1,2,3,iiji451=j然后计算变异系数m/=sw，iii最后对变异系数归一化得到各指标的权重为][0.2442w=0.23470.27670.2444
（ⅲ）建立各湖泊水质的综合评价模型中，有以下通常可以利用向量之间的距离来衡量两个向量之间的接近程度，在Matlab的函数命令来计算向量之间的距离；ppw,w中的每个行向量和中每个列向量之间的欧式距离；): dist(计算p,w):mandist(绝对值距离。

BA中各行向量到计算中
各列向量之间的欧氏距离，42)(-?=dba ijikik1k=}min{=ddik若，则第级。

个湖泊属于第ijik1＃j5轾1.84721.83121.73741.37690.2881犏犏
0.50341.57981.59591.48591.1271犏犏犏=d1.79170.33830.20450.13670.2185犏犏
0.95910.83921.30381.32011.2082犏犏犏1.34500.73280.98671.06501.0793臌这说明杭州西湖，武汉东湖都属于极富营养水质，青海湖属于中营养水质，而巢湖和滇池属于富营养水质。

．BA中各行向量到中各列向量之间的绝对值距离同时也可以计算4?|b|D=a-，
ikijik1=i}D=min{Dik若，则第级。

个湖泊属于第ijik1＃j5轾3.66313.63033.43742.67830.3231犏犏0.84272.91782.15873.14363.1108犏犏犏=D3.58000.21100.37340.57870.4062犏犏1.57912.37432.18142.40711.4223犏犏犏2.31611.67011.06601.44441.6374臌其评价结果与利用欧氏距离得到的评价结果完全一样。

所以，从上面的计算可以看出，尽管欧氏距离和绝对值距离的意义完全不一样，但对湖泊水质的评价等级是一样的，这表明了方法的稳定性。

程序：
X=[130 。

105 2。

20
30 。

20 ]。

Y=[1 4 23 100 660。

37 12 。

]。

B1=Y(1,:)./660。

B2=Y(2,:)./。

B3=./Y(3,:)．
B4=Y(4,:)./。

B=[B1。

B2。

B3。

B4]。

A1=X(:,1)./130。

A2=X(:,1)./。

A3=./X(:,3)。

A4=X(:,4)./。

A=[A1 A2 A3 A4]。

B=B'。

t=std(b)./mean(b)。

w=t/sum(t)。

jd=dist(A,B)。

mjd=mandist(A,B)。