数据标准化处理方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据标准化处理方法
在数据分析之前,通常需要先将数据标准化(normalization),再利用标准化后的数据进行分析。数据标准化处理主要包括同趋化处理和无量纲化处理两个方面。
同趋化处理主要解决数据不同性质的问题,对不同性质指标直接运算,不能正确反映不同作用的综合结果,须先考虑改变各指标数据性质,使所有指标对测评方案的作用同趋化,再运算,才能得出正确结果。
无量纲化处理主要解决数据可比性的问题,方法有很多种,常用的有“Min-Max标准化”、“z-score标准化”和“小数定标标准化”等三种。原始数据转换为无量纲化指标后,各指标值处于同一个数量级上,方便进行综合测评分析。
一、Min-Max 标准化
Min-Max标准化方法是对原始数据进行线性变换。设Min和Max 分别为指标A的最小值和最大值,将A的一个原始值x通过Min-Max 标准化映射成在区间[0,1]中的值x',其公式为:
x'=(x-Min)/(Max-Min)
即:新数据=(原数据-最小值)/(最大值-最小值)
二、z-score 标准化
z-score标准化方法基于原始数据的均值(mean)和标准差(standard deviation)。
将A的原始值x使用z-score标准化到x'的公式为:
x'=(x-Mean)/Std
即:新数据=(原数据-均值)/标准差
z-score标准化方法适用于指标A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
三、小数定标(Decimal scaling)标准化
Decimal scaling标准化方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于指标A的取值中的最大绝对值。将指标A的原始值x使用decimal scaling标准化到x'的计算方法是:
x'=x/(10*j)
即:新数据=原数据/(10*j)
其中,j是使x'的绝对值小于1的最小整数,*指幂指数运算。
例如假定A的值由-986到917,A的最大绝对值为986,为使用小数定标标准化,我们用1000(即j=3)除以每个值,这样-986被规范化为-0.986。
最后,标准化会对原始数据做出改变,需要保存所使用标准化方法的参数,以便对后续的数据进行统一的标准化处理。