数据处理方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction)处理和标准化(Standardization或Normalization)处理。
目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态布
的数据。计算过程由下式表示:
下面解释一下为什么需要使用这些数据预处理步骤。在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测
房价的问题中,影响房价的因素有房子面积、卧室数量等,我们得
到的样本数据就是这样一些样本点,这里的、又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。这样,在使用梯度下降法学习参数的时候,不同特征对参数的影响程度就一样了。
简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。
下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动大原点周围;右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。
其实,在不同的问题中,中心化和标准化有着不同的意义,
∙比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。
∙另外,对于主成分分析(PCA)问题,也需要对数据进行中心化和标准化等预处理步骤
二、利用Excel对数据进行标准化处理
在使用各种方法进行综合评价时,首先要对原始数据进行标准化和无量纲化处理,本例分享利用office的Excel对数据进行标准化处理,使用的是极值处理法。1.
1.
该种方法的算法即标准化公式如附图所示,注:对于指标值恒定的情况不适用。
2.这里以我国2007年中部地区6省的税收数据为例进行计算。易知,附图
中的税收指标为极大型数据。所以采用的公式为x=(x-min)/(Max-min),这样标准化后的数据最大值为1,最小值为0
3.使用Max,Min函数分别求出数据矩阵中每列中的最大值和最小值。
Max 146.1136 184.2366 102.9228 30.2578 25.8857 42.8733 15.656 7.8 004 18.2303 14.9975 1.9689 17.1054 35.0698 3.3696
Min 53.0534 95.0788 37.8106 14.8271 2.8286 17.0098 5.7824 3.1799
4.1246 1.1311 0.3081 1.7933
5.5753 0.0874
再求出极值处理法的分母即最大值与最小值的差值
max-min 93.0602 89.1578 65.1122 15.4307 23.0571 25.8635 9.8736 4.6 205 14.1057 13.8664 1.6608 15.3121 29.4945 3.2822
4.使用每列中的数值与最小值的差比上分母即可求出标准化后的数据。公式
举例:值=(B6-$B$13)/$B$14。如附图所示为使用极值处理法后的前后数据对比。
一、熵shang权法介绍
熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。
熵权法的基本思路是根据指标变异性的大小来确定客观权重。
一般来说,若某个指标的信息熵越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的信息熵越大,表明指标值得变异程度越小,提供的信息量也越少,在综合评价中所起到的作用也越小,其权重也就越小。
二、熵权法赋权步骤
1.数据标准化
将各个指标的数据进行标准化处理。
假设给定了k个指标,其中。假设对各指标
数据标准化后的值为,那么。
2.求各指标的信息熵
根据信息论中信息熵的定义,一组数据的信息熵。
其中,如果,则定义。
3.确定各指标权重
根据信息熵的计算公式,计算出各个指标的信息熵为。通过信息熵计算各指标的权重:。
三、熵权法赋权实例
1.背景介绍
某医院为了提高自身的护理水平,对拥有的11个科室进行了考核,考核标准包括9项整体护理,并对护理水平较好的科室进行奖励。下表是对各个科室指标考核后的评分结果。
但是由于各项护理的难易程度不同,因此需要对9项护理进行赋权,以便能够更加合理的对各个科室的护理水平进行评价。
2.熵权法进行赋权
1)数据标准化
根据原始评分表,对数据进行标准化后可以得到下列数据标准化表
表2 11个科室9项整体护理评价指标得分表标准化表
根据信息熵的计算公式,
根据指标权重的计算公式,可以得到各个指标的权
3.对各个科室进行评分
根据计算出的指标权重,以及对11个科室9项护理水平的评分。设Z l为第
l个科室的最终得分,则,各个科室最终得分如下表所示
表5 11个科室最终得分表
指标体系的类型及构建原则:
1.指标体系的类型
传媒竞争力的评价指标,是用来评价传媒在实现一定目标(中长期或短期)过程中拥有的竞争优势所采用的标准和尺度。指标体系是一系列指标的构成体,这些指标之间存在有机的联系并相互作用,指标体系通过揭示这种联系和相互作用的规律来反映传媒竞争力系统的结构状况,考察系统结构的稳定性和应变能力,辨明系统功能和效益的演变动向和发展趋势,最终达到对传媒竞争力系统进行有效控制的目的。
依据竞争力评价的目的以及指标选取的范围,可以将传媒竞争力的评价指标体系分为综合指标体系和单项指标体系。单项指标体系只针对研究对象的某一方面进行评价,所选择的指标也只限于与这一方面相关的因素。其功能是评价传媒的局部竞争力。综合指标体系针对研究对象的全部领域进行评价,所选择的指标涉及传媒的各个方面。其功能是评价传媒的整体竞争力。
依据指标体系的内在逻辑关系,又可将其分为描述性指标体系和分析性指标体