数据归一化 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据归一化
1.我有一个问题不太明白，神经网络在训练时，先对数据进行归一化处理，按照常理训练完之后应该对数据再进行反归一化啊，可是再很多资料上根本就看不出有反归一化这个步骤，而且很多时候训练效果不是很好。

请问，哪个大侠能帮帮我啊
2.看一下MATLAB里的premnmx函数和postmnmx函数.它们一个是归一一个是反归一
3.并不是归一化的数据训练效果就好
4.我也遇到过类似的问题,有篇论文就是用postmnmx函数.效果不好可能是样本数据不太准.
5.可以采用标准化PRESTD，效果很好。

6.样本数据和测试数据是否放在一起归一化？
7.应该将样本数据和测试数据放在一起归一化，不然如果测试数据中有的值比样本数据最大值还大，岂不是超过1了？
神经网络训练的时候，应该考虑极值情况，即归一化的时候要考虑你所需要识别参数的极值，以极值作分母，这样可能效果更好一点。

8.激发函数如果选用的是倒s型函数，应不存在归一化的问题吧
9.我想问大家一下:在神经网络中,只有一个函数即:purelin这
个函数对训练的输出数据不用归一化,而象logsig 和tansig
函数都要归一化(如果数据范围不在[-1,1]或[0,1]之间).那既
然用purelin函数可以不用归一化,为何又是还用归一化呢?
用神经网络里的PRESTD, PREPCA, POSTMNMX, TRAMNMX等函数归一化和直接用purelin这个函数有什么区别啊? 我作负荷预测时,象不用归一化的效果很好呀!
10.purelin没有作归一化啊,你用logsig 和tansig作为神经元激励函数,输出范围自然限制在[-1,1]或[0,1]之间了
11.
我所知道的关于归一化：
归一化化定义：我是这样认为的，归一化化就是要把你需要处理的数据经过处理后（通过某种算法）限制在你需要的一定范围内。

首先归一化是为了后面数据处理的方便，其次是保正程序运行时收敛加快。

在matlab里面，用于归一化的方法共有三中，（1）premnmx、postmnmx、tramnmx（2）prestd、poststd、trastd（3）是用matlab语言自己编程。

premnmx指的是归一到[－1 1],prestd 归一到单位方差和零均值。

（3）关于自己编程一般是归一到[0.1 0.9] 。

具体用法见下面实例。

为什么要用归一化？
为什么要用归一化呢？首先先说一个概念，叫做奇异样本数据，所谓奇异样本数据数据指的是相对于
其他输入样本特别大或特别小的样本矢量。

下面举例：
m=[0.11 0.15 0.32 0.45 30;
0.13 0.24 0.27 0.25 45];
其中的第五列数据相对于其他4列数据就可以成为奇异样本数据（下面所说的网络均值bp）。

奇异样本数据存在所引起的网络训练时间增加，并可能引起网络无法收敛，所以对于训练样本存在奇异样本数据的数据集在训练之前，最好先进形归一化，若不存在奇异样本数据，则不需要事先归一化。

具体举例：
close all
clear
echo on
clc
%BP建模
%原始数据归一化
m_data=[1047.92 1047.83 0.39 0.39 1.0 3500 5075;
1047.83 1047.68 0.39 0.40 1.0 3452 4912;
1047.68 1047.52 0.40 0.41 1.0 3404 4749;
1047.52 1047.27 0.41 0.42 1.0 3356 4586;
1047.27 1047.41 0.42 0.43 1.0 3308 4423;
1046.73 1046.74 1.70 1.80 0.75 2733 2465;
1046.74 1046.82 1.80 1.78 0.75 2419 2185;
1046.82 1046.73 1.78 1.75 0.75 2105 1905;
1046.73 1046.48 1.75 1.85 0.70 1791 1625;
1046.48 1046.03 1.85 1.82 0.70 1477 1345;
1046.03 1045.33 1.82 1.68 0.70 1163 1065;
1045.33 1044.95 1.68 1.71 0.70 849 785;
1044.95 1045.21 1.71 1.72 0.70 533 508;
1045.21 1045.64 1.72 1.70 0.70 567 526;
1045.64 1045.44 1.70 1.69 0.70 601 544;
1045.44 1045.78 1.69 1.69 0.70 635 562;
1045.78 1046.20 1.69 1.52 0.75 667 580];
%定义网络输入p和期望输出t
pause
clc
p1=m_data(:,1:5);
t1=m_data(:,6:7);
p=p1';t=t1';
[pn,minp,maxp,tn,mint,maxt]=premnmx(p,t)
%设置网络隐单元的神经元数(5~30验证后5个最好）n=5;
%建立相应的BP网络
pause
clc
net=newff(minmax(pn),[n,2],{'tansig','purelin'},'traingdm'); inputWeights=net.IW{1,1};
inputbias=net.b{1};
layerWeights=net.IW{1,1};
layerbias=net.b{2};
pause
clc
% 训练网络
net.trainParam.show=50;
net.trainParam.lr=0.05;
net.trainParam.mc=0.9;
net.trainParam.epochs=200000;
net.trainParam.goal=1e-3;
pause
clc
%调用TRAINGDM算法训练BP网络
net=train(net,pn,tn);
%对BP网络进行仿真
A=sim(net,pn);
E=A-tn;
M=sse(E)
N=mse(E)
pause
clc
p2=[1046.20 1046.05 1.52 1.538 0.75;
1046.05 1046.85 1.538 1.510 0.75;
1046.85 1046.60 1.510 1.408 0.75;
1046.60 1046.77 1.408 1.403 0.75;
1046.77 1047.18 1.403 1.319 0.75];
p2=p2';
p2n=tramnmx(p2,minp,maxp);
a2n=sim(net,p2n);
a2=postmnmx(a2n,mint,maxt)
echo off
pause
clc
程序说明：所用样本数据（见m_data）包括输入和输出数据，都先进行归一化，还有一个问题就是你要进行预测的样本数据(见本例p2)在进行仿真前，必须要用tramnmx函数进行事先归一化处理，然后才能用于预测，最后的仿真结果要用postmnmx进行反归一，这时的输出数据才是您所需要的预测结果。

个人认为：tansig、purelin、logsig是网络结构的传递函数，
本身和归一化没什么直接关系，归一化只是一种数据预处理方法。

12."tansig、purelin、logsig是网络结构的传递函数，本身和归一化没什么直接关系，归一化只是一种数据预处理方法",说的有问题,若用premnmx将输入输出归一化,其输出值在[-1,1]之间,若输出层传函为logsig 则无论怎么训练,输出值都不可能在[-1,1]之间.
13.我感觉如果激发函数是S型函数，应该不用规一化处理，但是效果不如规一化处理的好，不知道为什么？
14.我认为有可能是数据太大或太多，将其归一化之后，有利于快速的调整神经网络的网络结构，或者如同terry2008所说存在奇异值也肯定有影响。

当然，效果好就选谁！
15.如果输入数据中含有频率、幅值、相位以及其他一些不同类型的数据，需要对他们进行什么处理，才能用于网络的训练？只是简单的归一化就行吗？
16.如果数据的维数太多，可以考虑用prepca进行主元分析，不知道silvercx所说的简单的归一化是什么意思？我现在还不知道其他预处理方法？什么事都得试一下，试过了就知道，你可可以拿出具体问题一起讨论！
17.我认为讨论之前要搞清一个数学问题，就是每种激励函数
的定义域和值域，我们都知道tansig的定义域是任意实数，值域为（－1，1）、purelin定义域和值域都是任意实数、logsig 定义域任意实数，值域是（0 ，1）。

所以在具体实际中使用用事先考虑好这个问题，logsig的值域是（0，1），当然不可能使输出在（－1，1）了。

我所说的："tansig、purelin、logsig是网络结构的传递函数，本身和归一化没什么直接关系，归一化只是一种数据预处理方法",我并没说没有间接关系。

18.如果输入样本的数据组成为In=[频率; 幅值; 相位]
我只用premnmx对In进行归一化，训练BP网络，得到一个目标输出Out，其数据组成也为Out=[频率; 幅值; 相位]。

这样子可以吗？总觉得把不同类型的数据放一起有点不妥。

19.完全可以，不过在输入数据和输出数据啊安排上可能要以时间序列的方式来安排。

例如，用第1，2，3，4时刻的数据预测第5时刻的数据，用第2，3，4，5时刻的数据预测第6时刻的数据，依次类推，可以组成一定的输入输出对，以上只是举个例子，只是说明这种数据组织方法，silvercx 在实际中可以根据自己的要解决的问题，自己确定，我只是提供一个参考方法。

有问题再讨论！
20.目前在我的项目中，我是这样子来训练BP网络的。

在变频器输出频率为45~50Hz之间，采集电机的转矩(T)、
转速(n)和另外一个目标量(RL)。

然后我对这些数据进行FFT变换，得到他们前几次谐波的幅值和相位。

归一化。

然后我利用两个网络分别训练幅值和相位。

（下面Am表示幅值，Ph表示相位，即AmT45，表示在45Hz时电机的转矩前几次谐波幅值）
网络1：
in=[AmT45 AmT46 AmT47 AmT48 AmT49 AmT50;
Amn45 Amn46 Amn47 Amn48 Amn49 Amn50;];
out=[AmRL45 AmRL46 AmRL47 AmRL48 AmRL49
AmRL50];
网络2：
in=[PhT45 PhT46 PhT47 PhT48 PhT49 PhT50;
Phn45 Phn46 Phn47 Phn48 Phn49 Phn50;];
out=[PhRL45 PhRL46 PhRL47 PhRL48 PhRL49 PhRL50];
然后利用所训练的网络去测试其他频率下的数据RL。

这样进行网络的训练行不行，还是把幅值和相位放在一个网络内训练的效果好？
21.在神经网络BP网的预测中，对数据进行归一化处理，完了输出再反归一化。

如果是单入单出系统好办，如果是多入单出系统，那么反归一化时，最大值和最小值怎么确定呢？
22.你可以自己指定，或者使用在训练网络时候确定的最大值和最小值
23.请问minmax(p),p是输入样本,
它的功能是做归一化吗，在MATLAB里面.
谢谢!
24.我认为，如果各维的数据不进行归一化处理，那么各维对误差函数的影响差异会很大。

从而会影响学习性能。

不知道对不对？
25.那样本数据\测试数据\预测数据\期望数据要一起进行归
一化吗?
26.我所知道的关于归一化：
归一化化定义：我是这样认为的，归一化化就是要把你需要处理的数据经过处理后（通过某种算法）限制在你需要的一定范围内。

首先归一化是为了后面数据处理的方便，其次是保正程序运行时收敛加快。

在matlab里面，用于归一化的方法共有三中，（1）premnmx、postmnmx、tramnmx（2）prestd、poststd、trastd（3）是用matlab语言自己编程。

premnmx指的是归一到[－1 1],prestd 归一到单位方差和零均值。

（3）关于自己编程一般是归一到[0.1 0.9] 。

具体用法见下面实例。

为什么要用归一化？
为什么要用归一化呢？首先先说一个概念，叫做奇异样本数据，所谓奇异样本数据数据指的是相对于
其他输入样本特别大或特别小的样本矢量。

下面举例：
m=[0.11 0.15 0.32 0.45 30;
0.13 0.24 0.27 0.25 45];
其中的第五列数据相对于其他4列数据就可以成为奇异样本数据（下面所说的网络均值bp）。

奇异样本数据存在所引起的网络训练时间增加，并可能引起网络无法收敛，所以对于训练样本存在奇异样本数据的数据集在训练之前，最好先进形归一化，若不存在奇异样本数据，则不需要事先归一化。

具体举例：程序说明：所用样本数据（见m_data）包括输入和输出数据，都先进行归一化，还有一个问题就是你要进行预测的样本数据(见本例p2)在进行仿真前，必须要用tramnmx函数进行事先归一化处理，然后才能用于预测，最后的仿真结果要用postmnmx进行反归一，这时的输出数据才是您所需要的预测结果。

个人认为：tansig、purelin、logsig是网络结构的传递函数，本身和归一化没什么直接关系，归一化只是一种数据预处理方法。

你好,我用了你的归一化方法,但当p2数据取比这些数大很多的值时，好像就不行了，出现了这样的问题，是不是数值超出了最大值的原因？我用的是GRNN网络
Warning: Divide by zero.
> In normprod at 73
In calca at 119
In network.sim at 204
In xgi at 60
a2=postmnmx(a2n,mint,maxt)
a2 =
Columns 1 through 9
1602 1602 NaN NaN NaN NaN NaN NaN NaN
Column 10
NaN
29.而且预测值受样本期望输出的最大值限制，
30.这个问题我提出来很多天了，为什么没有人表示意见呢，是这个问题本身就是神经网络的BUG，还是，我走的路偏了，对神经网络本质误解所致，大家多多指教阿，我在这等很久了呀！
非常不好意思，请教一问题：
31.利用归一化后的数据建了BP网络，但最后预测值在反归一化前却超出了[-1,+1]，不知问题出在哪？
32.小波神经网络对于时间序列预测在文献上报道得神乎其神，据称预测精度相对偏差平均达5%以下。

鄙人尝试后认为，小波神经网络只是加快了收敛速度，而预测精度决定于问题本身，很多数据预测结果并不能达到以上效果。

欢迎各
位仁兄讨论改进方法。

33.有个问题：归一化的时候我认为应该考虑数据的物理含义
34.为什么我的简单的归一化程序总是错的?谢各位大虾指点p=[1520 510 5.155 33.88;1468 521 5.321 35.79; .......共5行]';
t=[0.7 1.9;0.6 1.798;.....共10行]';
for i=1:4
P(i,: )=(p(i,: )-min(p(i,: )))/(max(p(i,: ))-min(p(i,: )));就是这行总说有错,到底是程序错还是软件不好??
end
此程序出自<神经网络理论与MATLAB7实现>,第269页,类似的归一化在我机子里都说不对,急死了,等毕业呢.
35.不要用这个归一化啊，换函数premnmx试试
36.为什么要归一化？
神经网络输入的一维代表一个特征，当神经网络的输入是多维时，要识别的模式有多个特征，当这多个特征的数据相差很大，如几个数量级时，就需要归一化，变成相同数量级，以防某些数值低的特征被淹没。