非参数估计方法能处理任意的概率分布而不必假设密度

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

非参数估计方法:能处理任意的概率分布,而不必假设密度函数的形式已知。直接用已知类别的样本去估计总体密度分布。

我采用的数据是UCI数据库中的联合循环电厂数据集,包含9568个样本。该电厂每小时输出的电能由周围的温度(T),数据范围是从1.81到37.11;环境压力(AP),数据范围从992.89到1033.30;相对湿度(RH),数据范围从25.56到100.16;抽真空(V),数据范围从25.36到81.56四个属性决定。

我采用了Matlab中的princomp()函数对数据进行降维,得出的第一个主成分的贡献率是70.6217%,第二个主成分的贡献率为22.0507%。按照理论来说,应该选择前两个主成分,也就是二维的数据,因为前两个主成分的累积贡献率达到百分之九十多。但是由于数据样本数太多,如果选择二维数据的话,Matlab运行时间太长,所以我选择了贡献率为70.6217%的一维数据,数据范围从393.2851到495.7022。

1.给出一组统计数据,绘制出它的概率分布曲线,matlab的统计工具箱中有直接的函数,就是:Ksdensity 核心平滑密度估计

[f,xi] = ksdensity(x)

计算样本向量x的概率密度估计,返回在xi点的概率密度f,此时我们使用plot(xi,f)就可以绘制出概率密度曲线。

我所采用的数据的真实的概率密度曲线如图

.

2.用方窗进行估计,我选择的样本个数分别为1、200和6000,分别在窗长度为0.25、1和4

三种情况下进行了估计和比较,仿真结果如图所示。

由仿真结果可以看出:当N=1时,概率密度曲线是一个以第一个样本为中心的长方形,与窗函数差不多;当N=200及N=6000时,当h=0.25时,曲线起伏较大,噪声较大,当h=1时,曲线起伏减小,在h=4的情况下,曲线趋于平坦。尤其在N=6000时,曲线接近数据真实的概率密度曲线。

3. 用正态窗进行估计,我选择的样本个数分别为1、200和6000,分别在窗长度为0.25、1和20三种情况下进行了估计和比较,仿真结果如图所示。

由仿真结果可以看出:当N=1时,概率密度曲线是一个以第一个样本为中心的正态形状的小丘,与窗函数差不多;当N=200及N=6000时,当h=0.25时,曲线起伏较大,噪声较大,当h=20时,曲线起伏减小。在N=6000时,曲线接近数据真实的概率密度曲线。4. 用指数窗进行估计,我选择的样本个数分别为10、200和6000,分别在窗长度为0.25、1

和4三种情况下进行了估计和比较,仿真结果如图所示。

由仿真结果可以看出:当h=0.25时,曲线起伏较大,噪声较大;当h=1时,曲线起伏减小;当N=200及N=6000时,在h=4的情况下,曲线趋于平坦。尤其在N=6000时,曲线接近数据真实的概率密度曲线。

5.总结

从三个Parzen窗仿真实验可以看出,估计的概率密度函数与样本个数N和窗长度h的取值大小有密切的关系。若h选太小,则不能包含足够的样本,从而使概率密度估计不稳定。若h选太大,则概率密度估计较平坦,反映不出总体分布的变化。所以h的选取要适当。另

外,样本数越多,估计的概率密度曲线越准确。

相关文档
最新文档