核密度估计的实现与简单应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

福州大学数学与计算机科学学院2008级数学与应用数学专业应用统计分析方向--应用数学实习

1.实习日记

2.实习作业

3.实习总结

4. 成绩评定

班级: 应数(2)班

姓名: 唐昌宏

学号: 030801218

指导老师: 吕书龙

实习地点: 福州大学

实习日期: 2011.6.27~2011.7.8

实习日记

2011.6.27 星期一确定实习内容

这个学期,我学习了许多关于统计计算与非参数统计的知识,以及假设检验、回归、正态性检验在R软件上的实现,还有R软件的一些其他的基本操作,如:作图、矩阵运算、数据导入、编程等。通过对自己弱点的分析,决定将实习目的定为:课堂上讲过的部分内容(非参数密度估计及其简单应用)在R软件中的实现,做到“理解理论知识、实现理论知识”。

2011.6.28 星期二复习巩固要用到的理论知识

针对要做的内容(核密度估计),对其理论知识做比较系统的复习,重点复习该方法的适用范围、计算方法、公式推导、实现过程,为之后的写算法、编程序打下理论基础。

2011.6.29 星期三复习巩固要用到的R软件命令

既然是自己编写程序,就避免不了对程序好坏的评价,因此就需要将自己编程计算的结果与R软件的计算结果进行比较;其次,在编程序时可以直接使用R 软件中已有的函数,以简化程序的篇幅。因此,复习巩固R软件命令是必要的。2011.6.30 星期四学习相关的数值计算方法

由于我想要用估计出的核密度函数来计算概率值,这就免不了要计算积分值,因此,我重点学习了数值计算中的快速、高精度算法。如:Gauss—Legendre 求积公式。

2011.7.1 星期五搜索非参数密度估计的图书

为了解决非参数密度估计的程序设计,我专门查找了图书馆的相关书籍,有许多介绍非参数统计的书籍,但每本书的侧重点有所不同。我就根据自己的需要,找到了一本对核回归有比较详细介绍的《非参数估计》作为我的参考书籍。

2011.7.4 星期一学习非参数密度估计的相关理论

今天主要任务是学习非参数密度估计的相关理论,包括:基本方法、应用方向以及具体的公式推导。在此基础上,写出相应的R程序,并在R软件中进行模拟,分析模拟的结果。

2011.7.5 星期二核密度估计的应用与检验

今天的主要任务是:在核密度估计的基础上,对区间[a,b]上的概率值进行估计,并将估算的结果与理论值进行比较,以验证整个估计过程的正确性与核密度估计理论的合理性。

2011.7.6 星期三总结实践过程中的经验

由于此次实习的时间较短,实践目的是熟悉课堂上的理论知识,及其具体的实现。通过实践,我有以下几点收获:

1、好的核密度估计依赖于组距的选取,而组距是与数据量及样本的分布有关的,是需要不断尝试的。

2、组距越大,估计出的核密度估计图越光滑;组距越小,估计出的核密度估计图越像噪声图。

2011.7.7 星期四写实习总结

通过这这几天的应用数学实习,我觉得很有必要对这一段时间所做的事情来一次总结。不论是理论上的,还是实际应用上的,我觉得将书上的理论知识通过计算机编程实现出来,这个过程有助于加深对理论知识的认识。还有,从理论到实际应用,我认为归根到底就是:数值计算。

2011.7.8 星期五完成实习报告,填写成绩评定表

今天的主要任务是完善实习过程中的内容,并根据实习报告中的内容填写成绩评定表。

应用数学实习课题:核密度估计的实现与简单应用

一、核密度估计的理论与实现 1、核密度估计的基本理论

核密度估计的目的:给定数据12,......n x x x ,估计出该总体的概率密度函数。

核密度估计的公式为:^

1

1

()(

)*n

i j n i j n

n

x x p x K n h h =-=

其中K ()为核函数。(核函数必须是关于y 轴对称的)

2、以Gauss 核为例做核密度估计

取2

2

()u K u -=,则此时的核密度估计公式为:22

()^

21

()j n x x n h n j p x e

--

==

用Gauss 核做核密度估计的R 程序如下: ker.density=function(x,h){ x=sort(x)

n=length(x);s=0;t=0;y=0 for(i in 2:n) s[i]=0 for(i in 1:n){ for(j in 1:n)

s[i]=s[i]+exp(-((x[i]-x[j])^2)/(2*h*h)) t[i]=s[i]

}

for(i in 1:n)

y[i]=t[i]/(n*h*sqrt(2*pi))

z=complex(re=x,im=y)

hist(x,freq=F)

lines(z)

}

为了检验效果,我取100个正态分布的随机数来进行验证。

实验截图如下:(图中的直方图是频率分布直方图)

h=0.5h=0.2

h=0.8

此时取h=0.2附近比较好

取500个正态分布的随机数时,结果如下:

h=0.2h=0.5

h=0.8

从图上可知:取h=0.2~0.5比较合适。

取500个卡方分布的随机数

h=0.8h=0.5

h=0.2

此时取h=0.8比较好

结论:h 的选取不仅与样本容量有关,还与样本本身的性质(如样本的分布)有关。

二、核密度估计的简单应用——估算区间[a,b]上的概率值

由于估计出的密度函数为:22

()^

21

()2j n x x n h n j n

p x e

nh π--

==

,那么利用概率公式

^

()()b

n a

P a x b p x dx ≤≤=⎰ 即可求出区间[a,b]上的概率值。具体的计算过程如下:

相关文档
最新文档