核密度估计的实现与简单应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
福州大学数学与计算机科学学院2008级数学与应用数学专业应用统计分析方向--应用数学实习
1.实习日记
2.实习作业
3.实习总结
4. 成绩评定
班级: 应数(2)班
姓名: 唐昌宏
学号: 030801218
指导老师: 吕书龙
实习地点: 福州大学
实习日期: 2011.6.27~2011.7.8
实习日记
2011.6.27 星期一确定实习内容
这个学期,我学习了许多关于统计计算与非参数统计的知识,以及假设检验、回归、正态性检验在R软件上的实现,还有R软件的一些其他的基本操作,如:作图、矩阵运算、数据导入、编程等。通过对自己弱点的分析,决定将实习目的定为:课堂上讲过的部分内容(非参数密度估计及其简单应用)在R软件中的实现,做到“理解理论知识、实现理论知识”。
2011.6.28 星期二复习巩固要用到的理论知识
针对要做的内容(核密度估计),对其理论知识做比较系统的复习,重点复习该方法的适用范围、计算方法、公式推导、实现过程,为之后的写算法、编程序打下理论基础。
2011.6.29 星期三复习巩固要用到的R软件命令
既然是自己编写程序,就避免不了对程序好坏的评价,因此就需要将自己编程计算的结果与R软件的计算结果进行比较;其次,在编程序时可以直接使用R 软件中已有的函数,以简化程序的篇幅。因此,复习巩固R软件命令是必要的。2011.6.30 星期四学习相关的数值计算方法
由于我想要用估计出的核密度函数来计算概率值,这就免不了要计算积分值,因此,我重点学习了数值计算中的快速、高精度算法。如:Gauss—Legendre 求积公式。
2011.7.1 星期五搜索非参数密度估计的图书
为了解决非参数密度估计的程序设计,我专门查找了图书馆的相关书籍,有许多介绍非参数统计的书籍,但每本书的侧重点有所不同。我就根据自己的需要,找到了一本对核回归有比较详细介绍的《非参数估计》作为我的参考书籍。
2011.7.4 星期一学习非参数密度估计的相关理论
今天主要任务是学习非参数密度估计的相关理论,包括:基本方法、应用方向以及具体的公式推导。在此基础上,写出相应的R程序,并在R软件中进行模拟,分析模拟的结果。
2011.7.5 星期二核密度估计的应用与检验
今天的主要任务是:在核密度估计的基础上,对区间[a,b]上的概率值进行估计,并将估算的结果与理论值进行比较,以验证整个估计过程的正确性与核密度估计理论的合理性。
2011.7.6 星期三总结实践过程中的经验
由于此次实习的时间较短,实践目的是熟悉课堂上的理论知识,及其具体的实现。通过实践,我有以下几点收获:
1、好的核密度估计依赖于组距的选取,而组距是与数据量及样本的分布有关的,是需要不断尝试的。
2、组距越大,估计出的核密度估计图越光滑;组距越小,估计出的核密度估计图越像噪声图。
2011.7.7 星期四写实习总结
通过这这几天的应用数学实习,我觉得很有必要对这一段时间所做的事情来一次总结。不论是理论上的,还是实际应用上的,我觉得将书上的理论知识通过计算机编程实现出来,这个过程有助于加深对理论知识的认识。还有,从理论到实际应用,我认为归根到底就是:数值计算。
2011.7.8 星期五完成实习报告,填写成绩评定表
今天的主要任务是完善实习过程中的内容,并根据实习报告中的内容填写成绩评定表。
应用数学实习课题:核密度估计的实现与简单应用
一、核密度估计的理论与实现 1、核密度估计的基本理论
核密度估计的目的:给定数据12,......n x x x ,估计出该总体的概率密度函数。
核密度估计的公式为:^
1
1
()(
)*n
i j n i j n
n
x x p x K n h h =-=
∑
其中K ()为核函数。(核函数必须是关于y 轴对称的)
2、以Gauss 核为例做核密度估计
取2
2
()u K u -=,则此时的核密度估计公式为:22
()^
21
()j n x x n h n j p x e
--
==
用Gauss 核做核密度估计的R 程序如下: ker.density=function(x,h){ x=sort(x)
n=length(x);s=0;t=0;y=0 for(i in 2:n) s[i]=0 for(i in 1:n){ for(j in 1:n)
s[i]=s[i]+exp(-((x[i]-x[j])^2)/(2*h*h)) t[i]=s[i]
}
for(i in 1:n)
y[i]=t[i]/(n*h*sqrt(2*pi))
z=complex(re=x,im=y)
hist(x,freq=F)
lines(z)
}
为了检验效果,我取100个正态分布的随机数来进行验证。
实验截图如下:(图中的直方图是频率分布直方图)
h=0.5h=0.2
h=0.8
此时取h=0.2附近比较好
取500个正态分布的随机数时,结果如下:
h=0.2h=0.5
h=0.8
从图上可知:取h=0.2~0.5比较合适。
取500个卡方分布的随机数
h=0.8h=0.5
h=0.2
此时取h=0.8比较好
结论:h 的选取不仅与样本容量有关,还与样本本身的性质(如样本的分布)有关。
二、核密度估计的简单应用——估算区间[a,b]上的概率值
由于估计出的密度函数为:22
()^
21
()2j n x x n h n j n
p x e
nh π--
==
,那么利用概率公式
^
()()b
n a
P a x b p x dx ≤≤=⎰ 即可求出区间[a,b]上的概率值。具体的计算过程如下: