第11章 非参数回归(非参数统计,西南财大)

合集下载

非参数回归模型与半参数回归模型

非参数回归模型与半参数回归模型

第七章 非参数回归模型与半参数回归模型第一节 非参数回归与权函数法一、非参数回归概念前面介绍的回归模型,无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。

参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。

另一类回归,非参数回归,则与参数回归正好相反。

它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。

设Y 是一维观测随机向量,X 是m 维随机自变量。

在第四章我们曾引进过条件期望作回归函数,即称g (X ) = E (Y |X ) (7.1.1)为Y 对X 的回归函数。

我们证明了这样的回归函数可使误差平方和最小,即22)]([min )]|([X L Y E X Y E Y E L-=-(7.1.2)这里L 是关于X 的一切函数类。

当然,如果限定L 是线性函数类,那么g (X )就是线性回归函数了。

细心的读者会在这里立即提出一个问题。

既然对拟合函数类L (X )没有任何限制,那么可以使误差平方和等于0。

实际上,你只要作一条折线(曲面)通过所有观测点(Y i ,X i )就可以了是的,对拟合函数类不作任何限制是完全没有意义的。

正象世界上没有绝对的自由一样,我们实际上从来就没有说放弃对L(X)的一切限制。

在下面要研究的具体非参数回归方法,不管是核函数法,最近邻法,样条法,小波法,实际都有参数选择问题(比如窗宽选择,平滑参数选择)。

所以我们知道,参数回归与非参数回归的区分是相对的。

用一个多项式去拟合(Y i ,X i ),属于参数回归;用多个低次多项式去分段拟合(Y i ,X i ),叫样条回归,属于非参数回归。

二、权函数方法非参数回归的基本方法有核函数法,最近邻函数法,样条函数法,小波函数法。

这些方法尽管起源不一样,数学形式相距甚远,但都可以视为关于Y i 的线性组合的某种权函数。

也就是说,回归函数g (X )的估计g n (X )总可以表为下述形式:∑==ni i i n Y X W X g 1)()((7.1.3)其中{W i (X )}称为权函数。

非参数统计1

非参数统计1
(1)设置零假设和备选假设; (2)构造检验统计量T(X1,X2,…Xn); (3)数值实现t= T(x1,x2,…xn); (4)计算零假设下,r.v.T落入某区间的精确概率
或近似概率
P值
零假设下,P(T>t)的值称为p值。
若p值很小,说明观测值的实现在零假设下为小概率 事件,故拒绝零假设。犯第一类错误的概率为p。
比如: (1)研究保险公司的索赔请求数时,可能假定索赔请求
数来自泊松分布P(a);
(2)研究化肥对农作物产量的影响效果时,平均意义 之下,每测量单元(可能是)产量服从正态分布
N(a,b).
一个典型的参数检验过程
1. 总体参数
Example: Population Mean
2. 假定数据的形态为
Whole Numbers or Fractions
Pitman于1948年回答了非参数统计方法相对于 参数方法来说的相对效率方面的问题;
非参数统计的历史(续)
60年代中后期,Cox和Ferguson最早将非参数方法 应用于生存分析。
70年代到80年代,非参数统计借助计算机技术和 大量计算获得更稳健的估计和预测,以P.J.Huber 以及 F.Hampel为代表的统计学家从计算技术的实 现角度,为衡量估计量的稳定性提出了新准则。
这里,j为求均值前删掉的最小或最大观测值的数目。
顺序统计量的分布:
设总体的分布函数F(x),则第r个顺序统计量的分布 函数为:
Fr (x)
P(X (r)
x)
P(至少
r个X
小于或等于
i
x)
n
P( X1, X 2 ,L , X n中恰好有j个小于x)
jr
n
C

计量经济学_西南财经大学中国大学mooc课后章节答案期末考试题库2023年

计量经济学_西南财经大学中国大学mooc课后章节答案期末考试题库2023年

计量经济学_西南财经大学中国大学mooc课后章节答案期末考试题库2023年1.通过虚拟变量将属性因素引入计量经济模型,引入虚拟变量的个数与样本容量大小有关。

答案:错误2.表示X和Y之间真实线性关系的总体回归模型是()答案:3.时间序列数据中更容易出现异方差性。

答案:错误4.DW检验适用于下列哪种情况的检验()答案:正的一阶自回归形式的自相关性5.DW统计量的取值范围是()答案:6.如果一元线性回归模型中存在自相关性,则OLS估计不具有下列哪个性质()答案:有效性7.下列哪个选项描述的是一元线性回归模型【图片】中的自相关性()答案:8.利用估计的自回归系数【图片】一定能消除自相关性。

答案:错误9.当随机扰动项存在异方差性时,应该使用加权最小二乘法估计回归模型中的参数。

答案:正确10.用DW统计量估计自回归系数【图片】只适用于一阶自相关性。

答案:正确11.自相关性都会造成低估OLS估计量的真实方差。

答案:错误12.截面数据中不会出现自相关性。

答案:错误13.考虑一个样本量为100的多元回归模型【图片】,若去掉中间的20个观测值进行GQ检验,则检验统计量在原假设下服从()分布答案:F(37, 37)14.对三元回归模型【图片】,样本量用n表示。

考虑包含交叉项的White检验,则检验统计量服从自由度为()的卡方分布。

答案:915.下列哪个异方差检验不能诊断出是由哪个解释变量引起的异方差性()答案:ARCH检验16.异方差性是指随机扰动项的方差会随解释变量的变化而变化。

答案:正确17.反映由模型中解释变量所解释的那部分离差大小的是()答案:回归平方和18.虚拟变量的取值只能取0或1。

答案:错误19.在计量经济学的参数估计中,以下哪一项不属于参数估计“尽可能接近真实值”的判断标准是()答案:渐进正态性20.关于古典假定与统计性质的关系,以下说法正确的是()答案:若零均值假定不成立,则OLS的无偏性和有效性都会受到影响。

非参数统计

非参数统计

中国海洋大学本科生课程大纲课程属性:公共基础/通识教育/学科基础/专业知识/工作技能,课程性质:必修、选修一、课程介绍1.课程描述:非参数统计是数理统计学的一个分支,它是针对参数统计而言的。

所谓参数统计,简单地说就是建立在总体具有明确分布形式,通常多为正态分布形式的假定基础之上,所建立的统计理论和统计方法。

而非参数统计是在不假定总体分布形式或在较弱条件下,例如总体分布形式完全未知或分布形式是对称的,诸如这样一些宽泛条件下,尽量从数据本身获得的信息,建立对总体相关统计特征进行分析和推断的理论、方法。

2.设计思路:本课程是在已学数理统计基础上,通过非参数统计的学习,引导数学专业学生进一步增强对一般总体分析、推断的能力并加深对相关理论和方法的理解。

课程内容着重于基本知识点的理解,避免难度较大或较长定理的证明。

目的是使学生对理论有一个基本的理解和在应用能力上的提高。

课程内容包括以下四个方面:(1).非参数统计的基本概念:非参数统计方法的主要特点,次序统计量及其分布,U统计量,秩统计量的概念,一些统计量的近似分布。

(2).非参数估计的方法:总体分位数的估计,对称中心的估计,位置差的估计。

(3).非参数检验的方法:总体p分位数的检验,总体均值检验,两样本的比较,随机性与独立性检验,多总体的比较。

- 1 -(4).总体分布类型的估计与检验:分布函数的估计与检验,概率密度估计。

3. 课程与其他课程的关系:先修课程:《概率论》,《数理统计》,《多元统计分析》;并行课程:《应用回归分析》;后置课程:《统计软件》。

非参数统计是应用数学专业、信息与计算科学专业的选修课程,但对于今后从事统计研究和统计应用工作的学生来讲可以作为专业必修课学习。

二、课程目标非参数统计具有应用性广,稳健性好等特点。

通过本课程学习,要求学生了解或理解非参数统计的一些基本理论和方法,注重利用理论和方法、借助计算机解决问题的能力。

开课学期结束时,要求学生能够做到:(1)理解非参数统计方法的主要特点及与参数统计方法的区别。

(完整版)西南财经_计量经济学期末试题

(完整版)西南财经_计量经济学期末试题

西南财经大学2007 - 2008 学年第一学期各专业本科 2005 级(三年级一学期)学号评定成绩(分)学生姓名担任教师《计量经济学》期末闭卷考试题(下述一 - 四题全作计100分,两小时完卷)考试日期:试题全文:一、单选题答案二、多选题答案一、 单项选择题(每小题1分,共30分)1、以下模型中属于线性回归模型是( )A. 212()i i i E Y X X ββ=+B. 1()i i i E Y X β=C. 212()i i i E Y X X ββ=+D. 12ii i X Y u ββ=++2、半对数模型01ln Y X ααμ=++中,参数1α的含义是( )A . X 的绝对量发生一定变动时,引起因变量Y 的相对变化率B .Y 关于X 的弹性C .X 的相对变化,引起Y 的期望值绝对量变化D .Y 关于X 的边际变化3、在模型12233t t t t Y X X u βββ=+++的回归分析结果报告中,设F 统计量对应p 值为 F p ,给定显著性水平0.05α=,则下列说法正确是表明( )A 、若F p α<,解释变量2t X 对t Y 的影响是显著的B 、若F p α≥,解释变量2t X 和3t X 对t Y 的联合影响是显著的C 、若F p α< ,则解释变量2t X 和3t X 对t Y 的影响均不显著D 、以上说法均不对4、对被解释变量Y 个别值作的区间预测,不具有的特点是( ) A. 对Y 的预测区间是随F X 的变化而变化的 B. 对Y 的预测区间上下限与样本容量有关 C. 对Y 的预测区间只决定于随机扰动i u 的方差D. 对Y 的预测区间不仅受抽样波动影响,而且还受随机扰动项的影响5、对多元线性回归方程的显著性检验,所用的F 统计量可表示为( )A 、()(1)ESS n k RSS k --B 、22()(1)(1)R n k R k ---C 、(1)()ESS k RSS n k --D 、()ESSRSS n k -6、通过虚拟变量将属性因素引入计量经济模型,引入虚拟变量的个数与( )A. 样本容量大小有关B.与变量属性无关C. 模型有无截距项有关D.与被解释变量无关 7、关于可决系数2R ,以下说法中错误的是( )A 、可决系数2R 的定义为被回归方程已经解释的变差与总变差之比;B 、[]201R ∈,;C 、可决系数2R 反映了样本回归线对样本观测值拟合优劣程度的一种描述;D 、可决系数2R 的大小不受到回归模型中所包含的解释变量个数的影响。

非参数统计讲义二单样本模型通用课件

非参数统计讲义二单样本模型通用课件

02
单样本模型介绍
单样本模型定义
单样本模型是指仅使 用一个样本数据来构 建统计模型的统计方 法。
单样本模型常用于分 析单个样本数据的分 布、参数估计和假设 检验等。
它与双样本模型相对 ,后者需要两个独立 样本数据进行比较。
单样本模型的特点
简单易用
灵活性
单样本模型仅需一个样本数据,无需 复杂的配对或分组操作,计算过程相 对简单。
秩和检验的应用步骤
将数据排序,计算秩次,根据秩次计算统计量,与临界值进行比较。
秩和检验的优点
不受数据分布形式的限制,能够处理异常值和离群点。
案例三:直方图在单样本模型中的应用
直方图
直方图是一种非参数统计方法, 用于展示数据的分布情况。在单 样本模型中,直方图可以用于分
析一组数据的分布特征。
直方图的应用步骤
成本,对于大规模数据集可能存在计算效率问题。
02
对数据量和样本代表性要求较高
非参数统计方法需要足够的数据量和样本代表性,才能保证分析结果的
稳定性和可靠性。
03
对数据质量要求较高
非参数统计方法对数据的质量和完整性要求较高,如果数据存在缺失、
异常或偏差等问题,可能会影响分析结果的准确性和可靠性。
04
非参数统计在单样 本模型中的具体应 用
核密度估计在单样本模型中的应用
核密度估计是一种非参数统计方法,用 于估计未知概率密度函数。在单样本模 型中,核密度估计可以用来检验数据是 否符合特定的概率分布,或者比较两组
数据的分布是否相似。
核密度估计的基本思想是利用核函数和 权重函数对概率密度函数进行加权平均 ,从而得到未知概率密度函数的估计。 常用的核函数包括高斯核、多项式核等

重磅!Stata15的新模块(一):非参数回归

重磅!Stata15的新模块(一):非参数回归

重磅!Stata15的新模块(一):非参数回归日前,Stata 公司发布了最新版的Stata 15,包含了许多令人激动的重大升级,包括非参数回归、空间计量、DSGE模型等。

本公众号将陆续为你介绍,与计量经济学最为相关的几个全新模块。

非参数回归传统的回归模型一般都假设具体的回归函数(比如线性、平方项、交互项、对数等),然后估计其中的参数,故称为“参数回归”(parametric regression)。

但我们通常并不知道这些参数模型是否“设定正确”(correctly specified),而一旦误设就会导致“设定误差”(specification errors)。

为此,不设定具体函数形式的“非参数回归”(nonparametric regression)应运而生,并因其稳健性而得到日益广泛的应用。

在某种意义上,非参数回归在实证研究者的工具箱中,正从早期的奢侈品而渐渐成为必需品。

Stata 15 顺势推出了非参数回归的官方命令,其句型为. npregress kernel y x1 x2 x3使用此命令可进行“核回归”(kernel regression),包括最常用的“局部线性估计量”(local linear estimator)与“局部常数估计量”(local constant estimator),并提供八种备选核函数(默认为二次核),以及使用“交叉核实法”(cross-validation)或“改进AIC法”(improved AIC)选择最优带宽(optimal bandwidth)。

在进行非参数回归后,Stata 提供了画图的方便命令:. npgraph由于非参数回归不假设具体的回归函数,故在一元回归的情况下,画图是呈现(非参数)回归函数的最直观方法,例如:从上图可知,这两个变量之间呈现出非线性关系,而非参数回归可以较好地刻画此非线性回归关系。

参考文献陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年。

stata 非参数回归

stata 非参数回归

stata 非参数回归摘要:1.介绍非参数回归2.阐述stata 在非参数回归中的应用3.说明stata 非参数回归的优点4.举例说明如何使用stata 进行非参数回归正文:一、介绍非参数回归非参数回归是一种不依赖于特定概率分布的回归方法,与参数回归不同,非参数回归不需要对数据分布进行假设。

非参数回归的目的是估计自变量与因变量之间的关系,而不是对关系进行特定的概率分布假设。

二、阐述stata 在非参数回归中的应用stata 作为一款广泛应用于社会科学、经济学、生物统计学等领域的数据分析软件,提供了丰富的非参数回归方法,如局部加权回归(Lowess)、Bootstrap 回归、广义加权回归(GWR)等。

三、说明stata 非参数回归的优点1.不受数据分布限制:非参数回归不需要对数据分布进行假设,因此适用于各种分布形态的数据。

2.较强的稳健性:非参数回归方法对于异常值和不规则分布的数据具有较强的稳健性。

3.易于操作:stata 提供了简洁的命令和语法,使得非参数回归操作起来非常方便。

四、举例说明如何使用stata 进行非参数回归假设我们要研究一个地区房价与房屋面积、地段等因素之间的关系,可以使用stata 的局部加权回归(Lowess)方法进行非参数回归。

具体操作如下:1.输入数据:在stata 中输入数据,以地区、房价、房屋面积、地段等变量为例。

2.进行非参数回归:输入命令"lowess",之后输入需要进行回归分析的变量,如"price area location"。

3.查看结果:stata 会输出回归结果,包括系数估计、标准误差、z 统计量等。

自-第1章非参数统计引论(非参数统计西南财大)

自-第1章非参数统计引论(非参数统计西南财大)

非参数统计分析第一章引言§1.1 关于非参数统计在初等统计学中,最基本的概念是总体,样本,随机变量,分布,估计和假设检验等.其很大一部分内容是和正态理论相关的。

在那里,总体的分布形式或分布族往往是给定的或者是假定了的,所不知道的仅仅是一些参数的值或他们的范围。

于是,人们的任务就是对一些参数,比如均值和方差(或标准差),进行点估计或区间估计,或者是对某些参数值进行各种检验,比如检验正态分布的均值是否相等或等于零等等.最常见的检验为对正态总体的t—检验,F—检验,2 和最大似然比检验等.然而,在实际生活中,那种对总体的分布的假定并不是能随便做出的。

有时,数据并不是来自所假定分布的总体;或者,数据根本不是来自一个总体;还有可能,数据因为种种原因被严重污染。

这样,在假定总体分布的情况下进行推断的做法就可能产生错误的结论。

于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。

这就是非参数统计的宗旨。

因为非参数统计方法不利用关于总体分布的知识,所以,就是在对于总体分布的任何知识都没有的情况下,它也能很容易而又很可靠地获得结论.这时,非参数方法往往优于参数方法。

然而,在总体的分布族已知的情况下,不需要任何先验知识就成为它的缺点;因为它没有充分利用已知的关于总体分布的信息,所做出的结论就不如参数方法得到的精确.在不知总体分布的情况下如何利用数据所包含的信息呢?一组数据的最基本的信息就是次序.如果可以把数据点按大小次序排队,每一个具体数目都有它的在整个数据中(从最小的数起)的位置或次序,称为该数据的秩(rank).数据有多少个观察值,就有多少个秩.在一定的假定下,这些秩和它们的统计量的分布是求得出来的,而且和原来的总体分布无关.这样就可以进行所需要的统计推断。

注意,非参数统计的名字中的“非参数(nonparametric)”意味着其方法不涉及描述总体分布的有关参数;它被称为和分布无关(distribution —free),是因为其推断方法和总体分布无关;不应理解为与所有分布(例如有关秩的分布)无关.§1.2 顺序统计量,秩和线性秩统计量 一、顺序统计量因为非参数方法通常并不假定总体分布。

第9章 相关和回归(非参数统计,西南财大)

第9章 相关和回归(非参数统计,西南财大)

第八章 相关和回归 第一节 Spearman 相关检验在给定一列数对),(11Y X ,⋯,),(n n Y X 之后,要检验他们所代表的二元变量X 和Y 是否相关。

不相关与Y X H :0相关与Y X H :1首先将X 和Y 的观测值分别排序,分别得各自得秩统计量),(11S R ,⋯,),(n n S R计算R 和S 的相关系数,我们知道21+==n S R 令i i i S R D -= Spearman 的相关系数为)1(61)()())((21211221--=----=∑∑∑∑====n n d S S R R S S R Rr ni i n i ni i i ni i is)1,0(~1N n Z s -=γ例:下面是10个国家和地区1997年的国际化程度和国际竞争力的资料。

Correlations(a)第二节 Kendall τ检验Kendall τ检验是从另一个角度来看相关,其检验的假设为:⎪⎩⎪⎨⎧负相关与正相关与不相关与不相关;与Y X Y X Y X H Y X H ::10定义(Kendall τ相关系数)令⎪⎩⎪⎨⎧<---=-->--=ψ0))((10))((00))((1),,,i j i j i j i j i j i j j i j i Y Y X X Y Y X X Y Y X X Y Y X X (称212),,,)1(2ˆndc nn j i n j i j i C n n C K Y Y X X n n -==ψ-=∑≤<≤(τ为Kendall τ相关系数。

c n 是X 与Y 协同的对数,或得+1的对数。

d n 是X 与Y 不协同的对数,或得-1的对数。

∑≤<≤-=ψ=nnj i d c j i jin n Y Y XX K 1),,,(。

从定义可以看出,当二变量是相关的,则K 的绝对值大,反之当K 的绝对值接近1,则x 与Y 是相互无关的。

非参数统计第四版教学设计

非参数统计第四版教学设计

非参数统计第四版教学设计一、教学目标本课程旨在让学生了解非参数统计的基本概念和原理,掌握常见的非参数统计方法及其应用,运用所学知识解决实际问题,提高学生的问题解决能力和实践能力。

二、教学内容1. 非参数统计基本概念•参数估计与非参数估计•核密度估计•经验分布函数2. 假设检验•单样本检验•双样本检验•非参数方差分析3. 排名方法•秩和检验•秩相关方法4. 非参数回归分析•局部加权回归法•核回归法5. 非参数多元统计方法•主成分分析•独立成分分析三、教学方法本课程采用多种教学方法相结合,包括:1.讲授法: 通过PPT、黑板笔记等方式讲解非参数统计的基本概念和原理。

2.实例演示法: 通过实际案例,引导学生掌握非参数统计方法的应用。

3.课外阅读法: 布置相关阅读材料,鼓励学生利用图书馆等多样化的资源扩展知识,提高自学能力。

4.讨论法: 借助小组讨论、课堂讨论等方式,让学生应用所学理论解决实际问题。

5.独立研究法: 指导学生进行独立研究,培养其独立思考和解决问题的能力。

四、教材和参考书目1. 教材:《非参数统计方法》(第四版),作者:高小平,出版社:中国人民大学出版社。

2. 参考书目:1.《非参数统计方法及其应用》(第二版),作者:费慧芳,出版社:高等教育出版社,2005年。

2.《非参数统计方法》(第三版),作者:谢文坚等,出版社:清华大学出版社,2016年。

3.《现代非参数统计方法》(第四版),作者:P・K・塔博洛夫,出版社:机械工业出版社,2005年。

五、教学评价与考核方式本门课程采用定期考试和作业相结合的方式进行考核。

定期考试分为期中考试和期末考试,占总成绩的60%;作业包括上机实验和课程设计,占总成绩的40%。

评价方式主要考虑学生平时表现、期中期末考试成绩和作业成绩等多个方面,全面客观评价学生的学习效果和水平。

六、教学进度安排教学时间共16周,具体进度安排如下:教学周次教学内容1-2周非参数统计基本概念3-5周假设检验6-8周排名方法9-11周非参数回归分析12-14周非参数多元统计方法教学周次教学内容15-16周综合性实验七、教学效果评估为了对本门课程的教学效果进行评估,本教学设计将采用学生评教和教师自主评估相结合的方式,其中学生评教占比50%,教师自主评估占比50%。

十非参数判别分析与非参数聚类(非参数统计,西南财大)

十非参数判别分析与非参数聚类(非参数统计,西南财大)

第十二章 非参数判别分析与非参数聚类第一节 非参数判别分析一、引言关于判别分析的一般概念我们在多元统计分析中已经详细的讨论,在那里我们采用了距离判别、贝叶斯判别和典型判别法。

这些判别法都需要估计总体的参数,而贝叶斯判别时,我们还指定了总体服从正态分布。

在非参数统计中,不对变量的分布做任何假设,这里主要有两种方法,BAYES 方法和近邻方法进行非参数判别分析。

设有M 个类,用Y 记一具体的对象所属的类,Y 可能的取值为M ,,2,1 。

设有了n 个经过明确判定的样本,第i 个样本的指标为i X ,所属的类为),,2,1(n i Y i =,,n 个样本记()()(){},,,,,,,221n n n Y Y Y Z X X X 1 =,常称为“训练样本”。

这一名称的来由使因为日后进行的判别工作依赖,因此可以说它们“训练了”人们如何取进行判别。

非参数方法是基于组概率密度函数的非参数估计。

每组的非参数密度估计核产生的分类准则采用核方法或k 最近邻方法。

马氏距离或欧氏距离用来确定样品的接近程度。

二、核方法 1、Bayes 方法概念设有M 个总体M G G ,,1 分别具有概率分布密度)(),(1x f x f M ,出现M 个总体的先验概率分别为M p p ,,1 ,0>=i p ,11=++M p p 。

贝叶斯判别的规则将样品判给)()()|(000x f P x f p x G P j j k k k ∑=最大的类,即如果)(max )(1x f p x f p j j Mj l l ≤≤=,判l G Y ∈2、Bayes 方法和密度函数估计的联系在非参数判别中,通常M j x f j ,,3,2,1),( =完全未知,有时k p p ,,1 未知。

一个直观的想法是直接估计M j x f j ,,3,2,1),( =和M p p ,,1 ,然后将得到的估计代入判别规则中进行计算。

具体的步骤是:如果已知某事物可分为M 个总体:1G …2G ,M G ,该事物的特性P 个指标描述,在进行分析之前,已观察到在各个总体的样本。

非参数统计(non-parametricstatistics)又称任意分布检验(.PPT33页

非参数统计(non-parametricstatistics)又称任意分布检验(.PPT33页
非参数统计(non-parametricstatistics) 又称任意分布检验(.
31、园日涉以成趣,门虽设而常关。 32、鼓腹无所思。朝起暮归眠。 33、倾壶绝余沥,窥灶不见烟。
34、春秋满四泽,夏云多奇峰,秋月 扬明辉 ,冬岭 秀孤松 。 35、丈夫志四海,我愿不知老。

41、学问是异常珍贵的东西,从任何源泉吸 收都不可耻。——阿卜·日·法拉兹
42、只有在人群中间,才能认识自 己。——德国
43、重复别人所说的话,只需要教育; 而要挑战别人所说的话,则需要头脑。—— 玛丽·佩蒂博恩·普尔
44、卓越的人一大优点是:在不利与艰 难的遭遇里百折不饶。——贝多芬
45、自己的饭量自己知道。——苏联

非参数回归(非参数统计,西南财大)

非参数回归(非参数统计,西南财大)

第十二章非参数回归及其相关问题第一节参数回归问题的回顾在线性回归模型中,我们总是假定总体回归函数是线性的,即多元线性回归模型一般形式为:总体回归函数<PRF)但是,经验和理论都证明,当不是线性函数时,基于最小二乘的回归效果不好,非参数回归就是在对的形式不作任何假定的前提下研究估计。

b5E2RGbCAP例设二维随机变量,其密度函数为,求.解:从例可知,仅与有关,条件期望表明Y与X在条件期望的意义下相关。

由样本均值估计总体均值的思想出发,假设样本,,…,中有相当恰好等于,,不妨记为,,…,,自然可取相应的的样本,,…,,用他们的平均数去估计。

可是在实际问题中,一般不会有很多的值恰好等于。

这个估计式,仿佛是一个加权平均数,对于所有的,如果等于,则赋予的权,如果不等于,则赋予零权。

由此可启发我们在思路上产生了一个飞跃。

即对于任一个,用的加权和去估计,即,其中,估计。

问题是如何赋权,一种合乎逻辑的方法是,等于或靠非常近的那些,相应的权大一些,反之小权或零权。

p1EanqFDPw两种模式:设上的随机变量,为的次观测值。

实际应用中,为非随机的,依条件独立,在理论上非参数回归中既可以是非随机的,也可以是随机的。

而参数回归分析中,我们总是假定为非随机的。

DXDiTa9E3d 根据的不同非参数回归有两种模式。

1、为随机时的非参数回归模型设,,为的随机样本。

存在没个未知的实值函数,使得一般记为这里,,如果,则2、为非随机时的非参数回归模型由于在实际中,研究者或实验者一般可以控制X或预先指定X,这时X可能不再是随机变量,例如年龄与收入之间的关系中年龄为固定时,收入的分布是已知的,不存在X为随机变量时,估计的问题。

RTCrpUDGiT设,,为的随机样本设的随机变量,为的次独立观测值,则,,。

第二节一元非参数回归核估计方法一、核估计(一> Nadaraya-Watson估计核权函数是最重要的一种权函数。

为了说明核函数估计,我们回忆二维密度估计(1>而(2>在这个密度函数估计中,核函数必须相等,光滑参数可以不等,光滑参数不等时,有将<2)代入<1)的分子,得令,则又由有对称性,则,,得1式的分子为分子=分母=可以看出对的估计,是密度函数估计的一种自然推广,一般也称为权函数估计其中可以看出权函数完全由确定,其取值与X的分布有关,称为N-W估计。

西南财经大学统计学院《432统计学》[专业硕士]历年考研真题(含复试)专业课考试试题

西南财经大学统计学院《432统计学》[专业硕士]历年考研真题(含复试)专业课考试试题

目 录
第一部分 初试历年真题
2017年西南财经大学统计学院432统计学[专业硕士]考研真题(回忆版)
2016年西南财经大学统计学院432统计学[专业硕士]考研真题(回忆版)
2015年西南财经大学统计学院432统计学[专业硕士]考研真题(回忆版)
2014年西南财经大学统计学院432统计学[专业硕士]考研真题(回忆版)
第二部分 复试历年真题
2016年西南财经大学统计学院应用统计硕士复试考研真题(回忆版)
2015年西南财经大学统计学院应用统计硕士复试考研真题(回忆版)
2014年西南财经大学统计学院应用统计硕士复试考研真题(回忆版)
第一部分 初试历年真题
2017年西南财经大学统计学院432统计学[专业硕士]考研真题(回忆版)一、判断题
1.关于季节指数的计算判断
2.样本分布定理
3.普查是否比抽样误差更精确
4.方差分析
5.判断x=∑(i=1)n,x i是否是μ的极大似然估计且为无偏估计。

二、简答题
1.回归分析,给你数据,让你计算回归系数估计值和写出回归方程2.求置信区间(均值和成数)
3.对一个正态分布进行显著性检验,均值和方差,看它是不是符合标准
4.方差分析的统计量构造和拒绝域
5.极大似然估计
三、计算题
1.给你一个表格,让你填空,写回归方程,进行回归分析预测区间估计
2.回归估计及其检验以及预测区间估计
3.关于二维正态分布的概率论题目。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十二章 非参数回归及其相关问题第一节 参数回归问题的回顾在线性回归模型中,我们总是假定总体回归函数是线性的,即 多元线性回归模型一般形式为:i Ki K i i i X X X Y μββββ+++++= 33221总体回归函数(PRF )Ki K i i ki i i i X X X X X X Y E X m ββββ++++== 3322132),,,()(但是,经验和理论都证明,当)(X m 不是线性函数时,基于最小二乘的回归效果不好,非参数回归就是在对)(X m 的形式不作任何假定的前提下研究估计)(X μ。

例 设二维随机变量,其密度函数为⎩⎨⎧≤≤≤≤+=其它10,10),(y x yx y x f ,求)/(x X Y E =.解:1021),()(1≤≤+==⎰x x dy y x f x f x⎰==1)(),()/(dy x f y x f yx X Y E x ⎰++=1021dy x y x y ⎰++=10)(211dy y x y x )()321(122x m x x =++= 从例可知,)/(x X Y E =仅与x 有关,条件期望)/()(x X Y E x m y ===表明Y 与X 在条件期望的意义下相关。

由样本均值估计总体均值的思想出发,假设样本),(11Y X ,),(22Y X ,…,),(n n Y X 中有相当i X 恰好等于x ,()(/)m x E Y x =,不妨记为1i X ,2i X ,…,k i X ,自然可取相应的Y 的样本1i Y ,2i Y ,…,k i Y ,用他们的平均数∑=kj i j Y k 11去估计)/()(X Y E X m =。

可是在实际问题中,一般不会有很多i X 的值恰好等于x 。

这个估计式,仿佛是一个加权平均数,对于所有的i X ,如果等于x ,则赋予k1的权,如果不等于x ,则赋予零权。

由此可启发我们在思路上产生了一个飞跃。

即对于任一个x ,用n Y Y Y ,,,21 的加权和去估计()m x ,即∑==ni i i n Y W x m1)(ˆ,其中n i W i ,,2,10 =≥,,1=∑i W 估计)/()(X Y E X =μ。

问题是如何赋权,一种合乎逻辑的方法是,等于x 或靠x 非常近的那些i X ,相应的权大一些,反之小权或零权。

两种模式:设(,)kY R R ∈⨯x 上的随机变量,(,)(1,2,,)i i Y i n =x 为的n 次观测值。

实际应用中 ,{}ni i x 为非随机的,n Y Y Y ,,,21 依条件独立,在理论上非参数回归中{}ni i x 既可以是非随机的,也可以是随机的。

而参数回归分析中,我们总是假定{}ni i x 为非随机的。

根据{}ni i x 的不同非参数回归有两种模式。

1、{}ni i x 为随机时的非参数回归模型设(,)kY R R ∈⨯x ,+∞<||Y E ,(,)(1,2,,)i i Y i n =z 为(,)Y x 的随机样本。

存在没个未知的实值函数(.)g ,使得(/()i E Y g =i x =x x ) n i ,,2,1 =一般记为(/Y E Y =X =x )(/(/)E Y yf y dy =⎰X =x x )(,)()f y ydy f =⎰x x (,)()()(,)x yf y dy r f f y dy ==⎰⎰x x x x这里,0f ≠x (x),如果0f =x (x),则((/)0m E Y ===x)X x 2、{}ni i x 为非随机时的非参数回归模型由于在实际中,研究者或试验者一般可以控制X 或预先指定X ,这时X 可能不再是随机变量,例如年龄与收入之间的关系中年龄为固定时,收入的分布是已知的,不存在X 为随机变量时,估计)(x f x 的问题。

设(,)kY R R ∈⨯x ,+∞<||Y E ,(,)(1,2,,)i i Y i n =x 为(,)Y x 的随机样本设的随机变量,(,)(1,2,,)i i Y i n -x 为()Y x,的n 次独立观测值,则 ()i i Y g e =+i x ),,2,1(n i =iid e e e n ,,,21 ,0)(=i e E ,+∞<=2)(σi e Var 。

第二节 一元非参数回归核估计方法一、核估计(一) Nadaraya-Watson 估计核权函数是最重要的一种权函数。

为了说明核函数估计,我们回忆二维密度估计dy x f y x f dy x y yf x X Y E x m x ⎰⎰====)(),()/(/()() (1) 而),(1),(12ni ni n i nh yY h x X K nh y x f --=∑= )(1)(11),(1ni n i n n i n h y Y K h h x X K h n y x f --=∑= (2)在这个密度函数估计中,核函数必须相等,光滑参数n h 可以不等,光滑参数不等时,有)(1)(11),(1yi n i y x i x h y Y K h h x X K h n y x f --=∑=将(2)代入(1)的分子,得dy h y Y K h y h x X K h n dy y x f y yi n i y x i x )()(11),(1--=∑⎰⎰= 令i y Y y s h -+=,则1yds dy h =111(,)()()()n i y i i x x X x y f x y dy K sh Y K s ds n h h =-=+∑⎰⎰又由)(s k 有对称性,则⎰≡0)(ds s sK ,⎰≡1)(ds s K ,得1式的分子为分子=i x i ni x Y h xX K nh )(11-∑= 分母=)(11xi ni xh xX K nh -∑= 111111()()()11()()n n i i i i i i x x x xn n n i i i i x x x xX x X x K Y K Y nh h h h m x X x X x K K nh h h h ====--==--∑∑∑∑ 可以看出对)x X Y E x m ==/()(的 估计,是密度函数估计的一种自然推广,一般也称为权函数估计∑==ni i nin Y x Wx m 1)()(其中11()()1()i x xni ni i x xX x K h h W x X x K h h =-=-∑ 可以看出权函数完全由)(x W ni 确定,其取值与X 的分布有关,称为N-W 估计。

可以推得:∑∑==-=-ni n i ni ni i nix mY x W Y x W1212))(ˆ)(())((min θ 0))((12=-∂∂∑=ni i niY x Wθθ0))((12=-∂∂∑=ni ini Y x Wθθ0))((21=--∑=ni i ni Y x W θ∑==ni i ni n Y x W x m1)()(ˆ 所以,核估计等价于局部加权最小二乘法。

二、窗宽的选择 令1()()i h i x xX x K K X x h h -=- 根据非参数估计11ˆ()()/()nnn hi i h i i i mx KX x Y K x X ===--∑∑当0→h ,11ˆ()()/()nnn hi i h i i i mx KX x Y K x X ===--∑∑的分子和分母中除了当i x X =的项不为零,其它均为零,故i i i n Y K Y K X m=→)0(/)0()(ˆ 这说明当窗宽趋于0时,i x X =点的估计值趋于该点的观测值。

当∞→h ,11ˆ()()/()nnn hi i h i i i mx KX x Y K x X ===--∑∑的分子和分母中每一项()(0)h i K x X K -→,则∑∑∑===--=→ni i n i ni i n Y n K n Y K n x m111111)0(/)0()(ˆ。

说明当窗宽趋于无穷时,则每一点的估计值均为Y 的观测值的平均值。

可见窗宽n h 的控制是核估计精度的重要参数。

太小估计线欠平滑,太大过于平滑。

1、 理论窗宽的最佳选择记22()()K u K u du μ=⎰,⎰=du u K K R 2)()(当解释变量为随机的情形时,i i i u X m Y +=)(),,2,1(n i =的渐近偏差和渐近方差为: 估计方法 渐近偏差渐近方差N-W 方法)())()()(2)((222k x f x f x m x m h n μ''+'')()()(2K R x f nh x n σ 其中)(x f 为解释变量的密度函数,)/()(22i i i x X u E x ==σ。

估计的均方误差2))()(ˆ(x m x mE n - [][]{}2)()(ˆ)(ˆ)(ˆx m x m E x m E x mE n n n -+-= []{}[]{}22)()(ˆ)(ˆ)(ˆx m x m E x m E x mE n n n -+-= 回归函数m(x)估计的渐近方差随着窗宽见效而增大,渐近偏差随着减小而减小。

所以非参数估计就是在估计的盘查和方差中寻求平衡,使均方误差达到最小。

理论的最佳窗宽5/1-=cn h n 。

2、 样本窗宽的交错鉴定哪一个窗宽是比较恰当的,必须通过样本的资料考察,但是我们的样本仅仅有一个。

在某个局部观测点i X x =,首先,在样本中剔除该观测值点),(i i Y X ,用剩余的n-1个点在i X x =处进行核估计:∑≠-=nij j i nj i n Y X W x m)()(ˆ, 最后比较平方拟合误差12,1ˆ()(())()nn in ii i i CV h n Y mX w X --==-∑,使)(n h CV 最小的窗宽,则是最佳的。

3、 窗宽的经验选择方法当K(.)为【-1,1】上对称、单峰的概率密度时,∑≠=nj j i njn Y X Wx m1)()(ˆ是集中在x 附近的加权平均,由于x 为对称的,以n h 为宽度,当n h 太大时,参加的平均点多,会提高精度,但可能偏差会增大。

反之n h 小则相反。

所以应该根据散点图来选择窗宽。

三、核函数的选择 因为 估计方法渐近偏差渐近方差N-W 方法)())()()(2)((222k x f x f x m x m h n μ''+'')()()(2K R x f nh x n σ 所以渐近均方误差为:422211)()(h K C h n K R C MSE B v μ+=--其中v C 和2B C 是与核函数无关的量,对MSE 求h 的导数,则最佳的窗宽为:5/151225120)()(4-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛=n K K R C C h B v μ 将5/151225120)()(4-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛=n K K R C C h B vμ代入MSE ,得 )()()44()()(5/225/45/45/15/25/45/4K K R C C h MSE B v μ---+=最优的核函数是使()⎰⎰=du u K u duu KK K R )()()()(22222μ达到最小的核函数+-=)1(75.0)(2u u K 。

相关文档
最新文档