《现代回归分析》课程期末考试知识点梳理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1)模型对参数而言是线性的(只能是以1次方出现);
(2)在重复抽样中X是固定的,或X是非随机的;
(3)干扰项满足Gauss-Markov条件
(4)干扰项与X不相关
(5)样本的长度大于带估计参数的个数,rank()=+<
(6)X值变化必须足够大,X的方差必须是一个有限的正值
(7)X之前不存在复共线性
即随机变量F服从第一自由度为n1,第二自由度为n2的F分布。
抽样分布定理:设 是正态总体 的样本, 是样本均值和样本方差,则
(1) ;
例:设正态总体X与Y相互独立,X~ ,样本为X1,X2,…Xn1,样本均值和样本方差为 ;Y~ ,样本为Y1,Y2,…Yn2,样本均值和样本方差为 ,则
。
3线性回归的假定
Kolmogorov-Smirnov(K-S)检验是基于累计分布函数的,用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异。
单样本K-S检验是用来检验一个数据的观测经验分布是否符合已知的理论分布。
两样本K-S检验由于对两样本的经验分布函数的位置和形状参数的差异都敏感,所以成为比较两样本的最有用且最常用的非参数方法之一。
《
1ຫໍສະໝຸດ Baidu
1.1正态性检验方法
1)偏度系数
样本的偏度系数(记为 )的计算公式为
,
其中 为标准差, 为样本的3阶中心距,即 。
偏度系数是刻画数据的对称性指标,关于均值对称的数据其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负。
(2)峰度系数
样本的峰度系数(记为 ),计算公式为
,
其中 为标准差, 为样本的3阶中心距,即 。
(8)正确设定回归模型,模型包括哪些变量,模型的函数形式,变量和干扰项的假定
4证明: ,即 。总离差平方和=回归平方和+误差平方和。F统计量为: 。
因此
正态假设下,可证SSR/ 和 均服从卡方分布(具体见数理统计书pp185页),从而 。
5简述最小二乘和极大似然估计的原理,思想?相同点以及异同?
首先将训练样本的特征矩阵X进行表示,其中n为样本个数,p为特征个数,每一行表示为每个样本,每一列表示特征的每个维度:
首先选定分位数的对应的概率区间集合,在此概率区间上,点(x,y)对应于第一个分布的一个分位数x和第二个分布在和x相同的概率区间上相同的分位数。
如果检验的变量符合正态分布,那Q-Q图就是一条直线。使用Q-Q图鉴别样本数据是否近似正态分布,只需看Q-Q图上点是否近似在一条直线附近。
QQ图可以帮助我们鉴别样本的分布是否近似于某种类型的分布。现假设总体为正态分布 ,对于样本 ,其顺序统计量是 。设 为标准正态分布 的分布函数, 是反函数,对应正态分布的QQ图是由以下的点
计算出检验统计量W。最后查特定的正态性W检验临界值表,比较它们的大小,满足条件则接受假设,认为总体服从正态分布,否则拒绝假设,认为总体不服从正态分布。
(5)经验分布的Kolmogorov-Smirnov检验方法(K-S检验)
Shapiro-Wilk(S-W)检验可以用来做正态分布检验,但是它适用于小样本,有一定局限性,K-S检验既可以用于大样本,也可以用于小样本。
检验统计量为: ,其中 为观察序列值, 为理论序列值或另一观察序列值
步骤:
(1)提出假设H0: =
(2)计算样本累计频率与理论分布累计概率的绝对差,令最大的绝对差为Dn
(3)用样本容量n和显著水平 查出临界值 ;
(4)如果 ,则认为拟合是满意的。
(6)各个方法的优缺点
图示法相对于其他方法而言,比较直观,方法简单,从图中可以直接判断,无需计算,但这种方法效率不是很高,它所提供的信息只是正态性检验的重要补充。
为了方便运算,我们把 中的 也并入到 和X中。则上述的符号表示则为:
(1)最小二乘估计:
思想:寻找参数的估计值使残差平方和达到最小
前提:Yi独立,满足基本假定-高斯马尔可夫假定()=,(,)= ,且假定rank()=+<。
推导步骤:通过使离差平方和达到最小,来寻找回归方程的参数的估计值。从而可以构建最小二乘函数为
经常使用的Kolmogorov-Smirnov检验的检验功效较低,在许多计算机软件的Kolmogorov-Smirnov检验无论是大小样本都用大样本近似的公式,很不精准,一般使用Shapiro-Wilk检验,其适合小样本数据(3≤n≤50)。
Kolmogorov-Smirnov检验只能检验是否一个样本来自于一个已知样本。
,
构成的散点图,若样本数据近似为正态分布,在QQ图上这些点近似地在直线上
,
附近,此直线的斜率是标准差 ,截距式均值 ,所以利用正态QQ图可以做直观的正态性检验。若正态QQ图上的点近似地在一条直线上,可以认为样本的数据来自正态分布总体。
(4)正态性W检验(S-W检验)
Shapiro-Wilk(S-W)检验法是S.S.Shapiro与M.B.Wilk提出用顺序统计量W来检验分布的正态性,对研究的对象总体,先提出假设认为总体服从正态分布,再将样本量为 的样本按大小顺序排列编秩,然后由确定的显著性水平 ,以及根据样本量为 时所对应的系数 ,根据公式
当数据的总体分布为正态分布时,峰度系数近似为0,;当分布为正态分布的尾部更分散时,峰度系数为正;否则为负。当峰度系数为正时,两侧极端数据较多,当峰度系数为负时,两侧极端数据较少。
(3)QQ图
在统计学中,Q-Q图(Q表示分位数Quantile)是一种通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法。
Shapiro-Wilk检验是进行大小排序后得到的,所以易受异常值的影响。
2四种常用统计分布及构造原理
21标准正态分布
标准正态分布N(0,1)均值为0,方差为1,其密度函数为:
2.22(卡方)分布
(2分布结构定理)设X1,X2,…,Xn相互独立且都服从标准正态分布,则
即随机变量2服从自由度为n的卡方分布。
2(卡方)分布的均值为E(2) = ,方差为D(2) = 2 ,并且2分布具有可加性。
2.3 分布
(T分布结构定理)设随机变量X, Y相互独立,X~N(0,1),Y~2(n),则
即随机变量T服从自由度为n的t分布。
2.4F分布
(F分布结构定理)设随机变量X,Y相互独立,X ~2(n1),Y~2(n2),则
(2)在重复抽样中X是固定的,或X是非随机的;
(3)干扰项满足Gauss-Markov条件
(4)干扰项与X不相关
(5)样本的长度大于带估计参数的个数,rank()=+<
(6)X值变化必须足够大,X的方差必须是一个有限的正值
(7)X之前不存在复共线性
即随机变量F服从第一自由度为n1,第二自由度为n2的F分布。
抽样分布定理:设 是正态总体 的样本, 是样本均值和样本方差,则
(1) ;
例:设正态总体X与Y相互独立,X~ ,样本为X1,X2,…Xn1,样本均值和样本方差为 ;Y~ ,样本为Y1,Y2,…Yn2,样本均值和样本方差为 ,则
。
3线性回归的假定
Kolmogorov-Smirnov(K-S)检验是基于累计分布函数的,用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异。
单样本K-S检验是用来检验一个数据的观测经验分布是否符合已知的理论分布。
两样本K-S检验由于对两样本的经验分布函数的位置和形状参数的差异都敏感,所以成为比较两样本的最有用且最常用的非参数方法之一。
《
1ຫໍສະໝຸດ Baidu
1.1正态性检验方法
1)偏度系数
样本的偏度系数(记为 )的计算公式为
,
其中 为标准差, 为样本的3阶中心距,即 。
偏度系数是刻画数据的对称性指标,关于均值对称的数据其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负。
(2)峰度系数
样本的峰度系数(记为 ),计算公式为
,
其中 为标准差, 为样本的3阶中心距,即 。
(8)正确设定回归模型,模型包括哪些变量,模型的函数形式,变量和干扰项的假定
4证明: ,即 。总离差平方和=回归平方和+误差平方和。F统计量为: 。
因此
正态假设下,可证SSR/ 和 均服从卡方分布(具体见数理统计书pp185页),从而 。
5简述最小二乘和极大似然估计的原理,思想?相同点以及异同?
首先将训练样本的特征矩阵X进行表示,其中n为样本个数,p为特征个数,每一行表示为每个样本,每一列表示特征的每个维度:
首先选定分位数的对应的概率区间集合,在此概率区间上,点(x,y)对应于第一个分布的一个分位数x和第二个分布在和x相同的概率区间上相同的分位数。
如果检验的变量符合正态分布,那Q-Q图就是一条直线。使用Q-Q图鉴别样本数据是否近似正态分布,只需看Q-Q图上点是否近似在一条直线附近。
QQ图可以帮助我们鉴别样本的分布是否近似于某种类型的分布。现假设总体为正态分布 ,对于样本 ,其顺序统计量是 。设 为标准正态分布 的分布函数, 是反函数,对应正态分布的QQ图是由以下的点
计算出检验统计量W。最后查特定的正态性W检验临界值表,比较它们的大小,满足条件则接受假设,认为总体服从正态分布,否则拒绝假设,认为总体不服从正态分布。
(5)经验分布的Kolmogorov-Smirnov检验方法(K-S检验)
Shapiro-Wilk(S-W)检验可以用来做正态分布检验,但是它适用于小样本,有一定局限性,K-S检验既可以用于大样本,也可以用于小样本。
检验统计量为: ,其中 为观察序列值, 为理论序列值或另一观察序列值
步骤:
(1)提出假设H0: =
(2)计算样本累计频率与理论分布累计概率的绝对差,令最大的绝对差为Dn
(3)用样本容量n和显著水平 查出临界值 ;
(4)如果 ,则认为拟合是满意的。
(6)各个方法的优缺点
图示法相对于其他方法而言,比较直观,方法简单,从图中可以直接判断,无需计算,但这种方法效率不是很高,它所提供的信息只是正态性检验的重要补充。
为了方便运算,我们把 中的 也并入到 和X中。则上述的符号表示则为:
(1)最小二乘估计:
思想:寻找参数的估计值使残差平方和达到最小
前提:Yi独立,满足基本假定-高斯马尔可夫假定()=,(,)= ,且假定rank()=+<。
推导步骤:通过使离差平方和达到最小,来寻找回归方程的参数的估计值。从而可以构建最小二乘函数为
经常使用的Kolmogorov-Smirnov检验的检验功效较低,在许多计算机软件的Kolmogorov-Smirnov检验无论是大小样本都用大样本近似的公式,很不精准,一般使用Shapiro-Wilk检验,其适合小样本数据(3≤n≤50)。
Kolmogorov-Smirnov检验只能检验是否一个样本来自于一个已知样本。
,
构成的散点图,若样本数据近似为正态分布,在QQ图上这些点近似地在直线上
,
附近,此直线的斜率是标准差 ,截距式均值 ,所以利用正态QQ图可以做直观的正态性检验。若正态QQ图上的点近似地在一条直线上,可以认为样本的数据来自正态分布总体。
(4)正态性W检验(S-W检验)
Shapiro-Wilk(S-W)检验法是S.S.Shapiro与M.B.Wilk提出用顺序统计量W来检验分布的正态性,对研究的对象总体,先提出假设认为总体服从正态分布,再将样本量为 的样本按大小顺序排列编秩,然后由确定的显著性水平 ,以及根据样本量为 时所对应的系数 ,根据公式
当数据的总体分布为正态分布时,峰度系数近似为0,;当分布为正态分布的尾部更分散时,峰度系数为正;否则为负。当峰度系数为正时,两侧极端数据较多,当峰度系数为负时,两侧极端数据较少。
(3)QQ图
在统计学中,Q-Q图(Q表示分位数Quantile)是一种通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法。
Shapiro-Wilk检验是进行大小排序后得到的,所以易受异常值的影响。
2四种常用统计分布及构造原理
21标准正态分布
标准正态分布N(0,1)均值为0,方差为1,其密度函数为:
2.22(卡方)分布
(2分布结构定理)设X1,X2,…,Xn相互独立且都服从标准正态分布,则
即随机变量2服从自由度为n的卡方分布。
2(卡方)分布的均值为E(2) = ,方差为D(2) = 2 ,并且2分布具有可加性。
2.3 分布
(T分布结构定理)设随机变量X, Y相互独立,X~N(0,1),Y~2(n),则
即随机变量T服从自由度为n的t分布。
2.4F分布
(F分布结构定理)设随机变量X,Y相互独立,X ~2(n1),Y~2(n2),则