多元统计分析简答题..
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设H0和H1; 第二,给出检验的统计量及其服从的分布;
第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。
协差阵的检验
检验0=ΣΣ
0p H =ΣI : /2
/21exp 2np n e tr n λ⎧⎫⎛⎫
=-⎨⎬ ⎪
⎩⎭⎝⎭
S S
00p H =≠ΣΣI : /2
/2**1exp 2np n e tr n λ⎧⎫⎛⎫
=-⎨⎬ ⎪
⎩⎭⎝⎭
S S
检验12k ===ΣΣΣ012k H ===ΣΣΣ:
统计量/2/2
/2
/2
1
1
i i k
k
n n pn np k i
i
i i n
n
λ===∏∏S
S
2. 针对一个总体均值向量的检验而言,在协差阵已知和未知的两种情形下,如何分别构造的统计量?
3. 作多元线性回归分析时,自变量与因变量之间的影响关系一定是线性形式的吗?多元线性回归分析中的线性关系是指什么变量之间存在线性关系? 答:作多元线性回归分析时,自变量与因变量之间的影响关系不一定是线性形式。当自变量与因变量是非线性关系时可以通过某种变量代换,将其变为线性关系,然后再做回归分析。
多元线性回归分析的线性关系指的是随机变量间的关系,因变量y 与回归系数βi 间存在线性关系。
多元线性回归的条件是:
(1)各自变量间不存在多重共线性; (2)各自变量与残差独立;
(3)各残差间相互独立并服从正态分布; (4)Y 与每一自变量X 有线性关系。
4.回归分析的基本思想与步骤 基本思想:
所谓回归分析,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。
步骤:
1)确定回归方程中的解释变量和被解释变量。
2)确定回归模型
根据函数拟合方式,通过观察散点图确定应通过哪种数学模型来描述回归线。如果被解释变量和解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。
3)建立回归方程
根据收集到的样本数据以及前步所确定的回归模型,在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。
4)对回归方程进行各种检验
由于回归方程是在样本数据基础上得到的,回归方程是否真实地反映了事物总体间的统计关系,以及回归方程能否用于预测等都需要进行检验。
5)利用回归方程进行预测
5.多重共线性问题、不良后果、解决方法
多重共线性是指线性回归模型中的自变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。常见的是近似的多重共线性关系,即存在不全为0的p个常数C1,C2,…,Cp使得C1X i1+C2X i2+…+CpXip≈0,i=1,2,…n
不良后果:模型存在完全的多重共线性,则资料阵X的秩
检验方法:方差扩大因子(VIF)法和特征根判定法
方差扩大因子表达式为:VIF i=1/(1-R i2),其中R i为自变量xi对其余自变量作回归分析的复相关系数。当VIF i很大时,表明自变量间存在多重共线性。
解决方法:当发现自变量存在严重的多重共线性时,可以通过剔除一些不重要的自变量、增大样本容量、对回归系数做有偏估计(如采用岭回归法、主成分法、偏最小二乘法等)等方法来克服多重共线性。
6.为什么要进行回归方程的显著性检验?
答:对于任意给定的一组观测数据(xi1,xi2,...,xip;yi),(i=1,2,...,n) ,我们都可以建立回归方程。但实际问题很可能y与自变量x1,x2,...,xp之间根本不存在线性关系,这时建立起来的回归方程的效果一定很差,即回归值yi实际上不能拟合真实的
值yi。即使整个回归方程的效果是显著的,在多元的情况下,是否每个变量都起着显著的作用呢?因此还需要对各个回归系数进行显著性检验,对于回归效果不显著的自变量,我们可以从回归方程中剔除,而只保留起重要作用的自变量,这样可以使回归方程更简练。
7.统计性的依据是什么?给出一个回归方程如何做显著性检验?
统计性的依据是方差分析。
对于多元线性回归方程作显著性检验就是要看自变量x1,x2,...xp从整体上对随机变量y是否有明显的影响,即检验假设H0:β1=β2=...=βp=0 H1:至少有某个βi≠0,1<=i<=p
如果H0被接受,则表明y与x1,x2,...xp之间不存在线性关系,为了说明如何进行检验,我们首先要建立方差分析表。
在进行显著性检验中,我们可以用F统计量来检验回归方程的显著性,也可以用P值法做检验。F统计量是:F=MSR/MSE=[SSR/p]/[SSE/(n-p-1)]
当H0为真时,F~F(p,n-p-1)。给定显著性水平α,查F分布表得临界值F1-α(p,n-p-1),计算F的观测值,若F0<=F1-α(p,n-p-1),则接受H0,即认为在显著性水平α之下,认为y与x1,x2,...xp之间线性关系不显著。
利用P值法做显著性检验十分方便,这里的P值是P(F>F0),定显著性水平α,若p<α,则拒绝H0,反之接受H0。
回归系数的显著性检验
回归方程通过了显著性检验并不意味着每个自变量xi都对y有显著影响。而回归系数的显著性检验的目的就是从回归方程中剔除那些对y的影响不显著的自变量,从而建立一个较为有效的回归方程。如果自变量xi对y无影响,则在线性模型中,βi=0
检验xi的影响是否显著等价于检验假设
H0:βi=0,H1:βi≠0
对给定的显著性水平α,当|ti|>tα/2(n-p-1)时,拒绝H0。反之,则接受H0。
数据的中心化和标准化
目的:解决利用回归方程分析实际问题时遇到的诸多自变量量纲不一致的问题。数据中心化处理的几何意义:相当于将坐标原点移至样本中心,而坐标系的平移并不改变直线的斜率,只改变了截距。
通过对残差进行分析,可以在一定程度上回答下列问题:
1)回归函数线性假定的可行性;
2)误差项的等方差假设的合理性;
3)误差项独立性假设的合理性;
4)误差项是否符合正态分布;
5)观测值中是否存在异常值;
6)是否在模型中遗漏了某些重要的自变量。
8.标准化回归方程与非标准化回归方程有何不同?在怎样的情况下需要将变量标准化?