多元统计复习
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、回归分析
1、回归方程的基本假定?
①回归函数的线性假设②误差项的等方差假设
③误差项的独立性假设④误差项的正态分布的假设
2、涉及到回归分析方程系数为何作显著性检验?
在进行显著性的检验中,我们可以用F统计量来检验回归方程的显著性,也可以用P值法做检验.
回归方程通过了显著性检验并不意味着每一个自变量都对应变量有显著的影响,可能其中的某个或某些自变量对应变量的影响并不显著,我们自然希望从回归方程中剔除那些对应变量影响并不显著的自变量,从而建立一个较为简单有效的回归方程,这就需要对每一个自变量进行考察.显然,若某个自变量对应变量无影响,那么在线性回归模型中,它的系数为零.那么我们就检验选取的自变量的影响是否显著等价于检验假设
根据分布的定义,有,这里,对于给定的显著性水平,当时,我们拒绝,反之就接受,在SPSS软件的输出结果中,可以直接从P值看出检验结果,那么我们拒绝的P值区间是多少呢?
3、统计性的依据是什么?给出一个回归分析方程如何作显著性检验?
统计性的依据方差分析
对于多元线性回归作显著性检验就是要看自变量从整体上对随机变量y 是否有明显的影响,即检验假设
如果被接受,则表明y与之间不存在线性关系,为了说明如何进行检验,我们要首先建立方差分析表.
在进行显著性的检验中,我们可以用F统计量来检验回归方程的显著性,也可以用P值法做检验.F统计量是:
当为真时,,给定显著性水平α,查F分布表得临界值,计算F的观测值,若,则接受,即认为在显著性水平α之下,认为y与之间线性关系不显著.
利用P值法作显著性检验十分方便,这里的P值是,定显著性水平α.,若,则拒绝,反之接受.
4、回归分析和相关分析的区别和联系?
相关分析和回归分析都是对客观事物数量依存关系的分析,均有一元和多元,线性与非线性之分,在应用中相互结合与渗透,但仍有差别,主要是:
①相关分析主要刻画两类变量间线性相关的密切程度,而回归分析则是揭示一个变量如何与其他的变量相联系,并可由回归方程进行控制和预测
②在相关分析在中,变量y与x处于平等的地位,在回归分析中,因变量y处于被解释的特殊地位
③在相关分析中所涉及的变量y与x完全是随机变量;而在回归分析中因变量y是随机变量,自变量可以是随机变量,也可以是非随机变量.一般来说,只有存在相关关系,才可以进行回归分析,相关程度越高,回归分析的结果就越可靠.
5、运用回归分析解决问题时,回归变量的选择理论依据是什么?选择回归变量时应注意哪些问题?
1 从拟合角度考虑,可以采用修正的复相关系数达到最大的准则。
准则1:修正的复相关系数达到最大。
因为:
从这个关系式容易看出,达到最大时,达到最小。
2 从预测的角度考虑,可以采用预测平方和达到最小的准则以及准则准则2:预测平方和达到最小
准则3:(准则):定义统计量为要求选择小,且小的回归方程。
③ 从极大似然估计的角度考虑,可以采用赤池信息量准则(AIC准则)准则4:赤池信息量达到最小
选择AIC值最小的回归方程为最优回归方程。
自变量的选择问题可以看成是应该采用全模型预还是选模型的问题
全模型正确误用选模型:全模型相应参数为有偏估计,选模型预测也是有偏的。
选模型的参数估计和预测残差以及均方差都有较小的方差。
选模型正确误用全模型:全模型的参数估计和预测是有偏估计,而全模型预测值的方差和均方差大于选模型的相应方差。
上述结论说明丢掉那些对因变量影响不大的,或虽有影响,但难于观测的自变量是有利的。
6、逐步回归方法的基本思想与步骤
逐步回归的基本思想是有近进有出,具体做法是将变量一个一个引入,引入变量的条件是通过了偏F统计量的检验,同时,每引入一个新变量后,对已入选方程的老变量进行检验,将经检验认为不显著的变量剔除,此过程经过若干步,直到既不能引入新变量,又不能剔出老变量为止。
基本步骤:
①对于每个自变量,拟合个一元线性回归模型,若,则所选择含自变量的回归模型为当前模型,否则,没有变量引入模型,选择过程结束,即认为所有自变量对y的影响均不显著
②在第一步的基础上,再将其余的个自变量分别加入到此模型中,得到二元回归方程,若则将自变量引入模型,进一步考察引入模型后,对y的影响是否仍然显著,,则剔除。
③在第二步的基础上,再将其余的个自变量分别加入到此模型中,拟合各个模型并计算偏F统计量值,与比较决定是否又新变量引入,如果有新的变量引入,还需要检验原模型中的老变量是否因为这个新变量的引入而不再显著,那样就应该被删除。
重复以上的步骤,直到没有新的变量能进入模型,同时在模型中的老变量都不能被剔除,则结束选择过程,最后,一个模型即为所求的最优回归模型。
7、残差分析
残差分析的思想以及意义?残差分析的用途?残差分析要解决的问题?基本步骤是什么?
9、什么是回归平方和、残差平方和、最小二乘法?
答:回归值与实际观测值之间的误差平方和(也称残差平方和))记为
最小二乘法要求选取b=(b0, b1, … , b p) ’ 使得误差平方和达到最小称为回归平方和
10、线性回归方程的几何意义是什么?
答:回归方程的几何意义是以一个超平面来拟合空间数据.
11、为什么要进行回归方程的显著性检验?写出F检验的公式并加以说明。
答:对于任意给定的一组观测数据(x i1,x i2,… ,x ip; y i), (i=1, 2,…, n),我们都可以建立起回归方程。
但实际问题很可能因变量y与自变量x1,x2,… ,x p之间根本不存在线性关系,这时建立起来的回归方程的效果一定很差,即回归值事实上不能拟合真实的值y i。
即使整个
回归方程的效果是显著的,在多元的情况下,是否每个变量都起着显著的作用呢?因此还需对各个回归系数进行显著性检验,对于回归效果不显著的自变量,我们可以从回归方程中剔除,而只保留起重要作用的自变量,这样可以使回归方程更简练。
为了检验回归效果的好坏,引进统计量
(4.20)
以检验假设
(4.21)
当假设H 0为真时,各自变量对因变量y没有什么影响,也即回归方程无显著意义;反之,如不能认为全部b i=0,则认为回归方程是显著的。
当H 0为真时,可以证明,统计量F服从自由度为p和n-p-1的F分布,由F分布表查出F a (p, n-p-1),当计算所得的F>F a (p, n-p-1)时,则拒绝H0而认为回归效果显著。
a为置信度,一般取0.05,即计算所得的F>F a (p, n-p-1)的概率只有5%,因而是不大可能发生的小概率事件,而一旦发生,可怀疑假设H0的正确性。
2、判别分析
判别分析的优良性两方面考虑:(1)组与组之间的差别是否显著有无必要作判别分析(2)误判率1、判别分析能解决哪一类地质问题?它与聚类分析有何不同?
答:我们常需要根据个体的某些特征或指标来判别其属于已知的某几个类中的哪一类,例如在环境调查中我们需要测定某个水样的多项指标,据以判断是属于严重污染、轻度污染抑或是无污染水体;在地质工作中,我们要根据岩石的某些特征,如密度、各种常量和微量元素的含量来判断其岩石类型,判断是含矿岩体和非含矿岩体;医生则要根据病人的各种检测结果来判断其病人得了何种疾病。
个体(样品)的分类问题,称为Q型聚类分析,我们是根据个体间特征(多项指标值)的相似程度性程度加以归类。
而判别分析是已知存在若类,已知有g个类(统计学上称总体或母体)G k, k=1, 2, …, g。
在已知的这g个类中分别采n k个样本,对其特征进行统计分析,比较各自的差异,建立判别方程,以判别其它未知属性的样品的归属
聚类分析和判别分析有相似的作用,都是起到分类的作用。
但
是,判别分析是已知分类然后总结出判别规则,是一种有指导的学习;而聚类分析则是有了一批样本,不知道它们的分类,甚至连分成几类也不知道,希望用某种方法把观测进行合理的分类,使得同一类的观测比较接近,不同类的观测相差较多,这是无指导的学习。
所以,聚类分析依赖于对观测间的接近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果
2、简述费歇尔准则下两类判别分析的基本思想。
答:费歇尔的判别方法,其基本思想是把p个变量x1,x2,… ,x p综合成一个新变量y,
也即产生一个综合判别指标,要求已知的g个类G k, k=1, 2, …, g在这个新变量下能最大程度地区分开,于是可用这个综合判别指标判别未知样品的归属。
其中为待定参数。
判别方程除没有常数项外,与回归方程非常相似,但两者有着本质的区别。
在回归方程中,y为因变量,是一个已知的随机变量,有其样本测试值,回归分析的任务是选择一组参数,使得根据回归方程预测的因变量的值与实测值尽可能地接近;而判别模型中y只是一个综合变量,实际上并不存在这样一个变量,因而也没有实测值。
判别模型的几何意义是把p维空间的点投影到一维空间(直线)上去,使各已知类在该直线上的投影尽可能分离。
3、比较费歇尔准则下的两类判别方程与回归方程的异同。
为什么判别方程中不需要常数项?
答:除没有常数项外,与上一章讨论的回归方程非常相似,但两者有着本质的区别。
在回归方程中,y为因变量,是一个已知的随机变量,有其样本测试值,回归分析的任务是选择一组参数,使得根据回归方程预测的因变量的值与实测值尽可能地接近;而判别模型中y只是一个综合变量,实际上并不存在这样一个变量,因而也没有实测值。
判别模型的几何意义是把p维空间的点投影到一维空间(直线)上去,使各已知类在该直线上的投影尽可能分离。
4、名词解释:先验概率,后验概率,逆概率公式
答: 任抽取一个样,恰抽到G k类的概率,记为,此时尚不需要知道抽取的是一个什么样的样本,即不需要知道该样本的p个变量的测试值,其属于某个类的概率具有先验的意思。
一旦知道了该样本的p个变量的测试值,则其属于某个G k类的概率称之为后验概率。
在概率论中我们有
称之为逆概率公式,其中为在已知属于G k类的条件下得到x的条件概
率。
5、简述贝叶斯准则下多类判别分析的基本思想。
答:设已知有g个类G k ( k=1, 2, …, g),可由p个变量x j ( j=1, 2,…, p)表征。
在这g个类中共抽取n个样本,其中抽到G k ( k=1, 2, …, g)类的样本数为n k ( k=1, 2, …, g),显然有
我们称
(5.10)
为G k类的先验概率,在概率论中我们有
称之为逆概率公式,其中为在已知属于G k类的条件下得到x的条件概率。
我们现在的目的是要比较在所有g个后验概率中,那个最大,从而确定其样本归属,因此只需要知道( k=1, 2, …, g)的相对大小,上式中分母为一常数项,相对大小由
( k=1, 2, …, g) (5.11)
确定。
依后验概率的相对最大值判定样品归属的准则称之为贝叶斯准则。
设类(母体)G k服从多元正态分布( k=1, 2, …, g),则其概率密度函数为
对(5.11)式求对数得
Image
上式推导过程中已用到了协方差矩阵S (因而S -1) 为对称阵的性质,所以有。
上式右侧前两项与k无关,所以后验概率的相对大小可由下式给出
各母体G k的均值m k的无偏估计的各母体的样本均值,而因假设各母体具有相同的协方差阵S,则判别函数成为
(5.12)
对于未知样本x,由判别函数(5.12) y k (x),设最大值为y l (x),即
则将x归属G l类。
6、 简述费希尔判别法的基本思想和方法。
答:基本思想:从个总体中抽取具有个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数
系数可使得总体之间区别最大,而使每个总体内部的离差最小。
将新样品的个指标值代入线性判别函数式中求出值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。
7、试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
答:① 费希尔判别与距离判别对判别变量的分布类型无要求。
二者只是要求有各类母体的两阶矩存在。
而贝叶斯判别必须知道判别变量的分布类型。
因此前两者相对来说较为简单。
② 当k=2时,若则费希尔判别与距离判别等价。
当判别变量服从正态分布时,二者与贝叶斯判别也等价。
③ 当时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。
④ 距离判别可以看为贝叶斯判别的特殊情形。
贝叶斯判别的判别规则是 X ,W(X)
X ,W(X)<lnd
距离判别的判别规则是
X ,W(X)
X ,W(X)<0
二者的区别在于阈值点。
当,时,,。
二者完全相
同。
8、判别分析和聚类分析有何区别?
答:即根据一定的判别准则,判定一个样本归属于哪一类。
具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。
聚类分析是分析如何对样品(或变量)进行量化分类的问题。
在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。
通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。
3、聚类分析
1、系统聚类的基本思想:
先将待聚类的n个样品(或者变量)各自看成一类,公有n类,然后按照事先选定的方法计算每两类之间的聚类统计,即某种距离(或者相似系数),将关系最密切的两类并为一类,其余不变,既得到n-1类;再按照前面的计算方法计算新类与其他类之间的距离(或者相似系数),再将关系最密切的两类并为一类,其余不变,即得到n-2类;如此继续下去,每次重复都减少一类,直到最后所有的样品(或者变量)归为一类为止.
2、模糊聚类的基本步骤:
①选定一种计算距离或相似系数的公式距离矩阵或者相似系数矩阵(不一定是模糊矩阵)
②由观测数据矩阵计算样品间的距离或者变量间的相似系数,形成距离矩阵或者相似系数矩阵
③将距离矩阵或相似系数矩阵中的元素压缩到0与1之间,形成模糊矩阵
3、.简述聚类分析的基本思想。
有哪两类聚类分析?各自的作用?
聚类分析(cluster analysis)就是根据空间点群的“亲疏”关系进行分类的一种方法。
为此要给出表示空间点与点之间“亲疏”关系的相似性度量,然后讨论根据相似性度量进行点群簇分的方法和应用。
聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的。
在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于不相似。
聚类分析根据对象不同可分为 Q 型聚类分析(对样本进行聚类)和 R 型聚类(对变量进行聚类)。
对样品或变量进行分类时,我们常用距离和相似系数来对样品或变量之间的相似性进行度量。
距离常用来度量样品之间的相似性,而相似系数常用来度量变量间的相似性。
4、距离系数需要满足的基本条件?
答:点i和点j之间的距离d ij可有各种不同的定义,只要其满足所谓的距离公理:
对一切的i,j,d ij≥0;
d ij=0等价于点i和点j为同一点,即x(i)= x(j);
对一切的i,j,d ij=d ji;
三角不等式成立,即对一切的i,j,k, 有d ij≤ d ik + d kj
5、什么是相似性度量?有哪些常用的相似性度量?
答: 两点间的距离(distance)是表征两空间点之间“亲疏”关系的最直接、最自然的度量。
除距离外,还有其它相似性度量:
相关系数
距离系数主要用于Q型分析,而相关系数主要用于R型分析。
变量x j与变量x k之间的“亲疏”性的一个自然的度量是两变量的相关系数
相关系数的值域为(-1,1),其值越大,即越接近于1,则相关性愈好,认为两空间点愈相似,因归为同一类。
夹角余弦
两空间点的“亲疏”程度除用距离表征外还可用两空间点所成的矢量间的夹角的大小得以反映。
在样本空间中两变量向量x j和x k的夹角余弦为
两向量的内积并为向量长度所标定
与相关系数比较可发现,若两变量的均值为0,则两变量的夹角余弦等于两者的相关系数。
夹角余弦的值域为(-1,1),其值越大,即越接近于1,则夹角愈小,认为两空间点愈相似,因归为同一类。
6、写出第i个样品( xi1,xi2,… ,xip)与第j个样品( xj1,xj2,… ,xjp)之间绝对值距离、欧氏距离、切比雪夫距离的公式,并说明各自的区别。
答:绝对值距离
注意,这里dij显然是变量空间中样本i与样本j之间的距离,适用于样本分类,即Q型聚类分析。
事实上聚类分析主要是Q型分析。
若欲进行R型分析,则相应地为
欧氏距离
事实上,这两种距离是一类称之为明氏(Minkowski)距离
当q=1, 2时的特例,而当q趋于无穷大时,则为切比雪夫距离
7、简述系统聚类法的基本思想。
有哪些常用的系统聚类方法?
答:有了能表征空间点之间亲疏关系的相似性度量,我们就可以据此进行空间点群的分类。
用前面介绍欧氏距离作为相似性度量,则系统聚类的步骤为:
(1)将每个样看成1类,此时共有n类;
(2)计算类与类之间的距离,合并距离最近的两个类;
(3) 重复步骤(2),直至所有样品归为一类。
由于类与类之间的距离可以有不同的定义,就产生了不同的系统聚类法。
最短距离法
定义类G q与类G r之间的距离为所有G q中的点与所有G r中的点最近的点对的距离,其数学表述为
(3.9)
当采用例如相关系数或夹角余弦作为相似性度量时,上式中的min应为
max。
最长距离法
如果定义类G q与类G r之间的距离为所有G q中的点与所有G r中的点最远的点对的距离,其数学表述为
(3.10)
就得到最远距离法。
最长距离法的并类步骤与最短距离法完全相同,只是类与类之间的距离定义不同。
类平均法、加权平均法和重心法
在类平均法中定义两类的距离平方等于两类中空间点两两之间的平均平方距离,即
(3.11)
其中n q、n r分别G q和G r中的样品数。
设有新类G t为G q和G r合并而成,则该新类与其它类G k之间的距离为
(3.12)
这是类平均法距离计算的基本公式。
8、试述系统聚类的基本思想。
答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
9、对样品和变量进行聚类分析时,所构造的统计量分别是什么?简要说明为什么这样构造?答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。
因为我们把n个样本看作p维空间的n个点。
点之间的距离即可代表样品间的相似度。
4、主成分分析
1、主成分分析的基本思想可以做什么应用及在应用中要选几个主成分?
主成分分析的基本思想:通过构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量的几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。
通常变量中所含的信息的多少用该变量的方差(或样本方差)来度量,这是经典的信息量的表示方法.解决的问题:
①研究的问题当中,随机变量的个数比较大,将增大计算量和分析问题的复杂性:
②随机变量之间存在着一定的相关性,它们的观测样本所反映的信息在一定的程度是存在着重叠的.
一般地,在约束条件之下,使得达到最大,由此确定的称为的第i个主成分.
2、主成分分析与因子分析的区别和联系???
1区别:
⑴主成分分析仅仅是一种数据变换,不假定数据阵有什么样的结构形式而因子分析假定数据阵有特定的模型,是其中的因子,满足特定的条件,当这些条件不满足时,因子分析就可能是虚假的.
⑵两种方法的侧重点不同:主成分分析重点在于从观测变量的主成分的变换上,而因子分析的重点在于从公共因子的特殊因子的观测变量的变换上,
⑶主成分分析变换是可逆的,而因子分析不要求
⑷两者实际应用范围也有所不同,主成分分析主要是应用在综合评价和指数筛选上,而因子分析除这两个作用外,还可用语对样品和变量的分类.
2联系:
主成分分析是特殊形式的因子分析,主成分分析的数学模型是,而因子分析的数学模型为.当因子分析数学模型的特殊因子的影响微不足到,可以忽略,并且F中的个分量均为正交,就形成了特定的因子分
析.
这两个数学模型的含义是不同的,但是从因子分析求解主因子的过程中可以看到,当特殊因子变差,贡献为零时,主因子分析和主成分分析完全等同作用.因此,当主因子模型成立,而且特殊因子变差贡献很小的情况下,我们就可以期待主成分分析和因子分析会给出相同的结果,从而利用主成分分析发求因子模型的解.当特殊因子贡献较大时,因子分析是把公共因子和特殊因子严格区分开来,而主成分分析则把这些因子不加区别的混在一起,作为主成分被保留或舍弃,故这时用主成分分析保留的因子并不是纯粹的公共因子.
3共同点:
两个都是将多个变量指标化为少数几个变量指标的一种使用多元统计方法,用意在于重新组合数据,使变量的维数降低,而有关信息损失尽可能的小,以便在低维空间顺利研究有关问题.两种方法都可以在SPSS中的因子分析过程(Factor)实现.
3、比较主成分分析与判别分析的基本思想
主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。
其基本思想是:设法将原来众多具有一定相关性的指标(设为 个),重新组合成一组新的相互无关的综合指标来代替原来指标。
数学上的处理就是将原来 个指标作线性组合,作为新的指标。
第一个线性组合,即第一个综合指标记为 ,为了使该线性组合具有唯一性,要求在所有的线性组合中 的方差最大,即 越大,那么包含的信息越多。
如果第一个主成分不足以代表原来 个指标的信息,再考虑选取第二个主成分 ,并要求 已有的信息不出现在 中,即 主成分分析(principal component analysis)是将分散在一组变量上的信息集中到某几个综合指标(主成分)上的探索性统计分析方法。
以便利用主成分描述数据集内部结构,实际上也起着数据降维的作用。
聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的。
在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于不相似。
聚类分析根据对象不同可分为 Q 型聚类分析(对样本进行聚类)和 R 型聚类(对变量进行聚类)。
对样品或变量进行分类时,我们常用距离和相似系数来对样品或变量之间的相似性进行度量。
距离常用来度量样品之间的相似性,而相似系数常用来度量变量间的相似性。