广义线性回归在研究学生成绩相关性的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
引言
回归分析是一种应用极为广泛的数量分析方法,它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,帮助人们准确的把握变量受其他一个或多个变量影响的程度,进而为事物的控制和预测提供科学依据。
作为标准的统计分析工具,多元线性回归分析在诸多行业和领域的数据分析应用中发挥着极为重要的作用。
利用多元回归方法分析变量之间的关系或进行预测时的一个基本要求是:被解释变量应是连续数值型变量。
然而,实际应用中这种要求未必都能得到较好的满足。
例如,在对小轿车消费群体特点的分析和预测中,可以根据历史数据,建立关于小轿车的多元回归模型。
可能将诸如职业,年收入,年龄等因素纳入模型,并希望通过模型预测具有某特定特征的客户是否会购买小轿车。
这个多元回归模型的被解释变量设为是否购买(l表示购买,0表示不购买),是个纯粹的二值型品质变量,显然不满足变量为数值型数据的要求。
在数据分析中,尤其在社会科学、医学的研究中,像这样的情况是很普遍的。
当出现这种情况的时候,建立的一般多元回归模型就会出现以下问题:残差不再服从零均值的正态分布;被解释变量的取值区间受限制等。
基于这种情况,提出了广义线性模型。
形式上,广义线性模型是常见的正态线性模型的直接推广。
它可适用于连续数据和离散数据,特别是后者,如属性数据,计数数据。
这在实际中,尤其是生物、医学、经济和社会数据的统计分析上,具有重要的意义。
广义线性模型要求响应变量通过线性形式依赖于自变量,这一特点保持了线性自变量的思想,而且广义线性模型允许许多用于线性模型的方法能用于更一般的实际问题。
广义线性模型的响应变量Y都属于指数分布族,而指数分布族不仅包含了许多常见的重要分布,如正态分布,二项分布,Poisson分布等,而且它有良好的分析性质,在数据处理上有很多方便。
总之,广义线性模型为今后回归模型提供了一个重要的统一的研究方法。
广义线性模型的个别特例起源很早。
Fisher在1919年曾用过它。
最重要的Logistic[21]模型,在20世纪四五十年代曾由Berkson,Dyke Patterson等人使用过。
1972年Nelder 和Weddethum在一篇论文中引进广义线性模型一词,提供了一个新的估计理论和计算框架,对传统线性回归模型作了进一步推广,建立了统一理论和计算框架,对回归模型在统计学中的应用产生了重要影响。
这种新的统计模称作广义线性模型(generalized linear models,简称GLM)。
近年来,广义线性模在理论上和应用上得到了快速的发展,在模型的拓展、参数估计方法以及模型的验和诊断等方面不断趋于成熟。
张尧庭[11](1995)在与传统线性模型对比的基础上,对广义线性模型本质特征进行了描述。
陈希孺[17,19]院士于2002—2004年在《数理统计与管理》杂志上,分十次讲解对多元广义线性模型进行了系统的介绍。
另外,我国学者在广义线性模型参数估计的相合性、收敛速度、模型的诊断等方面得到了不少优秀成果。
用于GLM的计算软件也相继问世,目前,除了由NAG(Numerical Algorithms Group)研发的专用程序GLIM(Generalized Linear Interaetive Modeling)外,SAS和SPASS[2,3]统计软件中的Genmod模块也被广泛使用,在统计软件R和X-plore中,也有相应的计算模块。
得益于应用软件的推广,广义线性模型在医学、农业、交通运输、产品试验以及经济、金融等方面得到了广泛的应用。
近年来,广义线性混合模型、半参数广义线性模型[22]、广义非线性模型等扩展模型在理论研究和实际应用上得到了快速的发展。
广义线性模型理论的建立,极大地推动了以统计方法为基石的精算学的发展。
传统的线性回归模型,都是建立在对称分布的基础上,以常值方差为假设。
但在精算实践中,所采集的数据往往显示出非常值方差的趋势;用于描述索赔额等变量分布通常具有厚重的右尾;反应变量不再局限于对解释变量的线性依赖。
在许多情况下,传统线性回归模型不适宜作为精算统计模型。
广义线性模型的出现,为精算学的发展提供了有力的工具。
广义线性模型在精算中的应用起始于上世纪八十年代,九十年代经历了快速的发展,并被广泛地应用于精算学的各个领域,如生命表的修匀、损失分布、信度理论、风险分类、准备金和费率的估计等方面。
大学学习不同于高中或者初中,以往的教学方式长期有老师的监督和教导,而大学学习更注重培养学生的自主学习的能力,而在这种缺乏约束的学习氛围下,学生的学习成绩可能会出现不同程度的畸形。
大学生步入大学之后,由于学习目标不明确而导致学习动力不足,放松要求,出现了考试不及格、降级、退学等学籍异动情况,对学校和个人都造成了损失。
那么出现这种事故有无规律?有无征兆?本文仅从学生各门课程考试成绩的变化角度对该问题进行分析与研究,以安徽工程大学统计学专业07级81个学生前三学年的学习成绩为样本通过广义线性回归分析来研究学生学年间成绩的相关性。
在这三学年中,有些学生出现了退学降级等学籍异动,对他们的相应数据做了如下处理:对于退学学生后期成绩不存在的用“0”补;对于降级学生后期成绩用下一学年甚至以后几学年的相应学习成绩补缺。
出于公正的角度,均用他们的第一次考试成绩为观察值进行数据处理和分析。
第1章 绪论
1.1广义线性回归基本思想
先看下面几个例子。
例1 抛物线的拟合
某零件上有一条曲线,可以近似看作是一条抛物线,为了在数控机床上加工这一零件,在曲线上测得n 个点的坐标,()i i x y ,1,2,,i n =,要求从这n 个点的坐标出发,求出曲线的函数表达式。
显然,这是一个回归分析问题,由于曲线可以近似看作是一条抛物线,因此,回归方程(即曲线的函数表达式)是一个二次多项式
2012y x x βββε=+++ ,
像这种回归方程是一个多项式的回归,称为多项式回归(Polynomial Regression )。
虽然多项式回归方程不是线性的,但可以通过变量代换,化成线性形式。
令212,x x x x ==,原来的回归方程化成了下列形式:
01122y x x βββε=+++ ,
这是一个线性回归方程,可以用前面介绍过的线性回归的方法求出它的解。
具体作回归时,所需要的观测数据1i x ,2i x 用i x ,2i x 的数值代入,求得的线性回归方程中常
系数的估计012
ˆˆˆ,,βββ,也就是原来的二次多项式回归方程中常系数的估计。
例2 科布-道格拉斯(Cobb-Douglas)生产函数
在经济学中,有一个著名的科布-道格拉斯生产函数,这个函数指出,生产产出Y 与劳动投入L 、资本投入K 之间,近似有下列关系:
εαββ+=21K L Y ,
其中,12,,αββ 都是常系数。
现测得一组劳动投入、资本投入和生产产出的数据(,,),1,2,,i i i L K Y i n =,要求从这批数据出发,估计常系数12,,αββ 的值。
这是一个回归分析问题,回归方程为εαββ+=21K L Y ,显然,它不是线性回归方程,但是,如果我们对方程两边同时取对数,得到
*12ln =ln +ln +ln +Y L K αββε ,
(原来有21ββαK L Y ≈,误差项为ε,取对数后有12ln ln +ln +ln Y L K αββ≈,也有一个误差项,我们把这个误差项记为*ε。
)
再令012ln ,ln ,ln ,ln y Y x L x K βα*====,它就化成了一个线性回归方程
*01122y x x βββε*=+++ 。
用线性回归的方法可以求出它的解。
具体作回归时,所需要的观测数据1i x ,2i x ,
i y * 用ln i L ,ln i K ,ln i Y 的数值代入,计算得到的线性回归方程中常系数的估计12
ˆˆ,ββ,就是原来回归方程中12,ββ 的估计,原来回归方程中α 的估计,可以通过0ˆ
ˆβαe = 求得。
例3施肥效果分析
对2种作物——土豆、生菜,分别施以3种不同数量的肥料——氮、磷、钾,得到一批产量的数据,求施肥量与产量之间的关系。
设,,N P K 分别是氮、磷、钾肥的施肥量,Y 是产量。
,,N P K 与Y 之间,可能有各种各样的关系,但这种关系显然不会是线性的。
比如说,可以考虑下列关系:
εββββββββββ++++++++++=2982765243210K PK P NK NP N K P N Y ,
这是一个,,N P K 的2次多项式。
令N x =1,P x =2,K x =3,24N x =,NP x =5,NK x =6,27P x =,PK x =8,29K x =,它就化成了一个线性回归方程
εββββ+++++=9922110x x x y ,
可以用线性回归的方法求出它的解。
例4 混合异辛烯催化反应
在混合异辛烯催化反应中,反应速度y 与氢的分压1x ,异辛烯的分压2x ,异辛烷的分压3x 之间,近似有下列关系:
ε++++=33212
1)1(cx bx x a x kx y ,
其中,,,,k a b c 是常系数。
现对123,,,x x x y 作观测,得到观测值),,,(321i i i i y x x x ,n i ,,2,1 =,要求常系数c b a k ,,, 的估计值。
对回归方程两边开3次方,再取倒数,得到
*1
1
3213321232113213ε++++=x x k x c x x k x b x x k x a x x k y ,
再令31*y y = ,131k β= ,13121z x x = ,231k β= ,12312x z x x = ,33b k
β= ,23312x z x x = ,43c k β= ,34312
x z x x = ,原方程就化成了下列形式: εββββ++++=44332211*z z z z y ,
这是一个不带常数项0β 的线性回归方程。
对于这种回归方程,可以用求线性回归
方程的解法,求得它的最小二乘解。
作回归计算时,所需要的观测数据1i z ,2i z ,3i z ,4i z ,
*
i y ,用123333331212121211,,,,i i i i i i i i i i i i x x x x x x x x x x x y 的数值代入,按线性回归方法求得常系数的估计1234
ˆˆˆˆ,,,ββββ 后,从下列各式就可以求出原方程中各系数的估计值: 31ˆ1ˆβ=k ,12ˆˆˆββ=a ,13ˆˆˆββ=b ,1
4ˆˆˆββ=c 。
上面举了几个把非线性回归化为线性回归的例子。
一个非线性回归问题,如果能够象上面例子中所介绍的那样,通过适当的变量代换,化为线性回归,则称这种回归为广义线性回归(Generalized Linear Regression )。
1.2广义线性回归分析
在方差分析中分析效应因子A 对反应变量Y 的影响,即,分析效应因子A 的不同水平对反应变量Y 的作用差异。
方差分析的原理是
分解总体变量:
回归分析中分析自变量X 对因变量Y 的依存关系,即,分析自变量X 改变一个单位时,因变量Y 的改变量大小。
回归分析原理是
分解总体变异:
方差分析和回归分析的相同点
方差分析和回归分析的不同点主要在于自变量的类型不同前者是分类型的,后者是连续型的
广义线性模型分析是将方差分析和回归分析的基本原理结合起来,用来分析连续型因变量与任意型自变量之间各种关系的一种统计分析方法。
其意义是使得方差分析和回归分析的实用性和准确性得到进一步提高。
两个典型的广义线性模型分析方法
协方差分析是将方差分析原理和线性回归分析原理结合起来的一种方差分析方法。
它消除了混杂变量(协变量)对因变量的影响,使得方差分析结果更加准确。
广义线性回归分析是将线性回归分析原理和方差分析原理相结合起来的一种线性回归分析方法,它和线性回归分析的区别是模型的自变量可以是任意类型的变量。
其主要目的是扩大线性回归分析的应用范围,使得它的应用价值得到进一步提高。
广义线性回归分析的假设条件:
1.因变量是连续随机变量;
2.自变量相互独立;
3.每一个数值型自变量与因变量呈线性关系;
4.每一个数值型自变量与随机误差相互独立;
5.观察个体的随机误差之间相互独立;
e N
6.随机误差{}~(0,)
i
广义线性回归分析和线性回归分析相比,广义线性回归分析的优点有:
1,自变量可以是任意类型的变量;
2,利用SAS 的GLM 过程可以分析每一个分类型变量对因变量y 的影响的
显著性。
1.3广义线性回归模型
广义线性模型是非线性模型的一些特例,它们具有一些共性,是其它非线性模型所不具备的。
它与典型线性模型的区别是其随机误差的分布不是正态分布,与非线性模型的最大区则在于非线性模型没有明确的随机误差分布假定而广义线性模型的随机误差
的分布是可以确定的。
例如, ()log()1()
x x x παβπ=+-即是一个广义线性模型。
1.3.1广义线性模型的三项构成要素
(1)随机成分:用以明确响应变量的概率分布。
随机成分包含自然指数分布族里的某一个分布的若干独立观察值1(,,)n Y Y Y '=。
自然指数分布族概率分布的每个观察值具有如下的密度函数: (;)()()exp[()]i i i f y b y y Q θαθθ=。
任何一个可以写成这种形式的分布都是自然指数分布族的一员。
对于1,2,
i n =,参数i θ可以是不同的,随自变量的变化
而变化。
()i Q θ称为该分布的自然参数。
例如,二项分布即是(单参数)自然指数分布族的一员。
因为它的概率密度函数可作如下变换: 1(;)(1)(1)111(1)(1)exp log 11i i i i i i i i i y i i Y n y Y n i i i i i i i i i y i i n n i i i i i i i n n f y y y n n y y y ππππππππππ-⎛⎫⎛⎫⎛⎫=-=- ⎪ ⎪ ⎪-⎝⎭⎝⎭⎝
⎭⎡⎤⎛⎫⎛⎫⎛⎫⎛⎫=-=-⎢⎥ ⎪ ⎪ ⎪ ⎪--⎝⎭⎝⎭⎝⎭⎝⎭⎣
⎦, 其中, ()(1)i n i i αθπ=-,()i i i n b y y ⎛⎫= ⎪⎝⎭,()log 1i
i i Q πθπ⎛⎫= ⎪-⎝⎭。
(2)系统成分:用以确定用作预测变量的解释变量的线性函数。
广义线性模型的系统成分通过一个线性模型X ηβ=将向量1(,,)n ηηη'=与一组解释变量联系起来,这里X 是模型矩阵,有时也称作设计矩阵,它包括解释变量的n 个观测值;β是模型的参数向量; η被称为线性预测(向)量。
(3)连接函数:用以描述系统成分与随即成分的期望值之间的函数关系。
设μ,(),1,,i i E Y i n μ==,i μ与i η通过()i i g ημ=来联结,其中g 是任意单调可导函数。
模型
通过公式
(),1,
,i j ij j g x i n μβ==∑
将响应变量观测值的期望值与解释变量连接起来。
在上面关于二项分布的例子中,连接
函数是Logit ,或者更具体一点说是log 1y y ⎡⎤⎢⎥-⎣⎦。
通常,将与自然参数一致的连接函数称为典型连接函数,当然,也可以采用与自然参数不一致的连接函数。
一般说来,对于所有的,1,,i i n μ=,其连接函数都是一样的,函数()g μμ=表示一致性连接函数,意指该线性预测(向)量是响应变量期望值的线性模型。
由此看出,线性模型只不过是广义线性模型的一个特例,在那里,连接函数是一致性连接函数。
综上所述,广义线性模型是转换后的响应量期望值的线性模型,该响应变量具有自然指数族的分布。
再如,泊松分布的密度函数
exp()()(;)!
i n i i i i i m m f n m n -=, 变换为
1exp()exp[log()]!i i i i m n m n ⎡⎤-⎢⎥⎣⎦
,
也具有自然指数分布的形式,其中,i i y n =,i i m θ=,()exp()i i a m m =-, ()1/!i i b n n =, ()log()i i Q m m =。
我国统计学原理教科书上常见的指数曲线回归模型即是这样的广义线性模型。
因为其典型连接函数为对数函数,所以也叫做对数线性模型,可用来对定性变量进行回归分析。
值得再次强调的是,广义线性模型的响应变量是假定服从某一特定的概率分布的。
1.3.2广义性线模型与连续变量模型的关系
广义线性模型不仅包括离散变量,也包括连续变量。
正态分布也被包括在一族自然指数分布族里,该自然指数分布族包含描述发散状况的参数,属于双参数指数分布族(双参数是指位置参数和发散参数,前述的单参数指数分布族指仅包含位置参数的指数分布族),对于固定的方差,其自然参数就是平均数。
所以,对于响应变量的平均数的回归模型是一个采用一致性连接函数的广义线性模型。
1.3.3广义线性模型的特(优)点
(1)对定性变量进行分析。
广义线性模型的其中一些如LOGIT 回归和对数线性回归模型在社会统计的各个领域的定性分析中有广泛的用途。
其中,LOGIT 回归模型可以用连续性的解释变量解释二项分布变量的变化,对数线性模型则可用来解释多个类别变量之间的关系,即对多相列联表进行分析。
在纵向数据分析及生存分析中也有广泛的应用,而生存分析及纵向数据分析在目前的统计方法研究中都是热门课题。
(2)使非经性回归线性化。
两变量与多变量的非线性模型计算非常复杂,用的也非常少,而广义线性模型——非现性模型的线性化,则允许模型中有多个解释变量,象线性
回归一样,并且,象复回归一样,可以对解释变量进行向前、向后选取分析。
(3)广义线性模型的参数估计量具有大样本正态分布,因而具有良好的统计性质。
广义线性模型方法的推广和应用对于显示现代统计方法和统计技术的威力,促进全民统计意识的普及及深化有很大的推广作用,也与大统计学科的建设方向相一致。
第2章 广义线性回归分分析学生成绩
2.1广义线回归性模型
由于每一学年统计学专业都设置了十几门课程,在这里建立多维回归是很困难的。
所以以学生大学二年级和三年级的平均成绩ij y (ij y 表示第i 年级第j 个学生的平均成绩,1,2;1,2,
,i j n ==。
)作为因变量,大学一年级开设的各门课程成绩jl x ((1,2,,,1,2,
,)jl x j n l p ==为第j 个学生在一年级所学习第l 门课程的成绩。
)作为自变量,其它影响因素归到误差ε中。
其中各(1,2,
,10)l x l =的课程名称如表2-1。
表2-1 课程名称
21222n
31323n T y y y Y y y y ⎛⎫= ⎪⎝⎭, (),(1)jl n p X x C X ⨯==,
并设X 与Y 有如下广义线性模型:
~(0,){
y c N βεε=+∑ , (2.1.1) 其中2021222303132
2(1)2T
p p P βββββββββ+⨯⎛⎫= ⎪⎝⎭,是待估参数。
2.2模型的参数估计
在模型(2.1.1)下:记 3221()n
T ij i j Q βεεε====∑∑,
令 ()0Q ββ
∂=∂,
得正规方程组:
,
β的解ˆβ为1ˆ()T T C C C Y β
-=, 11
111111111T T T T XX XX T n n n
T
T
n
XX XX X L X X L X n C C X X X L X
L ------⎛⎫+-⎛⎫ ⎪
== ⎪ ⎪ ⎪⎝⎭-⎝⎭
, 其中(
)
121111,1,,,T
T
T T XX
n n n n p
L X I X X X x x x n n ⎛⎫
=-== ⎪
⎝⎭
,
∑的参数估计借助残差矩阵Q ,则常用∑的估计为:
1
1
Q n p ∧
∑=
--,
其中()(),T
Q Y Y Y Y ∧
∧
=--而Y C β∧
∧
=。
2.3回归方程的显著性检验(或称相关性检验)
在这个问题当中,我们事先并不能判定应变量Y 与自变量1,2,
,p x x x
之间确有线性
关系。
再求出回归系数β的估计之前,回归模型(2.1.1)这是一种假设,尽管这种假设常常不是没有根据的,但在求出线性方程后,对Y 与1,2,,p x x x
之间是否有线性关系还
需进行统计检验,已给出肯定或者否定的结论。
我们假定()E Y X β=,如果Y 与1,2,,p x x x
之间均无线性相关关系,则模型(2.1.1)
中,1,2,
l x l p =的系数()2,3i i β=应均为0。
故检验Y 与1,2,
,p x x x
是否线性相关的问题就等价于检验假设:
()0:0
2,3i i p H i β== 又()~,ii i P i N l ββ∧
∑,其中()I II
XX L l
-=。
记i p E I =,则在0H 下
()~0,i i P E N β∧
∑
而~(1,)p Q W n p --∑,而Q 与i β∧
相互独立。
在0H 成立时统计量:
T
T C C C Y β=
21
1
2(1)()()(1)/~(,1)
T i i i i T
ii
i i T n p E Q E n p Q l T p n p ββββ∧
∧
-∧∧
-=--=----,
于是统计量为:
1
211T
i i ii
n p Q F T p p l ββ∧∧
---=
=, 在0i
H 成立时,~(,1)F F p n p --,
当原假设0H 不成立时,F 有增大趋势,故拒绝域为:{(,1)}W F F p n p α=≥--。
2.4回归系数的显著性检验
对回归方程进行显著性检验,若否定0i
H ,仅表示β中分量不全为0,但并不排除有
某个il β为0。
若0il β=,说明自变量l x 对变量Y 的影响不显著,应从回归模型中删除。
因此回归系数(1,2,
,)il l p β=是否为0,进行逐个检验是很必要的,即检验以下的假设:
0:0(1,2,
,)l
il H l p β==,
统计量为:~(1,1)/(1)
l
l P F F n p Q n p =
----,其中()l P Q l Q =-为变量l x 的偏回
归平方和,()Q l 为去掉变量l x 的残差平方和。
在()
0l H 不成立时,F 有增大的趋势,所以
拒绝域为{(1,1)}l W F F n p α=≥--。
第3章数据分析
3.1数据的来源
本文数据取自安徽工程大学07级统计学专业的前三学年的学习成绩。
在这三年之中,有些学生出现退学降级等学籍异动,对他们统计软件的相应数据做了如下处理:对于退学学生后期成绩不存在的用“0”补;对于降级学生后期成绩用下一年级甚至以后几学年的相应学习成绩补缺。
出于公正的角度,均用他们的第一次考试成绩为客观值进行数据处理和分析。
3.2数据处理
3.2.1参数估计
我们通过统计软件spass13.0的GLM进行广义线性回归分析实现。
β的估计为:
0.1580.0280.1650.369-0.061-0.0320.1680.025-0.0210.0190.112 =
-7.8810.1110.256-0.1530.0950.0080.0250.036-0.214-0.0260.298T
β∧⎛⎫
⎪
⎝⎭。
3.2.2显著性检验
在spss13.0回归系数显著性检验结果如表3-2。
表3-2多元方差分析
b 220.825(0.811)R R ==修正
c 220.825(0.811)R R ==修正
在表2中可以看出2x (学大学英语一) ,4x (高等代数一),8x (高等数学二),9
x (高等代数二)对2y 影响显著; 8x (高等数学二), 9x (高等代数二)对3y 影响显著,其他几门课程对2y 、3y 影响不显著。
这说明数据存在共线性。
在显著水平=0.05α时,回归方程显著性检验的拒绝域为0.05(6,74) 1.8330F == ,经
计算,48.670F =,落在拒绝域内,故拒绝原假设3
0H ,说明大学一年级的学成绩与二
年级显著相关。
同理,对3
0H 进行检验得:统计量检验值13.052F =,也落在拒绝域内,说明大学一
年级的学习成绩与三年级的成绩也显著相关。
3.3逐步回归法(向后法)
向后法是先将全部自变量选入回归模型,然后逐个剔除对残差平方和贡献较小的自变量。
具体做法如下:
步骤1 建立p 个自变量1,2,,p x x x
与因变量
y 的全模型,计算各变量x 相应的回
归系数的F 检验统计量的值(1)(1)(1)12,,
,p F F F ,选其中最小者,记为(1)il F ,即
{}(1)(1)(1)(1)12min ,,,il p F F F F =,
对给定的显著性水平α,记相应的灵界值为1F ()剔,若1(1)
il F F
≤()剔,则从回归方程中剔除l x ;否则选择变量过程结束。
步骤2 对剩下的1p -个变量11,,,,l p x x x -,重复步骤1。
依次进行,直到经F
检验,没有变量可剔除为止。
先分析大学一年级对二年级影响显著变量: 第一步:
(1)2min{0.674,6.634,0.894,13.542,0.256,0.452,0.874,6.251,
17.673,0.044}0.044
l F ==,
0.05()0.951P F F ≤=,所以剔除自变量10x (军事理论)。
依次做下去:得到一年级的学习对二年级成绩影响显著变量为:
2489
()x x x x 大学英语一,(高等代数一),(高等数学二),(高等代数二)。
同理,一年级学习对三年级成绩影响显著变量为8x (高等数学二),9x (高等代数二)。
则向后法选择的最优回归方程为:
2124891.1190.1280.2090.1550.2230.206y x x x x x =+++++, 31891.5510.2960.2630.339y x x x =+++,
从上面的分析我们可以看出:大学一年级的学习和后期学习有显著相关性。
而且相关的显著变量为1x (思想道德修养与法律基础),2x (学大学英语一),4x (高等代数一),8x (高等数学二),9x (高等代数二)。
在上面的分析中我们可以得到结论:在大学一年级的学习中,影响学生学习的两大类课程一类是:像高等数学二和线性代数这类体现学生学习方法是否得当的逻辑课;另一类主要是根据学生出勤和论文情况评分的思想品德修养这类反应学生学习态度的课程。
所以大学生入学之后一方面要迅速适应大学的教学方法和环境,调整学习方法;另一方面是要端正学习态度,切不可松弛懈怠。
第4章 大学一年级样本的聚类分析和判别分析
4.1聚类分析
在认识到大学一年级的学习对后期学习有显著影响,我们自然要问:后两年中出现的降级和退学现象是不是在大学一年级的时候就埋下隐患?我们采用马氏距离对所取的样本的一年级成绩进行聚类分析,进一步说明这个问题。
样本(i X )和X (j)
的马氏距离定义为: 1
((()()()T ij i i d M X X S X X -=--))(j)(j),
其中1S -为样本协方差阵的逆矩阵。
以BIC 准则为聚类标准。
采用Two Step Cluster 对数据进行处理得到的结果见表4-1。
表3中第1类学生为大
学一年级就降级的3名学生,第2类学生为各科学习成绩均值较低的27名学生,第3类学生为各科学习成绩均值较高的51名学生。
学习中出现退学和降级等学籍异动的6名学生(实际学籍异动的学生为5名)均在第1、2两类学生中。
也就是说这些学生在大学一年级的学习过程中就已经为后面的悲剧埋下了隐患。
教师和教学管理人员应高度重视第2类学生,分析成因,有针对性地开展教育教学工作,避免悲剧发生。
4.2判别分析
在有了上面聚类分析的结果后我们对这批样本做一次回判。
在聚类分析中我们可以清楚的看到3个总体均值有显著差异,因此做判别分析是合理的。
在回归分析中我们看到有些自变量对因变量的影响显著,有的影响微弱,所以我们采取逐步判别分析方法。
逐步判别就是通过逐步筛选变量使得建立的判别函数中仅保留判别能力显著的变量方法。
逐步筛选变量的步骤:
记合并组内离差阵()ij A a =,总离差阵()ij T t =,
其中
()()
111()t
n k k
t t
T
t i t t i A A X X =====-∑∑∑, ()())
11
()()t
n k
t T
j j t j T X X X X ===--∑∑(t )(, k 为组数,()t i X 表示t (1,2...)t t k =组第i 个元素,i n 表示第t 组元素总数,有
1k n n n =+。
步骤1 考察变量(1,2
)i X i p =对k 个总体的判别能力。
变量i X 的判别能力()i U 为
(),1,2ij i ij
a U i p t =
=,
设1()()1,2
min i i i p
U U ==
步骤2 检验1i X 对k 个总体的判别效果是否显著,即检验:111(1)(2)
()
0:k i i i H u u u ===其中1()t i u 为总体t G 的均值向量()t u 的第 1i 个分量。
在0H 成立时是由()i U 构造统计量
11111111111~( 1.)
i i i i i i i i U t t a a n k n k
F U k a a k F k n k ----==
----, 对给定的显著性水平α,若F F α≥,把变量1i X 引入判别式,并对矩阵,A T 做消去变换:11(1)(1)(),()i i A T A T T T ==,依次做下去,把判别能力强的变量引入。
用Spss13.0计算,逐步判别分析得到判别能力强的变量为1x (思想道德修养与法律基础),2x (学大学英语一), 5x (计算机文化与基础),8x (高等数学二),9x (高等代数二),10x (军事理论)。
其中的计算机文化与基础、高等数学二和高等代数二的学习成绩优劣体现了学生在大学一年级逻辑思维能力的训练和学习方法的转变;大学英语一的成绩主要依据是平时的积累和课堂学习的积极性;而思想道德修养与法律基础和军事理论的成绩主要依据学生的出勤和教学过程中小论文完成情况打分,主要反映了学生的学习态度和遵守纪律情况。
通过这6个自变量的判别得到判别分析与聚类分类的一致率为95.5%。
结果如表4-2。