第10章-简单线性回归分析思考与练习参考答案
统计学课后思考练习汇编
医学统计学思考练习
第1章绪论思考与练习参考答案
一、最佳选择题
1. 研究中的基本单位是指 ( D )。
A.样本 B. 全部对象C.影响因素 D. 个体 E. 总体
2. 从总体中抽取样本的目的是(B )。
A.研究样本统计量 B. 由样本统计量推断总体参数
C.研究典型案例 D. 研究总体统计量E. 计算统计指标3. 参数是指(B )。
A.参与个体数 B. 描述总体特征的统计指标
C.描述样本特征的统计指标 D. 样本的总和 E. 参与变量数4. 下列资料属名义变量的是(E)。
A.白细胞计数 B.住院天数
C.门急诊就诊人数 D.患者的病情分级 E. ABO血型5.关于随机误差下列不正确的是(C)。
A.受测量精密度限制 B.无方向性 C. 也称为偏倚D.不可避免 E. 增加样本含量可降低其大小
第2章统计描述思考与练习参考答案
一、最佳选择题
1. 编制频数表时错误的作法是(E )。
A. 用最大值减去最小值求全距
B. 组距常取等组距,一般分为10~15组
C. 第一个组段须包括最小值
D. 最后一个组段须包括最大值
E. 写组段,如“1.5~3,3~5, 5~6.5,…”
2. 描述一组负偏峰分布资料的平均水平时,适宜的统计量是(A)。
A. 中位数
B. 几何均数
C. 调和均数
D. 算术均数
E. 众数
3. 比较5年级小学生瞳距和他们坐高的变异程度,宜采用(A)。
A. 变异系数
B. 全距
C. 标准差
D. 四分位数间距
E. 百分位数P2.5与P97.5的间距4. 均数和标准差S的关系是(A)。
A. S越小,对样本中其他个体的代表性越好
简单线性回归模型试题及答案
第二章 简单线性回归模型
一、单项选择题:
1、回归分析中定义的( B )。
A 、解释变量和被解释变量都是随机变量
B 、解释变量为非随机变量,被解释变量为随机变量
C 、解释变量和被解释变量都为非随机变量
D 、解释变量为随机变量,被解释变量为非随机变量
2、最小二乘准则是指使( D )达到最小值的原则确定样本回归方程。
A 、1ˆ()n t t t Y Y =-∑
B 、1ˆn t t t Y Y =-∑
C 、ˆmax t t Y Y -
D 、21ˆ()n t t
t Y Y =-∑ 3、下图中“{”所指的距离是( B )。
A 、随机误差项
i 、ˆi
Y 的离差 4、参数估计量ˆβ是i
Y 的线性函数称为参数估计量具有( A )的性质。 A 、线性 B 、无偏性 C 、有效性 D 、一致性
5、参数β的估计量βˆ具备有效性是指( B )。
A 、0)ˆ(=βVar
B 、)ˆ(βVar 为最小
C 、0ˆ=-ββ
D 、)ˆ(ββ-为最小
6、反映由模型中解释变量所解释的那部分离差大小的是( B )。
A 、总体平方和
B 、回归平方和
C 、残差平方和
D 、样本平方和
7、总体平方和TSS 、残差平方和RSS 与回归平方和ESS 三者的关系是( B )。
A 、RSS=TSS+ESS
B 、TSS=RSS+ESS
C 、ESS=RSS-TSS
D 、ESS=TSS+RSS
8、下面哪一个必定是错误的( C )。 A 、 i i X Y 2.030ˆ+= ,8.0=XY r B 、 i i X Y 5.175ˆ+-= ,91.0=XY r C 、 i i X Y 1.25ˆ-=,78.0=XY r D 、 i i X Y 5.312ˆ--=,96.0-=XY r
第十章 一元线性回归
第十一章 一元线性回归
一、填空题
1、对回归系数的显著性检验,通常采用的是 检验。
2、若回归方程的判定系数R 2
=0.81,则两个变量x 与y 之间的相关系数r 为_________________。
3、若变量x 与y 之间的相关系数r=0.8,则回归方程的判定系数R 2
为____________。 4、对于直线趋势方程bx a y c +=,已知∑=,0x ∑=130xy ,n=9,1692
=∑x
, a=b ,则趋势
方程中的b=______。
5、回归直线方程bx a y c +=中的参数b 是_____________。估计待定参数a 和 b 常用的方法是-_________________。
6、相关系数的取值范围_______________。
7、在回归分析中,描述因变量y 如何依赖于自变量x 和误差项的方程称为 。 8、在回归分析中,根据样本数据求出的方程称为 。 9、在回归模型εββ++=x y 10中的ε反映的是 。 10、在回归分析中,F 检验主要用来检验 。 11、说明回归方程拟合优度检验的统计量称为 。 二、单选题
1、年劳动生产率(x :千元)和工人工资(y :元)之间的回归方程为1070y x =+,这意味着年劳动生产率没提高1千元,工人工资平均( )
A 、 增加70元
B 、 减少70元
C 、增加80元
D 、 减少80元 2、两变量具有线形相关,其相关系数r=-0.9,则两变量之间( )。
A 、强相关
B 、弱相关
C 、不相关
D 、负的弱相关关系 3、变量的线性相关关系为0,表明两变量之间( )。
高考数学一轮复习第10章算法初步与统计第4课时线性回
5.在一项打鼾与患心脏病的调查中,共调查了 1 671 人,经 过计算得 K2=27.63,根据这一数据分析,我们有理由认为打鼾 与患心脏病是____________的(有关,无关).
答案
有关
解析 K2>10.828 就有 99.9%的理由认为两个量是有关的.
6.(2018· 衡水中学调研卷)调查了某地若干户家庭的年收入 x(单位:万元)和年饮食支出 y(单位:万元),调查显示年收入x与 年饮食支出y具有线性相关关系,并由调查数据得到y对 x的回归
(3)线性相关关系、回归直线. 如果散点图中点的分布从整体上看大致在一条直线附近,就 称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
回归方程 (1)最小二乘法. 求回归直线使得样本数据的点到回归直线的 距离平方和最小的方法叫做最小二乘法.
(2)回归方程. 方程 y = b x+ a 是两个具有线性相关关系的变量的一组数据 (x1 , y1), (x2 ,y2) ,„, (xn,yn) 的回归方程,其中 a , b 是待定 参数.
∧ ∧ ∧ ∧ ∧
- (x,y)称为样本点的中心点.
(3)回归分析: 对具有相关关系的两个变量进行统计分析的一 种常用方法. (4)相关系数.
①r=
;
②当 r>0 时,表明两个变量正相关; 当 r<0 时,表明两个变量负相关. r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r 的绝对值越接近于 0 时,表明两个变量之间几乎不存在线性相关 关系.通常|r|大于 0.75 时,认为两个变量有很强的线性相关性.
《统计分析与SPSS的应用(第五版)》课后练习答案(第10章)
《统计分析与SPSS得应用(第五版)》(薛薇)
课后练习答案
第10章SPSS得聚类分析
1、根据“高校科研研究、sav”数据,利用层次聚类分析对各省市得高校科研情况进行层次聚类分析。要求:
1) 根据凝聚状态表利用碎石图对聚类类数进行研究。
2) 绘制聚类树形图,说明哪些省市聚在一起。
3) 绘制各类得科研指标得均值对比图。
4) 利用方差分析方法分析各类在哪些科研指标上存在显著差异。
采用欧氏距离,组间平均链锁法
利用凝聚状态表中得组间距离与对应得组数,回归散点图,得到碎石图。大约聚成4类。
步骤:分析→分类→系统聚类→按如下方式设置……
结果:
凝聚计划
阶段
组合得集群
系数
首次出现阶段集群
下一个阶段集群 1 集群 2 集群 1 集群 2
1 26 30 328、189 0 0 2
2 26 29 638、295 1 0 7
3 20 25 1053、423 0 0 5
4 4 12 1209、922 0 0 15
5 8 20 1505、035 0 3 6
6 8 16 1760、170 5 0 9
7 24 26 1831、926 0 2 10
8 7 11 1929、891 0 0 11
9 5 8 2302、024 0 6 22
10 24 31 2487、209 7 0 22
11 2 7 2709、887 0 8 16
12 22 28 2897、106 0 0 19
13 6 23 2916、551 0 0 17
14 10 19 3280、752 0 0 25
15 4 21 3491、585 4 0 21
16 2 3 4229、375 11 0 21
生物统计学:第10章 多元线性回归分析及一元非线性回归分析
在上述两个自变量同时影响一个因变量的情况下,只 有用二元回归分析,才能得到可靠的结果。若只考虑其中 的一个因素,用一元回归分析,另一个因素并不固定,这 时所得到的回归系数b,并不能真正表示该变量对因变量 贡献的大小。例如,上例中若只考虑体长对体重的影响, 回归方程为:
Yˆ 235 .285 4.608 X1
p 1,2,,n
其中1,2,… ,n是相互独立且服从正态分布的随即 变量。该式即所谓的多元线性回归模型。
多元线性回归和一元线性回归一样,用最小二乘法
求和j 的估计值a和bj 。所不同的是,一元回归中,只
需求出a和1个b,而多元回归中则需求出a和k个b。用a
和b1,b2,… ,bk 分别表示和1,2,… ,k 的估计
(k)
S11b1 S12b2 S1kbk S1y
S21b1
S22b2
S2 k bk
S2 y
Sk1b1 Sk 2b2 Skkbk Sky
解上述方程组,可以得到b1,b2,…,b k。a由(1)式给 出, a y b1x1 b2 x2 bk xk
由实际观察值,计算得到的bj是j的无偏估计量,a是 的无偏估计量,于是得到多元回归方程:
a x1 b1 x12 b2
x1x2 bk
Байду номын сангаас
x1xk
x1 y
a x2 b1 x2 x1 b2
南开大学生物统计学课件第10章 一元回归及简单相关分析
第十章 一元回归及简单相关分析
二、一元线性回归
Ⅲ、一元直线回归模型的检验:(一)方差分析 2、有重复时的方差分析
例叶试题干对重该10如 土-7 下 壤土表 含壤:不同含盐量时有重复实验F中小613麦1.63收2 获 0的.56
盐量差与异小不麦显叶著,说明模型选择正确。 干注重意的:直 对于小样本(n ≤ 30),F≤1.5肯定不显著; 线回对归于方大程样的本显(著n性> 进30行)检,验F≤。1.0肯定不显著。
剩 s型 记即 均第将(检u第m进选余为:S方二验d失SSS一MS择f平o行YSS如:=总Yf此分步。L拟步SRpO不方msSe果下若若当FFq平R别 :时平Yn:当和u2对Yi一方FF差ma-ni为 检1,造2分方rn检<>m于1和e)i步异jSnmFs成: 验解S失1Fj和i验)同1m=SSn(,(检不S(11n的(回为回nyS(Ry和一-ˆ拟选和(L2-iyiO2以验显)jy)归R纯M,i)失归个Fj(i,平择纯m.(,m平实合。著yn拟S自y关Fn-模.方误y.总.Rn方-验.1Sy)并ˆ(Mn平)Si)变.2系i,)2)Sα;;型校,和和)S差误α2方,S即后2量,;Lp的;M正p+SSO的差e基M平e和则,模的YSF则SS平显失S平YS适(R本S方因LH模具S型均具O模p方m拟p方著elL宜Fe0S变a上和型Om具nS:选和方平1c型S和β性Fk性量自Snp是具=合做选若m方择(e对选o-pn0重1由fne如和n由并择pF正;回自f择-复-uin度下+t<2r实正,确由归若自不s自Fe观分u纯;1确M验相m)e度均测由当F由,解实(xm>pS;o误应时两;方n度。:度验feLF-Or2s次,差自)1误i进;Fq。,m,α(u以m,差e造由a行nnr上-平Ste2则n成度显a)sS,,l)α方L接,的合著eO此(和2rFr性受则。并时模or
回归分析课后习题.doc-实用回归分析
第一章习题
1.1变量间统计关系和函数关系的区别是什么?
1.2回归分析与相关分析的区别和联系是什么?
1.3回归模型中随机误差项的意义是什么?
1.4线性回归模型中的基本假设是什么?
1.5回归变量设置的理论依据是什么?在设置回归变量时应注意哪些问题?
1.6收集、整理数据包括哪些基本内容?
1.7构造回归理论模型的基本依据是什么?
1.8为什么要对回归模型进行检验?
1.9回归模型有哪几个方面的应用?
1.10为什么强调运用回归分析研究经济问题要定性分析和定量分析相结合?
第二章 习题
2.1一元线性回归模型有哪些基本假定? 2.2 考虑过原点的线性回归模型
1,1,
,i i i y x i n βε=+=
误差1,
,n εε仍满足基本假定。求1β的最小二乘估计。
2.3证明(2.27)式,
1
0n
i
i e
==∑,1
0n
i i i x e ==∑。
2.4回归方程01Ey x ββ=+的参数01,ββ的最小二乘估计与极大似然估计在什么条件下等价?给出证明。
2.5 证明0
ˆβ是0β的无偏估计。 2.6 证明(2.42)式 ()
()2
22
02
1,i x Var n x x βσ⎡⎤=+⎢⎥-⎢⎥⎣⎦
∑成立 2.7 证明平方和分解式SST SSR SSE =+
2.8 验证三种检验的关系,即验证:
(1
)t ==
(2)2212ˆ1
ˆ2xx L SSR F t SSE n βσ
===-
2.9 验证(2..63)式:
()()22
1var 1i i xx x x e n L σ⎡⎤-=--⎢⎥⎢⎥⎣⎦
2.10 用第9题证明()22
《应用回归分析》课后题答案[整理版]
《应用回归分析》课后题答案[整理版] 《应用回归分析》部分课后习题答案
第一章回归分析概述 1.1 变量间统计关系和函数关系的区别是什么, 答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。
1.2 回归分析与相关分析的联系与区别是什么, 答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。区别有a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。b.相关分析中所涉及的变量y与变量x全是随机变量。而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。而回归分析不仅可以揭示变量x 对变量y的影响大小,还可以由回归方程进行预测和控制。
1.3 回归模型中随机误差项ε的意义是什么, 答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4 线性回归模型的基本假设是什么,
答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值
应用回归分析 第十章
第10章 含定性变量的回归模型
10.1 一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入4个0-1型自变量,用SPSS 软件计算的结果中总是自动删除了其中的一个自变量,他为此感到困惑不解。出现这种情况的原因是什么? 答:假如这个含有季节定性自变量的回归模型为:
其中含有k 个定量变量,记为x i 。对春夏秋冬四个季节引入4个0-1型自变量,记为D i ,只取了6个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则样本设计矩阵为:
显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。这就是所谓的“虚拟变量陷井”,应避免。
当某自变量x j 对其余p-1个自变量的复判定系数2
j R 超过一定界限时,SPSS 软件将拒绝这个自变量x j 进入回归模型。称Tol j =1-2
j R 为自变量x j 的容忍度(Tolerance ),SPSS 软件的默认容忍度为0.0001。也就是说,当2j R >0.9999时,自变量x j 将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值。
而在这个模型中出现了完全共线性,所以SPSS 软件计算的结果中总是自动删除了其中的一个定性自变量。
10.2对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型,而采取设虚拟变量的方法建立回归模型?
答:原因有两个,以例10.1说明。一是因为模型假设对每类家庭具有相同的斜率和误差方差,把两类家庭放在一起可以对公共斜率做出最佳估计;二是对于其
t
t t t kt k t t D D D X X Y μαααβββ++++++=332211110 ⎪⎪⎪
伍德里奇《计量经济学导论》(第5版)笔记和课后习题详解-第10章 时间序列数据的基本回归分析【圣才出
第10章时间序列数据的基本回归分析
10.1复习笔记
一、时间序列数据的性质
时间序列数据与横截面数据的区别:
(1)时间序列数据集是按照时间顺序排列。
(2)时间序列数据与横截面数据被视为随机结果的原因不同。
①横截面数据应该被视为随机结果,因为从总体中抽取不同的样本,通常会得到自变量和因变量的不同取值。因此,通过不同的随机样本计算出来的OLS估计值通常也有所不同,这就是OLS统计量是随机变量的原因。
②经济时间序列满足作为随机变量是因为其结果无法事先预知,因此可以被视为随机变量。一个标有时间脚标的随机变量序列被称为一个随机过程或时间序列过程。搜集到一个时间序列数据集时,便得到该随机过程的一个可能结果或实现。因为不能让时间倒转重新开始这个过程,所以只能看到一个实现。如果特定历史条件有所不同,通常会得到这个随机过程的另一种不同的实现,这正是时间序列数据被看成随机变量之结果的原因。
(3)一个时间序列过程的所有可能的实现集,便相当于横截面分析中的总体。时间序列数据集的样本容量就是所观察变量的时期数。
二、时间序列回归模型的例子
1.静态模型
假使有两个变量的时间序列数据,并对y t和z t标注相同的时期。把y和z联系起来的
一个静态模型(staticmodel)为:
10 1 2 t t t y z u t n
ββ=++=⋯,,,,“静态模型”的名称来源于正在模型化y 和z 同期关系的事实。若认为z 在时间t 的一个变化对y 有影响,即1t t y z β∆=∆,那么可以将y 和z 设定为一个静态模型。一个静态模型
统计学第10章 相关分析与回归分析
完全正线性相关
正线性相关
散点图
(scatter diagram)
完全负线性相关
ቤተ መጻሕፍቲ ባይዱ
负线性相关
非线性相关
不相关
相关关系的描述与测 度
(相关系数)
相关系数
(3)计算相关系数时,改变两个变量的地位并不影响相关 系数的数值,所以只有一个相关系数;回归分析一般可 以根据研究目的不同,分别建立两个不同的回归方程, 即一个是以x为自变量,y为因变量的“y对x的回归方 程”;另一个是以y为自变量,x为因变量的“x对y的 回归方程”。
(4)相关分析中两个变量可以都是随机的;而在回归分析 时,把自变量当做研究时可以控制的量,是非随机的, 因变量才是随机的。
3. 因变量与自变量之间的关系用一条线性方程来 表示
多元线性回归模型
一元线性回归将影响因变量的自变量限制为一个, 这在现实的大量社会经济现象中并不易做到。因 而,实际应用回归分析法时,常需要有更一般的 模型,把两个或更多个解释变量的影响分别估计 在内。这就是多元回归亦称多重回归。当影响因 素与因变量之间是线性关系时,所进行的回归分 析就是多元线性回归。
3. r = 0,不存在线性相关关系相关
第10章 回归分析
xiyi 4.02 11.92 17.50 40.16 45.63 119.23
解得a=1.155,b=0.4573。 因此关系式为:y=1.155+0.4573x。
如果用简化算法,则有:
故关系式为:y=1.155+0.4573x,即两种计算方法结果是一致的。 可见,根据实验数据建立回归方程,可采用最小二乘法,基本步骤为: ① 根据实验数据画出散点图; ② 确定经验公式的函数类型; ③ 通过最小二乘法得到正规方程组; ④ 求解正规方程组,得到回归方程的表达式。 其实①②两点正是第9章建立数学模型的过程,所以建立数学模型是回 归分析的前提。
显然,只有各偏差平方值(考虑到偏差有正有负)之和最小时,回归方程与 实验值的拟合程度最好。令:
ˆ q=i2 = (yi - y i )2 = [yi–(a+bxi)]2
正规方程组
b
L xy L xx
[例10-1] 为研究某合成物的转化率y (%)与实验中的压强x (atm)的关系,得 到如表10-1的实验数据。试使用最小二乘法确定转化率与压强的经验公式。
q=
Baidu Nhomakorabea
19
20
如果令
则
21
[例10-4] 在某化合物的合成实验中,为了提高产量,选取原料配比(x1)、溶 剂量(x2)和反应时间(x3)三个因素,实验结果如表10-6所示。试用线性回归模 型来拟合实验数据。 例10-4数据 实验号 1 2 3 4 5 6 7 配比(x1) 1.0 1.4 1.8 2.2 2.6 3.0 3.4 溶剂量(x2) 13 19 25 10 16 22 28 反应时间(x3) 1.5 3.0 1.0 2.5 0.5 2.0 3.5 收率(y) 0.330 0.336 0.294 0.476 0.209 0.451 0.482
简单回归分析
简单线性回归模型
Yi X i i
样本线性回归方程
ˆ a bX Y
(12 1)
ˆ 为各X处Y的总体均数的估计。 Y
1.a 为回归直线在 Y 轴上的截距
a > 0,表示直线与纵轴的交点在原点的上方 a < 0,则交点在原点的下方
a = 0,则回归直线通过原点
XY
46.02 33.11 27.81 14.88 33.60
232.61 76 23.87 / 8 764 762 / 8 5.8450 0.1392 42
X SX / n 76 / 8 9.5
20.48 Y SY / n 23.87 / 8 2.9838
线性回归的概念及其统计描述
直线回归的概念
目的:研究应变量Y对自变量X的数量依 存关系。 特点:统计关系。 X值和Y的均数的关系, 不同于一般数学上的X 和Y的函数关系
回归
回归描述的是通过自变量的数值反应因变量的平均水 平。因此可以通过可测或易测的变量估计难测或不 可测变量的状态。
例如:通过体重估计体表面积; 通过身高、体重、肺活量估计心室血输出 量、体循环总血量; 本章只涉及一个自变量的回归问题
3、计算有关指标的值 4、计算回归系数和截距 5、列出回归方程
绘制回归直线
此直线必然通过点( X , Y )且与纵坐标轴相 交于截距a 。如果散点图没有从坐标系原 点开始,可在自变量实测范围内远端取易 于读数的 值代入回归方程得到一个点的 坐标,连接此点与点( X , Y )也可绘出回归 直线。
最新《统计分析与SPSS的应用(第五版)》课后练习答案(第10章)
《统计分析与SPSS的应用(第五版)》(薛薇)
课后练习答案
第10章SPSS的聚类分析
1、根据“高校科研研究.sav”数据,利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。要求:
1)根据凝聚状态表利用碎石图对聚类类数进行研究。
2)绘制聚类树形图,说明哪些省市聚在一起。
3)绘制各类的科研指标的均值对比图。
4)利用方差分析方法分析各类在哪些科研指标上存在显著差异。
采用欧氏距离,组间平均链锁法
利用凝聚状态表中的组间距离和对应的组数,回归散点图,得到碎石图。大约聚成4类。步骤:分析→分类→系统聚类→按如下方式设置……
结果:
凝聚计划
阶段 组合的集群
系数 首次出现阶段集群 下一个阶段
集群 1
集群 2
集群 1
集群 2
1 26 30 328.189 0 0
2 2 26 29 638.295 1 0 7
3 20 25 1053.423 0 0 5
4 4 12 1209.922 0 0 1
5 5 8 20
1505.035 0 3 6 6 8 16 1760.170 5 0 9 7 24 26 1831.926 0 2 10 8 7 11 1929.891 0 0 11 9 5 8 2302.024 0 6 22 10 24 31 2487.209 7 0 22 11 2 7 2709.887 0 8 16 12 22 28 2897.106 0 0 19 13 6 23 2916.551 0 0 17 14 10 19 3280.752 0 0 25 15 4 21 3491.585 4 0 21 16 2 3 4229.375 11 0 21 17 6 13 4612.423 13 0 20 18 9 18 5377.253 0 0 25 19 14 22 5622.415 0 12 24 20 6 15 5933.518 17 0 23 21 2 4 6827.276 16 15 26 22 5 24 7930.765 9 10 24 23 6 27 9475.498 20 0 26 24 5 14 14959.704 22 19 28 25 9 10 19623.050 18 14 27 26 2 6 24042.669 21 23 28 27 9 17 32829.466 25 0 29 28 2 5 48360.854 26 24 29 29 2 9 91313.530 28 27 30 30
Chap10_SPSS_Logisti回归
参数检验
检验logistic回归模型参数的统计假设是:
H 0 : j 0 H 1 : j 0(j 1, 2,..., k )
检验上述统计假设常用的方法是 Ward 检验。当自变量个数较多 时,可以采用逐步回归分析方法来筛选自变量。 Walds检验是基于标准误估计值的单变量检验 他没有考虑其他因素的综合作用,当因素间存在共线性时结果 不可靠 故在筛选变量时,用Walds法应慎重
Hosmer和Lemeshow于1989年研究了低出生体重婴儿的影响因素,数 据见文件logistic_step.sav。 结果变量为是否娩出低出生体重儿(变量名为LOW,1,低出生体重, 即婴儿出生体重<2500克、0,非低出生体重),考虑的影响(自变量) 有: 产妇妊娠前体重(lwt,磅) 产妇年龄(age,岁) 产妇在妊娠期间是否吸烟(smoke,0=未吸、1=吸烟) 本次妊娠前早产次数(ptl,次) 是否患有高血压(ht,0=未患、1=患病) 子宫对按摩、催产素等刺激引起收缩的应激性(ui,0=无、1=有) 妊娠前三个月社区医生随访次数(ftv,次) 种族(race,1=白人、2=黑人、3=其他民族)
不吸烟(0) 吸
合
86 44
130
29 30
59
115 74
189
25.2% 40.5%
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第10章 简单线性回归分析
思考与练习参考答案
一、最佳选择题
1.如果两样本的相关系数21r r =,样本量21n n =,那么( D )。
A. 回归系数21b b = B .回归系数12b b < C. 回归系数21b b > D .t 统计量11r b t t = E. 以上均错
2.如果相关系数r =1,则一定有( C )。
A .总SS =残差SS
B .残差SS =回归
SS
C .总SS =回归SS
D .总SS >回归SS E.
回归MS =残差MS
3.记ρ为总体相关系数,r 为样本相关系数,b 为样本回归系数,下列( D )正确。
A .ρ=0时,r =0
B .|r |>0时,b >0
C .r >0时,b <0
D .r <0时,b <0 E. |r |=1时,b =1
4.如果相关系数r =0,则一定有( D )。
A .简单线性回归的截距等于0
B .简单线性回归的截距等于Y 或X
C .简单线性回归的残差SS 等于0
D .简单线性回归的残差SS 等于SS 总
E .简单线性回归的总SS 等于0
5.用最小二乘法确定直线回归方程的含义是( B )。
A .各观测点距直线的纵向距离相等
B .各观测点距直线的纵向距离平方和最小
C .各观测点距直线的垂直距离相等
D .各观测点距直线的垂直距离平方和最小
E .各观测点距直线的纵向距离等于零
二、思考题
1.简述简单线性回归分析的基本步骤。
答:① 绘制散点图,考察是否有线性趋势及可疑的异常点;② 估计回归系数;③ 对总体回归系数或回归方程进行假设检验;④ 列出回归方程,绘制回归直线;⑤ 统计应用。 2.简述线性回归分析与线性相关的区别与联系。
答:区别:
(1)资料要求上,进行直线回归分析的两变量,若X 为可精确测量和严格控制的变量,则对应于每个X 的Y 值要求服从正态分布;若X 、Y 都是随机变量,则要求X 、Y 服从双变量正态分布。直线相关分析只适用于双变量正态分布资料。
(2)应用上,说明两变量线性依存的数量关系用回归(定量分析),说明两变量的相关关系用相关(定性分析)。
(3)两个系数的意义不同。r 说明具有直线关系的两变量间相互关系的方向与密切程度,b 表示X 每变化一个单位所导致Y 的平均变化量。
(4)两个系数的取值范围不同:-1≤r ≤1,∞<<∞-b 。 (5)两个系数的单位不同:r 没有单位,b 有单位。 联系:
(1)对同一双变量资料,回归系数b 与相关系数r 的正负号一致。b >0时,r >0,均表示两变量X 、Y 同向变化;b <0时,r <0,均表示两变量X 、Y 反向变化。
(2)回归系数b 与相关系数r 的假设检验等价,即对同一双变量资料,r b t t =。由于相关系数r 的假设检验较回归系数b 的假设检验简单,故在实际应用中常以r 的假设检验代替b 的假设检验。
(3)用回归解释相关:由于决定系数2
R =SS 回 /SS 总 ,当总平方和固定时,回归平方
和的大小决定了相关的密切程度。回归平方和越接近总平方和,则2
R 越接近1,说明引入相关的效果越好。例如当r =0.20,n =100时,可按检验水准0.05拒绝H 0,接受H 1,认为两变量有相关关系。但2
R =(0.20)2=0.04,表示回归平方和在总平方和中仅占4%,说明
两变量间的相关关系实际意义不大。
3. 决定系数与相关系数的意义相同吗?如果不一样,两者关系如何?
答:现将相关系数、决定系数与Y 的总变异的关系阐释如下:假如在一回归分析中,回归系数的变异数回归SS =9,而Y 的总变异数总SS =13,则
决定系数2R =回归SS / 总SS =9/14=0.642 9/1,相关系数R =0.801 8
即将决定系数表示为一比值关系,当总SS = l 时,则回归SS = 0.642 9,我们可以采用直角三角形的“勾股定理”图示决定系数与相关系数的关系,如练习图10-1所示。
练习图10-1 相关系数、决定系数与总变异的关系
三、计算题
1. 以例10-1中空气一氧化氮(NO )为因变量,风速(X 4)为自变量,采用统计软件完成如下分析:
(1)试用简单线性回归方程来描述空气中NO 浓度与风速之间的关系。 (2)对回归方程和回归系数分别进行假设检验。 (3)绘制回归直线图。
(4)根据以上的计算结果,进一步求其总体回归系数的95%置信区间。
(5)风速为1.50 m/s时,分别计算个体Y值的95%容许区间和Y的总体均数的95%置信区间,并说明两者的意义。
解:运用SPSS进行处理,主要分析结果如下:
(1)简单线性回归方程、假设检验结果及总体回归系数的95%置信区间如下:Coefficients(a)
(2)方差分析结果:
ANOVA(b)
(3)回归直线如练习图10-2。
练习图10-2 回归直线图
2. 教材表10-8为本章例10-1回归分析的部分结果,依次为X、Y、Y的估计值(Yˆ)与残差(e),请以相关分析考察四者之间的关系,以回归分析考察Yˆ与X、Y与Yˆ、Y与-与X之间的关系,并予以解释。
Yˆ
-、Y
Y
Yˆ
教材表10-8 案例分析中回归分析的部分结果
X Y YˆY
-X Y YˆY
Yˆ
-
Yˆ
Yˆ
-X Y YˆY
1.300.070.070 7-0.004 7 1.200.100.054 80.045 2 1.120.040.041 5-0.002 5 1.440.080.093 5-0.017 5 1.480.130.098 60.030 4 1.660.060.127 1-0.068 1
0.790.00-0.010 80.011 8 1.820.140.153 1-0.018 1 1.540.090.108 1-0.021 1
1.650.170.126 50.043 5 1.440.100.092 20.006 80.960.040.016 80.022 2 1.760.160.142 90.013 10.950.010.014 9-0.009 9 1.780.220.147 40.074 6 1.750.120.142 6-0.022 6 1.440.010.092 9-0.081 9 1.500.150.101 70.043 3 1.200.040.054 8-0.014 8 1.080.000.036 5-0.033 5 1.060.030.032 7-0.003 7 1.500.120.102 40.017 6 1.840.140.156 9-0.016 9 1.440.100.092 20.006 8
解:主要分析结果:
(1)四者之间的相关系数
Correlations