统计案例复习
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的 不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的 频数表 ,称
为列联表.假设有两个分类变量X和Y,它们的可能 取值分别为{x1,x2}和{y1,y2},其样本频数列联 表(称为2×2列联表)为 2×2列联表 y1 x1 x2 总计 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d
为两个变量有很强的线性相关性.
2.残差分析
(1)总偏差平方和 把每个效应(观测值减去总的平均值)的平方加 起来即:
i 1
( yi y )
n
2
.
(2)残差 数据点和它回归直线上相应位置的差异(yi- yi ) ˆ
ˆ ˆ 是 随机误差的效应,称 ei yi yi 为残差.
(3)残差平方和
=140.8-125=15.8,
12.3 12.3 12.3 12.3 0.987. ∴r= 10 15.8 158 2 79 1.4 8.9 ④|r|=0.987>0.878,即|r|>r0.05,
所以有95%的把握认为“x与y之间具有线性相关关
系”,去求线性回归方程是有意义的.
(1)求 x , y ; (2)对x,y进行线性相关性检验; (3)如果x与y具有线性相关关系,求出线性回归方 程; (4)估计使用年限为10年时,维修费用约是多少?
(3)如果x与y具有线性相关关系,求出线性回归方
程; (4)估计使用年限为10年时,维修费用约是多少? 思维启迪 (1)先根据已知计算相关系数r,判断 是否具有相关关系. (2)再利用公式求出回归方程进行回归分析. 解 (1) x 2 3 4 5 6 4. 5 2.2 3.8 5.5 6.5 7.0 y 5. 5
题型二
非线性回归分析
【例2】下表是某年美国旧轿车价格的调查资料,以
x表示轿车的使用年数,y表示相应的年均价格,求
y关于x的回归方程.
使用年 数x
年均价 格y(美 元) 1 2 3 4 5 6 7 8 9 10
2 651 1 943 1 494 1 087 765
538
484
290
226
204
思维启迪
112.3 5 4 5 ˆ i 1 (3)b 1.23, 5 2 2 2 90 5 4 xi 5 x
i 1
xi yi 5 x y
5
ˆ a y b x 5 1.23 4 0.08. ˆ
所以线性回归方程为 y =1.23x+0.08. ˆ
解析
r>0且丁最接近1,残差平方和越小,相关性
越高,故选D.
3.已知x、y之间的数据如表所示,则回归直线过点
( D )
x y A.(0,0) 解析 1.08 2.25 1.12 2.37 1.19 2.40 C.(0, y ) 1.28 2.55 D.( x , y )
B.( x ,0)
回归直线过样本点的中心( x , y ).
x增大时,y相应减小,故②错误.|r|越接近1,表示两 个变量相关性越高,|r|=1表示两个变量有确定的关系
(即函数关系),故③正确.
5.在一项打鼾与患心脏病的调查中,共调查了1 671
人,经过计算K2=27.63,根据这一数据分析,我
有关 们有理由认为打鼾与患心脏病是 无关). 解析 ∵K2=27.63>10.828, ∴有99.9%的把握认为“打鼾与患心脏病有关”. 的(有关,
(2)步骤如下: ①作统计假设H0:x与y不具有线性相关关系. ②n-2=3时,r0.05=0.878.
5
③ xi yi 5 x y =112.3-5×4×5=12.3,
i 1 2 2 xi 5 x i 1 5 2 2 yi 5 y i 1 5
=90-5×42=10,
题型一
线性回归分析
【例1】假设关于某种设备的使用年限x(年)与所支 出的维修费用y(万元)有如下统计资料: x y 已知 2 2.2
2 xi i 1 5
3 3.8
90,
5 i 1
4 5.5
5 i 1
5 6.5
6 7.0
yi2
140.8, xi yi 112.3,
79 8.9, 2 1.4
这时我们可以画出已知数据的散点图,把它与学过 的各种函数(幂函数、指数函数、对数函数等)图 象作比较,挑选一种跟这些散点拟合得最好的函数,
然后采用适当的变量置换,把问题化为线性回归分
析问题,使之得到解决.
题型三 独立性检验
在对人们休闲方式的一次调查中,共调查了124人, 其中女性70人,男性54人.女性中有43人主要的休 闲方式是看电视,另外27人的休闲方式是运动;男 性中有21人主要的休闲方式是看电视,另外33人主
2.独立性检验没有直观性,必须依靠K2的观测值作判
断.
失误与防范
1.r的大小只说明是否相关并不能说明拟合效果的好 坏,R2才是判断拟合效果好坏的依据. 2.独立性检验的随机变量K2=2.706是判断是否有关系 的临界值,K2<2.706应判断为没有充分证据显示
X与Y有关系
一、选择题
1.下列四个命题: ①线性相关系数r越大,两个变量的线性相关性越 强;反之,线性相关性越弱; ②残差平方和越小的模型,模型拟合的效果越好; ③用相关指数R2来刻画回归效果,R2越小,说明模 型的拟合效果越好; ④在推断H:“X与Y有关系”的论述中,用三维柱 形图,只要主对角线上两个柱形高度的比值与副 对角线上的两个柱形高度的比值相差越大,H成立 的可能性就越大. 其中真命题的个数是( A.1 B.2 C.3 D.4 )
其中真命题的个数是
A.1
解析 ②正确.
B.2
C.3
( A ) D.4
①r有正负,应为|r|越大,相关性越强.
③R2越大,拟合效果越好. ④应为高度积的差的绝对值越大,H成立的可能性就 越大,故选A.
2.对两个变量y与x进行回归分析,分别选择不同的模型,
它们的相关系数r如下,其中拟合效果最好的模型是 ( A ) A.模型Ⅰ的相关系数r为0.98 B.模型Ⅱ的相关系数r为0.80
相应的散点图如图所示,从图中可以看出,变换的 样本点分布在一条直线附近,因此可以用线性回归 方程拟合.
由表中数据可得r≈-0.996.|r|>0.75.认为x与z之
ˆ 间具有线性相关关系,由表中数据得 b ≈-0.298,
ˆ a ≈8.165,所以 z =-0.298x+8.165,最后回代 ˆ
ˆ z =ln y ,即 y =e-0.298x+8.165为所求. ˆ ˆ 探究提高 非线性回归问题有时并不给出经验公式.
2 n 2 i 1
n
①r=
( xi x) ( yi y )
i 1
xi yi n x y n x )( yi2 n y )
i 1 2 n 2
n
( xi2 i 1
n
正相关 ; ②当r >0时,表明两个变量 负相关 . 当r <0时,表明两个变量 r 的绝对值越接近于1,表明两个变量的线性相关性 越强 .r 的绝对值越接近于0时,表明两个变量之间 几乎不存在线性相关关系.通常|r|大于 0.75 时,认
统计案例
基础知识
要点梳理
1.回归分析 (1)定义:对具有相关关系 的两个变量进行统计 分析的一种常用方法. (2)随机误差:线性回归模型用y=bx+a+e表示, 其 中a和b为模型的 (3)样本点的中心
自主学习
未知参数
,
e 称为随机误差.
在具有线性相关关系的数据(x1,y1), (x2,y2),
„,(xn,yn)中,回归方程的截距和斜率的最小二乘
由已知表格先画出散点图,可以看出随
着使用年数的增加,轿车的平均价格在递减,但不 在一条直线附近.但据此认为y与x之间具有线性相关 关系是不科学的,要根据图形的形状进行合理转化, 转化成线性关系的变量间的关系.
解
作出散点图如图所示.
可以发现,各点并不是基本处于一条直线附近,因
此,y与x之间应是非线性相关关系.与已学函数图象
要的休闲方式是运动.
(1)根据以上数据建立一个2×2列联表; (2)画出二维条形图;
(3)检验休闲方式是否与性别有关,可靠性有多大.
解
(1)2×2列联表如图:
休闲方式
看电视
性别 女 男 合计 43 21 64
运动
27 33 60
合计
70 54 124
(2)二维条形图如图:
(3)假设休闲方式与性别无关,则
比较,用 y e ˆ
ˆ ˆ bx a
来刻画题中模型更为合理,令 z ˆ
ln y ,则 z bx a ,题中数据变成如下表所示: ˆ ˆ ˆ ˆ
x z
1 7.883
2 7.572
3 7.309
4
5
6
7
8 5.670
9
10
6.991 6.640
6.288 6.182
5.421 5.318
(4)当x=10时,y =1.23×10+0.08=12.38(万元), ˆ
即估计使用10年时,维修费用约为12.38万元. 探究提高 在解决具体问题时,要先进行相关性检
验,通过检验确认两个变量是否具有线性相关关系.
若它们之间具有相关关系,再求回归方程,否则, 即使求出回归方程也是毫无意义的,而且用其估计和 预测的量也是不可信的.
D.两个变量之间是否存在关系
解析 相关系数来衡量两个变量之间线性相关关 系的强弱.
2.甲、乙、丙、丁四位同学各自对A、B两变量的线性
相关性作试验,并用回归分析方法分别求得相关系
数r与残差平方和m如下表: 甲 乙 丙 丁
r
m
0.82
115
0.78
106
0.69
124
ห้องสมุดไป่ตู้
0.85
103
则哪位同学的试验结果体现A、B两变量更强的线性 相关性? A.甲 B.乙 C.丙 ( D ) D.丁
ˆ b
i 1
( xi x)( yi y )
i 1
n
( xi x)
n
2
,
a ˆ
ˆ y bx
.
其中 x
1n xi n i 1
, y
1n yi n i 1
, ( x, y )
称
为样本点的中心. (4)相关系数
i 1 n i 1
( xi x)( yi y )
4.下列说法中正确的有:①若r>0,则x增大时,y也相应
增大;②若r<0,则x增大时,y也相应增大;③若r=1
或r=-1,则x与y的关系完全对应(有函数关系),在 散点图上各个点均在一条直线上 A.①② 解析 B.②③ C.①③ D.①②③ ( C)
若r>0,表示两个相关变量正相关,x增大时,y
也相应增大,故①正确.r<0,表示两个变量负相关,
i 1
( yi yi ) 2 ˆ
n
.
(4)相关指数
R2 =
1 i 1 n 2 ( yi y )
i 1
ˆ ( yi yi )
n
2
.
R2的值越大,说明残差平方和 越小 ,也就是说模型 的拟合效果越好.在线性回归模型中,R2表示解释变 量对预报变量变化的贡献率,R2越接近于1,表示回 归的效果越好. 3.独立性检验 (1)分类变量:变量的不同“值”表示个体所属
n(ad bc) 2 构造一个随机变量K2= (a b)(c d )(a c)(b d ), 其
中n= a+b+c+d 为样本容量. (3)独立性检验
利用随机变量 K2 来确定是否能以一定把握认为“两
个分类变量 有关系 ”的方法称为两个分类变量的独 立性检验.
基础自测
1.相关系数度量 A.两个变量之间线性相关关系的强度 B.散点图是否显示有意义的模型 C.两个变量之间是否存在因果关系 ( A )
124 (43 33 27 21) 2 K2 = 6.201 5.024, 70 54 64 60 所以有理由认为休闲方式与性别无关是不合理的,
即我们有97.5%的把握认为休闲方式与性别有关.
思想方法
感悟提高
方法与技巧
1.线性回归分析以散点图为基础,具有很强的直观 性,有散点图作比较时,拟合效果的好坏可由直 观性直接判断,没有散点图时,只须套用公式求 r,R2再作判断即可.
C.模型Ⅲ的相关系数r为0.50
D.模型Ⅳ的相关系数r为0.25 解析 根据相关系数的定义和计算公式可知,|r|
≤1,且|r|越接近于1,相关程度越大,拟合效果
越好;|r|越接近于0,相关程度越小,拟合效果 越弱,所以A正确.
3.下列说法: ①将一组数据中的每个数据都加上或减去同一个 常数后,方差恒不变;