第四节 统计案例-高考状元之路
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四节 统计案例
预习设计 基础备考
知识梳理 1.回归分析
在具有线性相关关系的数据),(,),,(),,(2211n n y x y x y x 中,回归方程的截距和斜率的最小二乘估计分
别为=---=∑∑==a
x x
y y x x
b
i
n
i i i
n
i ˆ,)()
)((ˆ2
1
1
其中=
x =y
, 称为样本点的中心,线性回归方程为
2.残差分析
(1)残差:对于样本点),,(,),,(),,(2211n n y x y x y x 它们的随机误差为,,,2,1,.n i a bx y e i i i =--=
其估计值为-=-=i i i y i y y e ˆˆi xi
e n i a b ˆ.,,2,1,ˆˆ =-称为相应于点)(i i y x 的残差. (2)残差平方和
(3)相关指数,)
()ˆ(12
1
2
1
12
y y i y
y
R i
n i i
n
---
=∑∑==2
21
2
1((1
1
y n y x n x i n
i i y
x n y
x r n
i i
i n
i -∑-∑∑=-=
==
2R 越大,意味着残差平方和 ,即模型的拟合效果 2R 越小,残差平方和 ,
即模型的拟合效果 在线性回归模型中,2
R 表示解释变量对于预报变量变化的贡献率,2
R 越近接于1,表示回归的效果
3.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出的两个分类变量的 称为列联表.假设有两个分类变量X 和y ,它们的可能取值分别为},{21x x 和},,{21y y 其样本频数列联表(称为2×2列联表)为2×2列联表
构造一个随机变量⋅++++-=
)
)()()(()(2
2
d b c a d c b a bc ad n K 其中=
n 为样本容量. (3)独立性检验:
利用随机变量 来判断“两个分类变量 ”的方法称为独立性检验.
典题热身
1.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是 ( ) A .残差 B .残差的平方和 C .随机误差 D .相关指数2
R 答案:B
2.对于事件A 和事件B ,通过计算得到2
K 的观测值≈k ,514.4下列说法正确的是
A .在犯错误的概率不超过0.01的前提下认为事件A 和事件
B 有关 B .在犯错的概率不超过0.05的前提下认为事件A 和事件B 有关
C .在犯错的概率不超过0. Ol 的前提下认为事件A 和事件B 无关
D .在犯错误的概率不超过0.05的前提下认为事件A 和事件B 无关 答案:B
3.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2
R 如下,其中拟合效果最好的模型是 ( )
A .模型1的相关指数2
R 为O.98 B .模型2的相关指数2
R 为0.80 C .模型3的相关指数2
R 为0.50 D .模型4的相关指数2
R 为0.25 答案:A
( )
)0,0.(A )8.1,2.(B )5.2,3.(c )2.3,4.(D
答案:C
5.(2011.莱芜模拟)在一项打鼾与患心脏病的调查中,共调 查了l 671人,经过计算2
K 的观测值
,63.27=k 根据这一数据分析,我们有理由认为打鼾与患心脏病是
答案:有关
课堂设计 方法备考
题型一 线性回归分析
【例1】假设关于某种设备的使用年限x(年)与所支出的维修费用y (万元)有如下统计资料:
已知
,3.112,8.140,905
1
251
2
5
1
===∑∑∑===
i i i i i i
t y x y x
.878.0,32,4.12,9.87905.0==-≈≈r n 时
(1)求⋅y x ,
(2)对x ,y 进行线性相关性检验;
(3)如果x 与y 具有线性相关关系,求出线性回归方程; (4)估计使用年限为10年时,维修费用约是多少?
题型二 非线性回归分析
【例2】下表是某年美国旧轿车价格的调查资料,今以x 表示轿车的使用年数,y 表示相应的年均价格,
题型三 独立性检验
【例3】 (2011.山东模拟)在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关.你所得到的结论在什么范围内有效?
技法巧点
(1)线性回归分析以散点图为基础,具有很强的直观性,有散点图作比较时,拟合效果的好坏可由直观性直接判断,没有散点图时,只需套用公式求2,R r 再作判断即可. (2)独立性检验没有直观性,必须依靠2
K 的观测值k 作判断.
失误防范
1.r 的大小只说明是否相关并不能说明拟合效果的好坏,2
R 才是判断拟合效果好坏的依据.
2.独立性检验的随机变.量706.22
=K 是判断是否有关系的临界值,706.22
<K 应判断为没有充分证据显示X 与y 有关系,而不能作为小于90%的量化值来判断
随堂反馈
1.(2009.临沂模拟)在对两个变量x ,y 进行线性回归分析时有下列步骤:
①对所求出的回归方程作出解释;②收集数据=i y x i i },,{;,,2,1n ③求线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图,如果根据可靠性要求能够作出变量x ,y 线性相关的结论,则在下列操作顺序中正确的是 ( )
A .①②⑤③④ B.③②④⑤① C .②④③①⑤ D.②⑤④③① 答案:D
2.已知回归方程,12ˆ+=x y
而试验得到一组数据(x ,y)是(2,4.9),(3,7.1),(4,9.1),则残差平方和是 ( )
01.0.A 02.0.B 03.0.C 04.0.D 答案:C
3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到下表:
已知.025.0)024.5(,05.0)841.3(22≈≥≈≥K P K p
根据表中数据,得到.844.430
202723)7102013(502
2
≈⨯⨯⨯⨯-⨯⨯=
K 则认为选修文科与性别有关系出错的可能性为
答案:5%
高效作业 技能备考
一、选择题
1.(2011.江西高考)变量X 与y 相对应的一组数据为,10(),2,3.11(),1),3,8.11();5,13(),4,5.12(变量U 与y 相对应的一组数据为),2,5.12(),3,8.11(),4,3.11(),5,10(1).1,13(r 表示变量y 与X 之间的线性相关系数,2r 表示变量V 与U 之间的线性相关系数,则 ( )
0.12<<r r A 120.r r B << 120r r C <<⋅ 12.r r D =
答案:C
2.(2011.深圳模拟)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:
则哪位同学的试验结果体现A 、B 两变量有更强的线性相关性 ( )
A .甲
B .乙
C .丙
D .丁 答案:D
3.(2011.巢湖月考)下列说法:
①将一组数据中的每个数都加上或减去同一个常数后,方差不变;
②设有一个回归方程,53ˆx y
-=变量x 增加一个单位时,y 平均增加5个单位; ③线性回归方程.ˆˆˆa x b y
+=必过点);,( ④曲线上的点与该点的坐标之间具有相关关系;
⑤在一个2×2列联表中,由计算得,079.132
=K 则其两个变量间有关系的可能性是90%. 其中错误的个数是( )
1.A
2.B
3.C
4.D 答案:C
4.(2011.菏泽月考)下面是2×2列联表:
则表中a ,b 的值分别为( ) 答案:C
5.(2011.东营模拟)若变量y 与x 之间的相关系数=r ,9362.0-查表得到相关系数临界值,8013.005.0=r 则变量y 与x 之间
A .不具有线性相关关系
B .具有线性相关关系
C .它们的线性关系还要进一步确定
D .不确定 答案:B
6.(2011.湖州调研)冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如下表所示.
根据以上数据,则
A .含杂质的高低与设备改造有关
B .含杂质的高低与设备改造无关
C .设备是否改造决定含杂质的高低
D .以上答案都不对 答案:A
7.(2011.湖南高考)通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列联表:
由)
)()()(()(22
d b c a d c b a bc ad n K ++++-=算得,8.750605060)30203040(11022
≈⨯⨯⨯⨯-⨯⨯=K 附表:
参照附表,得到的正确结论是 ( )
A .有99%以上的把握认为“爱好该项运动与性别有关”
B .有99%以上的把握认为“爱好该项运动与性别无关”
C .在犯错误韵概率不超过O.1%的前提下,认为“爱好该项运动与性别有关”
D .在犯错误的概率不超过O.l%的前提下,认为“爱好该项运动与性别无关” 答案:A
二、填空题
8.(2011.惠州模拟)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的
跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
试根据上述数据计算=2
K (保留两位小数)
比较这两种手术对病人又发作心脏病的影响有没有差别,
答案:1.78不能作出这两种手术对病人又发作心脏病的影响有差别的结论
9.(2011.马鞍山模拟煤高校“统计初步”课程的教师随机调查了选该课程的一些学生的情况,具体数据如下表:
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到
,841.3,844.430
202723)7102013(5022
2
≥≈⨯⨯⨯⨯-⨯⨯=K K 因为所以判定主修统计专业与性别有关系,那
么这种判断出错的可能性为 答案:5%
三、解答题
10.(2010.菜芜模拟)对某校学生进行心理障碍测试得到如下表:
试说明在这三种心理障碍中哪一种与性别关系最大.
11.(2011.潍坊模拟)某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计
数据如下表所示:
(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?
(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关?并说明理由.
12.某研究机构为了研究人的脚的大小(码)与身高(cm)之间的关系,随机抽测了20人,得到如下数据:
(1)若“身高大于175 cm”的为“高个”,“身高小于等于175 cm”的为“非高个”;“脚长大于42码”的为“大脚”,“脚长小于等于42码”的为“非大脚”,请根据上表数据完成如下的2×2列联表;
(2)根据题(1)中表格的数据,若按99%的可靠性要求,能否认为脚的大小与身高之间有关系?。