第3讲 变量间的相关关系与统计案例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3讲 变量间的相关关系与统计案例
【2013年高考会这样考】
以选择题或填空题的形式考查回归分析及独立性检验中的基本思想方法及其简单应用. 【复习指导】
高考在该部分的主要命题点就是回归分析和独立性检验的基础知识和简单应用.复
习时要掌握好回归分析和独立性检验的基本思想、方法和基本公式.
基础梳理
1.相关关系的分类
从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关. 2.线性相关
从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. 3.回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据: (x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b
^x +a ^,则 ⎩⎪
⎨⎪⎧
b ^=∑i =1n (x i
-x )(y i
-y )∑i =1n (x i
-x )2
=
∑i =1n
x i y i
-n x
y
∑i =1
n
x 2i
-n x
2
,
a
^=y -b ^ x .
其中,b 是回归方程的斜率,a 是在y 轴上的截距. 4.样本相关系数
r=
∑
i=1
n
(x i-x)(y i-y)
∑
i=1
n
(x i-x)2∑
i=1
n
(y i-y)2
,用它来衡量两个变量间的线性相关关系.
(1)当r>0时,表明两个变量正相关;
(2)当r<0时,表明两个变量负相关;
(3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.
5.线性回归模型
(1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差.
(2)相关指数
用相关指数R2来刻画回归的效果,其计算公式是:R2=,R2的值越大,说明残差
平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.
6.独立性检验
(1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教信仰,国籍等.
(2)列出的两个分类变量的频数表,称为列联表.
(3)一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
2×2列联表
y1y2总计
x1 a b a+b
x2 c d c+d
总计a+c b+d a+b+c+d
K2=n(ad-bc)2
(a+b)(a+c)(c+d)(b+d)
(其中n=a+b+c+d为样本容量),可利用独立性检验
判断表来判断“x与y的关系”.
这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
两个规律
(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.
(2)当K2≥3.841时,则有95%的把握说事A与B有关;
当K2≥6.635时,则有99%的把握说事件A与B有关;
当K2≤2.706时,则认为事件A与B无关.
三个注意
(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.
(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.(3)独立性检验的随机变量K2=3.841是判断是否有关系的临界值,K2≤3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值来判断.
双基自测
1.(人教A版教材习题改编)下面哪些变量是相关关系().
A.出租车车费与行驶的里程B.房屋面积与房屋价格
C.身高与体重D.铁块的大小与质量
解析A,B,D都是函数关系,其中A一般是分段函数,只有C是相关关系.
答案 C
2.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(u i、v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断
().
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析由题图(1)可知,各点整体呈递减趋势,x与y负相关;由题图(2)可知,各点整体呈递增趋势,u与v正相关.
答案 C
3.(2012·南昌模拟)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是().
A.y^=-10x+200
B.y^=10x+200
C.y^=-10x-200
D.y^=10x-200
解析因为销量与价格负相关,由函数关系考虑为减函数,又因为x,y不能为负数,再排除C,故选A.
答案 A
4.(2012·枣庄模拟)下面是2×2列联表:
y1y2合计
x1 a 2173
x2222547
合计 b 46120
则表中a,b的值分别为().
A.94,72 B.52,50 C.52,74 D.74,52
解析∵a+21=73,∴a=52,又a+22=b,∴b=74.
答案 C
5.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K2的观测值k =27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,