高考数学(理)一轮复习课件:统计与概率-3变量间的相关关系与统计案例(人教A版)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十章 统计与概率
第3课时 变量间的相关关系与统计案例
考纲下载 1.会作两个有关联变量的数据的散点图,会利用散点 图认识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方 程系数公式建立线性回归方程.
3.了解独立性检验(只要求 2×2 列联表)的基本思想、 方法及其简单应用.
4.了解回归分析的基本思想、方法及其简单应用.
y2 总计
x1
a
x2
2
总计 b
21 73 25 27 46
则表中a、b处的值分别为( )
A.94、96
B.52、50
C.52、54
D.54、52
答案:C 解析:a=73-21=52,b=a+2=54,故选C.
5. [原创]某医疗研究所为了了解某种血清预防感冒的 作用,把 500 名使用过血清的人与另外 500 名未使用血清 的人一年中的感冒记录作比较,提出假设 H0:“这种血清 不能起到预防感冒的作用”,利用 2×2 列联表计算得 K2 ≈3.918,经查临界值表知 P(K2≥3.841)≈0.05.则下列结论 中,正确结论的序号是________.
x1 x2 总计
y1 a c a+c
y2 b d b+d
总计 a+b c+d a+b+c+d
随机变量 K2=(a+b)(cn+(da)d-(bac+)c2)(b+d), 其中 n=a+b+c+d 为样本容量.
(3)独立性检验 利用随机变量 K2 来确定在多大程度上可以认为“两
个分分类类变变量量有有关关系系”的方法称为两个分类变量的独立性
nn
(xi - x )(y i- y )
ii==11
为:^b=
, ^a=y-y---^b^bx-x- .
n
(xi- x )2
i==1
其中x-=n1i=n1xi,-y=n1i=n1yi,((x-x-,,-yy-))称为样本点的中心,
线性回归方程为^y=^bx+^a . 5.残差分析 (1)残差:对于样本点(x1,y1),(x2,y2),…,(xn,
请注意! 1.以考查线性回归系数为主,同时可考查利用散点 图判断两个变量间的相关关系. 2.以实际生活为背景,重在考查回归方程的求法.
高考考点预览
■ ·考点梳理· ■
正相关:点散布在从左下角 到右上角 的区域. 1.两个变量的相关关系负相关:点散布在从左上角 到右下角 的区域. 2.线性相关关系与回归直线 如果散点图中点的分布从整体上看大致在一条直线附
线性回归分析
例2 [2012·淄博模拟]某种产品的宣传费支出x与销 售额y(单位:万元)之间有如下对应数据:
x2456 8 y 30 40 60 50 70 (1)画出散点图; (2)求回归直线方程; (3)试预测宣传费支出为10万元时,销售额多大?
[思路点拨]
画散 点图
二―最―乘小→法
求回归 方程
1. [2010·湖南]某商品销售量y(件)与销售价格x(元/ 件)负相关,则其回归方程可能是( )
A.^y=-10x+200
B.^y =10x+200
C.^y=-10x-200
D.^y=10x-200
答案:A
解析:由图象知选项B、D为正相关,选项C不符合实 际意义,故选A.
2. [2012·山东聊城市模拟]已知x、y的取值如下表所
ii==11
(3)相关指数 R2=1--
.
nn
((yyi-i-yy))22
ii==11
R2 越大,意味着残差平方和越小,即模型的拟合效果 越好.R2 越小,残差平方和越大,即模型的拟合效果越 差.在线性回归模型中,R2 表示解释变量对于预报变量变 化的贡献率,R2 越接近于 1,表示回归的效果越好.
我们将这个方程叫做回归直线方程,^a、^b叫做回归系 数,相应的直线叫做回归直线.
②最小二乘法 使总体偏差 Q=(y1-bx1-aa))22++((yy22--bbxx22--aa))22++……++ (ynn-bxnn-a)22 为最小的方法,叫做最小二乘法.
4.回归分析
在具有线性相关关系的数据(x1,y1),(x2,y2 ),…, (xn,yn)中,回归方程的斜率和截距的最小二乘估计分别
④对分类变量X与Y,它们的随机变量K2的观测值k
越小,“X与Y有关系”的把握程度越大.其中正确的命
题是( )
A.①④
B.②③
C.①③
D.②④
答案:B
解析:①中抽样间隔相同,应是系统抽样;④中K2
的观测值越大,“X与Y有关系”的把握程度越大,故应
选②③.
4. [教材改编]下面是一个2×2列联表
y1
①有95%的把握认为“这种血清能起到预防感冒的 作用”;
②若某人未使用该血清,那么他在一年中有95%的 可能性得感冒;
③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.
答案:①
解析:因为 K2≈3.918≥3.841,而 P(K2≥3.814)≈0.05, 所以有 95%的把握认为“这种血清能起到预防感冒的作 用”.要注意我们检验的是假设是否成立和该血清预防感 冒的有效率是没有关系的,不是同一个问题,不要混淆.
→
结合方程进 行回归分析
[解] (1)根据表中所列数据可得散点图如图所示:
(2)计算得:x-=255=5,-y=2550=50,
5
5
x2i =145, x iyi=1380.
i=1
i=1
5
xiyi-5 x y
i=1
于是可得^b=
5
=138104-5-5×5×5×52 50
xi2-5 x 2
近,就称这两个变量之间具有线性相关关系.这条直线
叫做回归直线.
思考:相关关系与函数关系有什么异同点? 提示:相同点:两者均是指两个变量的关系. 不同点:①函数关系是一种确定的关系,相关关系 是一种非确定的关系.②函数关系是一种因果关系,而 相关关系不一定是因果关系,也可能是伴随关系.
3.回归直线方程与最小二乘法 ①n 个观测值的 n 个点大致分布在一条直线的附近, 若所求的直线方程为^y=^^bbxx++^^aa,则
示:
x23 4 y 64 5 如果y与x呈线性相关,且线性回归方程为 ^y =bx+
123,则b=( )
A.-12
1 B.2
C.-110
1 D.10
答案:A
解析:∵x-=3,-y=5,
回归直线过点(x,y), ∴5=3b+123,∴b=-12.
3. [2012·厦门一模]以下四个命题: ①从匀速传递的产品生产流水线上,质检员每20分 钟从中抽取一件产品进行某项指标检测,这种抽样是分 层抽样; ②两个随机变量相关性越强,则相关系数的绝对值 越接近于1; ③在回归直线方程 ^y =0.2x+12中,当解释变量x每 增加1个单位时,预报变量^y 平均增加0.2个单位;
图;②求x-,-y,n
n
x2 i,
xiyi;③求^a,^b;④得回归直线
i=1
i=1
方程. (2)求回归直线方程前应先进行相关性检验,可以用观
察所得到的数据作散点图进行直观验证,也可用相关系数 r 进行检验,只有检验后求出的回归方程才有意义,才能 作预报工作.
[变式探究 2] 某车间为了规定工时定额,需要确定 加工零件所花费的时间,为此作了四次试验,得到的数据 如下:
yn),它们的随机误差为 ei=yi-bxi-a,i=1,2,…,n, 其估计值为^ei=yi-^yi=yi-^bxi-^a,i=1,2,…,n, ^ei 称为相应于点(xi,yi)的残差.
(2)残差平方和nn ((yyii--^y^y ii))22. ii==11
nn
((yyii --
i=1
解:(1)散点图如下图.
4
(2)由表中数据得
xiyi=52.5, x- =3.5, -y =3.5,
i=1
4
xi2=54,
i=1
∴b=0.7.∴a=1.05.
∴^y =0.7x+1.05.回归直线如图所示.
(3)将x=10代入回归直线方程得,y=0.7×10+1.05 =8.05(小时),
[温馨提示] 函数关系是一种理想的关系模型,而相 关关系是一种更为一般的情况.
[变式探究1] [2012·苏州模拟]观察下列各图形:
其中两个变量x、y具有相关关系的图是( )
A.①②
B.①④
C.③④
D.②③
答案:C
解析:相关关系有两种情况:所有点看上去都在一 条直线附近波动,是线性相关;若所有点看上去都在某 条曲线(不是一条直线)附近波动,是非线性相关.①② 是不相关的,而③④是相关的.故选C.
检验.
思考:在独立性检验中经常由 K2 得到观测值 k,则 k = K2吗?
提示:K2 与 k 的关系并不是 k= K2,k 是 K2 的观测 值,或者说 K2 是一个随机变量,它在 a,b,c,d 取不同 值时,K2 可能不同,而 k 是取定一组数 a,b,c,d 后的 一个确定的值.
■ ·考点自测· ■
根据上述数据,画出散点图并判断居民的身高和体重 之间是否有相关关系.
[思路点拨] 建立直角坐标系 → 描点 →
判断两变量的关系
[解] 以x轴表示身高,y轴表示体重,可得到相应的 散点图如图所示:
由散点图可知,两者之间具有相关关系,且为正相 关.
[规律总结] 在散点图中,如果所有的样本点都落在 某一函数的曲线上,就用该函数来描述变量之间的关 系,即变量之间具有函数关系.如果所有的样本点都落 在某一函数的曲线附近,变量之间就有相关关系.如果 所有的样本点都落在某一直线附近,变量之间就有线性 相关关系.
∴预测加工10个零件需要8.05小时.
独立性检验
例3 某企业有两个分厂生产某种零件,按规定内径
尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质
品,从两个分厂生产的零件中各抽出了500件,量其内径
尺寸,得结果如下表:
甲厂:
[29.86, 分组
29.90)
频数 12
[29.90, [29.94, [29.98, [30.02, [30.06, [30.10, 29.94) 29.98) 30.02) 30.06) 30.10) 30.14)
高考测点典例研习
散点图与相关关系的判定 例1 [教材改编]在某地区的12~30岁居民中随机抽取 了10个人的身高和体重的统计资料如下表:
身高(cm) 143 156 159 172 165 171 177 161 164 160 体重(kg) 41 49 61 79 68 69 74 69 68 54
i=1
=6.5,
^a=-y-^bx-=50-6.5×5=17.5,
因此,所求回归直线方程是 ^y=6.5x+17.5. (3)由上面求得的回归直线方程可知,当宣传费支出为 10 万元时,^y=6.5×10+17.5=82.5(万元), 即这种产品的销售额大约为 82.5 万元.
[规律总结] (1)求回归直线方程的步骤是:①作散点
(2)由以上统计数据填下面 2×2 列联表,并问是否有
99%的把握认为“两个分厂生产的零件的质量有差异”.
甲厂 乙厂 合计
优质品
非优质品
合计
附:χ2=nn(1++n11nn22+2+-nn+121n+21n)+22, P(χ2≥k) 0.05 0.01
k
3.841 6.635
[解] (1)甲厂抽查的产品中有 360 件优质品,从而甲 厂生产的零件的优质品率估计为356000=72%;
零件的个数 x(个) 2 3 4 5 加工的时间 y(小时) 2.5 3 4 4.5
(1)在给定的坐标系中画出表中数据的散点图;
(2)求出y关于x的线性回归方程 ^y =bx+a,并在坐标 系中画出回归直线;
(3)试预测加工10个零件需要多少时间?
n
xiyi-n x y
i=1
(注:b=
, a=y--bx-)
6.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不不同
类别,像这类变量称为分类变量.
(2)列联表:列出的两个分类变量的频频数数表表,称为列联
表.假设有两个分类变量 X 和 Y,它们的可能取值分别为
{x1,x2}和{y1,y2},其样本频数列联表(称为 2×2 列联
表)为
2×2 列联表
63
86
182
92
61
4
乙厂:
[29.86, [29.90, [29.94, [29.98, [30.02, [30.06, [30.10, 分组
29.90) 29.94) 29.98) 30.02) 30.06) 30.10) 30.14)
频数 29
71
85
159
76
62
18
(1)试分别估计两个分厂生产零件的优质品率;
第3课时 变量间的相关关系与统计案例
考纲下载 1.会作两个有关联变量的数据的散点图,会利用散点 图认识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方 程系数公式建立线性回归方程.
3.了解独立性检验(只要求 2×2 列联表)的基本思想、 方法及其简单应用.
4.了解回归分析的基本思想、方法及其简单应用.
y2 总计
x1
a
x2
2
总计 b
21 73 25 27 46
则表中a、b处的值分别为( )
A.94、96
B.52、50
C.52、54
D.54、52
答案:C 解析:a=73-21=52,b=a+2=54,故选C.
5. [原创]某医疗研究所为了了解某种血清预防感冒的 作用,把 500 名使用过血清的人与另外 500 名未使用血清 的人一年中的感冒记录作比较,提出假设 H0:“这种血清 不能起到预防感冒的作用”,利用 2×2 列联表计算得 K2 ≈3.918,经查临界值表知 P(K2≥3.841)≈0.05.则下列结论 中,正确结论的序号是________.
x1 x2 总计
y1 a c a+c
y2 b d b+d
总计 a+b c+d a+b+c+d
随机变量 K2=(a+b)(cn+(da)d-(bac+)c2)(b+d), 其中 n=a+b+c+d 为样本容量.
(3)独立性检验 利用随机变量 K2 来确定在多大程度上可以认为“两
个分分类类变变量量有有关关系系”的方法称为两个分类变量的独立性
nn
(xi - x )(y i- y )
ii==11
为:^b=
, ^a=y-y---^b^bx-x- .
n
(xi- x )2
i==1
其中x-=n1i=n1xi,-y=n1i=n1yi,((x-x-,,-yy-))称为样本点的中心,
线性回归方程为^y=^bx+^a . 5.残差分析 (1)残差:对于样本点(x1,y1),(x2,y2),…,(xn,
请注意! 1.以考查线性回归系数为主,同时可考查利用散点 图判断两个变量间的相关关系. 2.以实际生活为背景,重在考查回归方程的求法.
高考考点预览
■ ·考点梳理· ■
正相关:点散布在从左下角 到右上角 的区域. 1.两个变量的相关关系负相关:点散布在从左上角 到右下角 的区域. 2.线性相关关系与回归直线 如果散点图中点的分布从整体上看大致在一条直线附
线性回归分析
例2 [2012·淄博模拟]某种产品的宣传费支出x与销 售额y(单位:万元)之间有如下对应数据:
x2456 8 y 30 40 60 50 70 (1)画出散点图; (2)求回归直线方程; (3)试预测宣传费支出为10万元时,销售额多大?
[思路点拨]
画散 点图
二―最―乘小→法
求回归 方程
1. [2010·湖南]某商品销售量y(件)与销售价格x(元/ 件)负相关,则其回归方程可能是( )
A.^y=-10x+200
B.^y =10x+200
C.^y=-10x-200
D.^y=10x-200
答案:A
解析:由图象知选项B、D为正相关,选项C不符合实 际意义,故选A.
2. [2012·山东聊城市模拟]已知x、y的取值如下表所
ii==11
(3)相关指数 R2=1--
.
nn
((yyi-i-yy))22
ii==11
R2 越大,意味着残差平方和越小,即模型的拟合效果 越好.R2 越小,残差平方和越大,即模型的拟合效果越 差.在线性回归模型中,R2 表示解释变量对于预报变量变 化的贡献率,R2 越接近于 1,表示回归的效果越好.
我们将这个方程叫做回归直线方程,^a、^b叫做回归系 数,相应的直线叫做回归直线.
②最小二乘法 使总体偏差 Q=(y1-bx1-aa))22++((yy22--bbxx22--aa))22++……++ (ynn-bxnn-a)22 为最小的方法,叫做最小二乘法.
4.回归分析
在具有线性相关关系的数据(x1,y1),(x2,y2 ),…, (xn,yn)中,回归方程的斜率和截距的最小二乘估计分别
④对分类变量X与Y,它们的随机变量K2的观测值k
越小,“X与Y有关系”的把握程度越大.其中正确的命
题是( )
A.①④
B.②③
C.①③
D.②④
答案:B
解析:①中抽样间隔相同,应是系统抽样;④中K2
的观测值越大,“X与Y有关系”的把握程度越大,故应
选②③.
4. [教材改编]下面是一个2×2列联表
y1
①有95%的把握认为“这种血清能起到预防感冒的 作用”;
②若某人未使用该血清,那么他在一年中有95%的 可能性得感冒;
③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.
答案:①
解析:因为 K2≈3.918≥3.841,而 P(K2≥3.814)≈0.05, 所以有 95%的把握认为“这种血清能起到预防感冒的作 用”.要注意我们检验的是假设是否成立和该血清预防感 冒的有效率是没有关系的,不是同一个问题,不要混淆.
→
结合方程进 行回归分析
[解] (1)根据表中所列数据可得散点图如图所示:
(2)计算得:x-=255=5,-y=2550=50,
5
5
x2i =145, x iyi=1380.
i=1
i=1
5
xiyi-5 x y
i=1
于是可得^b=
5
=138104-5-5×5×5×52 50
xi2-5 x 2
近,就称这两个变量之间具有线性相关关系.这条直线
叫做回归直线.
思考:相关关系与函数关系有什么异同点? 提示:相同点:两者均是指两个变量的关系. 不同点:①函数关系是一种确定的关系,相关关系 是一种非确定的关系.②函数关系是一种因果关系,而 相关关系不一定是因果关系,也可能是伴随关系.
3.回归直线方程与最小二乘法 ①n 个观测值的 n 个点大致分布在一条直线的附近, 若所求的直线方程为^y=^^bbxx++^^aa,则
示:
x23 4 y 64 5 如果y与x呈线性相关,且线性回归方程为 ^y =bx+
123,则b=( )
A.-12
1 B.2
C.-110
1 D.10
答案:A
解析:∵x-=3,-y=5,
回归直线过点(x,y), ∴5=3b+123,∴b=-12.
3. [2012·厦门一模]以下四个命题: ①从匀速传递的产品生产流水线上,质检员每20分 钟从中抽取一件产品进行某项指标检测,这种抽样是分 层抽样; ②两个随机变量相关性越强,则相关系数的绝对值 越接近于1; ③在回归直线方程 ^y =0.2x+12中,当解释变量x每 增加1个单位时,预报变量^y 平均增加0.2个单位;
图;②求x-,-y,n
n
x2 i,
xiyi;③求^a,^b;④得回归直线
i=1
i=1
方程. (2)求回归直线方程前应先进行相关性检验,可以用观
察所得到的数据作散点图进行直观验证,也可用相关系数 r 进行检验,只有检验后求出的回归方程才有意义,才能 作预报工作.
[变式探究 2] 某车间为了规定工时定额,需要确定 加工零件所花费的时间,为此作了四次试验,得到的数据 如下:
yn),它们的随机误差为 ei=yi-bxi-a,i=1,2,…,n, 其估计值为^ei=yi-^yi=yi-^bxi-^a,i=1,2,…,n, ^ei 称为相应于点(xi,yi)的残差.
(2)残差平方和nn ((yyii--^y^y ii))22. ii==11
nn
((yyii --
i=1
解:(1)散点图如下图.
4
(2)由表中数据得
xiyi=52.5, x- =3.5, -y =3.5,
i=1
4
xi2=54,
i=1
∴b=0.7.∴a=1.05.
∴^y =0.7x+1.05.回归直线如图所示.
(3)将x=10代入回归直线方程得,y=0.7×10+1.05 =8.05(小时),
[温馨提示] 函数关系是一种理想的关系模型,而相 关关系是一种更为一般的情况.
[变式探究1] [2012·苏州模拟]观察下列各图形:
其中两个变量x、y具有相关关系的图是( )
A.①②
B.①④
C.③④
D.②③
答案:C
解析:相关关系有两种情况:所有点看上去都在一 条直线附近波动,是线性相关;若所有点看上去都在某 条曲线(不是一条直线)附近波动,是非线性相关.①② 是不相关的,而③④是相关的.故选C.
检验.
思考:在独立性检验中经常由 K2 得到观测值 k,则 k = K2吗?
提示:K2 与 k 的关系并不是 k= K2,k 是 K2 的观测 值,或者说 K2 是一个随机变量,它在 a,b,c,d 取不同 值时,K2 可能不同,而 k 是取定一组数 a,b,c,d 后的 一个确定的值.
■ ·考点自测· ■
根据上述数据,画出散点图并判断居民的身高和体重 之间是否有相关关系.
[思路点拨] 建立直角坐标系 → 描点 →
判断两变量的关系
[解] 以x轴表示身高,y轴表示体重,可得到相应的 散点图如图所示:
由散点图可知,两者之间具有相关关系,且为正相 关.
[规律总结] 在散点图中,如果所有的样本点都落在 某一函数的曲线上,就用该函数来描述变量之间的关 系,即变量之间具有函数关系.如果所有的样本点都落 在某一函数的曲线附近,变量之间就有相关关系.如果 所有的样本点都落在某一直线附近,变量之间就有线性 相关关系.
∴预测加工10个零件需要8.05小时.
独立性检验
例3 某企业有两个分厂生产某种零件,按规定内径
尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质
品,从两个分厂生产的零件中各抽出了500件,量其内径
尺寸,得结果如下表:
甲厂:
[29.86, 分组
29.90)
频数 12
[29.90, [29.94, [29.98, [30.02, [30.06, [30.10, 29.94) 29.98) 30.02) 30.06) 30.10) 30.14)
高考测点典例研习
散点图与相关关系的判定 例1 [教材改编]在某地区的12~30岁居民中随机抽取 了10个人的身高和体重的统计资料如下表:
身高(cm) 143 156 159 172 165 171 177 161 164 160 体重(kg) 41 49 61 79 68 69 74 69 68 54
i=1
=6.5,
^a=-y-^bx-=50-6.5×5=17.5,
因此,所求回归直线方程是 ^y=6.5x+17.5. (3)由上面求得的回归直线方程可知,当宣传费支出为 10 万元时,^y=6.5×10+17.5=82.5(万元), 即这种产品的销售额大约为 82.5 万元.
[规律总结] (1)求回归直线方程的步骤是:①作散点
(2)由以上统计数据填下面 2×2 列联表,并问是否有
99%的把握认为“两个分厂生产的零件的质量有差异”.
甲厂 乙厂 合计
优质品
非优质品
合计
附:χ2=nn(1++n11nn22+2+-nn+121n+21n)+22, P(χ2≥k) 0.05 0.01
k
3.841 6.635
[解] (1)甲厂抽查的产品中有 360 件优质品,从而甲 厂生产的零件的优质品率估计为356000=72%;
零件的个数 x(个) 2 3 4 5 加工的时间 y(小时) 2.5 3 4 4.5
(1)在给定的坐标系中画出表中数据的散点图;
(2)求出y关于x的线性回归方程 ^y =bx+a,并在坐标 系中画出回归直线;
(3)试预测加工10个零件需要多少时间?
n
xiyi-n x y
i=1
(注:b=
, a=y--bx-)
6.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不不同
类别,像这类变量称为分类变量.
(2)列联表:列出的两个分类变量的频频数数表表,称为列联
表.假设有两个分类变量 X 和 Y,它们的可能取值分别为
{x1,x2}和{y1,y2},其样本频数列联表(称为 2×2 列联
表)为
2×2 列联表
63
86
182
92
61
4
乙厂:
[29.86, [29.90, [29.94, [29.98, [30.02, [30.06, [30.10, 分组
29.90) 29.94) 29.98) 30.02) 30.06) 30.10) 30.14)
频数 29
71
85
159
76
62
18
(1)试分别估计两个分厂生产零件的优质品率;