高中数学 第三章 统计案例 阶段复习课 第3课 统计案例学案 新人教A版选修2-3
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三课 统计案例
[核心速填] (建议用时4分钟)
1.分析判断两个变量相关关系常用的方法
(1)散点图法:把样本数据表示的点在直角坐标系中标出,得到散点图,由散点图的形状分析.
(2)相关指数法:利用相关指数R 2
进行检验,在确认具有相关关系后,再求线性回归方程.
2.求线性回归方程的步骤
(1)画散点图:从直观上观察两个变量是否线性相关. (2)计算:利用公式求回归方程的系数的值.
b ^=
∑i =1
n
x i -x
-
y i -y
-∑i =1
n
x i -x
-
2
=
∑i =1
n
x i y i -n x -y
-
∑i =1
n
x 2
i -n x -
2
,a ^=y --b ^x -
.
(3)写出方程:依据y ^=a ^+b ^
x ,写出回归直线方程. 3.两种特殊可线性化回归模型的转化
(1)将幂型函数y =ax m
(a 为正的常数,x ,y 取正值)化为线性函数.
如果将y =ax m
两边同取以10为底的对数,则有lg y =m lg x +lg a .令u =lg y ,v =lg x ,lg a =b ,代入上式,得u =mv +b ,其中m ,b 是常数.这是u ,v 的线性函数.如果以u 为纵坐标,v 为横坐标,则u =mv +b 的图象就是一直线.
(2)将指数型函数y =ca x
(a >0且a ≠1,c >0且为常数)化为线性函数.
将y =ca x
两边同取以10为底的对数,有lg y =x lg a +lg c ,令lg y =u ,lg a =k ,lg c =b ,得u =kx +b ,其中,k 和b 是常数,与幂型函数不同的是x 依然保持原来的,只是用y 的对数lg y 代替了y .
4.在实际问题中常用的三个数值
(1)当K 2
>6.635时,表示有99%的把握认为“事件A 与B 有关系”. (2)当K 2>3.841时,表示有95%的把握认为“事件A 与B 有关系”. (3)当K 2≤3.841时,认为事件A 与B 是无关的.
[体系构建]
[题型探究]
一组观测值,可以画出散点图或利用相关系数r ,判断两个变量是否具有线性相关关系,若具有线性相关关系,可得出线性回归直线方程.
利用公式求回归直线方程时应注意以下几点:
(1)求b ^时,利用公式b ^
=
∑i =1
n
x i -x
y i -y
∑i =1
n
x i -x
2
=
∑i =1
n
x i y i -n x -y
-
n
i =1
x 2i -n x -2,先求出x =1
n (x 1
+x 2+x 3+…+x n ),y =1
n (y 1+y 2+y 3+…+y n ).再由a ^=y -b ^ x 求a ^
的值,并写出回归直线方程.
(2)回归直线一定经过样本点的中心(x -,y -
).
(3)回归直线方程中的截距a ^和斜率b ^
都是通过样本估计得来的,存在误差,这种误差可能导致预报结果的偏差.
(4)回归直线方程y ^=a ^+b ^x 中的b ^
表示x 每增加1
个单位时预报变量y 的平均变化量,而a ^
表示预报变量y 不随x 的变化而变化的部分.
以下是某地收集到的新房屋的销售价格y 和房屋的面积x 的数据:
(2)若线性相关,求线性回归方程;
(3)根据(2)的结果估计当房屋面积为150 m 2
时的销售价格.
【导学号:95032252】
[解] (1)数据对应的散点图如图所示.
(2)由散点图知y 与x 具有线性相关关系.由表中数据知x -=15∑i =1
5x i =109,y -=1
5∑i =1
5
y i =
23.2,∑i =1
5
x 2
i =60 975,∑i =1
5
x i y i =12 952.设所求回归直线方程为y ^=b ^x +a ^,则b ^=
5
i =1x i y i -5x -y -
∑i =1
5
x 2i -5x -
2
≈0.196 2,a ^=y --b ^x -≈1.814 2,故所求回归直线方程为y ^
=0.196 2x +1.814 2.
(3)根据(2),当x =150时,销售价格的估计值为y ^
=0.1962×150+1.814 2=31.244 2(万元).
1.已知某连锁经营公司的5个零售店某月的销售额和利润额资料如下表:
(2)根据如下的参考公式与参考数据,求利润额y 与销售额x 之间的线性回归方程; (3)若该公司还有一个零售店某月销售额为10千万元,试估计它的利润额是多少.
(参考公式:b ^
=
∑i =1
n
x i y i -n x - y
-
∑i =1
n
x 2
i -n x -
2
,a ^=y --b ^x -
.
其中,∑i =1
5x i y i =112,∑i =1
5
x 2
i =200)
[解] (1)散点图.
(2)由已知数据计算得n =5,x -=30
5
=6,y -=
17
5=3.4,b ^=112-5×6×3.4200-5×6×6
=0.5,a ^
=3.4-0.5×6=0.4.
则线性回归方程为y ^
=0.5x +0.4.
(3)将x =10代入线性回归方程中得到y ^
=0.5×10+0.4=5.4(千万元). 即估计该零售店的利润额约为5.4千万元.
决实际问题的效果进行评价.一方面可以对比残差或残差平方和的大小,同时观察残差图,进行残差分析;另一方面也可以研究数据的R 2
(相关系数r ).对模型拟合效果的分析能够帮助我们利用最优化的模型来解决实际问题.
在研究弹簧伸长长度y (cm)与拉力x (N)的关系时,对不同拉力的6根弹簧进行
测量,测得如下表中的数据:
若依据散点图及最小二乘法求出的回归直线方程为y =0.18x +6.34,求R 2
,并结合残差说明拟合效果.
【导学号:95032253】
[解] 列表求值如下:
x -=17.5,y -≈9.49,∑i =1
6
x i y i =1 076.2,∑i =1
6
x 2i =2 275,∑i =1
6
(y i -y ^i )2=0.017 4,∑
i =1
6
(y i
-y -
)2
=14.678 4.
∴R 2
=1-0.017 414.678 4≈0.998 81,回归模型拟合效果较好.由表中数据可以看出残差比
较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高.
2.关于x 与y 有以下数据:
已知x 与y 线性相关,由最小二乘法得b =6.5, (1)求y 与x 的线性回归方程;
(2)现有第二个线性模型:y ^
=7x +17,且R 2
=0.82.
若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由. [解] (1)依题意设y 与x 的线性回归方程为y ^=6.5x +a ^
.
x -=2+4+5+6+85
=5,
y -=30+40+60+50+705
=50,
∴y ^=6.5x +a ^经过(x -,y -), ∴50=6.5×5+a ^
,∴a ^
=17.5,
∴y 与x 的线性回归方程为y ^
=6.5x +17.5.
(2)由(1)的线性模型得y i -y ^i 与y i -y -
的关系如下表:
所以∑i =1
5
(y i -y ^i )2=(-0.5)2+(-3.5)2+(-10)2+(-6.5)2+0.52
=155.
∑i =1
5
(y i -y -
)2=(-20)2+(-10)2+102+02+202=1 000.
所以R 21
=1-
∑i =1
5
y i -y ^
i
2
∑i =1
5
y i -y
-
2
=1-1551 000
=0.845.
由于R 2
1=0.845,R 2
=0.82知R 21>R 2
, 所以(1)的线性模型拟合效果比较好.
是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.
为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人进行了调
查,结果是:患胃病者生活不规律的共60人,患胃病者生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生活规律的共200人.
(1)根据以上数据列出2×2列联表;
(2)判断40岁以上的人患胃病与生活规律是否有关.
【导学号:95032254】
[思路探究] (1)解决本题关键是首先弄清问题中的两个分类变量及其取值分别是什么,其次掌握2×2列联表的结构特征.
(2)利用2×2列联表计算K 2
的观测值,再结合临界值表来分析相关性的大小. [解] (1)由已知可列2×2列联表如下:
k =
-
2
80×460×220×320
≈9.638.
因为9.638>7.879,
因此,我们在犯错误的概率不超过0.005的前提下认为40岁以上的人患胃病和生活规律有关.
3.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行问卷调查得到了如下的列联表:
(1)请将上面的列联表补充完整(不用写计算过程);
(2)能否有99%的把握认为喜爱打篮球与性别有关?说明你的理由.
(参考公式:K2=
n ad-bc2
a +
b c+d a+
c b+d
,
其中n=a+b+c+d)
[解](1)依题意可知喜爱打篮球的学生的人数为50×0.6=30.
列联表补充如下:
(2)因为k=
25×25×30×20
≈8.333>6.635,所以,有99%的把握认为喜爱打篮球与性别有关.。