人教A版2019高中数学选修1-2复习课(一) 统计案例_含解析
人教版A版高中数学选修1-2课后习题解答
人教版A版高中数学选修1-2课后习题解答高中数学选修1-2课后题答案第一章统计案例1.1 回归分析的基本思想及其初步应用回归分析是一种统计分析方法,用于探究自变量与因变量之间的关系。
它的基本思想是通过建立数学模型,利用已知数据进行拟合,从而预测或解释未知数据。
回归分析的初步应用包括简单线性回归和多元线性回归。
1.2 独立性检验的基本思想及其初步应用独立性检验是一种用于检验两个变量之间是否存在关联的方法。
其基本思想是通过观察两个变量之间的频数或频率分布,来判断它们是否相互独立。
独立性检验的初步应用包括卡方检验和Fisher精确检验。
第二章推理证明2.1 合情推理与演绎推理合情推理是指根据已知事实和常识,推断出可能的结论。
演绎推理是指根据已知的前提和逻辑规则,推导出必然的结论。
两种推理方法都有其适用的场合,需要根据具体情况进行选择。
2.2 直接证明与间接证明直接证明是指通过逻辑推理,直接证明所要证明的命题成立。
间接证明是指采用反证法或归谬法,证明所要证明的命题的否定不成立,从而推出所要证明的命题成立。
第三章数系的扩充与复数的引入3.1 数系的扩充与复数的概念数系的扩充是指在实数系的基础上引入新的数,使得一些原来不可解的方程可以得到解。
复数是指由实部和虚部组成的数,可以表示在平面直角坐标系中的点。
复数的引入扩充了数系,使得一些原本无解的方程可以得到解。
3.2 复数的代数形式的四则运算复数的代数形式是指将复数表示为实部和虚部的和的形式。
复数的四则运算包括加减乘除四种运算,可以通过对实部和虚部分别进行运算来得到结果。
第四章框图4.1 流程图流程图是一种用图形表示算法或过程的方法。
它由各种基本符号和连线构成,用于描述算法或过程的各个步骤及其执行顺序。
流程图可以帮助人们更好地理解算法或过程,从而提高效率。
4.2 结构图结构图是一种用于描述程序结构的图形表示方法。
它包括顺序结构、选择结构和循环结构三种基本结构,可以用来表示程序的控制流程。
2019秋新版高中数学人教A版选修1-2课件:第一章统计案例1.1
回归分析的基本思想及其初步应用
-2-
-3-
-4-
-5-
-6-
【做一做 2】 线性回归方程������ = b ������ + ������ 必过点( A.(0,0) C.(0, ������) B.(������,0) D.(������, ������)
^ ^
^
)
解析: (������, ������)为样本点的中心.由回归直线方程������ = ������ ������ + ������ 中的系数������ , ������ 的计算公式, 知
i=1 n ^ ^
R
2
R2=1 − i=1 n 越好
∑ ( y i -y i )2 ∑ (y i -y )
2
n
^
,R2 表示解释变量对于预报变量变化的贡献率,R2 越接近于 1,表示回归的效果
i=1
-9-
-10-
-11-
-12-
-14-
-15-
目标导航
知识梳理
重难聚焦
典例透析
仅供学习交流!!!
^
^
^ ^
^
③直线������ = ������ ������ + ������ 的斜率为������ =
答案:②
^ ^
^
^
∑ ������������ ������������ -������������ ������=1
������=1
������
������
∑
������
2 ������2 ������������ ������
题型一
题型二
题型三
题型四
反思在研究两个变量之间的关系时 ,首先要根据散点图来粗略 判断它们是否线性相关 ,是否可以用线性回归模型来拟合数据 ,然后
人教A版高中数学选修1-2《一章 统计案例 1.2 独立性检验的基本思想及其初步应用》精品课件_33
解:根据题目所给数据得到如下列联表:
患心脏病 不患心脏病 总计
秃顶
214
ቤተ መጻሕፍቲ ባይዱ不秃顶
451
总计
665
175
389
597
1048
772
1437
根据列联表中的数据,得到
K 2 1437 (214597 175 451)2 16.373 6.635. 3891048 665 772
案 例:某医疗机构为了了解呼吸道疾病与吸 烟是否有关,进行了一次抽样调查,共调查了 515个成年人,其中吸烟者220人,不吸烟者 295人。
调查结果:吸烟的220人中有37人患呼吸道疾 病,183人未患呼吸道疾病;不吸烟的295人中 有21人患病,274人未患病。
根据这些数据,能否断定:患呼吸道疾 病与吸烟有关?
(2)求k值 (3)下结论
5
8
3
2
6
1
4
5
9
8
(1)如果k 10.828,就有99.9%的把握认为" X 与Y有关系" (2)如果k 7.879,就有99.5%的把握认为" X 与Y有关系"
(3)如果k 6.635,就有99%的把握认为" X 与Y有关系"
(4)如果k 5.024,就有97.5%的把握认为" X 与Y有关系"
练习3:为了调查胃病是否与生活规律有关,在某地对540名40岁以上 的人进行了调查,结果是:患胃病者生活不规律的共60人,患胃病者 生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生 活规律的共200人. (1)根据以上数据列出2×2列联表; (2)能够以99%的把握认为40岁以上的人患胃病与否和生活规律有关 系吗?为什么?
2019高中数学 第1章 统计案例阶段复习课学案 新人教A版选修1-2
第一课 统计案例[核心速填]1.线性回归方程对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),回归直线y =bx +a 的斜率和截距的最小二乘估计公式分别为b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,其中(x ,y )称为样本点的中心.2.线性回归模型为y =bx +a +e ,其中e 为随机误差. 3.残差e ^i =y i -y ^i . 4.刻画回归效果的方法 (1)残差平方和法残差平方和∑i =1n(y i -y ^)2越小,模型拟合效果越好.(2)残差图法残差图形成的带状区域的宽度越窄,模型拟合效果越好. (3)相关指数R 2法R 2越接近1,模型拟合效果越好.5.K 2公式K 2=n ad -bc 2a +cb +d a +bc +d,其中n =a +b+c+d .[题型探究](2)请根据上表提供的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)据此估计2022年该市人口总数.【导学号:48662025】[解] (1)散点图如图:(2)因为x =0+1+2+3+45=2,y =5+7+8+11+195=10,0×5+1×7+2×8+3×11+4×19=132, 02+12+22+32+42=30,所以b ^=132-5×2×1030-5×22=3.2, a ^=y -b ^x =3.6.所以线性回归方程为y ^=3.2x +3.6. (3)令x =8,则y ^=3.2×8+3.6=29.2, 故估计2020年该城市人口总数为29.2(十万).1.在一段时间内,某种商品的价格x 元和需求量y 件之间的一组数据为:[解] x =15×(14+16+18+20+22)=18,y =15×(12+10+7+5+3)=7.4,i =15x 2i =142+162+182+202+222=1 660,∑i =15y 2i =122+102+72+52+32=327, ∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b ^=∑i =15x i y i -5 x y∑i =15x 2i -5x 2=620-5×18×7.41 660-5×182=-1.15,所以a ^=7.4+1.15×18=28.1,所以y 对x 的线性回归方程为y ^=-1.15x +28.1, 列出残差表为所以∑i =15(yi -y ^i )2=0.3,∑i =15(y i -y )2=53.2,R 2=1-∑i =15y i -y ^i2∑i =15y i -y2≈0.994.所以R 2≈0.994,拟合效果较好.单位全体650人中采用分层抽样的办法抽取50人进行问卷调查,得到了如下列联表:已知在这50人中随机抽取1人抽到喜欢户外运动的员工的概率是35.(1)请将上面的列联表补充完整; (2)求该公司男、女员工各多少人;(3)在犯错误的概率不超过0.005的前提下能否认为喜欢户外运动与性别有关?并说明你的理由. 下面的临界值表仅供参考:(参考公式:K 2=a +bc +d a +cb +d,其中n =a +b +c +d )【导学号:48662026】[解] (1)因为在全部50人中随机抽取1人抽到喜欢户外运动的员工的概率是35,所以喜欢户外运动的男女员工共30人,其中男员工20人,列联表补充如下:(3)K 2的观测值k =-230×20×25×25≈8.333>7.879,所以在犯错误的概率不超过0.005的前提下认为喜欢户外运动与性别有关.先计算观测值k ,再与临界值表作比较,最后得出结论2.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断.[解] 建立性别与态度的2×2列联表如下:根据列联表中所给的数据,可求出男生中作肯定态度的频率为110=0.2,女生中作肯定态度的频率为60≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.根据列联表中的数据得到K 2的观测值k =-2110×60×44×126≈5.622>5.024.因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.检验每册书的成本费y 与印刷册数的倒数x之间是否具有线性相关关系.如有,求出y 对x 的回归方程.思路探究:令z =1x,使问题转化为z 与y 的关系,然后用回归分析的方法,求z 与y 的回归方程,进而得出x 与y 的回归方程.[解] 把1x 置换为z ,则有z =1x,从而z 与y 的数据为拟合.z =110×(1+0.5+0.333+0.2+0.1+0.05+0.033+0.02+0.01+0.005)=0.225 1, y =110×(10.15+5.52+4.08+…+1.15)=3.14,∑i =110z 2i =12+0.52+0.3332+…+0.012+0.0052≈1.415, ∑i =110z i y i =1×10.15+0.5×5.52+…+0.005×1.15=15.221 02,所以b ^=∑i =110z i y i -10z y∑i =110z 2i -10z 2≈8.976,a ^=y -b ^z =3.14-8.976×0.225 1≈1.120,所以所求的z 与y 的回归方程为y ^=8.976z +1.120. 又因为z =1x ,所以y ^=8.976x+1.120.确定变量,作出散点图根据散点图,选择恰当的拟合函数变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程分析拟合效果:通过计算相关指数或画残差图来判断拟合效果根据相应的变换,写出非线性回归方程[跟踪训练3.在某化学试验中,测得如下表所示的6对数据,其中x (单位:min)表示化学反应进行的时间,y (单位:mg)表示未转化物质的质量.(2)估计化学反应进行到10 min 时未转化物质的质量(精确到0.1).【导学号:48662027】[解] (1)在y =cd x两边取自然对数,令ln y =z ,ln c =a ,lnd =b ,则z =a +bx .由已知数据,得由公式得a ≈3.905 5,b ≈-0.221 9,则线性回归方程为z =3.905 5-0.221 9x .而ln c =3.905 5,lnD =-0.221 9,故c≈49.675,d≈0.801,所以c,d的估计值分别为49.675和0.801.(2)当x=10时,由(1)所得公式可得y≈5.4(mg).所以,化学反应进行到10 min时未转化物质的质量约为5.4 mg.。
高中数学人教版选修1-2_模块复习课 第一课 统计案例 (共54张PPT)精选ppt课件
【解析】依题意有
P=(-3x+161.5)(x-30)=-3x2+251.5x-4845
=-3(x- )2+ 2 5 1.5
2 5 -1 .45 2845.
所以当x=6 ≈42时1 2 ,P有最大值,约为426.
2 5 1.5 即预测销售单6 价为42元时,能获得最大日销售利润.
【方法技巧】求线性回归方程的基本步骤
每晚都打鼾
30
224
254
不打鼾
24
1 355
1 379
总计
54
1 579
1 633
【解析】由列联表中的信息 知打鼾人群中未患心脏病的 比例为0.88,即患有心脏病 的比例为0.12;同理不打鼾 人群中未患心脏病的比例为0.98,即患有心脏病的比 例为0.02.作出等高条形图(如图).
从该图中可以看出:打鼾样本中患心脏病的比例明显 多于不打鼾样本中患心脏病的比例.因此可以认为“打 鼾与患心脏病有关”.
所以y关于x的b线9 4 性7 3 7 4 回 9 4 归7 3 2 2 方 程5 2,为a 2 7 5 2 1 2 3 ,
y 5 x 3. 2
(3)当x=10时,y =22,|22-23|<2,当x=11时y , =24.5
|24.5-25|<2,当x=13时, =29.5,|29.5-30|<2.
M包含的基本事件有:(AC)、(AD)、(BC)、(BD)、
(CD),所以P(M)=5 . 6
【补偿训练】某研究性学习小组对春季昼夜温差大小 与某花卉种子发芽多少之间的关系进行研究,他们分 别记录了3月1日至3月5日的每天昼夜温差与实验室每 天每100颗种子浸泡后的发芽数,得到如下资料:
高考数学(人教A版选修1-2)第一轮复习教学案第一章统计案例 学案
第一章统计案例[课标研读][课标要求]了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题.(1)独立检验:了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.(2)假设检验:了解假设检验的基本思想、方法及其简单应用.(3)聚类分析:了解聚类分析的基本思想、方法及其简单应用.(4)回归分析:了解回归的基本思想、方法及其简单应用.[命题展望]本章所涉及到的知识点均要进行大量的数据计算,而这些计算如果仅仅靠笔算往往是比较困难的,需要借助于计算机或计算器。
其实在新课标中提到“……应鼓励学生使用计算器、计算机等现代技术手段来处理数据……”,而我们目前的高考还不允许使用计算器,所以本章的更看重统计思想。
考虑到本章内容是新增内容,在高考中应该有所体现,但在高考试题中不会出现过于繁琐的计算题,相信会出现一道填空试题或填空题,出现解答题的可能性较小,即使出现,所涉及的计算应该不会很繁琐。
本章的疑点是用这种方法检验可靠吗?实际上这种方法仍然是用样本估计总体,由于抽样的随机性,结果并不唯一,所以用部分推断全体,推断可能正确,也有可能错误。
但我们只要科学合理地去抽样,那么犯错误的可能性就很小了。
如卡方检验中,若2 6.635χ>,则说明我们犯错误的概率仅为1%,这也是统计方法的魅力所在。
第一讲回归分析的基本思想及其初步应用[知识梳理][知识盘点]1.相关关系是一种非确定的关系,是对具有相关关系的两个变量进行统计分析的一种方法。
2.线性回是模型y bx a e=++(e为),因变量y的值是自变量x和随机误差e共同确定的,即自变量x只能解释部分y的变化,在统计中,我们把自变量x称为,因变量y称为。
3.模型中的参数a和b用估计,其计算公式如下:121()()ˆ()ni iiniix x y ybx x==--=-∑∑,ˆˆa y bx=-,其中11niix xn==∑,1niiy y==∑(,)x y称为,回归直线一定经过样本中心点。
人教A版高中数学选修1-2《第一章统计案例》章末复习课课件
学习目标
1.会求线性回归方程,并用回归直线进行预报. 2.理解独立性检验的基本思想及实施步骤.
内容索引
知识梳理 题型探究 当堂训练
知识梳理
1.最小二乘法 对于一组数据(xi,yi),i=1,2,…,n,如果它们线性相关,则线性回归方
n
n
xi- x yi- y xiyi-n x y
^^ ^
(2)请根据上表提供的数据,求出 y 关于 x 的线性回归方程y=bx+a;
0+1+2+3+4
解 因为 x =
5
=2,
5+7+8+11+19
y=
5
=10,
0×5+1×7+2×8+3×11+4×19=132,
02+12+22+32+42=30,
^ 132-5×2×10
^
^
所以b= 30-5×22 =3.2,a= y -b x =3.6.
解答
反思与感悟
独立性检验问题的求解策略 (1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略 地判断两个变量的相关性. (2)K2统计量法:通过公式
nad-bc2 k=a+bc+da+cb+d
先计算观测值k,再与临界值表作比较,最后得出结论.
跟踪训练2 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶 图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮 食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主). (1)根据茎叶图,帮助这位同学说明其亲 属30人的饮食习惯; 解 30位亲属中50岁以上的人多以食蔬 菜为主,50岁以下的人多以食肉类为主.
男生 女生 合计
喜爱打篮球 10
不喜爱打篮球 6
合计 48
2019秋新版高中数学人教A版选修1-2课件:第一章统计案例本章整合
2
≈0.103,
������ = ������ − ������ ������≈1.331-0.103×4≈ 0.92. 所以 y 关于 t 的回归方程为 ������ = 0.92 + 0.10������ . 将 2016 年对应的 t=9 代入回归方程得 ������ = 0.92 + 0.10 × 9 = 1.82. 所以预测 2016 年我国生活垃圾无害化处理量将约为 1.82 亿吨 .
^
^
故所求回归方程为������ = 0.3x-0.4.
(2)由于变量 y 的值随 x 的值增加而增加( ������ = 0.3>0), 故 x 与 y 之间是正相关. (3)将 x=7 代入回归方程,可以预测该家庭的月储蓄为������ = 0.3×7-0.4=1.7(千元).
^
^
^
-7-
-8-
-17-
-18-
-19-
专题1
专题2
1 ������
专题3
专题4
令 z=ln y,t= ,c=ln a, 则上式可写为线性方程:z=c+bt,t,z 的数值对应表为:
t= x 0.50
1
0.333 3
0.25 0.20
0.166 0.142 0.125 0.111 7 9 0 1
z=ln 1.859 2.104 2.259 2.251 2.272 2.302 2.295 2.301 y
������
, ������ = ������ − ������ ������.
^
^
-29-
1
2
3
4
5
(2)由 ������ =
7
2019-2020学年高中人教A版数学选修1-2课件:第1章 统计案例 1.1
所以没有必要进行相关性检验.
其中正确命题的个数是( )
A.1
B.2
C.3
D.4
【思路探索】 解答本题可逐一核对相关概念及其性质, 然后作出判断.
【解析】 ①反映的正是最小二乘法的思想方法,故正 确.②反映的正是散点图的作用,也正确.③解释的是回归方
程^y=b^x+a^的作用,故正确.④是不正确的,在求回归方程之 前必须进行相关性检验,以体现两变量间的关系.
【答案】 C
[名 师 点 拨] 回归分析的过程:①随机抽取样本数据;②画出散点图, 判断是否有线性相关关系;③求线性回归方程;④由回归方程 观察变量的取值及变化趋势.
已 知 一 组 样 本 点 (xi , yi) , 其 中 i = 1,2,3,…,30.根据最小二乘法求得的回归方程是^y=b^x+a^,则 下列说法正确的是( )
所以 t =1.55, y =7.2.
5
tiyi-5 t y
i=1
所以b^=
=4.134 4,a^= y -b^ t =0.8.
5
ti2-5 t 2
i=1
所以 y=4.134 4t+0.8. 所以 y 与 x 的回归方程是^y=4.13x4 4+0.8.
[名 师 点 拨] 求非线性回归方程的方法: (1)根据原始数据(x,y)画出散点图. (2)根据散点图,选择恰当的模拟函数. (3)作变量代换,转化为线性函数. (4)求线性回归方程. (5)通过相应的变换,得非线性回归方程.
(2)回归分析的步骤 回归分析是对具有相关关系的两个变量进行统计分析的一 种常用方法,其基本步骤是:画出两个变量的__散__点__图____,求 回归_直__线__方__程___,并用回归直线方程进行_预__测_______.
2019-2020学年同步人教A版高中数学选修1-2突破课件:1 一 统计案例
所以^y=0.004x+1.5.
当 x=1 800 时,^y=0.004×1 800+1.5=8.7>8.6,
所以预测该水电站 2019 年能完成发电任务.
第十四页,编辑于星期六:二十三点 四十八分。
主题 2 非线性回归分析 某公司为确定下一年度投入某种产品的宣传费,需了解
年宣传费 x(单位:千元)对年销售量 y(单位:t)和年利润 z(单位: 千元)的影响.对近 8 年的年宣传费 xi 和年销售量 yi(i=1,2,…, 8)数据作了初步处理,得到下面的散点图及一些统计量的值.
1 971.36
2 184.48
合计
151.8
215.6
5 101.56
6 689.76
第二十二页,编辑于星期六:二十三点 四十八 分。
计算得^b=0.29,^a=-y -^b-x =34.32,^y=34.32+0.29u, 所求回归曲线方程为^y =34.32+0.x29, 当 x0=0.038 时,^y0=34.32+00..02398≈41.95.
a=
b=
注射药物 B
c=
d=
总计
n=
第二十六页,编辑于星期六:二十三点 四十八 分。
【解】 列出 2×2 列联表
疱疹面积
小于 70 mm2
注射药 物A
a=70
注射药 物B
c=35
总计
105
疱疹面积 不小于 70 mm2
b=30
d=65 95
总计 100 100 n=200
第二十七页,编辑于星期六:二十三点 四十八 分。
i=1
第十七页,编辑于星期六:二十三点 四十八分。
【解】 (1)由散点图可以判断,y=c+d x适宜作为年销售量 y
2019版三维方案数学同步人教A版选修1-2 复习课(一) 统计案例
解:(1)把表中的数据代入公式得
K2的观测值k= ≈54.21.
∵54.21>6.635,
所以在犯错误的概率不超过0.01的前提下,认为该地区这种传染病与饮用水不干净有关.
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(K2≥k0)
0.050
0.010
在实际问题中常用的几个数值
(1)K2≥6.635表示认为“X与Y有关系”犯错误的概率不超过0.01.
(2)K2≥3.841表示认为“X与Y有关系”犯错误的概率不超过0.05.
(3)K2≥2.706表示认为“X与Y有关系”犯错误的概率不超过0.1.
[典例](2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
A.64.8%B.60%
C.35.2%D.40%
解析:选C由题意可知随机误差对预报变量的贡献率约为 ≈0.352.
5.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是()
A.有99%的人认为该栏目优秀
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
复习课(一) 统计案例(1)解回归方程并进行预报估计,题型多为解答题,有时也有小题出现.(2)掌握回归分析的步骤的是解答此类问题的关键,另外要掌握将两种非线性回归模型转化为线性回归分析求解问题.[考点精要]1.一个重要方程对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其线性回归直线方程为y ^=b ^x +a ^.其中b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .2.重要参数相关指数R 2是用来刻画回归模型的回归效果的,其值越大,残差平方和越小,模型的拟合效果越好.3.两种重要图形 (1)散点图:散点图是进行线性回归分析的主要手段,其作用如下:一是判断两个变量是否具有线性相关关系,如果样本点呈条状分布,则可以断定两个变量有较好的线性相关关系;二是判断样本中是否存在异常. (2)残差图:残差图可以用来判断模型的拟合效果,其作用如下:一是判断模型的精度,残差点所分布的带状区域越窄,说明模型的拟合精度越高,回归方程的预报精度越高.二是确认样本点在采集中是否有人为的错误.[典例] (全国卷Ⅲ)如图是我国2008年到2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y )2=0.55,7≈2.646.参考公式:相关系数r =∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2∑i =1n(y i -y )2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2,a ^=y -b ^t .[解] (1)由折线图中数据和附注中参考数据得 t =4,∑i =17(t i -t )2=28,∑i =17(y i -y )2=0.55,∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈2.892×2.646×0.55≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17(t i -t )(y i -y )∑i =17(t i -t )2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92. 所以y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程得 y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. [类题通法]回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤是先画出散点图,并对样本点进行相关性检验,在此基础上选择适合的函数模型去拟合样本数据,从而建立较好的回归方程,并且用该方程对变量值进行分析;有时回归模型可能会有多种选择(如非线性回归模型),此时可通过残差分析或利用相关指数R 2来检查模型的拟合效果,从而得到最佳模型.[题组训练]1.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:选C 画散点图,由散点图可知X 与Y 是正相关,则相关系数r 1>0,U 与V 是负相关,相关系数r 2<0,故选C .2.寒假中, 某同学为组织一次爱心捐款, 在网上给网友发了张帖子, 并号召网友转发,下表是发帖后一段时间收到帖子的人数统计:(1)作出散点图,并猜测x 与y 之间的关系. (2)建立x 与y 的关系, 预报回归模型.(3)如果此人打算在帖子传播10天时进行募捐活动, 根据上述回归模型, 估计可去多少人.解:(1)画出散点图如图所示.从散点图可以看出x 与y 不具有线性相关关系, 同时可发现样本点分布在某一个函数曲线y =k e mx 的周围, 其中k, m 是参数.(2)对y =k e mx 两边取对数,把指数关系变成线性关系. 令z =ln y ,则变换后的样本点分布在直线z =bx +a (a =ln k, b =m )的周围, 这样就可以利用线性回归模型来建立x 与y 之间的非线性回归方程了, 数据可以转化为:求得回归直线方程为z ^=0.620x +1.133, 所以y ^=e 0.620x +1.133.(3)当x =10, 此时y ^=e 0.620×10+1.133≈1 530(人). 所以估计可去1 530人.(1)近几年高考中对独立性检验的考查频率有所降低,题目多以解答题形式出现,一般为容易题,多与概率、统计等内容综合命题.(2)独立性检验的基本思想类似于数学中的反证法,要确认“两个分类变量有关系” 这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系” 成立,在该假设下构造的随机变量K 2应该很小,如果由观测数据计算得到的K 2的观测值k 很大,则在一定程度上说明假设不合理,根据随机变量K 2的含义,可以通过概率P (K 2≥6.635)≈0.01来评价该假设不合理的程度,由实际计算出的k >6.635,说明该假设不合理的程度约为99%,即“两个分类变量有关系” 这一结论成立的可信程度约为99%.[考点精要]在实际问题中常用的几个数值(1)K 2≥6.635表示认为“X 与Y 有关系”犯错误的概率不超过0.01. (2)K 2≥3.841表示认为“X 与Y 有关系”犯错误的概率不超过0.05.(3)K2≥2.706表示认为“X与Y有关系”犯错误的概率不超过0.1.[典例]某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食为肉类为主.)(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯.(2)根据以上数据完成如表所示的2×2列联表.(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?[解](1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.(2)2×2列联表如表所示:(3)随机变量K2的观测值k=30×(8-128)12×18×20×10=30×120×12012×18×20×10=10>6.635,故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.[类题通法]独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)K2统计量法:通过公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)先计算观测值k,再与临界值表作比较,最后得出结论.[题组训练]1.下表是某地区的一种传染病与饮用水的调查表:(1)能否在犯错误概率不超过0.01的前提下认为这种传染病与饮用水的卫生程度有关,请说明理由.(2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析能否在犯错误概率不超过0.025的前提下认为这种疾病与饮用水有关.解:(1)把表中的数据代入公式得K2的观测值k=830×(52×218-466×94)2146×684×518×312≈54.21.∵54.21>6.635,所以在犯错误的概率不超过0.01的前提下,认为该地区这种传染病与饮用水不干净有关.(2)依题意得2×2列联表:此时,K2的观测值k=86×(5×22-50×9)214×72×55×31≈5.785.因为5.785>5.024,所以能在犯错误概率不超过0.025的前提下认为该种疾病与饮用水不干净有关.2.2016年第三十一届奥运会在巴西首都里约热内卢举行,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了60人,结果如下:(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取6人,其中男生抽取多少人?(2)在(1)中抽取的6人中任选2人,求恰有一名女生的概率.(3)你能否在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关?下面的临界值表供参考:独立性检验统计量K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解:(1)由题意,男生抽取6×2020+10=4(人),女生抽取6×1020+10=2(人).(2)在(1)中抽取的6人中任选2人,恰有一名女生的概率P=C14C12C26=815.(3)K2=60×(20×20-10×10)230×30×30×30≈6.667,由于6.667>6.635,所以能在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关.1.在两个学习基础相当的班级实行某种教学措施的实验,测试结果见下表,则实验效果与教学措施()A.有关C.关系不明确D.以上都不正确解析:选A随机变量K2的观测值k=100×(48×12-38×2)250×50×86×14≈8.306>6.635,则有99%的把握认为“实验效果与教学措施有关”.2.下列说法中正确的有:()①若r>0,则x增大时,y也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.A .①②B .②③C .①③D .①②③解析:选C 若r >0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确.r <0,表示两个变量负相关,x 增大时,y 相应减小,故②错误.|r |越接近1,表示两个变量相关性越高,|r |=1表示两个变量有确定的关系(即函数关系),故③正确.3.有下列数据( )下列四个函数中,模拟效果最好的为( ) A .y =3×2x -1B .y =log 2xC .y =3xD .y =x 2解析:选A 分别把x =1,2,3,代入求值,求最接近y 的值.即为模拟效果最好,故选A .4.若两个变量的残差平方和是325, i =1n(y i -y )2=923,则随机误差对预报变量的贡献率约为( )A .64.8%B .60%C .35.2%D .40%解析:选C 由题意可知随机误差对预报变量的贡献率约为325923≈0.352.5.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y ′=b ′x +a ′,则以下结论正确的是( )A .b ^>b ′,a ^>a ′B .b ^>b ′,a ^<a ′ C .b ^< b ′,a ^>a ′ D .b ^<b ′,a ^<a ′解析:选C 过(1,0)和(2,2)的直线方程为y =2x -2,画出六点的散点图,回归直线的大概位置如图所示,显然b ^<b ′,a ^>a ′. 故选C .6.收集一只棉铃虫的产卵数y 与温度x 的几组数据后发现两个变量有相关关系,并按不同的曲线来拟合y 与x 之间的回归方程,并算出了对应相关指数R 2如下表:A .y ^=19.8x -463.7B .y ^=e 0.27x -3.84 C .y ^=0.367x 2-202 D .y ^=(x -0.78)2-1解析:选B 用相关指数R 2来刻画回归效果,R 2的值越大,说明模型的拟合效果越好. 7.某学校对课程《人与自然》的选修情况进行了统计,得到如下数据:那么,认为选修《人与自然》与性别有关的把握是________. 解析:K 2=n(ad -bc )2(a +b )(c +d )(a +c )(b +d )=163.794>10.828,即有99.9%的把握认为选修《人与自然》与性别有关. 答案:99.9%8.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.现发现表中有一个数据模糊看不清,请你推断出该数据的值为________.解析:由表知x =30,设模糊不清的数据为m ,则y =15(62+m +75+81+89)=307+m5,因为y =0.67x +54.9, 即307+m5=0.67×30+54.9,解得m =68. 答案:689.变量U 与V 相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述样本数据得到U 与V 的线性回归分析,R 2表示解释变量对于预报变量变化的贡献率,则R 2=______.解析:在线性回归中,相关指数R 2等于相关系数,由x 1=1,x 2=2,x 3=3,x 4=4得:x =2.5,y 1=1.4,y 2=2.2,y 3=3,y 4=3.8得:y =2.6,所以相关系数r =∑i =14(x i -x )(y i -y )∑i =14(x i -x )2∑i =14(y i -y )2= 1.5×1.2+0.5×0.4+0.5×0.4+1.5×1.2(-1.5)2+(-0.5)2+0.52+1.52·(-1.2)2+(-0.4)2+0.42+1.22=45× 3.2=44=1.故R 2=1. 答案:110.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据,试问:文科学生总成绩不好与数学成绩不好有关系吗?解:根据题意,计算随机变量的观测值:K 2=913×(478×24-399×12)2490×423×877×36≈6.233>5.024,因此有97.5%的把握认为“文科学生总成绩不好与数学成绩不好有关系”. 11.某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是1225,请完成上面的2×2列联表.(2)在(1)的条件下,试运用独立性检验的思想方法分析:在犯错误概率不超过0.1%的情况下判断学生的学习积极性与对待班级工作的态度是否有关?并说明理由.解:(1)如果随机抽查这个班的一名学生,抽到积极参加班级工作的学生的概率是1225,所以积极参加班级工作的学生有24人,由此可以算出学习积极性一般且积极参加班级工作的人数为6,不太主动参加班级工作的人数为26,学习积极性高但不太主动参加班级工作的人数为7,学习积极性高的人数为25,学习积极性一般的人数为25,得到:(2)K 2=50×(18×19-6×7)225×25×24×26≈11.538,因为11.538>10.828,所以在犯错误的概率不超过0.001的前提下可以认为学习积极性与对待班级工作的态度有关系.12.电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解:(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:将2×2列联表中的数据代入公式计算,得K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(30×10-45×15)275×25×45×55=10033≈3.030.因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为Ω={(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)}.其中a i表示男性,i=1,2,3.b j表示女性,j=1,2.Ω由10个基本事件组成,而且这些基本事件的出现是等可能的.用A表示“任选2人中,至少有1人是女性”这一事件,则A={(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)},事件A由7个基本事件组成,因而P(A)=7 10.。