2020高考数学文科大一轮复习第九章 算法初步_统计_统计案例_导学案9.4
(新课标)高考数学大一轮复习第九章算法初步、统计与统计案例9.4相关关系与统计案例课件文
请注意 高考对本节内容的考查主要是线性回归分析和独立性 检验的统计分析方法,三种题型都有可能出现,难度中档.
突破考点01 突破考点02 突破考点03
高考真题演练 课时作业
突破考点 01
相关关系的判断
(基础送分型——自主练透)
1.相关关系的分类 (1)正相关:从散点图上看,点散布在从________到 ________的区域内; (2)负相关:从散点图上看,点散布在从左上角到 ________的区域内. 2.线性相关关系 从散点图上看,如果这些点从整体上看大致分布在一条 直线附近,则称这两个变量之间具有线性相关关系,这条直 线叫________.
第九章
算法初步、统计与统计案例
第四节 相关关系与统计案例
考纲下载 1.会作两个相关变量的散点图,会利用散点图认识变 量之间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归系 数公式建立线性回归方程. 3.了解独立性检验(只要求2×2列联表)的基本思想、 方法及其简单应用. 4.了解回归分析的基本思想、方法及其简单应用.
【答案】 B
(2)在一组样本数据(x1,y1),(x2,y2),…,(xn,
yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本
点(xi,yi)(i=1,2,…,n)都在直线y=
1 2
x+1上,则这组样本数
据的样本相关系数为( )
A.-1
B.0
1 C.2
D.1
【解析】 因为所有的点都在直线上,所以它就是确定 的函数关系,所以相关系数为1.
若变量x与y具有线性相关关系,有n个样本数据(xi,yi)(i
n
xi- x yi- y
^^
^ ^ i=1
2020高考数学总复习第九章算法初步、统计、统计案例9.1算法与程序框图、基本算法语句课件理新人教A版
(2)阅读如图所示的程序.
若输出的结果是 9,则输入的 a 的值是 -3 或 7 .
解析:由题意可得程序的功能是计算并输出 a=
2+a,a>2, a×a,a≤2
的值,当 a>2 时,由 2+a=9 得 a=7,
当 a≤2 时,由 a2=9 或 a=-3,
综上知,a=7 或 a=-3.
算法语句应用的关注点 (1)输入、输出语句:在输入、输出语句中加提示信息时,要 加引号,变量之间用逗号隔开. (2)赋值语句:左、右两边不能对换,赋值号左边只能是变量. (3)条件语句:条件语句中包含多个条件语句时,要分清内外 条件结构,保证结构完整性. (4)循环语句:分清 WHILE-WEND 和 DO-LOOP UNTIL 的格式不能混用.
(2)(2019·保定模拟 ) 根据如图所示的语句,可知输出的结果 S
=7.
解析:I=1,S=1;S=1+2=3,I=1+3=4<8; S=3+2=5,I=4+3=7<8; S=5+2=7,I=7+3=10>8.
退出循环,故输出 S=7.
真题模拟演练
1.(2018·全国卷Ⅱ)为计算 S=1-12+13-14+…+919-1100,设计了
3.了解几种基本算法语句 逻辑思维能力,题型主要以选择、
——输入语句、输出语句、填空题为主,考查求程序框图中的
赋值语句、条件语句、循 执行结果和确定控制条件,难度为
环语句的含义.
中低档.
课堂探究 考点突破
真题模拟演练
课堂探究 考点突破
考点一 顺序结构与条件结构 (1)如图所示的程序框图的算法思路来源于我国古代数 学名著《九章算术》中的“更相减损术”.执行该程序框图,若输入的
考点二 循环结构 角度 1 由程序框图求输出结果
2020版高考数学一轮复习第9章算法初步、统计与统计案例第1节算法与算法框图课件文北师大版
5.执行如图所示的程序框图,若输入的 x 的值为 1,则输出的 y 的值是________.
13 [当 x=1 时,1<2,则 x=1+1=2,当 x=2 时,不满足 x <2,则 y=3×22+1=13.]
解析答案
课堂 题型全突破
顺序结构与条件结构 1.(2019·长沙模拟)对于任意点 P(a,b), 要求 P 关于直线 y=x 的对称点 Q,则程序框图 中的①处应填入( ) A.b=a B.a=m C.m=b D.b=m
If 条件 Then 语句1
Else 语句2
End If
(2)If—Then 语句的一般格式是:
If 条件 Then 语句
End If
7.循环语句
(1)For 语句的一般格式:
For循环变量=初始值To终值 循环体
Next
(2)Do Loop 语句的一般格式:
Do 循环体
Loop While条件为真
的值.当 x<1 时,令 2x+1=2,解得 x=0;当 x≥1
时,令 x2-x=2,解得 x=2 或-1(舍去).]
[规律方法] 算法语句的三个步骤 解决算法语句有三个步骤:首先通读全部语句,把它翻译成数 学问题;其次领悟该语句的功能;最后根据语句的功能运行算法, 解决问题.
[跟踪训练] (2019·保定模拟)根据如图所示的语句,可知输出的 结果 S=________.
()
[答案] (1)× (2)√ (3)√ (4)×
答案
2.(教材改编)执行如图所示的程序框图,则输出 S 的值为( )
A.-32 C.-12
B.32 D.12
D [按照程序框图依次循环运算,当 k=5 时, 停止循环,当 k=5 时,S=sin56π=12.]
高考数学一轮复习 第九章 算法初步、统计、统计案例 第一节 算法初步学案 文
第一节算法初步1.了解算法的含义,了解算法的思想.2.理解程序框图的三种基本逻辑结构:顺序结构、条件结构、循环结构.3.了解几种基本算法语句——输入语句、输出语句、赋值语句、条件语句、循环语句的含义.知识点一程序框图1.顺序结构是由____________________组成的,这是任何一个算法都离不开的基本结构.其结构形式为2.条件结构是指算法的流程根据条件是否成立而选择执行不同的流向的结构形式.其结构形式为3.循环结构是指从某处开始,按照一定的条件反复执行某些步骤的情况.反复执行的步骤称为________.循环结构又分为当型(WHILE型)和直到型(UNTIL型).其结构形式为1.若干个依次执行的步骤 3.循环体1.①算法可以无限的操作下去;②算法的每一步操作必须是明确的、可行的;③一个程序框图一定包含顺序结构;④一个程序框图不一定包含条件结构和循环结构.以上说法正确的个数是( )A.1 B.2C.3 D.4解析:算法必须在有限步操作后停止,所以①不正确;算法的每一步操作都是明确的、可行的,所以②正确;一个程序框图一定包含顺序结构,但不一定包含条件结构和循环结构,所以③与④都正确.答案:C2.(必修③P20习题1.1A第3题改编)某居民区的物业公司按月向居民收取卫生费,每月收费方法是:3人和3人以下的住户,每户收取5元;超过3人的住户,每超出1人加收1.2元,相应收费系统的程序框图如图所示,则①处应填( )A .y =5+1.2xB .y =15+1.2xC .y =5+1.2(x -3)D .y =15+1.2(x -3)解析:依题意得,费用y 与人数x之间的关系为y =⎩⎪⎨⎪⎧5, x ≤3,5+x -, x >3,则程序框图中①处应填y =5+1.2(x -3).故选C.答案:C3.(2016·山东卷)执行如图所示的程序框图,若输入的a ,b 的值分别为0和9,则输出的i 的值为________.解析:输入a =0,b =9,第一次循环:a =0+1=1,b =9-1=8,i =1+1=2;第二次循环:a =1+2=3,b =8-2=6,i =2+1=3;第三次循环:a =3+3=6,b =6-3=3,a >b 成立,所以输出i 的值为3.答案:3知识点二 基本算法语句1.输入语句、输出语句、赋值语句的格式与功能(1)程序框图中的________与条件语句相对应.(2)条件语句的格式.①IF—THEN格式②IF—THEN—ELSE格式3.循环语句(1)程序框图中的________与循环语句相对应.(2)循环语句的格式.答案1.输入信息 输出常量、变量的值和系统信息 将表达式所代表的值赋给变量 2.(1)条件结构 3.(1)循环结构4.计算机执行下面的程序段后,输出的结果是( ) a =1b =3a =a +bb =a -bPRINT a ,b ENDA .1,3B .4,1C .0,0D .6,0解析:读程序可知a =1+3=4,b =4-3=1. 答案:B5.某算法语句如下所示,若输出y 的值为3,则输入x 的值为________.解析:所给算法语句的意义是求函数y =⎩⎪⎨⎪⎧x +2,x ≤0,log 2x ,x >0的值.当输出y 的值为3时,若输入的x ≤0,则x +2=3,解得x =1,不合题意,舍去;若输入的x >0,则log 2x =3,解得x =8.综上所述,输入x 的值为8.答案:8热点一 算法的基本结构【例1】 (1)阅读如图所示的程序框图,运行相应的程序,若输入x 的值为1,则输出y 的值为( )A .2B .7C .8D .128(2)(2016·天津卷)阅读如图所示的程序框图,运行相应的程序,则输出S 的值为( ) A .2 B .4 C .6 D .8【解析】 (1)由程序框图知,y =⎩⎪⎨⎪⎧2x,x ≥2,9-x ,x <2.∵输入x 的值为1,比2小,∴执行的程序要实现的功能为9-1=8,故输出y 的值为8. (2)第一次循环,S =8,n =2;第二次循环,S =2,n =3;第三次循环,S =4,n =4,故输出S 的值为4.【答案】 (1)C (2)B(1)执行如图所示程序框图,如果输入的t ∈[-1,3],则输出的s 的取值范围为( ) A .[-3,4] B .[-5,2] C .[-4,3]D .[-2,5]题图题图(2)如图给出了计算12+14+16+…+160的值的程序框图,其中①②分别是( )A .i <30?,n =n +2B .i =30?,n =n +2C .i >30?,n =n +2D .i >30?,n =n +1解析:(1)该程序框图对应函数s =⎩⎪⎨⎪⎧3t ,t <1,4t -t 2,t ≥1,当t ∈[-1,3]时,函数的值域为[-3,4],故选A.(2)因为程序框图的功能是计算12+14+16+…+160的值,所以若i <30,n =n +2,则1<30,输出S =0,故排除A ;若i =30,n =n +2,则输出S =12+14+…+158,故排除B ;若i >30,n=n +1,则输出S =12+13+…+131,故排除D ,应选C.答案:(1)A (2)C热点二算法的交汇性问题考向1 与传统文化的交汇问题【例2】(2016·新课标全国卷Ⅱ)中国古代有计算多项式值的秦九韶算法,右图是实现该算法的程序框图.执行该程序框图,若输入的x=2,n=2,依次输入的a为2,2,5,则输出的s=( )A.7 B.12C.17 D.34【解析】由程序框图知,第一次循环:x=2,n=2,a=2,s=0×2+2=2,k=1;第二次循环:a=2,s=2×2+2=6,k=2;第三次循环:a=5,s=6×2+5=17,k=3.结束循环,输出s的值为17,故选C.【答案】 C考向2 与函数的交汇问题【例3】如图所示的程序框图中,若f(x)=x2-x+1,g(x)=x+4,且h(x)≥m恒成立,则m的最大值是( )A.4 B.3 C.1 D.0【解析】 若h (x )≥m 恒成立,只需m ≤h (x )min ,由程序框图可知,h (x )=⎩⎪⎨⎪⎧f x ,f xg x ,g x ,f xg x ,即h (x )=⎩⎪⎨⎪⎧x 2-x +1,x ≤-1或x ≥3,x +4,-1<x <3.又h (x )的值域为[3,+∞),故m ≤3.【答案】 B【例4】 图(1)是某高三学生进入高中三年来的数学考试成绩茎叶图,第1次到第14次的考试成绩依次记为A 1,A 2,…,A 14.图(2)是统计茎叶图中成绩在一定范围内考试次数的一个算法流程图.那么算法流程图输出的结果是( )A.7 B.8C.9 D.10【解析】从算法流程图可知,该图是统计成绩大于或等于90分的考试次数.从茎叶图可知输出的结果为10.【答案】 D考向4 与概率的交汇问题【例5】 如图,下列程序框图可用来估计π的值(假设函数CONRND(-1,1)是产生随机数的函数,它能随机产生区间(-1,1)内的任何一个实数).如果输入1 000,输出的结果为788,则运用此方法估计的π的近似值为________(保留四位有效数字).【解析】 根据程序框图知,如果点在圆x 2+y 2=1内,m 就增加1;现输入N =1 000,m 起始值为0,输出结果为788,说明m 增加了788次,也就是说有788个点在圆x 2+y 2=1内.设圆的面积为S 1,正方形的面积为S 2,则概率p =7881 000≈S 1S 2=π4,∴π≈4p =4×0.788=3.152.【答案】 3.152(1)(2016·新课标全国卷Ⅰ)执行下面的程序框图,如果输入的x =0,y =1,n =1,则输出x ,y 的值满足( )A .y =2xB .y =3xC .y =4xD .y =5x(2)执行如图所示的程序框图,若输入n =2 015,则输出的s 的值为________.解析:(1)运行程序,第1次循环得x =0,y =1,n =2,第2次循环得x =12,y =2,n =3,第3次循环得x =32,y =6,此时x 2+y 2≥36,输出x ,y ,满足C 选项.(2)由程序框图知,s =sin 2 014π3+sin 2 013π3+…+sin 2π3+sin π3.由sin π3+sin2π3+…+sin 6π3=0以及周期函数的性质,得s =sin π3+sin 2π3+sin 3π3+sin 4π3=32.答案:(1)C (2)32热点三 基本算法语句【例6】 设计一个计算1×3×5×7×9×11×13的算法.图中给出了程序的一部分,则在横线①上不能填入的数是( )A .13B .13.5C .14D .14.5【解析】 当填i <13时,i 值顺次执行的结果是5,7,9,11,当执行到i =11时,下次就是i =13,这时要结束循环,因此计算的结果是1×3×5×7×9×11,故不能填13,但填的数字只要超过13且不超过15均可保证最后一次循环时,得到的计算结果是1×3×5×7×9×11×13.【答案】 A下列程序执行后输出的结果是________.解析:程序反映出的算法过程为i=11⇒S=11×1,i=10;i=10⇒S=11×10,i=9;i=9⇒S=11×10×9,i=8;i=8<9,退出循环,执行“PRINT S”.故S=990.答案:9901.在设计一个算法的过程中要牢记它的五个特征:概括性、逻辑性、有穷性、不唯一性、普遍性.2.在画程序框图时首先要进行结构的选择.若所要解决的问题不需要分情况讨论,只用顺序结构就能解决;若所要解决的问题要分若干种情况讨论时,就必须引入条件结构;若所要解决的问题要进行许多重复的步骤,且这些步骤之间又有相同的规律时,就必须引入变量,应用循环结构.3.注意条件结构与循环结构的联系:对于循环结构有重复性,条件结构具有选择性没有重复性,并且循环结构中必定包含一个条件结构,用于确定何时终止循环体.。
2020版高考数学一轮复习第九章算法初步、统计、统计案例第一节算法初步学案理(含解析)新人教A版
第一节 算法初步2019考纲考题考情1.三种基本逻辑结构概括性、逻辑性、有穷性、不唯一性、普遍性 3.输入语句、输出语句、赋值语句的格式与功能(1)算法中的条件结构与条件语句相对应。
(2)条件语句的格式及框图。
①IF—THEN格式:②IF—THEN—ELSE格式:5.循环语句(1)算法中的循环结构与循环语句相对应。
(2)循环语句的格式及框图。
①UNTIL语句:②WHILE语句:1.赋值号左边只能是变量(不能是表达式),在一个赋值语句中只能给一个变量赋值。
2.直到型循环是“先循环,后判断,条件满足时终止循环”;当型循环则是“先判断,后循环,条件满足时执行循环”;两者的判断框内的条件表述在解决同一问题时是不同的,它们恰好相反。
一、走进教材1.(必修3P25例5改编)如图为计算y=|x|函数值的程序框图,则此程序框图中的判断框内应填________。
解析输入x应判断x是否大于等于零,由图知判断框应填x<0?。
答案x<0?2.(必修3P30例8改编)执行如图所示的程序框图,则输出S的值为( )A .-32B .32C .-12D .12解析 按照程序框图依次循环运算,当k =5时,停止循环,当k =5时,S =sin 5π6=12。
答案 D 二、走近高考3.(2018·北京高考)执行如图所示的程序框图,输出的s 的值为( )A .12B .56C .76D .712解析 运行程序框图,k =1,s =1;s =1+(-1)1×12=12,k =2;s =12+(-1)2×13=56,k =3;满足条件,跳出循环,输出的s =56。
故选B 。
答案 B4.(2017·全国卷Ⅰ)如图所示程序框图是为了求出满足3n-2n>1 000的最小偶数n ,那么在和 两个空白框中,可以分别填入( )A .A >1 000和n =n +1B .A >1 000和n =n +2C .A ≤1 000和n =n +1D .A ≤1 000和n =n +2解析 因为输出的n 为偶数,所以 中应填n =n +2。
2020高三数学一轮复习(人教版文):算法初步
第九章算法初步、统计、统计案例第一节算法初步2019考纲考题考情「基础微械理一知识必备哂椒基JICHUWE1SHUL.I1. 三种基本逻辑结构\^称内补y顺序结构条件结构循环结构定义由若F个依次执行的步骤组成的,这是任何一个算法都离不开的基本结构算法的流程根据条件是否成从某处开始,按照一定的条件反复执行某些步骤的情况,反复执行的步骤称为循环体宴有不同的流向裏条件结构就是处理这种过程的结构考纲要求考鈕举创考向标諾L i■昴H辻约比亶」■辭篦适的黠轮二用钳輕1?杠闪的三呻临宮時詰为r吨序蒂枸*殆件塔耐.漪炜帖恂XTM几种甚杰舞祂谄旬一ffiAifitj.iffi J:识<r, Kffi m 4i梟”谍冒圖评1,",旬的201 fi・全個淮||・[;〔判IM第悴}201 i •无坤届唐* T,C^;hiA)::1 ■- g満号* 1 •亦;閘1如林•愛国曲1・T屮如押川书*件>JO1?・全国軽U・T显输川犁累〉20)7・全M$nj・1?崔竹战蜡果)曲販币度「1.法的苓事箱钳瓷挥屹怖主忙性闻■ 轉心H岸;抽亍盘損敦材I“I扣垄础白別2•算法的特征概括性、逻辑性、有穷性、不唯一性、普遍性。
语句一般格式功能输人语句INPUT"提示内容J变量输入信息输出语句PRINT提示内容S表达式输出常量、变量的值和系统信息赋值语句变量=表达式将表达式的值赋给变量4•条件语句(1) 算法中的条件结构与条件语句相对应。
(2) 条件语句的格式及框图。
①IF —THEN格式:5.循环语句(1)算法中的循环结构与循环语句相对应。
⑵循环语句的格式及框图。
①UNTIL语句:IX)循环体UN I IL 条件②WHILE语句:1.赋值号左边只能是变量(不能是表达式),在一个赋值语句中只能给一个变量赋值。
2. 直到型循环是“先循环,后判断,条件满足时终止循环”;当型循环则是“先判断,后循环,条件满足时执行循环”;两者的判断框内的条件表述在解决同一问题时是不同的,它们恰好相题纠徴谢身-TIZl WEIRESHEN一、走进教材1.(必修3P25例5改编)如图为计算y= |x|函数值的程序框图,则此程序框图中的判断框内应填___________ 。
高考数学一轮复习 第九章 算法初步、统计、统计案例 9.1 算法初步课件 理 高三全册数学课件
2021/12/11
第三十六页,共五十页。
1.(方向 1)(2019·广州高三调研测试)在如图所示的程序框图中,
fi′(x)为 fi(x)的导函数,若 f0(x)=sinx,则输出的结果是( A )
A.-sinx C.sinx
2021/12/11
B.cosx D.-cosx
第三十七页,共五十页。
解析:依题意可得 f1(x)=f0′(x)=cosx,f2(x)=f1′(x)=- sinx,f3(x)=f2′(x)=-cosx,f4(x)=f3′(x)=sinx,f5(x)=f4′(x) =cosx,故易知 fk(x)=fk+4(x),k∈N,当 i=2 018 时循环结束, 故输出的 f2 018(x)=f2(x)=-sinx,故选 A.
解析:该伪代码运行 3 次,第 1 次,I=3,S=2;第 2 次,
I=5,S=4;第 3 次 I=7,S=8,结束运行.故输出的 S 的值
为 8.
2021/12/11
第十九页,共五十页。
1.循环结构的两个形式的区别 (1)当型循环结构:先判断是否满足条件,若满足条件,则执行循 环体. (2)直到型循环结构:先执行循环体,再判断是否满足条件,直到 满足条件时结束循环. 2.理解赋值语句要注意的三点 (1)赋值语句中的“=”称为赋值号,与等号的意义不同. (2)赋值语句的左边只能是变量的名字,而不能是表达式. (3)对于同一个变量可以多次赋值,变量的值始终等于最近一次赋 给它的值,先前的值将会被替换.
其结构形式为
2021/12/11
第七页,共五十页。
3.循环结构是指从某处开始,按照一定的条件反复执行某些步骤
的情况.反复执行的步骤称为 循环体 .循环结构又分为当型
2020高考数学文科大一轮复习第九章 算法初步_统计_统计案例_课时作业 (3)
(2) x 甲=63+66+72+6 73+76+82=72, s甲2 =16×[(63-72)2+(66-72)2+(72-72)2+(73-72)2+(76 -72)2+(82-72)2]=39; x 乙=62+68+69+6 75+75+83=72, s乙2 =16×[(62-72)2+(68-72)2+(69-72)2+(75-72)2+(75 -72)2+(83-72)2]=44. 因为 x 甲= x 乙,s2甲<s2乙,所以甲乙两队水平相当,但甲队发挥 较稳定.
(1)根据图中数据写出甲公司员工 A 在这 10 天投递的快递件 数的平均数和众数;
(2)为了解乙公司员工 B 每天所得劳务费的情况,从这 10 天 中随机抽取 1 天,他所得的劳务费记为 X(单位:元),求 X>182 的概率;
(3)根据图中数据估算两公司的每位员工在该月所得的劳务 费.
解:(1)甲公司员工 A 在这 10 天投递的快递件数的平均数为 36,众数为 33.
解析:求得该频数为 2+3+4=9,样本容量是 20,所以频
率为290=0.45.
2.已知某班级部分同学一次测验的成绩统计如图,则其中 位数和众数分别为( B )
A.95,94 C.99,86
B.92,86 D.95,91
解析:由茎叶图可知,此组数据由小到大排列依次为 76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,共 17 个, 故 92 为中位数,出现次数最多的为众数,故众数为 86,故选 B.
课时作业56 用样本估计总体
一、选择题
1.容量为 20 的样本数据,分组后的频数如下表:
人教版高考数学(文)一轮复习构想课件第九章 算法初步、统计、统计案例 9.4ppt版本
i=1
i=1
7
yi-
y
2=0.55
,
7≈2.646.
i=1
参考公式:相关系数 r=
n
ti- t yi- y
i=1
,回归方程^y=a^+b^t
n
n
ti- t 2 yi- y 2
i=1
i=1
n
ti- t yi- y
i=1
中斜率和截距的最小二乘估计公式分别为:b^=
解析:因为 y=-0.1x+1,x 的系数为负,故 x 与 y 负相关; 而 y 与 z 正相关,故 x 与 z 负相关.
答案:C
2.(2017·漳州二模)下列说法错误的是( ) A.在回归模型中,预报变量 y 的值不能由解释变量 x 唯一 确定 B.在线性回归分析中,相关系数 r 的值越大,变量间的相 关性越强 C.在残差图中,残差点分布的带状区域的宽度越狭窄,其 模型拟合的精度越高 D.在回归分析中,R2 为 0.98 的模型比 R2 为 0.80 的模型拟 合的效果好
r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性
相关关系.通常|r|大于⑥____0_._7_5___时,认为两个变量有很强的
线性相关性.
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,
像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假
设有两个分类变量 X 和 Y,它们的可能取值分别为{x1,x2}和{y1,
二、必明 4●个易误点 1.回归分析是对具有相关关系的两个变量进行统计分析的 方法,只有在散点图大致呈线性时,求出的回归直线方程才有实
际意义,否则,求出的回归直线方程毫无意义.
(新课标)高考数学大一轮复习 第九章 算法初步、统计与统计案例单元质量检测 理
【红对勾】(新课标)2016高考数学大一轮复习第九章算法初步、统计与统计案例单元质量检测理时间:90分钟分值:100分一、选择题(每小题4分,共40分)1.下面四个散点图中点的分布状态,可以直观上判断两个变量之间具有线性相关关系的是( )A.①②B.③C.②③D.②③④解析:散点图①中的点无规律分布,范围很广,表明两个变量之间的相关程度很小;②中所有的点都在同一条直线上,是函数关系;③中的点分布在一条带状区域上,即点分布在一条直线的附近,是线性相关关系;④中的点也分布在一条带状区域内,但不是线性的,而是一条曲线附近,所以不是线性相关关系.答案:B2.如图所示,从人体脂肪含量与年龄散点图中,能比较清楚地表示人体脂肪含量与年龄的相关性的回归直线为( )A.l1B.l2C.l3D.l4解析:根据线性相关的意义知,当所有的数据在一条直线附近排列时,这些数据具有很强的线性相关关系.从人体脂肪含量与年龄散点图中,能比较清楚地表示人体脂肪含量与年龄的相关性的回归直线是l1.答案:A3.某全日制大学共有学生5 600人,其中专科生有1 300人,本科生有3 000人,研究生有1 300人,现采用分层抽样的方法调查学生利用因特网查找学习资料的情况,抽取的样本为280人,则应在专科生,本科生与研究生这三类学生中分别抽取( )A .65人,150人,65人B .30人,150人,100人C .93人,94人,93人D .80人,120人,80人解析:设应在专科生,本科生和研究生这三类学生中分别抽取x 人,y 人,z 人,则5 600280=1 300x =3 000y =1 300z,所以x =z =65,y =150,所以应在专科生,本科生与研究生这三类学生中分别抽取65人,150人,65人.答案:A4.PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物.如图是据某地某日早7点至晚8点甲、乙两个PM2.5监测点统计的数据(单位:毫克/立方米)列出的茎叶图,则甲、乙两地浓度的方差较小的是( )A .甲B .乙C .甲、乙相等D .无法确定解析:从茎叶图上可以观察到:甲监测点的样本数据比乙监测点的样本数据更加集中,因此甲地浓度的方差较小.答案:A5.某产品在某零售摊位上的零售价x (单位:元)与每天的销售量y (单位:个)的统计资料如下表所示:由上表可得回归直线方程y =b x +a 中的b =-4,据此模型预测零售价定为15元时,每天的销售量为( )A .48个B .49个C .50个D .51个解析:由题意知x =17.5,y =39,代入回归直线方程得a ^=109,109-15×4=49,故选B.答案:B6.某校从高一年级学生中随机抽取100名学生,将他们期中考试的数学成绩(均为整数)分成六段:[40,50),[50,60),…,[90,100]后得到的频率分布直方图(如图所示),则分数在[70,80)内的人数是( )A .70B .30C .15D .25解析:由题意,分数在[70,80)内的频率为1-(0.010+0.015+0.015+0.025+0.005)×10=1-0.7=0.3,则分数在[70,80)内的人数为0.3×100=30人.答案:B7.样本中共有五个个体,其值分别为a,0,1,2,3.若该样本的平均值为1,则样本方差为( )A.65B.65C. 2 D .2解析:因为a +0+1+2+35=1,得a =-1,所以s 2=15[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2.答案:D8.某数学教师随机抽取50名学生进行是否喜欢数学课程的情况调查,得到如下列联表:根据表中数据求得K 2的值约为( ) A .5.059 B .6.741 C .8.932D .10.217解析:根据表中数据得K 2=-226×24×23×27≈5.059.答案:A9.如图所示的程序框图,该算法的功能是( ) A .计算(1+20)+(2+21)+(3+22)+…+(n +1+2n)的值 B .计算(1+21)+(2+22)+(3+23)+…+(n +2n)的值 C .计算(1+2+3+…+n )+(20+21+22+…+2n -1)的值D .计算[1+2+3+…+(n -1)]+(20+21+22+ (2))的值解析:初始值k =1,S =0,第1次进入循环体:S =1+20,k =2;当第2次进入循环体时:S =1+20+2+21,k =3,…,给定正整数n ,当k =n 时,最后一次进入循环体,则有S =1+20+2+21+…+n +2n -1,k =n +1,退出循环体,输出S =(1+2+3+…+n )+(20+21+22+…+2n -1),故选C.答案:C10.已知某8个数的平均数为5,方差为2,现又加入一个新数据5,此时这9个数的平均数为x ,方差为s 2,则( )A.x =5,s 2<2 B.x =5,s 2>2 C.x >5,s 2<2D.x >5,s 2>2解析:x =8×5+59=5,s 2=8×2+-29=169<2. 答案:A二、填空题(每小题4分,共16分)11.在某大型企业的招聘会上,前来应聘的本科生、硕士研究生和博士研究生共 2 000人,如图为各类毕业生人数统计扇形图,则博士研究生的人数为________.解析:由题意可知,博士研究生占的比例为1-62%-26%=12%,故博士研究生的人数为2 000×12%=240.答案:24012.已知某单位有40名职工,现要从中抽取5名职工,将全体职工随机按1~40编号,并按编号顺序平均分成5组.按系统抽样方法在各组内抽取一个号码.(1)若第1组抽出的号码为2,则所有被抽出职工的号码为________;(2)分别统计这5名职工的体重(单位:kg),获得体重数据的茎叶图如图所示,则该样本的方差为________.解析:由题意知被抽出职工的号码为2,10,18,26,34.由题中茎叶图知5名职工体重的平均数x =59+62+70+73+815=69,则该样本的方差s 2=15×[(59-69)2+(62-69)2+(70-69)2+(73-69)2+(81-69)2]=62.答案:(1)2,10,18,26,34 (2)6213.某车间为了规定工时定额.需要确定加工零件所需时间,为此进行了5次试验,收集到如下数据,由最小二乘法求得回归直线方程y ^=0.67x +54.9.解析:设所求数据为m ,因为x =10+20+30+40+505=30,y =62+m +75+81+895=m +3075.又(x ,y )在回归直线上, 所以m +3075=0.67×30+54.9.解得m =68.答案:6814.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用过血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.对此,四名同学作出了以下判断:p :有95%的把握认为“这种血清能起到预防感冒的作用”; q :若某人未使用该血清,那么他在一年中有95%的可能性得感冒; r :这种血清预防感冒的有效率为95%; s :这种血清预防感冒的有效率为5%.则下列结论中,真命题的序号是________.①p ∧綈q ;②綈p ∧q ;③(綈p ∧綈q )∧(r ∨s );④(p ∨綈r )∧(綈q ∨s ).解析:由题意,得K 2≈3.918,P (K 2≥3.841)≈0.05,所以,只有第一位同学的判断正确,即有95%的把握认为“这种血清能起到预防感冒的作用”.由真值表知①④为真命题.答案:①④三、解答题(共4小题,共44分,解答应写出必要的文字说明、计算过程或证明步骤.) 15.(10分)已知某校高三理科班学生的化学与物理的水平测试成绩抽样统计如下表,若抽取学生n 人,成绩分为A (优秀),B (良好),C (及格)三个等级,设x ,y 分别表示化学成绩与物理成绩.例如:表中化学成绩为B 等级的共有20+18+4=42人,已知x 与y 均为B 等级的概率是0.18.(1)求抽取的学生人数;(2)设在该样本中,化学成绩优秀率是30%,求a ,b 的值;(3)在物理成绩为C 等级的学生中,已知a ≥10,b ≥8,求化学成绩为A 等级的人数比C 等级的人数少的概率.解:(1)由题意可知18n=0.18,得n =100.故抽取的学生人数是100.(2)由(1)知n =100,所以7+9+a100=0.3,故a =14,而7+9+a +20+18+4+5+6+b =100,故b =17. (3)由(2)易知a +b =31,且a ≥10,b ≥8,满足条件的(a ,b )有(10,21),(11,20),(12,19),…,(23,8),共有14组,其中b >a 的有6组.则所求概率为P =614=37.16.(10分)随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了n 人,其中男性占调查人数的25.已知男性中有12的人的休闲方式是运动,而女性只有13的人的休闲方式是运动.(1)完成下列2×2列联表:(2)次被调查的人数至少有多少?(3)根据(2)的结论,本次被调查的人中,至少有多少人的休闲方式是运动? 参考公式:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .参考数据:解:(1)依题意,被调查的男性人数为5,其中有5人的休闲方式是运动;被调查的女性人数为3n 5,其中有n5人的休闲方式是运动,则2×2列联表如下:(2)由表中数据,得K 2=n5·5-5·522n 5·3n 5·2n 5·3n 5=n 36,要使在犯错误的概率不超过0.05的前提下,认为“性别与休闲方式有关”,则K 2≥3.841,所以n36≥3.841,解得n ≥138.276.又n ∈N *,且n5∈N *,所以n ≥140,即本次被调查的人数至少是140.(3)由(2)可知,140×25=56,即本次被调查的人中,至少有56人的休闲方式是运动.17.(12分)某制造商3月生产了一批乒乓球,随机抽样100个进行检查,测得每个球的直径(单位:mm),将数据分组如表:(1)图.(2)若以上述频率作为概率,已知标准乒乓球的直径为40.00 mm ,试求这批乒乓球的直径误差不超过0.03 mm的概率.(3)统计方法中,同一组数据常用该组区间的中点值(例如,区间[39.99,40.01)的中点值是40.00)作为代表.据此估计这批乒乓球直径的平均值(结果保留两位小数).解:(1)频率分布表及频率分布直方图如下:(2)误差不超过0.03 mm,即直径落在[39.97,40.03]范围内,其概率为0.20+0.50+0.20=0.90.(3)整体数据的平均值约为39.96×0.10+39.98×0.20+40.00×0.50+40.02×0.20≈40.00(mm).18.(12分)一次考试中,5名同学的数学、物理成绩如下表所示:(1)(2)要从4名数学成绩在90分以上的同学中选2名参加一项活动,以X 表示选中的同学的物理成绩高于90分的人数,求随机变量X 的分布列及数学期望E (X ).(回归方程为y ^=b ^x +a ^,其中b ^=∑i =1nx i -xy i -y∑i =1nx i -x2,a ^=y -b ^x )解:(1)散点图如图所示.x =89+91+93+95+975=93,y =87+89+89+92+935=90,∑i =15(x i -x )2=(-4)2+(-2)2+02+22+42=40,∑i =15(x i -x )(y i -y )=(-4)×(-3)+(-2)×(-1)+0×(-1)+2×2+4×3=30,b ^=3040=0.75,b ^ x =69.75,a ^=y -b ^x =20.25. 故这些数据的回归方程是:y ^=0.75x +20.25. (2)随机变量X 的可能取值为0,1,2. P (X =0)=C 22C 24=16;P (X =1)=C 12C 12C 24=23;P (X =2)=C 22C 24=16.故X 的分布列为:∴E (X )=0×16+1×23+2×16=1.。
高考数学一轮复习 第9章 算法初步、统计与统计案例 第3节 统计图表、用样本估计总体教学案 理(含解
第三节 统计图表、用样本估计总体[考纲传真] 1.了解分布的意义与作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.1.常用统计图表(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=极差组数; 第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图.横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率. (3)频率分布折线图和总体密度曲线 ①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图. ②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.(4)茎叶图的画法:第一步:将每个数据分为茎(高位)和叶(低位)两部分;第二步:将各个数据的茎按大小次序排成一列;第三步:将各个数据的叶依次写在其茎的右(左)侧.2.样本的数字特征(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.(2)中位数:把n 个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:把x =x 1+x 2+…+x n n称为x 1,x 2,…,x n 这n 个数的平均数. (4)标准差与方差:设一组数据x 1,x 2,x 3,…,x n 的平均数为x ,则这组数据的标准差和方差分别是s =1n [x 1-x 2+x 2-x 2+…+x n -x 2]; s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. [常用结论]1.频率分布直方图中各小矩形的面积之和为1.2.频率分布直方图与众数、中位数与平均数的关系(1)最高的小长方形底边中点的横坐标即是众数.(2)中位数左边和右边的小长方形的面积和是相等的.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.3.若数据x 1,x 2,…,x n 的平均数为x ,方差为s 2,则数据mx 1+a ,mx 2+a ,mx 3+a ,…,mx n +a 的平均数是m x +a ,方差为m 2s 2.[基础自测]1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )(2)一组数据的方差越大,说明这组数据越集中.( )(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越高.( )(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )[答案] (1)√ (2)× (3)√ (4)×2.为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg)分别为x 1,x 2,…,x n ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A .x 1,x 2,…,x n 的平均数B .x 1,x 2,…,x n 的标准差C .x 1,x 2,…,x n 的最大值D .x 1,x 2,…,x n 的中位数B[标准差反映样本数据的离散波动大小,故选B.] 3.数据1,3,4,8的平均数与方差分别是( ) A.2,2.5 B.2,10.5 C.4,2 D.4,6.5D[平均数为1+3+4+84=4,方差为1-42+3-42+4-42+8-424=6.5.]4.某学生在一门功课的22次考试中,所得分数茎叶图如图所示,则此学生该门功课考试分数的极差与中位数之和为( )A.117 B.118C.118.5 D.119.5B[22次考试中,所得分数最高的为98,最低的为56,所以极差为98-56=42,将分数从小到大排列,中间两数为76,76,所以中位数为76,所以此学生该门功课考试分数的极差与中位数之和为42+76=118.]5.(教材改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.48[由频率分布直方图可知45岁以下的教师的频率为5×(0.040+0.080)=0.6,所以共有80×0.6=48(人). ]样本的数字特征的计算与应用1.在某次测量中,得到的A样本数据为81,82,82,84,84,85,86,86,86,若B样本数据恰好是A样本数据分别加2后所得的数据,则A,B两个样本的下列数字特征对应相同的是( )A.众数B.平均数C.标准差D.中位数C[由题意可得A,B两组数据的众数分别是86和88,排除A;B组数据的平均数比A 组数据的平均数大2,排除B;B组数据的中位数比A组数据的中位数大2,排除D;A,B两组数据的标准差相同,C正确,故选C.]2.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )甲乙A.甲的成绩的平均数小于乙的成绩的平均数B.甲的成绩的中位数等于乙的成绩的中位数C.甲的成绩的方差小于乙的成绩的方差D.甲的成绩的极差小于乙的成绩的极差C[根据条形统计图可知甲的中靶情况为4环、5环、6环、7环、8环;乙的中靶情况为5环、5环、5环、6环、9环.x甲=15(4+5+6+7+8)=6,x乙=15(5×3+6+9)=6,甲的成绩的方差为4-62+5-62+6-62+7-62+8-625=2,乙的成绩的方差为5-62×3+6-62+9-625=2.4;甲的成绩的极差为4环,乙的成绩的极差为4环;甲的成绩的中位数为6环,乙的成绩的中位数为5环,综上可知C正确,故选C.] 3.某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x-y|的值为( )A.1 B.2C.3 D.4D[由题意可知⎩⎪⎨⎪⎧ 15x +y +10+11+9=10,15[x -102+y -102+1+1]=2,∴⎩⎪⎨⎪⎧ x +y =20,x 2+y 2=208. ∴(x +y )2=x 2+y 2+2xy ,即208+2xy =400,∴xy =96.∴(x -y )2=x 2+y 2-2xy =16,∴|x -y |=4,故选D .][规律方法] 众数、中位数、平均数、方差的意义及常用结论(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.(2)方差的简化计算公式:s 2=1n [(x 21+x 22+…+x 2n )-n x 2],或写成s 2=1n(x 21+x 22+…+x 2n )-x 2,即方差等于原数据平方的平均数减去平均数的平方.茎叶图【例1】 某良种培育基地正在培育一小麦新品种A ,将其与原有的一个优良品种B 进行对照试验,两种小麦各种植了25亩,所得亩产量的数据(单位:千克)如下:品种A :357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.品种B :363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430(1)作出品种A 与B 亩产量数据的茎叶图;(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A 与B 的亩产量及其稳定性进行比较,写出统计结论.[解] (1)画出茎叶图如图所示.(2)由于每个品种的数据都只有25个,样本容量不大,画茎叶图很方便;此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息损失,而且可以随时记录新的数据.(3)通过观察茎叶图可以看出:①品种A 的亩产量的平均数(或均值)比品种B 高;②品种A 的亩产量的标准差(或方差)比品种B 大,故品种A 的亩产量的稳定性较差.[规律方法] 茎叶图中的两个关注点(1)重复出现的数据要重复记录,不能遗漏.(2)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.易错警示:茎叶图中数字大小排列不一定从小到大排列,一定要看清楚.(1)空气质量指数(Air Qu a li ty Inde x ,简称AQI)是定量描述空气质量状况的指数,空气质量按照AQI 大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.从某地一环保人士某年的AQI 记录数据中,随机抽取10个,用茎叶图记录如图.根据该统计数据,估计此地该年AQI 大于100的天数约为________.(该年为365天)(2)如图所示的茎叶图是甲、乙两位选手在某次比赛中的比赛得分,则下列说法正确的是( )A .甲的平均数大于乙的平均数B .甲的中位数大于乙的中位数C .甲的方差大于乙的方差D .甲的平均数等于乙的中位数(1)146 (2)C [(1)该样本中AQI 大于100的频数是4,频率为25, 由此估计该地全年AQI 大于100的频率为25,估计此地该年AQI 大于100的天数约为365×25=146. (2)由茎叶图可知,x 甲=19×(59+45+32+38+24+26+11+12+14)=29,x 乙=19×(51+43+30+34+20+25+27+28+12)=30,s 2甲=19×(302+162+32+92+52+32+182+172+152)≈235.3,s 2乙=19×(212+132+02+42+102+52+32+22+182)≈120.9,甲的中位数为26,乙的中位数为28.所以甲的方差大于乙的方差.故选C.]频率分布直方图【例2】 某城市100户居民的月平均用电量(单位:千瓦时),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x 的值.(2)求月平均用电量的众数和中位数.(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240]的用户中应抽取多少户?[解] (1)(0.002+0.009 5+0.011+0.012 5+x +0.005+0.002 5)×20=1,解得x =0.007 5.即直方图中x 的值为0.007 5.(2)月平均用电量的众数是220+2402=230. ∵(0.002+0.009 5+0.011)×20=0.45<0.5,(0.002+0.009 5+0.011+0.012 5)×20=0.7>0.5,∴月平均用电量的中位数在[220,240)内.设中位数为a ,则0.45+0.012 5×(a -220)=0.5,解得a =224,即中位数为224.(3)月平均用电量在[220,240]的用户有0.012 5×20×100=25(户).同理可得月平均用电量在[240,260)的用户有15户,月平均用电量在[260,280)的用户有10户,月平均用电量在[280,300]的用户有5户,故抽取比例为1125+15+10+5=15. ∴月平均用电量在[220,240)的用户中应抽取25×15=5(户). [规律方法] 频率、频数、样本容量的计算方法(1)频率组距×组距=频率. (2)频数样本容量=频率,频数频率=样本容量,样本容量×频率=频数. 从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组[75,85)[85,95) [95,105) [105,115) [115,125]频数 6 26 38 22 8 (1)作出这些数据的频率分布直方图:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?[解] (1)如图所示:(2)质量指标值的样本平均数为x=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.1.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是( )A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳A[对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;对于选项C,D,由图可知显然正确.故选A.2.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是( )A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半A[设新农村建设前经济收入的总量为x,则新农村建设后经济收入的总量为2x.建设前种植收入为0.6x,建设后种植收入为0.74x,故A不正确;建设前其他收入为0.04x,建设后其他收入为0.1x,故B正确;建设前养殖收入为0.3x,建设后养殖收入为0.6x,故C正确;建设后养殖收入与第三产业收入的总和占建设后经济收入总量的58%,故D正确.]。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四节变量间的相关关系、统计案例知识点一两个变量的相关关系1.相关关系的分类(1)正相关:从散点图上看,点散布在从左下角到右上角的区域内;(2)负相关:从散点图上看,点散布在从左上角到右下角的区域内.2.线性相关关系从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.1.观察下列各图形,其中两个变量x,y具有相关关系的图是(C)A.①②B.①④C.③④D.②③解析:由散点图知③④具有相关关系.2.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是(D)A.①②③B.②③①C.②①③D.①③②解析:第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.知识点二回归分析1.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^ x ,其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.2.样本相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,用它来衡量两个变量间的线性相关关系的强弱.(1)当r >0时,表明两个变量正相关; (2)当r <0时,表明两个变量负相关;(3)r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( A )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3解析:由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1. 4.(2019·福州四校联考)某汽车的使用年数x 与所支出的维修总费用y 的统计数据如表:使用年数x /年 1 2 3 4 5 维修总费用y /万元0.51.22.23.34.5根据上表可得y 关于x 的线性回归方程y ^=b ^x -0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( D )A .8年B .9年C .10年D .11年解析:由y 关于x 的线性回归直线y ^=b ^x -0.69过样本点的中心(3,2.34),得b ^=1.01,即线性回归方程为y ^=1.01x -0.69,由y ^=1.01x -0.69=10得x ≈10.6,所以预测该汽车最多可使用11年,故选D.知识点三 独立性检验1.分类变量:变量的不同“值”表示个体所属的不同类型,像这类变量称为分类变量.2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +dK 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量),则利用独立性检验判断表来判断“X 与Y 的关系”.5.在性别与吃零食这两个分类变量的计算中,下列说法正确的是③. ①若K 2的观测值为k =6.635,我们有99%的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%;③若从统计量中求出有99%的把握认为吃零食与性别有关系,是指有1%的可能性使得出的判断出现错误.解析:由独立性检验的基本思想可得,只有③正确.1.函数关系与相关关系的区别与联系 (1)区别:①函数关系是一种确定性关系,相关关系是一种非确定性关系. ②函数关系是一种因果关系,相关关系不一定是因果关系,也可能是伴随关系.(2)联系:对线性相关关系求回归方程后,可以通过确定的函数关系对两个变量间的取值进行估计.2.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x ,y ).3.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.4.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.考向一 相关关系的判断【例1】 (1)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关系数的平方为r 21,用y^=b ^x +a ^拟合时的相关系数的平方为r 22,则r 21>r 22;③x 、y 之间不能建立线性回归方程.【解析】 (1)所有点均在直线上,则样本相关系数最大即为1.故选D. (2)①显然正确;由散点图知,用y =c 1e c 2x 拟合的效果比用y ^=b ^x +a ^拟合的效果要好,故②正确;x ,y 之间能建立线性回归方程,只不过预报精度不高,故③不正确.【答案】 (1)D (2)①②判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关. (3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.(1)已知变量x 和y 近似满足关系式y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( C )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r 0.820.780.690.85m 106115124103则哪位同学的试验结果体现A,B两变量有更强的线性相关性(D) A.甲B.乙C.丙D.丁解析:(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.考向二线性回归分析【例2】(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.【解】 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.以上给出了2种理由,答出其中任意一种或其他合理理由均可.为探究车流量与PM2.5浓度是否相关,现对北方某城市中心车流量最大的地区进行检测,采集到12月某天7个不同时段车流量与PM2.5浓度的数据如下表:车流量x (万辆/小时) 1 2 3 4 5 6 7 PM2.5浓度y (微克/立方米)30363840424450(1)根据上表中的数据,用最小二乘法求出y 关于x 的线性回归方程. (2)规定:当PM2.5浓度平均值在(0,50]内时,空气质量等级为优;当PM2.5浓度平均值在(50,100]内时,空气质量等级为良.为使该城市空气质量为优和良,利用(1)中回归方程,预测要将车流量控制在每小时多少万辆以内(结果以万辆作为单位,保留整数).解:(1)∵x =4,y =40,∑i =17x i y i =1 200,∑i =17x 2i =140,∴b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2=207,∴a ^=y -b ^x =2007,故y 关于x 的线性回归方程是y ^=207x +2007.(2)由题意需满足207x +2007≤100,即x≤25,故预测要将车流量控制在每小时25万辆以内.考向三独立性检验【例3】(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m 不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?【解】(1)第二种生产方式的效率更高.理由如下:①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.以上给出了4种理由,答出其中任意一种或其他合理理由均可. (2)由茎叶图知m =79+812=80.列联表如下:超过m 不超过m第一种生产方式 15 5 第二种生产方式515(3)由于K 2=40×(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.独立性检验就是考察两个分类变量是否有关系,并能较为准确地给出这种判断的可信度,具体做法是根据公式计算随机变量K 2的观测值k ,k 越大,说明“两个变量有关系”的可能性越大.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析能否在犯错误的概率不超过0.010的前提下认为“本次测试的及格情况与性别有关”?附:P (K 2≥k 0)0.10 0.05 0.010 0.005 k 22.7063.8416.6357.879K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解:(1)依题意得⎩⎨⎧10(0.035+0.025+c +2b +a )=1,2b =a +c ,解得b =0.01.因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人,于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人.于是本次测试的及格情况与性别的2×2列联表如下:及格 不及格 总计 男 22 8 30 女 26 4 30 总计481260所以K 2=60×(22×4-8×26)230×30×48×12=1.667<2.706,故不能在犯错误的概率不超过0.010的前提下认为“本次测试的及格情况与性别有关”.。