知识讲解_《统计》全章复习与巩固

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《统计》全章复习与巩固
【学习目标】
1. 理解随机抽样的必要性和重要性;会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法,会用简单随机抽样、系统抽样、分层抽样等常用的抽样方法从总体中抽取样本.
2.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.
3. 理解样本数据标准差的意义和作用,会计算数据标准差;能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.
4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.
5.会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题.
6.会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系;了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.
【知识网络】
【要点梳理】
要点一:抽样方法
从调查的对象中按照一定的方法抽取一部分,进行调查或观测,获取数据,并以此对调查对象的某项指标做出推断,这就是抽样调查.调查对象的全体称为总体,被抽取的一部分称为样本.
1.简单的随机抽样
简单随机抽样的概念:
设一个总体的个体数为N.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.
①用简单随机抽样从含有N个个体的总体中抽取一个容量为n的样本时,每次抽取一个个体时,任一
个体被抽到的概率为1
N
;在整个抽样过程中各个个体被抽到的概率为
n
N

②简单随机抽样的特点是:不放回抽样,逐个地进行抽取,各个个体被抽到的概率相等;
③简单随机抽样方法体现了抽样的客观性与公平性,是其他更复杂抽样方法的基础.
简单抽样常用方法:
①抽签法:先将总体中的所有个体(共有N个)编号(号码可从1到N),并把号码写在形状、大小相同的号签上(号签可用小球、卡片、纸条等制作),然后将这些号签放在同一个箱子里,进行均匀搅拌,抽签时每次从中抽一个号签,连续抽取n次,就得到一个容量为n的样本.
适用范围:总体的个体数不多.
优点:抽签法简便易行,当总体的个体数不太多时适宜采用抽签法. ②随机数表法:随机数表抽样“三步曲”:第一步,将总体中的个体编号;第二步,选定开始的数字;第三步,获取样本号码.
2.系统抽样:
当总体中的个体数较多时,可将总体分成均衡的几个部分,然后按预先制定出的规则,从每一部分抽取一个个体,得到需要的样本,这种抽样叫做系统抽样.
系统抽样的步骤:
①采用随机的方式将总体中的个体编号,为简便起见,有时可直接采用个体所带有的号码,如考生的准考证号、街道上各户的门牌号等等.
②为将整个的编号分段 (即分成几个部分),要确定分段的间隔k .当N
n
是整数时(N 为总体中的个体的个数,n 为样本容量),N k n =
;当N
n 不是整数时,通过从总体中剔除一些个体使剩下的总体中个体的个数'N 能被n 整除,这时'
N k n
=.
③在第一段用简单随机抽样确定起始的个体编号l .
④按照事先确定的规则抽取样本(通常是将l 加上间隔k ,得到第2个编号l k +,第3个编号2l k +,
这样继续下去,直到获取整个样本).
要点诠释:
①系统抽样适用于总体中的个体数较多的情况,它与简单随机抽样的联系在于:将总体均分后的每一部分进行抽样时,采用的是简单随机抽样;
②与简单随机抽样一样,系统抽样是等概率抽样,它是客观的、公平的
③总体中的个体数恰好能被样本容量整除时,可用它们的比值作为系统抽样的间隔;当总体中的个体数不能被样本容量整除时,可用简单随机抽样先从总体中剔除少量个体,使剩下的个体数能被样本容量整除再进行系统抽样.
3.分层抽样:
当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比例进行抽样,这种抽样叫做分层抽样,所分成的部分叫做层.
5.不放回抽样和放回抽样:
在抽样中,如果每次抽出个体后不再将它放回总体,称这样的抽样为不放回抽样;如果每次抽出个体后再将它放回总体,称这样的抽样为放回抽样.
随机抽样、系统抽样、分层抽样都是不放回抽样. 要点二:用样本估计总体
1. 统计图表包括条形图、折线图、饼图、茎叶图.
2. 刻画一组数据集中趋势的统计量有平均数、中位数、众数.
平均数:12...n
x x x x n
+++=
刻画一组数据离散程度的统计量有极差、方差2
s 、标准差s .
方差:222
2
12()()...()n x x x x x x s n
-+-++-=.
3.总体分布
(1)总体:在数理统计中,通常把被研究的对象的全体叫做总体.
(2)频率分布:用样本估计总体,是研究统计问题的基本思想方法,样本中所有数据(或数据组)的频数和样本容量的比,就是该数据的频率.所有数据(或数据组)的频率的分布变化规律叫做样本的频率分布.可以用样本频率表、样本频率分布条形图或频率分布直方图来表示.
(3)频率分布直方图中每个小矩形的宽度为i x ∆(分组的宽度),小矩形的面积为相应的频率i f ,高为
i i
f x ∆.
(4)频率分布折线图:在频率分布直方图中,按照分组原则,再在左、右两边各加一个区间,从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,所得到的折线称为频率折线图.
(5)总体分布:从总体中抽取一个个体,就是一次随机试验,从总体中抽取一个容量为n 的样本,就是进行了n 次试验,试验所出现的结果叫随机事件,所有这些事件的概率分布规律称为总体分布.
(6)总体密度曲线:样本容量越大,所分组数越多,各组的频率就越接近于总体在相应各组取值的概率.设想样本容量无限增大,分组的组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线,这条曲线叫做总体密度曲线.
要点诠释:
①总体密度曲线反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息,总体在某一区间取值的百分比就是该区间与该曲线所成的曲边梯形的面积.
②总体密度曲线一般的分布规律是中间高、两边低的“山峰”形分布,总体的数据大致呈对称分布,并且大部分数据都集中在靠近中间的区间内。

③并非所有的总体都存在密度曲线,如一些离散型的总体不存在密度曲线。

(7)茎叶图
除了上面几种图表能帮助我们理解样本数据外,统计中还有一种被用来表示数据的图叫做茎叶图。

它是一种将样本数据有条理地列出来,从中观察样本分布情况的图。

茎是指中间的一列数,叶是从茎的旁边生长出来的数。

在样本数据较少时,用茎叶图表示数据的效果较好,但当样本数据较多时,茎叶图就显得不太方便了。

4.几种频率分布的优缺点及用频率分布估计总体分布 (1)几种表示频率分布的方法的优缺点
①频率分布表在数量表示上比较确切,但不够直观、形象,分析数据分布的总体态势不太方便。

②直方图能够很容易地表示大量数据,非常直观地表示分布的形状,使我们能够看到在分布表中看不清楚的数据模式。

但是从直方图本身得不出原始的数据内容,也就是说,把数据表示成直方图后,原有的具体数据信息就被抹掉了。

③频率分布折线图的优点是它反映了数据的变化趋势。

如果样本容量不断增大,分组的组距不断缩小,那么折线图就趋向于总体分布的密度曲线。

④用茎叶图刻画数据有两个优点:一是所有的信息都可以从这个茎叶图中得到;二是茎叶图便于记录和表示,能够展示数据的分布情况。

但当样本数据较多或数据位数较多时,茎叶图就显得不太方便了。

(2)用样本的频率分布估计总体的分布
用样本估计总体,是研究统计问题的一个基本思想放法,对于不易知道的总体分布,总是用样本的频
率分布对它进行估计。

一般地,样本容量越大,估计就越精确。

要点三:变量的相关性
1.散点图:将两个变量所对应的点描在直角坐标系中,这些点组成了变量之间的一个图,称为变量之间的散点图.散点图形象地反映了各对数据的密切程度.粗略地看,散点分布具有一定的规律.
如果变量之间存在某种关系,这些点会有一个集中趋势,这种趋势通常可以用一条光滑的曲线来近似表示,这样近似的过程称为曲线拟合.
2.相关关系:当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系. 3.线性相关:若两个变量的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的.若所有点看上去都在某条曲线(不是直线)附近波动,则称此相关为非线性相关的;如果所有的点在散点图中没有任何关系,则称变量间是不相关的.
4.相关关系与函数关系的异同点如下: 相同点:均是指两个变量的关系.
不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系.
5.回归分析:对具有相关关系的两个变量进行统计分析的方法叫做回归分析.通俗地讲,回归分析是寻找相关关系中非确定性关系的某种确定性.
对于线性回归分析,我们要注意以下几个方面:
(1)回归分析是对具有相关关系的两个变量进行统计分析的方法.两个变量具有相关关系是回归分析的前提.
(2)散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析.
(3)求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.
6.回归直线
设所求的直线方程为y bx a =+,其中a 、b 是待定系数.
11
22211()()()n n
i i i i i i n n i i
i i x x y y x y nxy b x x x nx a y bx
====⎧
---⎪
⎪==⎨--⎪⎪
=-⎩∑∑∑∑, ∑==n
i i x n x 11,∑==n i i y n y 11 相应的直线叫做回归直线,对两个变量所进行的上述统计分析叫做回归分析. 【典型例题】
类型一:随机抽样
例1.某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点.公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区中有20个特大型销售点,要从中抽取7个调查其销售收入和售后服务情况,记这项调查为②.则完成①、②这两项调查宜采用的抽样方法依次是( )
A .分层抽样法,系统抽样法
B .分层抽样法,简单随机抽样法
C .系统抽样法,分层抽样法
D .简单随机抽样法,分层抽样法
【思路点拨】此题为抽样方法的选取问题.当总体中个体较多而且差异又不大时宜采用系统抽样,采用系统抽样在每小组内抽取时应按规则进行;当总体中的个体差异较大时,宜采用分层抽样;当总体中个体较少时,宜采用随机抽样.
【解析】依据题意,第①项调查应采用分层抽样法、第②项调查应采用简单随机抽样法.故选B .
【总结升华】采用什么样的抽样方法要依据研究的总体中的个体情况来定. 举一反三:
【变式1】甲校有3600名学生,乙校有5400名学生,丙校有1800名学生,为统计三校学生某方面的情况,计划采用分层抽样法,抽取一个样本容量为90人的样本,应在这三校分别抽取学生( )
A.30人,30人,30人
B.30人,45人,15人
C.20人,30人,10人
D.30人,50人,10人 【答案】B 。

【解析】根据样本容量和总体容量确定抽样比,最终得到每层中学生人数.
【变式2】一个总体中有100个个体,随机编号为0,1,2,…,99,依编号顺序平均分成10个小组,组号依次为l ,2,3,…,10.现用系统抽样方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m ,那么在第k 小组中抽取的号码个位数字与m+k 的个位数字相同.若m=6,则在第7组中抽取的号码是 .
【答案】63
【解析】∵6m =,7k =,∴13m k += ∴在第7小组中抽取的号码是63.
【变式3】某单位最近组织了一次健身活动,活动分为登山组和游泳组,且每个职工至多参加了其中一组.在参加活动的职工中,青年人占42.5%,中年人占47.5%,老年人占10%.登山组的职工占参加活动总人数的
4
1
,且该组中,青年人占50%,中年人占40%,老年人占10%.为了了解各组不同的年龄层次的职工对本次活动的满意程度,现用分层抽样的方法从参加活动的全体职工中抽取一个容量为200的样本.试确定
(Ⅰ)游泳组中,青年人、中年人、老年人分别所占的比例;
(Ⅱ)游泳组中,青年人、中年人、老年人分别应抽取的人数. 【答案】(Ⅰ)40%、50%、10% (Ⅱ)60 75 15
(Ⅰ)设登山组人数为x ,游泳组中,青年人、中年人、老年人各占比例分别为a 、b 、c ,
则有40%347.5%410%310%4x xb
x
x xc x ⋅+⎧=⎪⎪⎨⋅+⎪=⎪⎩
,解得50%10%b c =⎧⎨=⎩
故a=100%-50%-10%=40%,
即游泳组中,青年人、中年人、老年人各占比例分别为40%、50%、10%. (Ⅱ)游泳组中,抽取的青年人数为3
20040%604
⨯⨯=(人); 抽取的中年人数为3
2004⨯
⨯50%=75(人); 抽取的老年人数为3
2004
⨯⨯10%=15(人).
类型二:用样本估计总体
例2.一次科技知识竞赛,两组学生成绩统计如下表:
已经算得两个组的平均数都是80分,请根据你所学统计知识,进一步判断这两个组这次竞赛中的成
绩谁优谁次,并说明理由。

【解析】(1)从众数看,甲组成绩的众数是90分,乙组成绩的众数是70分,甲组成绩好些;
(2)从方差看2172s =甲,222256s s s =<乙甲乙
,,甲组成绩较乙组成绩好; (3)甲、乙两组成绩的中位数、平均数都是80分,其中,甲组的成绩总体较好;
(4)从成绩统计表看,甲组成绩高分段的人数多,同时乙组得满分的人数比甲组多6人,乙组成绩较好。

【总结升华】平均数、众数、中位数描述了数据的集中趋势,极差、方差和标准差描述了数据的波动大小,也可以说反映了各个数据与其平均数的离散程度,方差越大,数据的离散程度越大,越不稳定;方差越小,数据的离散程度越小,越稳定。

举一反三:
【变式1】某人5次上班途中所花的时间(单位:分钟)分别为,,10,11,9x y 。

已知这组数据的平均数是10,方差为2,则||x y -的值为( )
A .1
B .2
C .3
D .4 【答案】D 【解析】由题意可得
10119
10,5
x y ++++=
22222
(10)(10)(1010)(1110)(910)25
x y -+-+-+-+-=,
解得12,8.||4x y x y ==-=,故选D 。

(1)列出频率分布表;
(2)画出频率分布直方图和累积频率分布图;
(3)估计电子元件寿命在100~400 h 以内的概率; (4)估计电子元件寿命在400 h 以上的概率.
【思路点拨】 通过本题可掌握总体分布估计的各种方法和步骤. 【解析】(1)频率分布表如下:
(2)频率分布直方图如下:
(3)由累积频率分布图可以看出,寿命在100~400 h 内的电子元件出现的频率为0.65,所以我们估计电子元件寿命在100~400 h 内的概率为0.65.
(4)由频率分布表可知,寿命在400 h 以上的电子元件出现的频率为0.20+0.15=0.35,故我们估计电子元件寿命在400 h 以上的概率为0.35.
【总结升华】画频率分布条形图、直方图时要注意纵、横坐标轴的意义.
举一反三:
【变式1】为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁-18岁的男生体重(kg) ,得到频率分布直方图如下:
根据上图可得这100名学生中体重在〔56.5,64.5〕的学生人数是( ) (A)20 (B)30 (C)40 (D )50 【答案】C ;
【解析】根据运算的算式:体重在〔56.5,64.5〕学生的累积频率为2×0.03+2×0.05+2×0.05+2×0.07=0.4,则体重在〔56.5,64.5〕学生的人数为0.4×100=40.
【变式2】某班学生在一次数学考试中成绩分布如下表:
那么分数在[100,110)中的频率和分数不满110分的累积频率分别是_______、_______(精确到0.01).
【答案】0.18 0.47
【解析】由频率计算方法知:总人数=45. 分数在[100,110)中的频率为45
8
=0.178≈0.18. 分数不满110分的累积频率为
458652+++=45
21
≈0.47
【变式3】为检测某种产品的质量,抽取了一个容量为30的样本,检测结果为一级品5件,二级品8
件,三级品为13件,次品4件
(1)列出样本频率分布表;
(2)画出表示样本频率分布的条形图;
(3)根据上述结果,估计商品为二级品或三级品的概率约是多少?
(2)
(3)此种产品为二级品或三级品的概率约为0.27+0.43=0.7.
例4.甲、乙两小组各10名学生的英语口语测试成绩如下:(单位:分)
甲组 76 90 84 86 81 87 86 82 85 83
乙组 82 84 85 89 79 80 91 89 79 74
用茎叶图表示两小组的成绩,并判断哪个小组的成绩更整齐一些?
【思路点拨】学会用茎叶图表示数据的方法;并会进行统计推断.
【解析】用茎叶图表示两小组的成绩如图:
由图可知甲组成绩较集中,即甲组成绩更整齐一些.
【总结升华】对各数据是二、三位数,且数据量不是很大时,用茎叶图表示较为方便,也便于进行统计推断,否则,应改用其他方法.
举一反三:
【变式1】甲、乙两个学习小组各有10名同学,他们在一次数学测验中成绩的茎叶图如图所示,则他们在这次测验中成绩较好的是组.
【答案】甲小组
类型三:变量的相关性和回归分析
例5.某产品的广告支出x(单位:万元)与销售收入y(单位:万元)之间有下表所对应的数据:
(2)求出y对x的回归直线方程;
(3)若广告费为9万元,则销售收入约为多少万元?
【解析】(1)作出的散点图如下图所示
(2)观测散点图可知各点大致分布在一条直线附近,由此可知散点图大致表现为线性相关.列出下表:
易得,22
x y =
= 所以 4
14
222
1
569
44184732255304()42
i i
i i
i x y xy
b x
x ==--⨯⨯
=
=
=-⨯-∑∑ 69735
2252
a y bx =-=
-⨯=- 故y 对x 的回归直线方程为73
ˆ25
y x =- (3)当x=9时, 73
ˆ92129.45
y
=⨯-= 故当广告费为9万元时,销售收入约为129.4万元.
【总结升华】(1)只有散点图大致表现为线性相关时,求回归直线方程才有意义;
(2)求回归直线方程应给出线性回归系数公式,在求解时为了计算更方便准确不妨列出以上解题过程中给出的表;
(3)应当注意所有的回归直线方程都经过点(,)x y . 举一反三:
(1)线性回归方程;
(2)估计使用年限为10年时,维修费用是多少? 【解析】
(1
4=x , 5=y ,901
2=∑=i i
x , 3.1121
=∑=i i i y x
于是23.14
5905453.11255225
1251
=⨯-⨯⨯-=--=∑∑==x x y x y x b i i i i i
, 08.0423.15=⨯-=-=bx y a .
∴线性回归方程为:08.023.1^
+=+=x a bx y .
(2)当x=10时,38.1208.01023.1^=+⨯=y (万元)
即估计使用10年时维修费用是12.38万元.
【变式2】一个工厂在某年里每月产品的总成本y (万元)与该月产量x (万件)之间有如下一组数据:
x 1.08 1.12 1.19 1.28 1.36 1.48
y 2.25 2.37 2.40 2.55 2.64 2.75
x 1.59 1.68 1.80 1.87 1.98 2.07
y 2.92 3.03 3.14 3.26 3.36 3.50
(1)画出散点图;
(2)求月总成本y 与月产量x 之间的回归直线方程.
【解析】
(1)画出散点图:
(2)设回归直线方程a bx y
+=ˆ, 利用
计算a ,b ,得b≈1.215, 974.0ˆ≈-=+=x b y a bx y
, ∴回归直线方程为:974.0215.1ˆ+=x y
【变式3】下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.
(1
(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y bx a =+;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:3 2.543546 4.566.5⨯+⨯+⨯+⨯=,
用最小二乘法求线性回归方程系数公式:1221n i i
i n i i x y nx y b x
nx ==-=-∑∑,a y bx =-)
【解析】
(1)略;
(2)
由系数公式可知,266.54 4.5 3.566.5634.5, 3.5,0.7864 4.55x y b -⨯⨯-===
==-⨯ 93.50.70.352
a =-⨯=,所以线性回归方程为0.70.35y x =+; (3)x=100时,0.70.3570.35y x =+=,
所以预测生产100吨甲产品的生产能耗比技术改造前降低19.65吨标准煤.。

相关文档
最新文档