1抽样方法(1)简单随机抽样(抽签法
简单随机抽样

一、知识概述1、简单随机抽样:设一个总体的个体数为N.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的机会相等,就称这样的抽样为简单随机抽样.注:(1)一般地,用简单随机抽样从含有N个个体的总体中抽取一个容量为的样本时,每次抽取一个个体时任一个体被抽到的概率为;在整个抽样过程中各个个体被抽到的概率为;(2)简单随机抽样的特点是,逐个抽取,且各个个体被抽到的概率相等;(3)简单随机抽样方法,体现了抽样的客观性与公平性,是其他更复杂抽样方法的基础.介绍:抽样方法在统计学中很多,如果按照抽取样本时总体中的每个个体被抽取的概率是否相等来进行分类,可分为:等概率抽样和不等概率抽样.在等概率抽样中,又可以分为不放回抽样和放回抽样.在实际应用中,使用较多的是不放回抽样,相对来说,放回抽样在理论研究中显得更为重要.2、简单随机抽样的实施方法:(1)抽签法:先将总体中的所有个体(共有N个)编号(号码可从1到N),并把号码写在形状、大小相同的号签上(号签可用小球、卡片、纸条等制作),然后将这些号签放在同一个箱子里,进行均匀搅拌,抽签时每次从中抽一个号签,连续抽取n次,就得到一个容量为n的样本.适用范围:总体的个体数不多时.优点:抽签法简便易行,当总体的个体数不太多时适宜采用抽签法.(2)随机数表法:1°.制定随机数表;2°.给总体中各个个体编号;3°.按照一定的规则确定所要抽取的样本的号码.随机数表抽样“三步曲”:第一步,将总体中的个体编号;第二步,选定开始的数字;第三步,获取样本号码.3、简单随机抽样的特点:它是不放回抽样;它是逐个地进行抽取;它是一种等概率抽样.注:抽签法与随机数表法的比较:共同点:(1)抽签法和随机数表法都是简单随机抽样的方法,并且要求被抽取样本的总体的个数有限;(2)抽签法和随机数表法都是从总体中逐个地进行抽取,都是不放回抽样.不同点:(1)抽签法相对于随机数表法简单,随机数表法较抽签法稍麻烦一点;(2)随机数表法更适用于总体中的个体数较多的时候,而抽签法适用于总体中的个数相对较少的时候,所以当总体中的个数较多时,应当选用随机数表法,这样可以节约大量的人力和制作号签的成本与精力.二、例题讲解例1、某次考试有70000名学生参加,为了了解这70000名考生的数学成绩,从中抽取1000名考生的数学成绩进行统计分析,在这个问题中,有以下四种说法:(1)1000名考生是总体的一个样本;(2)1000名考生数学成绩的平均数是总体平均数;(3)70000名考生是总体;(4)样本容量是1000,其中正确的说法有()A.1种B.2种C.3种D.4种解:(3)(4)对,故选B.例2、现要从20名学生中抽取5名进行阅卷调查,写出抽取样本的过程.解:①先将20名学生进行编号,从1编到20;②把号码写在形状、大小均相同的号签上;③将号签放在一个箱子中进行充分搅拌,力求均匀,然后从箱子中抽取5个号签,这5个号签上的号码对应的学生,即为所求的样本.例3、为了检验某种产品的质量,决定从40件产品中抽取10件进行检查,写出用随机数表法抽取样本的过程.解:第一步,先将40件产品编号,可以编为00,01,02,…,38,39.第二步,利用本节教材中提供的随机数表,任选一个数作为开始,例如从第10行第6列的数字开始.第三步,从选定的数6开始,从左往右读,依次得到样本号码是:24,29,05,28,27,34,32,38,20,00.这10个号码所对应的产品为样本.例4、上海某中学从40名学生中选1人作为上海男篮拉拉队的成员,采用下面两种选法:选法一将这40名学生从1~40进行编号,相应地制作1~40的40个号签,把这40个号签放在一个暗箱中搅匀,最后随机地从中抽取1个号签,与这个号签编号一致的学生幸运入选.选法二将39个白球与1个红球混合放在一个暗箱中搅匀,让40名学生逐一从中摸取一球,摸到红球的学生成为拉拉队成员.试问这两种选法是否都是抽签法?为什么?这两种选法有何异同?解:选法二不是抽签法.因为抽签法要求所有的号签编号互不相同,而选法二中39个白球无法相互区分.这两种选法相同之处在于每名学生被选中的概率都相等,等于.例5、某市通过电话进行民意测验实施某项调查,该市的电话号码有7位,其中首两位为区域代码,只能为2,3,5,7的任意两两组合,后5位取自0~9这10个数字.现在任意选择3个区域,每个区域随机选取5个号码进行调查.请你设计一种抽取方案,选出这15个电话号码.解:首先列出所有由2,3,5,7两两组合而成的区域代码共16个,用抽签法随机选取3个;然后制作一张0~99999的随机数表,方法是用抽签法或计算机生成法产生若干个0~9之间的随机整数,5个一组,构成0~99999之间的随机数表;最后用随机数表法选出15个5位号码,分成3组,第1组前加上用抽签法选出的第1个区域代码,第2,3组前分别加上选出的第2,3个区域代码.。
随机事件的概率(古典概型、简单的几何概型、抽样方法)

所以该学校阅读过《西游记》的学生人数为70人, 则该学校阅读过《西游记》的学生人数与
该学校学生总数比值的估计值为:70 0.7.故选C. 100
7.(2018西安八校联考)某班对八校联考成绩进行分析,利用随机 数表法抽取样本时,先将60个同学按01,02,03,…,60进行编号, 然后从随机数表第9行第5列的数开始向右读,则选出的第6个 个体是 ( )
(红,黄),(红,蓝),(红,绿),(红,紫),共4种,
故所求概率P 4 2. 10 5
3.(2018新课标Ⅲ卷)若某群体中的成员只用现金支付的概率为
0.45,既用现金支付也用非现金支付的概率为0.15,则不用现金支
第1节 随机事件的概率(古典概型、简单的几何概型、抽样方法)
付的概率为 ( ) 第三组取的数为(10号)36,第四组取的数为(14号)43,
A .2 3
B .3 5
C .2 5
D .1 5
【答案】 B 【解析】由题意,通过列举可知从这5只兔子中随机取出3只的 所有情况数为10, 恰有2只测量过该指标的所有情况数为6.
所以P 6 3.故选B. 10 5
9.(2019新课标Ⅲ卷,文)两位男同学和两位女同学随机排成一列,
则两位女同学相邻的概率是
表第9行第5列的数开始向右读,则选出的第6个个体是 ( )
4.取一根长度为5m的绳子,拉直后在任意位置剪断,那么所得两
段绳子的长度都不小于2m的概率是
()
A .1 5
B .1 3
C .1 4
D .1 2
【 答 案 】 A 【 解 析 】 记 两 段 绳 子 的 长 度 都 不 小 于 2m为 事 件 A, 则 只 能 在 中 间 1m的 绳 子 上 剪 断 ,所 得 两 段 绳 子 的 长 度 才 都 不 小 于 2m,
高中数学统计抽样方法精选题目(附答案)

高中数学统计抽样方法精选题目(附答案)一、抽样方法1.简单随机抽样(1)特征:①一个一个不放回的抽取;②每个个体被抽到可能性相等.(2)常用方法:①抽签法;②随机数表法.2.系统抽样(1)适用环境:当总体中个数较多时,可用系统抽样.(2)操作步骤:将总体平均分成几个部分,再按照一定方法从每个部分抽取一个个体作为样本.3.分层抽样(1)适用范围:当总体由差异明显的几个部分组成时可用分层抽样.(2)操作步骤:将总体中的个体按不同特点分成层次比较分明的几部分,然后按各部分在总体中所占的比实施抽样.1.(1)采用系统抽样方法从960人中抽取32人做问卷调查.为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为()A.7B.9C.10 D.15(2)某地区有小学150所,中学75所,大学25所.现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.[解析](1)从960人中用系统抽样方法抽取32人,则每30人抽取一人,因为第一组抽到的号码为9,则第二组抽到的号码为39,第n组抽到的号码为a n=9+30(n-1)=30n-21,由451≤30n-21≤750,得23615≤n≤25710,所以n=16,17,…,25,共有25-16+1=10人.(2)小学中抽取30×150150+75+25=18所学校;从中学中抽取30×75150+75+25=9所学校.[答案](1)C(2)189注:1.系统抽样的特点(1)适用于元素个数很多且均衡的总体. (2)各个个体被抽到的机会均等.(3)总体分组后,在起始部分抽样时采用的是简单随机抽样. (4)如果总体容量N 能被样本容量n 整除,则抽样间隔为k =Nn . 2.与分层抽样有关问题的常见类型及解题策略(1)确定抽样比.可依据各层总数与样本数之比,确定抽样比.(2)求某一层的样本数或总体个数.可依据题意求出抽样比,再由某层总体个数(或样本数)确定该层的样本(或总体)数.(3)求各层的样本数.可依据题意,求出各层的抽样比,再求出各层样本数. 2.某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )A .抽签法B .系统抽样法C .分层抽样法D .随机数法解析:选C 根据年级不同产生差异及按人数比例抽取易知应为分层抽样法. 3.某学校高一、高二、高三3个年级共有430名学生,其中高一年级学生160名,高二年级学生180名,为了解学生身体状况,现采用分层抽样方法进行调查,在抽取的样本中高二学生有32人,则该样本中高三学生人数为________.解析:高三年级学生人数为430-160-180=90,设高三年级抽取x 人,由分层抽样可得32180=x90,解得x =16. 答案:164.某单位有职工960人,其中青年职工420人,中年职工300人,老年职工240人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为14人,则样本容量为________.解析:因为分层抽样的抽样比应相等,所以420960=14样本容量,样本容量=960×14420=32.答案:32二、用样本的频率分布估计总体的频率分布1.频率分布直方图2.茎叶图5.(1)如图是根据部分城市某年6月份的平均气温(单位:℃)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5].样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5 ℃的城市个数为11,则样本中平均气温不低于25.5 ℃的城市个数为________.(2)某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100].①求图中a的值;②根据频率分布直方图,估计这100名学生语文成绩的平均分;③若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如下表所示,求数学成绩在[50,90)之外的人数.分数段[50,60)[60,70)[70,80)[80,90)x∶y 1∶12∶13∶44∶5 [为50×0.18=9.答案:9(2)解:①由频率分布直方图可知(0.04+0.03+0.02+2a)×10=1.所以a=0.005.②该100名学生的语文成绩的平均分约为x=0.05×55+0.4×65+0.3×75+0.2×85+0.05×95=73.③由频率分布直方图及已知的语文成绩、数学成绩分布在各分数段的人数比,可得下表:分数段[50,60)[60,70)[70,80)[80,90)x 5403020x∶y 1∶12∶13∶44∶5y 5204025100-(5+20+40+25)=10.注:与频率分布直方图有关问题的常见类型及解题策略(1)已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据.(2)已知频率分布直方图,求某种范围内的数据,可利用图形及某范围结合求解.6.如图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的频率为()A.0.2 B.0.4C.0.5 D.0.6解析:选B由茎叶图可知数据落在区间[22,30)内的频数为4,所以数据落在区间[22,30)内的频率为410=0.4,故选B.7.为了了解某学校学生的身体发育情况,抽查了该校100名高中男生的体重情况,根据所得数据画出样本的频率分布直方图如图所示.根据此图,估计该校2 000名高中男生中体重大于70.5公斤的人数为()A .300B .360C .420D .450解析:选B 样本中体重大于70.5公斤的频率为: (0.04+0.034+0.016)×2=0.090×2=0.18.故可估计该校2 000名高中男生中体重大于70.5公斤的人数为:2 000×0.18=360(人). 8.某商场在庆元宵节促销活动中,对元宵节9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为________万元.解析:总销售额为2.50.1=25(万元),故11时至12时的销售额为0.4×25=10(万元).答案:10三、用样本的数字特征估计总体的数字特征有关数据的数字特征9.(1)对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( )A .46,45,56B .46,45,53C .47,45,56D .45,47,53(2)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )A .甲的成绩的平均数小于乙的成绩的平均数B .甲的成绩的中位数等于乙的成绩的中位数C .甲的成绩的方差小于乙的成绩的方差D .甲的成绩的极差小于乙的成绩的极差(3)由正整数组成的一组数据x 1,x 2,x 3,x 4,其平均数和中位数都是2,且标准差等于1,则这组数据为________.(从小到大排列)[解析] (1)从茎叶图中可以看出样本数据的中位数为中间两个数的平均数,即45+472=46,众数为45,极差为68-12=56,故选择A.(2)由题意可知,甲的成绩为4,5,6,7,8,乙的成绩为5,5,5,6,9.所以甲、乙的成绩的平均数均为6,A 错;甲、乙的成绩的中位数分别为6,5,B 错;甲、乙的成绩的方差分别为15×[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=2,15×[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=125,C 对;甲、乙的成绩的极差均为4,D 错.故选C.(3)假设这组数据按从小到大的顺序排列为x 1,x 2,x 3,x 4,则⎩⎨⎧x 1+x 2+x 3+x44=2,x 2+x32=2,∴⎩⎪⎨⎪⎧x 1+x 4=4,x 2+x 3=4, 又s = 14[(x 1-2)2+(x 2-2)2+(x 3-2)2+(x 4-2)2] =12(x 1-2)2+(x 2-2)2+(x 3-2)2+(x 4-2)2=122[(x 1-2)2+(x 2-2)2]=1, ∴(x 1-2)2+(x 2-2)2=2. 同理可求得(x 3-2)2+(x 4-2)2=2.由x 1,x 2,x 3,x 4均为正整数,且(x 1,x 2),(x 3,x 4)均为圆(x -2)2+(y -2)2=2上的点,分析知x 1,x 2,x 3,x 4应为1,1,3,3.[答案] (1)A (2)C (3)1,1,3,3 注:平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.10.为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温; ②甲地该月14时的平均气温高于乙地该月14时的平均气温; ③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差; ④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差. 其中根据茎叶图能得到的统计结论的编号为( ) A .①③ B .①④ C .②③D .②④解析:选B 法一:∵x 甲=26+28+29+31+315=29,x 乙=28+29+30+31+325=30,∴x 甲<x 乙,又s 2甲=9+1+0+4+45=185,s 2乙=4+1+0+1+45=2,∴s 甲>s 乙.故可判断结论①④正确.法二:甲地该月14时的气温数据分布在26和31之间,且数据波动较大,而乙地该月14时的气温数据分布在28和32之间,且数据波动较小,可以判断结论①④正确,故选B.11.甲和乙两个城市去年上半年每月的平均气温(单位:℃)用茎叶图记录如图所示,根据茎叶图可知,两城市中平均温度较高的城市是__________,气温波动较大的城市是__________.解析:根据题中所给的茎叶图可知,甲城市上半年的平均温度为9+13+17×2+18+226=16,乙城市上半年的平均温度为12+14+17+20+24+276=19,故两城市中平均温度较高的是乙城市,观察茎叶图可知,甲城市的温度更加集中在峰值附近,故乙城市的温度波动较大.答案:乙 乙12.甲、乙两台机床同时加工直径为100 mm 的零件,为了检验产品的质量,从产品中各随机抽取6件进行测量,测得数据如下(单位:mm):甲:99,100,98,100,100,103; 乙:99,100,102,99,100,100.(1)分别计算上述两组数据的平均数和方差;(2)根据(1)的计算结果,说明哪一台机床加工的这种零件更符合要求. 解:(1)x 甲=99+100+98+100+100+1036=100(mm),x 乙=99+100+102+99+100+1006=100(mm),s 2甲=16[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=73(mm 2), s 2乙=16[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1(mm 2).(2)因为s 2甲>s 2乙,说明甲机床加工零件波动比较大,因此乙机床加工零件更符合要求.四、线性回归1.两个变量的线性相关(1)散点图:将样本中n 个数据点(x i ,y i )(i =1,2,…,n )描在平面直角坐标系中得到的图形.(2)正相关与负相关:①正相关:散点图中的点散布在从左下角到右上角的区域. ②负相关:散点图中的点散布在从左上角到右下角的区域. 2.回归直线的方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)线性回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数.⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2=∑i =1nx i y i-n x y ∑i =1nx 2i-n x 2,a ^=y -b x .13.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)[解] (1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80.所以a ^=y -b ^x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得 L =x (-20x +250)-4(-20x +250) =-20x 2+330x -1 000 =-20(x -8.25)2+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润. 注:(1)线性回归分析就是研究两组变量间线性相关关系的一种方法,通过对统计数据的分析,可以预测可能的结果,这就是线性回归方程的基本应用,因此利用最小二乘法求线性回归方程是关键,必须熟练掌握线性回归方程中两个重要估计量的计算.(2)回归直线方程恒过点(x ,y ).14.某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10日的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?解:(1)将6组数据按月份顺序编号为1,2,3,4,5,6,从中任取两组数据,基本事件构成的集合为Ω={(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)}共15个基本事件,设抽到相邻两个月的事件为A ,则A ={(1,2),(2,3),(3,4),(4,5),(5,6)}共5个基本事件,∴P (A )=515=13.(2)由表中数据求得x =11,y =24,∑i =14x i y i =1 092,∑i =14x 2i =498.代入公式可得b ^=187.再由a ^=y -b ^x ,求得a ^=-307,所以y 关于x 的线性回归方程为 y ^=187x -307.(3)当x =10时,y ^=1507,⎪⎪⎪⎪1507-22=47<2; 同样,当x =6时,y ^=787,⎪⎪⎪⎪787-12=67<2. 所以该小组所得线性回归方程是理想的.。
1.抽样方法

第四步:将编号为004,014,024,034,044,054,064, 074,084,094的个体抽出,组成样本。
名; 名; 名;
100
2、在各年级中按简单随机机抽样分别抽取
例1、 某工厂中共有职工3000人,其中,中,青,老 职工的比例有5:3:2,从所有职工中抽取一个样本 容量为400人的样本,应采取哪种抽样方法较合 理?且中,青老年职工应分别抽取多少人? 解: 采用分层抽样较合理.由样本容量为400, 中,青,老职工所占比例为5:3:2,所以应抽取 中年职工为: 400
C
四个特点:①总体个数有限;②逐个抽取; ③不放回;④每个个体机会均等,与先后 无关。
5
抽样方法2
二、分层抽样
问题:某校高一、高二、高三年级分别有学生 1000、800和700名,为了了解全校学生的视力 情况,欲从中抽取容量为100的样本,问怎样抽 取较为合理?
分析:考察对象的特点是由具有明显差异的几部分组成。 当已知总体由差异明显的几部分组成时,为了使 样本更充分地反映总体的情况,常将总体分成几 个部分,然后按照各部分所占的比例进行抽样, 这种抽样叫做“分层抽样”,其中所分成的各部 分叫做“层”。
ቤተ መጻሕፍቲ ባይዱ
k 时,
N n
;当
N
不是整数时,从总体中剔除一些
(4)将编号为 l , l k , l 2k ,..., l (n 1)k 的个体抽出。 简记为:编号;分段;在第一段确定起始号;加 间隔获取样本。
例2:从含有100个个体的总体中抽取20个样本, 请用系统抽样法给出抽样过程。
9.1.1简单随机抽样(一)课件-高一下学期数学人教A版必修第二册

总体 个体
树人中学全部高一年级学生的身高 每一位学生的身高
• 我们可以对高一年级进行简单随机抽样,用抽出的样本的平均身高 估计高一年级学生的平均身高.
问题1
一家家具厂要为树人中学高一年级制作课桌椅,他们事先想了解全体高一年级的平 均身高,以便设定可调节课桌椅的标准高度。已知树人中学高一年级有712名学生,如果 要通过简单随机抽样的方法调查高一年级学生的平均身高,应该怎样抽取样本?
随机获取. 摇匀后再摸出一个球,如此重复n次.
特别地,当样本量n=1000时,不放回摸球己经把袋中的所有球取出, 这就完全了解了袋中红球的比例.
思考2:两种抽样方式有何优劣?
放回摸球可能出现同一个小球被摸中多次的情况,极端情况是每 次摸到同一个小球,而被重复的小球只能提供同一个小球颜色信息. 这样的抽样结果误差较大.
解析 在简单随机抽样中,每一个个体被抽到的可能性都相等,与第 几次抽样无关,故A,C,D不正确,B正确.
3
问题1
一家家具厂要为树人中学高一年级制作课桌椅,他们事先想了解全体高一年级的平
均身高,以便设定可调节课桌椅的标准高度。已知树人中学高一年级有712名学生,如果 要通过简单随机抽样的方法调查高一年级学生的平均身高,应该怎样抽取样本?
合用全面调查?哪些适合用抽样调查?
(1)调查一个班级学生每周的体育锻炼时间;
全面调查
(2)调查一个地区结核病的发病率;
抽样调查
(3)调查一批炮弹的杀伤半径;
抽样调查
(4)调查一个水库所有鱼中草鱼所占的比例.
抽样调查
思考1:“普查”与“抽样”各有何优缺点?
方式 普查
优点
全面、准确性高
缺点
工作量大,时间长, 耗人力、物力、财力
第1节 随机事件的概率(古典概型、简单的几何概型、抽样方法)

6.(2009广东卷文)某单位200名职工的年龄分布情况如下图,现要从中抽取40名职工作
样本,用系统抽样的方法,将全体职工随机按1-200编号,并按编号顺序平均分为40组(1-5
号,6-10号,…,196-200号).若第5组抽出的号码为22,则第8组抽出的号码应是
.若用
分层抽样的方法,则40岁以下年龄段应抽取
【例2】 (2015广东)已知5件产品中有2件次品,其余为合格品,先从这5件产品中任取2
件,恰有一件为次品的概率为
()
A.0.4
B.0.6
C.0.8
D.1
【答案】 B 【解析】 从5件产品中任取2件,共有10种可能,设三件正品为 a1,a2,a3,2件次品为b1,b2,恰有一件次品的有(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1), (a3,b2),共六种可能,所以
第十章 概率与统计
第1节 随机事件的概率(古典概型、简 单的几何概型、抽样方法)
1.抽样方法: (1)简单随机抽样(包括随机数表法,抽签法); (2)分层抽样(用于个体有明显差异时); (3)系统抽样(步骤:①编号;②分段;③确定起始编号;④抽取样本.).
【例1】 在一个袋子中装有分别标注数字1、2、3、4、5的五个小球,这些小球除标注
.
【答案】 200 【解析】 学生人数共1000人,如果每个被抽到的概率为0.2,则应该 抽取1000×0.2=200人.
8.在5件产品中,有3件是一级品,2件是二级品,从中任取2件,其中至少有一件为二级品 的概率是 .
【答案】
【解析】 在5件产品中任取2件共有10种可能,设3件一级品为
a1,a2,a3,如果任取2件都是一级品的有(a1,a2),(a1,a3)(a2,a3)三种可能.所以至少有一件
简单随机抽样

随机数表的制作
随机数表是人们根据需要编制出来的,由0,1,2,3,4, 5,6,7,8,9十个数字组成,表中每一个数字都是用随机方法 产生的(称为"随机数").随机数的产生方法主要有抽签法、 抛掷骰子法和计算机生成法 . (1)抽签法:用0,1,2,3,4,5,6,7,8,9十个数字做十个签, 放入一个箱中并搅拌均匀,再从箱中每次抽出一个签并记 下签的数码,再放回箱中,如此重复进行下去即可得到一 个随机数表 . 若需要两位数表,则将所得的各个数码按顺序两两连 在一起.如01,07,15,34,76,93, ··· 若需要三位数表,就三三连在一起,如012,321,249, 460,634,105,···
一般地,用抽签法从个体个数为N的总体中抽取一 个容量为k的样本的步骤为:
(1)将总体中的所有个体编号(号码可以从1到N); (2)将1到N这N个号码写在形状、大小相同的号签上; (3)将号签放在同一箱中,并搅拌均匀; (4)从箱中每次抽取一个号签,并记录其编号,连续抽 取k次; (5)从总体中将与抽到的签的编号相一致的个体取出.
抽签法简单易行 , 适用于总体中个体数不多的情形 .
例1.(1)简单随机抽样中,对于每一个个体被抽取的 可能性的判断正确的是( B ) A.与每次抽样有关,第一次抽中的能性要大一些; B.与每次抽样无关,每次抽中的可能性相等; C.与每次抽样有关,最后一次抽中的可能性要大一些; D.与每次抽样无关,每次都是等可能性抽取,但各次抽 取的可能性不一样.
(3) 从选定的数开始按一定的方向读下去, 得到的数码 若不在编号中,则跳过;若在编号中, 则取出;如果得到 的号码前面已经取出, 也跳过;如此继续下去,直到取满 为止 ; (4) 根据选定的号码抽取样本 .
抽样方法有些抽样方法大全

抽样方法有些抽样方法大全抽样方法是指从总体中选取一部分样本进行调查或研究的方法。
抽样方法的选择对于研究结果的可靠性和推广性有着重要的影响。
下面是一些常用的抽样方法:1. 简单随机抽样(Simple Random Sampling):在总体中的每个个体具有相同的被选中的机会,通过随机抽取样本来代表总体。
2. 分层抽样(Stratified Sampling):将总体分成若干层次,每一层次中的个体具有相似的特征,然后从每个层次中随机抽取样本。
3. 整群抽样(Cluster Sampling):将总体划分为若干个群组,然后通过随机抽取部分群组来代表总体,然后在所选的群组中进行全面调查。
4. 系统抽样(Systematic Sampling):根据固定的抽样间隔,从总体中随机选择一个起始点,然后按照固定的间隔依次选取样本。
5. 多阶段抽样(Multistage Sampling):将总体分层和分群组,然后通过多个抽样阶段来实现抽样,通常用于大规模调查。
6. 比率抽样(Ratio Sampling):根据总体中的其中一特征的比例,确定样本的大小。
例如,如果总体中男性比例是60%,则样本中男性比例也应该是60%。
7. 效应抽样(Convenience Sampling):根据研究者的方便或可获得性,选择样本。
这种方法容易产生偏差,结果可能无法推广到整个总体。
8. 整齐抽样(Quota Sampling):根据总体中一些特征的比例,确定样本的大小。
例如,如果总体中男性比例是60%,则样本中男性数量也应该是60%。
9. 小组抽样(Snowball Sampling):从已经选择的样本中获取参与者的指引,逐渐扩大样本规模,并在招募新样本时依靠参与者的推荐。
10. 专家抽样(Expert Sampling):指选择一些具有特定知识、经验或技能的专家作为样本,以获取专业领域的意见或建议。
以上是一些常用的抽样方法,每种方法都有其适用的场景和限制,研究者需要根据研究目的、总体特征、样本大小和可行性等因素综合考虑选择最合适的抽样方法。
第1节 随机抽样

第1节随机抽样知识梳理1.简单随机抽样(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.1.不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.2.分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.诊断自测1.判断下列结论正误(在括号内打“√”或“×”)(1)简单随机抽样每个个体被抽到的机会不一样,与先后有关.()(2)抽签法中,先抽的人抽中的可能性大.()(3)简单随机抽样是一种不放回抽样.()(4)分层抽样中,每个个体被抽到的可能性与层数及分层有关.()答案 (1)× (2)× (3)√ (4)×2.在“世界读书日”前夕,为了了解某地5000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5000名居民的阅读时间的全体是( )A .总体B .个体C .样本的容量D .从总体中抽取的一个样本答案 A解析 由题目条件知,5000名居民的阅读时间的全体是总体;其中每1名居民的阅读时间是个体;从5000名居民某天的阅读时间中抽取的200名居民的阅读时间是从总体中抽取的一个样本,样本容量是200.3.一个公司共有N 名员工,下设一些部门,要采用等比例分层抽样的方法从全体员工中抽取样本容量为n 的样本,已知某部门有m 名员工,那么从该部门抽取的员工人数是________.答案 nm N解析 每个个体被抽到的概率是n N ,设这个部门抽取了x 个员工,则x m =n N ,∴x=nm N .4.(2020·上饶一模)总体由编号为00,01,02,…,48,49的50个个体组成,利用下面的随机数表选取6个个体,选取方法是从随机数表第6行的第9列和第10列数字开始从左到右依次选取两个数字,则选出的第3个个体的编号为( ) 附:第6行至第9行的随机数表如下:26357900337091601620388277574950321149197306491676778733997467322748619871644148708628888519162074770111163024042979799196835125A .3B .16C .38D .20答案 D解析 按随机数表法,从随机数表第6行的第9列和第10列数字开始从左到右依次选取两个数字,超出00~49及重复的不选,则编号依次为33,16,20,38,49,32,…,则选出的第3个个体的编号为20,故选D.5.(2020·百校大联考)在新冠肺炎疫情期间,大多数学生都进行网上上课.我校高一、高二、高三共有学生1800名,为了了解同学们对“钉钉”授课软件的意见,计划采用分层抽样的方法从这1800名学生中抽取一个容量为72的样本.若从高一、高二、高三抽取的人数恰好是从小到大排列的连续偶数,则我校高三年级的人数为()A.800 B.750 C.700 D.650答案D解析设从高三年级抽取的学生人数为2x人,则从高二、高一年级抽取的人数分别为2x-2,2x-4.由题意可得2x+(2x-2)+(2x-4)=72,∴x=13.设我校高三年级的学生人数为N,且高三抽取26人,由分层抽样,得N1800=2672,∴N=650(人).6.(2018·全国Ⅲ卷改编)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样和分层抽样,则最合适的抽样方法是________.答案分层抽样解析因为不同年龄段的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段的客户对公司服务的客观评价.考点一简单随机抽样及其应用1.下面的抽样方法是简单随机抽样的是()A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D .用抽签方法从10件产品中选取3件进行质量检验答案 D解析 A ,B 不是简单随机抽样,因为抽取的个体间的间隔是固定的;C 不是简单随机抽样,因为总体中的个体有明显的层次;D 是简单随机抽样.故选D.2.用简单随机抽样的方法从含有10个个体的总体中,抽取一个容量为3的样本,其中某一个体a “第一次被抽到”的可能性与“第二次被抽到”的可能性分别是( )A.110,110B.310,15C.15,.310D.310,310答案 A解析 在抽样过程中,个体a 每一次被抽中的概率是相等的,因为总体容量为10,故个体a “第一次被抽到”的可能性与“第二次被抽到”的可能性均为110,故选A.3.(多选题)(2021·聊城模拟)要考察某种品牌的850颗种子的发芽率,利用随机数表法抽取50颗种子进行实验.先将850颗种子按001,002,…,850进行编号,如果从随机数表第2行第2列的数开始并向右读,下列选项中属于最先检验的4颗种子中一个的是________(下面抽取了随机数表第1行至第3行).( ) 03 47 43 73 86 36 96 47 36 61 46 98 63 71 62 33 26 16 80 45 60 11 14 10 95 97 74 94 67 74 42 81 14 57 20 42 53 32 37 32 27 07 36 07 51 24 51 79 89 73 16 76 62 27 66 56 50 26 71 07 32 90 79 78 53 13 55 38 58 59 88 97 54 14 10A .774B .946C .428D .572答案 ACD解析 依据题意可知:向右读数依次为:774,946,774,428,114,572,042,533,…所以最先检验的4颗种子符合条件的为:774,428,114,572,结合选项知选ACD.感悟升华 1.简单随机抽样需满足:(1)被抽取的样本总体的个体数有限;(2)逐个抽取;(3)是不放回抽取;(4)是等可能抽取.2.简单随机抽样常有抽签法(适用于总体中个体数较少的情况)、随机数法(适用于个体数较多的情况).考点二分层抽样及其应用角度1求某层入样的个体数【例1】某电视台在网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20000人,其中各种态度对应的人数如下表所示:人进行详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽取的人数分别为() A.25,25,25,25B.48,72,64,16C.20,40,30,10D.24,36,32,8答案D解析法一因为抽样比为10020000=1200,所以每类人中应抽取的人数分别为4800×1200=24,7200×1200=36,6400×1200=32,1600×1200=8.法二最喜爱、喜爱、一般、不喜欢的比例为4800∶7200∶6400∶1600=6∶9∶8∶2,所以每类人中应抽取的人数分别为66+9+8+2×100=24,96+9+8+2×100=36,86+9+8+2×100=32,26+9+8+2×100=8.角度2求总体或样本容量【例2】(1)(2020·东北三省四校联考)某中学有高中生960人,初中生480人,为了了解学生的身体状况,采用分层抽样的方法,从该校学生中抽取容量为n 的样本,其中高中生有24人,那么n等于()A.12B.18C.24D.36(2)(2021·重庆调研)甲、乙两套设备生产的同类型产品共4800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.答案(1)D(2)1800解析(1)根据分层抽样方法知n960+480=24960,解得n=36.(2)由题设,抽样比为80 4800=160.设甲设备生产的产品为x件,则x60=50,∴x=3000.故乙设备生产的产品总数为4800-3000=1800.感悟升华 1.求某层应抽个体数量:按该层所占总体的比例计算.2.已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.3.分层抽样的计算应根据抽样比构造方程求解,其中“抽样比=样本容量总体容量=各层样本数量各层个体数量”.【训练】(1)(2020·郴州二模)已知我市某居民小区户主人数和户主对户型结构的满意率分别如图1和图2所示,为了解该小区户主对户型结构的满意程度,用分层抽样的方法抽取30%的户主进行调查,则样本容量和抽取的户主对四居室满意的人数分别为()A.240,18B.200,20C.240,20D.200,18(2)(2021·合肥模拟)某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种,10种,30种,20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是________.答案(1)A(2)6解析(1)样本容量n=(250+150+400)×30%=240,抽取的户主对四居室满意的人数为150×30%×40%=18.(2)抽样比为2040+10+30+20=15,则抽取的植物油类种数是10×15=2,抽取的果蔬类食品种数是20×15=4,所以抽取的植物油类与果蔬类食品种数之和是2+4=6.A级基础巩固一、选择题1.(多选题)(2021·武汉调研)下列抽样方法不是简单随机抽样的是()A.从平面直角坐标系中抽取5个点作为样本B.某可乐公司从仓库中的1000箱可乐中一次性抽取20箱进行质量检查C.某连队从120名战士中,挑选出50名最优秀的战士去参加抢险救灾活动D.从10个手机中逐个不放回地随机抽取2个进行质量检验(假设10个手机已编号)答案AC解析对于A,平面直角坐标系中有无数个点,这与要求总体中的个体数有限不相符,故A中的抽样方法不是简单随机抽样;对于B,一次性抽取与逐个不放回地抽取是等价的,故B中的抽样方法是简单随机抽样;对于C,挑选的50名战士是最优秀的,不符合简单随机抽样的等可能性,故C中的抽样方法不是简单随机抽样;对于D,易知D中的抽样方法是简单随机抽样.2.(多选题)(2020·泰安质检)某公司生产三种型号的轿车,产量分别为1500辆,6000辆和2000辆.为检验该公司的产品质量,公司质监部门要抽取57辆进行检验,则下列说法正确的是()A.应采用分层随机抽样抽取B.应采用抽签法抽取C.三种型号的轿车依次应抽取9辆,36辆,12辆D.这三种型号的轿车,每一辆被抽到的概率都是相等的答案ACD解析因为是三种型号的轿车,个体差异明显,所以采用分层抽样,选项A正确;因为总体量较大,故不宜采用抽签法,选项B错误;抽样比为571500+6000+2000=3500,三种型号的轿车依次应抽取9辆,36辆,12辆,选项C正确.分层抽样中,每一个个体被抽到的可能性相同.故选项D正确.故答案为ACD.3.(2020·首都师范大学附属中学月考)从某班50名同学中选出5人参加户外活动,利用随机数表法抽取样本时,先将50名同学按01,02,…,50进行编号,然后从随机数表的第1行第5列和第6列数字开始从左往右依次选取两个数字,则选出的第5个个体的编号为()(注:表为随机数表的第1行与第2行)A.24答案A解析由题知,从随机数表的第1行第5列和第6列数字开始,由表可知依次选取43,36,47,46,24.4.(多选题)(2021·襄阳联考)某中学高一年级有20个班,每班50人;高二年级有30个班,每班45人.甲就读于高一,乙就读于高二.学校计划从这两个年级中共抽取235人进行视力调查,下列说法中正确的有()A.应该采用分层随机抽样法B.高一、高二年级应分别抽取100人和135人C.乙被抽到的可能性比甲大D.该问题中的总体是高一、高二年级的全体学生的视力答案ABD解析由于各年级的年龄段不一样,因此应采用分层抽样法.由于比例为23520×50+30×45=110,因此高一年级1000人中应抽取100人,高二年级1350人中应抽取135人,甲、乙被抽到的可能性都是110,因此只有C不正确,故应选ABD.5.如图是调查某学校高三年级男女学生是否喜欢数学的等高条形图,阴影部分的高表示喜欢数学的频率.已知该年级男、女生各500名(所有学生都参加了调查),现从所有喜欢数学的学生中按分层抽样的方式抽取32人,则抽取的男生人数为()A.16 B.32 C.24 D.8答案C解析由题中等高条形图可知喜欢数学的女生和男生的人数比为1∶3,,所以抽取的男生人数为24.故选C.6.某中学400名教师的年龄分布情况如图,现要从中抽取40名教师作样本,若用分层抽样方法,则40岁以下年龄段应抽取()A.40人B.200人C.20人D.10人答案C解析由题图知,40岁以下年龄段的人数为400×50%=200,若采用分层抽样应抽取200×40400=20(人).7.(多选题)(2021·淄博模拟)港珠澳大桥是中国境内一座连接中国香港、广东珠海和中国澳门的桥隧工程,因其超大的建筑规模、空前的施工难度以及顶尖的建造技术闻名世界,为内地前往香港的游客提供了便捷的交通途径,某旅行社分年龄统计了大桥落地以后,由香港大桥实现内地前往香港的老中青旅客的比例分别为5∶2∶3,现使用分层抽样的方法从这些旅客中随机抽取n名,若青年旅客抽到60人,则()A .老年旅客抽到100人B .中年旅客抽到20人C .n =200D .被抽到的老年旅客以及中年旅客人数之和超过200人答案 AC解析 由题意,香港大桥实现内地前往香港的老中青旅客的比例分别为5∶2∶3,若青年旅客抽到60人,现使用分层抽样的方法从这些旅客中随机抽取n 名,所以60n =35+2+3,解得n =200人,则老年旅客抽到60×53=100人,中年旅客抽到60×23=40人,则老年旅客和中年旅客人数之和为160.8.(2020·北京东城区模拟)某机构对青年观众是否喜欢跨年晚会进行了调查,人数如表所示:“不喜欢”的男性青年观众中抽取了6人,则n =( )A .12B .16C .24D .32答案 C解析 由分层抽样的性质得:630=n 30+30+10+50,解得n =24.故选C.二、填空题9.假设要考察某公司生产的500克袋装牛奶的三聚氰胺是否超标,现从800袋牛奶中抽取60袋进行检验,利用随机数表抽取样本时,将800袋牛奶按000,001,…,799进行编号,若从随机数表第7行第8列的数开始向右读,则得到的第4个样本个体的编号是________(下面摘取了随机数表第7行至第9行).解析由随机数表知,前4个样本的个体编号分别是331,572,455,068. 10.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=________.答案13解析依题意得360=n120+80+60,故n=13.11.(2020·海南质检)《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱,欲以钱数多少衰出之,问各几何?”其意为:“今有甲带了560钱,乙带了350钱,丙带了180钱,三人一起出关,共需要交关税100钱,依照钱的多少按比例出钱”,则乙应出(所得结果四舍五入,保留整数)钱数为________.答案32解析因为甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱.要按照各人带钱多少的比例进行关税.则乙应付:100560+350+180×350=3212109≈32钱.12.某企业三月中旬生产A,B,C三种产品共3000件,根据分层抽样的结果,企业统计员制作了如下的统计表格.由于不小心,表格中A,C产品的有关数据已被污染看不清楚,统计员记得A产品的样本容量比C产品的样本容量多10件,根据以上信息,可得C产品的数量是________.答案800解析设A,C产品数量分别为x件、y件,则由题意可得⎩⎪⎨⎪⎧x +y +1300=3000,(x -y )×1301300=10,解得⎩⎨⎧x =900,y =800. B 级 能力提升13.我国古代数学算经十书之一的《九章算术》有一衰分问题:今有北乡八千一百人,西乡七千四百八十八人,南乡六千九百一十二人,凡三乡,发役三百人,则北乡遣( )A .104人B .108人C .112人D .120人 答案 B解析 由题意知,抽样比为 3008100+7488+6912=175,所以北乡遣175×8100=108(人).14.下列抽取样本的方式属于简单随机抽样的个数为( ) ①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里. ③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛. A .0 B .1 C .2 D .3 答案 A解析 ①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;②不是简单随机抽样.因为它是有放回抽样;③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取;④不是简单随机抽样.因为不是等可能抽样.故选A.15.甲、乙两所学校高三年级分别有1200人,1000人,为了了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布统计表如下: 甲校:则A.12,7B.10,7C.10,8D.11,9答案B解析从甲校抽取110×12001200+1000=60(人),从乙校抽取110×12001200+1000=50(人),故x=10,y=7.16.某工厂的三个车间在12月份共生产了3600双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从第一、二、三车间抽取的产品数分别为a,b,c,且a,b,c构成等差数列,则第二车间生产的产品数为________.答案1200解析因为a,b,c成等差数列,所以2b=a+c.所以a+b+c3=b.所以第二车间抽取的产品数占抽样产品总数的13.根据分层抽样的性质,可知第二车间生产的产品数占总数的13,即为13×3600=1200.。
《6.2.1简单随机抽样》知识清单

《简单随机抽样》知识清单知识点1简单随机抽样1.简单随机抽样的概念一般地,设一个总体含有N 个个体,从中①_________地抽取n (n ≤N )个个体为样本,如果总体内的每个个体都有相同的可能性被抽到,则把这样的抽样方法称为简单随机抽样.2.常用的简单随机抽样方法(1)抽签法:①假设一个总体有N 个个体,将它们逐一编号;②制作N 个号签(号签可以用小球、纸片等制作),将编号写在号签上;③将号签放在一个容器中,并充分搅拌均匀;④从容器中任意抽取n 个号签,记录其编号,就得到一个容量为n 的样本.(2)随机数法:先把总体中的N (N 为正整数)个个体依次编号,例如按1,2,…,N 编号,然后用随机数工具产生1~N 范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的个体进入样本,如果生成的随机数有重复,即同一编号被多次抽到,需剔除重复的编号并重新产生随机数,直到产生的不同编号个数等于样本所需的个体数.随机数生成的方法:①用随机试验生成随机数.②用信息技术生成随机数:用计算器生成随机数:用电子表格软件生成随机数;用R 统计软件生成随机数.知识点3总体均值与样本均值1.总体均值一般地,总体中有N 个个体,它们的变量值分别为12,,,N Y Y Y ,则称Y =②________为总体均值,又称总体平均数.2.总体均值加权平均数的形式如果总体的N 个变量值中,不同的值共有()k k N 个,不妨记为12,,,k Y Y Y ,其中i Y 出现的频数为(i f i =1,2,,)k ,则总体均值还可以写成加权平均数的形式Y11ki ii f Y N ==∑. 3.样本均值如果从总体中抽取一个容量为n 的样本,它们的变量值分别为12,,,n y y y ,则称y =③________为样本均值,又称样本平均数.4.总体比例与样本比例(1)总体比例:总体中具有某种特征的单位占所有单位的比例称为总体比例,记作P .一般地,总体中有n 个个体,记总体中第(1,2,,)i i n =个数据具有此种特征的变量值i Y 为1,不具有此种特征的变量值i Y 为0,则总体比例P 就是总体平均数12n Y Y Y Y P n +++==.(2)样本比例:样本中具有某种特征的单位占全部样本单位的比例称为样本比例,记作p .从总体中抽取一个容量为n 的样本,记样本中第(1,2,,)i i n =个数据具有此种特征的变量值i y 为1,不具有此种特征的变量值i y 为0,则样本比例p 就是样本平均数y p =12n y y y n +++=. 【答案】①不放回地全体②1211N N i i Y Y Y Y N N =+++=∑③1211n n i i y y y y n n =+++=∑ 【知识辨析】判断正误,正确的画“√”,错误的画“×”.1.科学的抽样所得到的样本能真实地反映总体.( )2.简单随机抽样中每个个体被抽到的机会都相等.( )3.在某校高一年级1000名学生中,选出个子最高的10名学生参加学校组织的篮球赛,是简单随机抽样.( )4.从高一(1)班抽取8人,若这8人的平均身高为170cm,则该班所有学生的平均身高一定为170cm.( )【答案】1.× 一般通过样本去估计总体,所以样本只能近似地反映总体.2.√ 无论是放回简单随机抽样还是不放回简单随机抽样,每个个体被抽到的机会相等.3.×选出个子最高的10名学生参加学校组织的篮球赛,每个个体被抽到的机会不相等,不是简单随机抽样.4.×样本平均数是总体平均数的估计值,因此该班所有学生的平均身高约为170cm.。
1抽样方法(1)简单随机抽样(抽签法

1抽样方法(1)简单随机抽样(抽签法1.抽样方法:(1)简单随机抽样(抽签法、随机数表法)常常用于总体个数较少时,它的特点是从总体中逐个抽取;(2)系统抽样也叫等距离抽样,常用于总体个数较多时,它的要紧特点是均衡成若干部分,每部分只取一个;(3)分层抽样,要紧特点是分层按比例抽样,要紧用于总体中有明显差异,它们的共同点:每个个体被抽到的概率都相等n N ,体现了抽样的客观性和平等性。
如(1)某社区有500个家庭,其中高收入家庭125户,中等收入家庭280户,低收入家庭95。
为了调查社会购买力的某项指标,要从中抽取一个容量为100户的样本,把这种抽样记为A;某中学高中一年级有12名女排运动员,要从中选取3人调查学习负担的情形,把这种抽样记为B,那么完成上述两项调查应分别采纳的抽样方法:A为_______,B为_____。
(答:分层抽样,简单随机抽样);(3)某中学有高一学生4 00人,高二学生300人,高三学生300人,现通过分层抽样抽取一个容量为n的样本,已知每个学生被抽到的概率为0.2,则n= _______(答:20 0);(4)容量为100的样本拆分成10组,前7组的频率之和为0.79,而剩下的三组的频数组成等比数列,且其公比不为1,则剩下的三组中频数最大的一组的频率是______(答:0.16);(5)用简单随机抽样的方法从含有10个个体的总体中,抽取一个容量为2的样本,则某一个体a“第一次被抽到的概率”,“第一次未被抽到,第二次被抽到的概率”,“在整个抽样过程中被抽到的概率”分别是______________(答:111,, 10105);2.总体分布的估量:用样本估量总体,是研究统计咨询题的一个差不多思想方法,即用样本平均数估量总体平均数(即总体期望值――描述一个总体的平均水平);用样本方差估量总体方差(方差和标准差是描述一个样本和总体的波动大小的特点数,方差或标准差越小,表示那个样本或总体的波动越小,即越稳固)。
第三章简单随机抽样(抽样调查理论与方法-北京商学院,

100,95,92,88,83,75,71,62,60,50
平均分为77.6。先从中任选3个为一组样本,其选法共有120种
每种选法都有概率1/120。以4组样本为例(100,95,92),(100,83,
50),(88,83,62),(62,60,50)它们的样本平均数分别为95.67,
77.67,77.67,57.33。 从抽样调查的角度来看,我们希望抽到第二或第三组样
(3.6)
N 1 n
Nn
对随机有放回抽样,由于各次抽取是相互独立的,由概率论 的知识可以求得,此时:
2
Var( y) n
1 S2 (或 (1 ) ) (3.7)
Nn
比较(3.6)式与(3.7)式,发现同样用样本平均数来估计总体平 均数,它们都是无偏估计,但随机无放回时的方差小于随机
有放回时的方差。 y 的方差表示新盒子的离散程度,也就是 表示了 y 取值范围的大小,方差小表明 y 取值远离中心Y 的 可能性较小,这样随机的一组样本得到 y 的实现值距Y 很近
相当小,此时(3.6)式告诉我们 y 的方差将随着 n 的减少而增 大,此时 1-f 在 1 附近,对Var( y)的影响不大。事实上,
抽取样本越少,抽样误差越大。
可见实际抽样调查中用 y 估计Y 所产生的随机误差,也 即 y 的方差,主要受到样本容量 n 的影响,因子1-f 的影响
几乎可以忽略。
当然,影响 y 的方差的另一个重要因素是 2或 S 2。设
通常取决于总体单元个数N,满足10m1 N 10m。记m个 骰子按约定颜色而确定的顺序读得随机数R0,若R0 N,则 此 R0即为一次合格的随机数;否则予以放弃,重新摇取,直
到取到n个合格的随机数为止。 ③利用计算机产生随机数:不少现成的统计软件都可提供此 类服务。但必须指出,这样产生的随机数一般不能保证其随 机性,称为“伪随机数”。因此,提倡前述方法产生随机数。
常见的随机抽样方法介绍

常见的随机抽样方法介绍抽样方法介绍朱一军福建省产品质量检验研究院一、随机方法选择及随机数产生按照GB/T 10111-2008 《随机数的产生及其在产品质量抽样检验中的应用程序》的要求,并根据受检单位的产品堆放形式、基数(批量)大小,确定抽样方法(通常包括简单随机抽样、分层随机抽样、系统抽样、整群抽样、全数抽样五种方法)。
随机数一般可使用随机数表、骰子或扑克牌中任选一种方式产生。
(一)简单随机抽样(抽签法、随机样数表法)常常用于总体个数较少时,它的主要特征是从总体中逐个抽取;优点:操作简便易行缺点:总体过大不易实行1. 定义:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≦N),如果每次抽取式总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样。
2. 简单随机抽样方法(1)抽签法一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本。
(抽签法简单易行,适用于总体中的个数不多时。
当总体中的个体数较多时,将总体“搅拌均匀”就比较困难,用抽签法产生的样本代表性差的可能性很大)(2)随机数法随机抽样中,另一个经常被采用的方法是随机数法,即利用随机数表、随机数骰子或计算机产生的随机数进行抽样。
(二)分层抽样(Stratified Random Sampling) 主要特征分层按比例抽样,主要使用于总体中的个体有明显差异。
共同点:每个个体被抽到的概率都相等N/M。
定义一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样(stratified sampling)。
(三)系统抽样当总体中的个体数较多时,采用简单随机抽样显得较为费事。
这时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样叫做系统抽样。
第二章统计简单随机抽样知识梳理简...

第二章统计2.1 随机抽样2.1.1 简单随机抽样知识梳理:1.简单随机抽样的含义一般地,设一个总体含有N个个体,从中________地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会________,就把这种抽样方法叫做简单随机抽样。
2.简单随机抽样的方法(1)抽签法(抓阄法)一般地,抽签法就是________,把号码写在号签上,把号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本。
(2)随机数法随机数法:利用________、________或________产生的随机数进行抽样。
思考探究:1.简单随机抽样有哪些特点?2.在用随机数法抽样时,如果题目所给的编号数不一致,该如何处理?自主测评:1.某校期末考试后,为了分析该校高一年级1000名学生的学习成绩,从中随机抽取了100名学生的成绩单,就这个问题来说,下面说法中正确的是()A.1 000名学生是总体B.每名学生是个体C.每名学生的成绩是所抽取的一个样本D.样本的容量是1002.在简单随机抽样中,某一个个体被抽到的可能性()A.与第几次抽样有关,第一次抽到的可能性最大B.与第几次抽样有关,第一次抽到的可能性最小C.与第几次抽样无关,每一次抽到的可能性相等D.与第几次抽样无关,与抽取几个样本有关3.抽签法中确保样本代表性的关键是()A.制签B.搅拌均匀C.逐一抽取D.抽取不放回4.某工厂的质检人员对生产的100件产品,采用随机数法抽取10件进行检查,对100件产品采用下面编号方法:①01,02,03,…,100;②001,002,003,…,100;③00,01,02,…99。
其中最恰当的序号是________。
典例探究突破:类型一:简单随机抽样的概念例1:下面抽取样本的方式是简单随机抽样吗,为什么?(1)从无限多个个体中抽取50个个体作为样本;(2)箱子里共有100个零件,今从中选取10个零进行检验,在抽样操作时,从中任意地拿出一个零件进行质量检验后再把它放回箱子里;(3)从50个个体中一次性抽取5个个体作为样本;(4)某班45名同学指定个子最高的5名同学参加学校组织的某项活动。
12.3 抽样方法、总体分布的估计

A.30辆 30辆
B.40辆 40辆
C.60辆 60辆
D.80辆 80辆
解析
由图可知,车速大于或等于 70 km/h 的汽车的
频率为 0.02×10=0.2,则将被处罚的汽车大约有 200×0.2=40(辆) 答案 B
题型分类 深度剖析
题型一 抽样方法 【例1】 】 某政府机关有在编人员 100 人,其中副处 级以上干部 10 人,一般干部 70 人,工人 20 人.上 级机关为了了解政府机构改革意见, 级机关为了了解政府机构改革意见,要从中抽取一 的样本,试确定用何种方法抽取, 个容量为 20 的样本,试确定用何种方法抽取,请 具体实施抽取. 具体实施抽取. 思维启迪 (1)机构改革关系到各种人不同的利益;
解析
在简单随机抽样中, 每个个体被抽到的概率是相等
的,与第几次抽样无关.
2.要完成下列两项调查: .要完成下列两项调查: 户高收入家庭、 户中等收入家庭、 ①从某社区 125 户高收入家庭、280 户中等收入家庭、95 户调查社会购买力的某项指标; 户低收入家庭中选出 100 户调查社会购买力的某项指标; ②从某中学的 15 名艺术特长生中选出 3 人调查学习负担情 况. 宜采用的抽样方法依次为( 宜采用的抽样方法依次为 B ) A.①随机抽样法,②系统抽样法 . 随机抽样法, B.①分层抽样法,②随机抽样法 . 分层抽样法, C.①系统抽样法,②分层抽样法 . 系统抽样法, D.①②都用分层抽样法 .①②都用分层抽样法
用频率分布直方图解决相关问题时, 探究提高 用频率分布直方图解决相关问题时,应正 确理解图表中各个量的意义, 确理解图表中各个量的意义,识图掌握信息是解决该 类问题的关键. 频率分布直方图有以下几个要点: (1) 类问题的关键. 频率分布直方图有以下几个要点: 纵轴表示频率/组距.(2)频率分布直方图中各长方形 纵轴表示频率/组距.(2)频率分布直方图中各长方形 高的比也就是其频率之比.(3)直方图中每一个矩形 高的比也就是其频率之比.(3)直方图中每一个矩形 的面积是样本数据落在这个区间上的频率, 的面积是样本数据落在这个区间上的频率,所有的小 矩形的面积之和等于 1,即频率之和为 1.
随机抽样与简单随机抽样

考察对象是什么?
在统计中,我们把所要考察的对象的 某一数值指标的全体叫做总体
全国每位高中学生的 视力情况。
把组成总体的每一个考察的对象的 数值指标叫做个体
这15000名学生的视力情 从总体中取出的一部分个体的集体
况又组成一个集体
叫做这个总体的一个样容量。
问:如何刻画一袋奶粉是否合格?那些量可以作 为标准?
3、由于工作量过大,操作时失误 可能性大大增加,不能保证准确性
省时省力, 容易操作
估计结果有 误差。
∴现实生活中,一般采用“抽样调查”来了解产 品的质量指标。
思考:
1)要想对整批袋装奶粉的细菌含量做 出正确判断,做抽样调查时,对样本的要 求是什么?
2)随机抽样应具备哪些特点?
阅读
一个著名的案例
在抽样调查中,样本的选择是至关重要的,样本能否代表总体, 直接影响着统计结果的可靠性。下面的故事是一次著名的失败的统计 调查,被称为抽样中的泰坦尼克事件。它可以帮助我们理解为什么一 个好的样本如此重要。
在1936年美国总统选举前,一份颇有名气的杂志的工作人员做了 一次民意调查。调查兰顿(当时任堪萨斯州州长)和罗斯福(当时的 总统)中谁将当选下一届总统。为了了解公众意向,调查者通过电话 簿和车辆登记簿上的名单给一大批人发了调查表(注意在1936年 电话和汽车只有少数富人拥有)。通过分析收回的调查表,显示兰顿 非常受欢迎,于是杂志预测兰顿将在选举中获胜。
实际上选举结果正好相反,最后罗斯福在选举中获胜,其数据如 下:
候选人
预测结果(%) 选举结果(%)
罗斯福
43
62
兰顿
57
38
案例分析:
美国总统选举的真实结果为什么 与杂志社的预测结果正好相反?
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计1.抽样方法:(1)简单随机抽样(抽签法、随机数表法)常常用于总体个数较少时,它的特征是从总体中逐个抽取;(2)系统抽样也叫等距离抽样,常用于总体个数较多时,它的主要特征是均衡成若干部分,每部分只取一个;(3)分层抽样,主要特征是分层按比例抽样,主要用于总体中有明显差异,它们的共同点:每个个体被抽到的概率都相等nN,体现了抽样的客观性和平等性。
如(1)某社区有500个家庭,其中高收入家庭125户,中等收入家庭280户,低收入家庭95。
为了调查社会购买力的某项指标,要从中抽取一个容量为100户的样本,把这种抽样记为A;某中学高中一年级有12名女排运动员,要从中选取3人调查学习负担的情况,把这种抽样记为B,那么完成上述两项调查应分别采用的抽样方法:A为_______,B为_____。
(答:分层抽样,简单随机抽样);(3)某中学有高一学生400人,高二学生300人,高三学生300人,现通过分层抽样抽取一个容量为n的样本,已知每个学生被抽到的概率为0.2,则n= _______(答:200);(4)容量为100的样本拆分成10组,前7组的频率之和为0.79,而剩下的三组的频数组成等比数列,且其公比不为1,则剩下的三组中频数最大的一组的频率是______(答:0.16);(5)用简单随机抽样的方法从含有10个个体的总体中,抽取一个容量为2的样本,则某一个体a“第一次被抽到的概率”,“第一次未被抽到,第二次被抽到的概率”,“在整个抽样过程中被抽到的概率”分别是______________(答:111,,10105);2.总体分布的估计:用样本估计总体,是研究统计问题的一个基本思想方法,即用样本平均数估计总体平均数(即总体期望值――描述一个总体的平均水平);用样本方差估计总体方差(方差和标准差是描述一个样本和总体的波动大小的特征数,方差或标准差越小,表示这个样本或总体的波动越小,即越稳定)。
一般地,样本容量越大,这种估计就越精确。
总体估计要掌握:(1)“表”(频率分布表);(2)“图”(频率分布直方图)。
频率分布直方图的特征:(1)从频率分布直方图可以清楚的看出数据分布的总体趋势。
(2)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。
频率直方图的作法:(1)算数据极差();minmaxxx-(2)决定组距和组数;(3)决定分点;(4)列频率分布表;(5)画频率直方图。
提醒:直方图的纵轴(小矩形的高)一般是频率除以组距的商(而不是频率),横轴一般是数据的大小,小矩形的面积表示频率。
组数的决定方法是:设数据总数目为n,50≤n时,分为8~5组;10050≤<n时,分为12~8组.如(1)一个容量为20的样本数据,分组后组距与频数如下:(10,20],2;(20,30],3;(30,40],4;(40,50],5;(50,60],4;(60,70],2;则样本在区间]50,50(-上的频率为A.5%B.25%C.50%D.70%(答:D);(2)已知样本:10 8 6 10 13 8 10 12 11 7 8 9 11 9 12 9 10 11 12 12 ,那么频率为0.3的范围是A.5.5~7.5 B.7.5~9.5C.9.5~11.5 D.11.5~13.5(答:B);(3)观察新生儿的体重,其频率分布直方图如图所示,则新生儿的体重在[2700,3000]的频率为_______(答:0.3);(4)如图,是一次数学考试成绩的样本频率分布直方图(样本容量n=200),若成绩不低于60分为及格,则样本中的及格人数是_____(答:120);(5) 有同一型号的汽车100辆,为了解这种汽车每蚝油1L所行路程的情况,现从中随即抽出10辆在同一条件下进行蚝油1L所行路程实验,得到如下样本数据(单位:km):13.7,12.7,14.4,13.8,13.3,12.5,13.5,13.6,13.1,13.4,其分组如下: (2)根据上表,在给定坐标系中画出频率分布直线图,并根据样本估计总体数据落在[12.95,13.95)中的概率;(3)根据样本,对总体的期望值进行估计 解:(1)频率分布表:分组频数 频率 [12.45,12.95) 2 0.2 [12.95,13.45) 3 0.3 [13.45,13.95) 4 0.4 [13.95,14.45)10.1合计 10 1.0(2)频率分布直方图:估计总体数据落在[12.95,13.95)中的概率为0.7(3)0.7(0.3) 1.40.80.3(0.5)0.50.60.10.41310x -+-++++-++++=+Q =13.4因此,总体的期望值进行估计约为13.4.(6)为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12.(1) 第二小组的频率是多少?样本容量是多少? (2) 若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3) 在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由。
分析:在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和等于1。
解:(1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,因此第二小组的频率为:40.0824171593=+++++又因为频率=第二小组频数样本容量,所以121500.08===第二小组频数样本容量第二小组频率(2)由图可估计该学校高一学生的达标率约为171593100%88%24171593+++⨯=+++++(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内。
分组频数 频率 [12.45,12.95) [12.95,13.45) [13.45,13.95) [13.95,14.45) 合计101.090 101112131415o 0.000.000.010.010.020.020.02频率/组距 0.030.033、样本平均数:12111()nn ii x x x x x n n ==+++=∑L 。
如有一组数据:x 1,x 2,…,x n (x 1≤x 2≤…≤x n ),它们的算术平均值为20,若去掉其中的x n ,余下数据的算术平均值为18,则x n 关于n 的表达式为 (答:218n x n =+)。
4、样本方差:2222121[()()()]n s x x x x x x n =-+-++-L 211()n i i x x n ==-∑; 样本标准差:s =。
如(1)甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表((答:甲);(2)已知实数)2(,,,21≥n x x x n Λ的期望值为x ,方差为2S ,∑=-=n i i a x n m 12)(1,若x a ≠,则一定有A .m S >2B .m S <2C .m S =2D .2S 与m 无法比较大小(答:B );(3)某班40人随机平均分成两组,两组学生一则全班的平均分为_______,方差为______(答:85,51)提醒:若12,,,n x x x L的平均数为x ,方差为2s ,则12,,,n ax b ax b ax b +++L 的平均数为ax b +,方差为22as。
如已知数据n x x x ,,,21Λ的平均数5=x ,方差42=S ,则数据73,,73,7321+++n x x x Λ的平均数和标准差分别为A .15,36B .22,6C .15,6D .22,36(答:B ) 5.茎叶图(1) 茎叶图的画法: ①将每个数据分为茎(高位)与叶(低位)两部分,②将最大茎和最小茎之间的数按大小顺序排成一列,③将各数据的叶依先后次序写在其茎的左(右)两侧.(2)茎叶图的特征: (1)用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。
(2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰。
6. 独立性检验独立性检验是检定两个事件间是否独立的统计方法,是卡方检验的一个应用.卡方检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验.即根据样本的频数分布来推断总体的分布,卡方独立性检验的零假设是各事件之间相互独立.卡方值永远大于零. χ2的两个临界值分别是3.841,与6.635.2x ≤3.841时,接受假设即两事件无关.相关系数是测定变量之间相关密切程度和相关方向的代表性指标。
相关系数用符号“r”表示,其特点表现在:参与相关分析的两个变量是对等的,不分自变量和因变量,改变两变量的地位并不影响相关系数的数值,因此相关系数只有一个;相关系数有正负号反映相关系数的方向,正号反映正相关,负号反映负相关;回归和相关都是研究两个变量相互关系的分析方法。
相关分析研究两个变量之间相关的方向和相关的密切程度。
但是相关分析不能指出两变量相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化关系。
回归方程则是通过一定的数学方程来反映变量之间相互关系的具体形式,以便从一个已知量来推测另一个未知量。
为估算预测提供一个重要的方法。
相关性检验的步骤是:(1)做统计假设:x 与Y 不具备线性相关关系.(2)根据小概率0.05与2n -查出r 的一个临界值.(3)根据样本相关系数公式计算出r 的值.(4)作统计推断:如果0.05,r r >表明95%的把握认为x 与Y 之间具备线性相关关系,如果0.05,r r ≤接受假设.提醒:A 与B 有关并不意味着A 的发生必然导致B 的发生.7.回归分析回归分析是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定一个相应的数学表达式,以便从一个已知量来推测另一个未知量,为估计预测提供一个重要的方法。
在回归分析中,由X 推算Y 与由Y 推算X 的回归方程是不同的,不可混淆:2()(),()i i ix x y y b a y bxx x --==--∑∑由x 推y 2()(),()ii ix x y y b a x by y y --==--∑∑由y 推x .与相关分析相比,回归分析的特点是:两个变量是不对等的,只能用自变量来估计因变量,而不允许由因变量来推测自变量,必须区分自变量,一般说,事物的原因作自变量X.回归分析和相关分析是互相补充、密切联系的。