第五章__总体和样本
概率论与数理统计(茆诗松)第二版课后第五章习题参考答案

分组区间 (0, 1700] (1700, 3400] (3400, 5100] (5100, 6800] (6800, 8500] (8500, 10200] (10200, 11900] (11900, 13600] (13600, 15300]
组中值 850 2550 4250 5950 7650 9350 11050 12750 14450
第五章
统计量及其分布
习题 5.1
1. 某地电视台想了解某电视栏目(如:每日九点至九点半的体育节目)在该地区的收视率情况,于是委 托一家市场咨询公司进行一次电话访查. (1)该项研究的总体是什么? (2)该项研究的样本是什么? 解: (1)总体是该地区的全体用户; (2)样本是被访查的电话用户. 2. 某市要调查成年男子的吸烟率,特聘请 50 名统计专业本科生作街头随机调查,要求每位学生调查 100 名成年男子,问该项调查的总体和样本分别是什么,总体用什么分布描述为宜? 解:总体是任意 100 名成年男子中的吸烟人数;样本是这 50 名学生中每一个人调查所得到的吸烟人数; 总体用二项分布描述比较合适. 3. 设某厂大量生产某种产品,其不合格品率 p 未知,每 m 件产品包装为一盒.为了检查产品的质量,任 意抽取 n 盒,查其中的不合格品数,试说明什么是总体,什么是样本,并指出样本的分布. 解:总体是全体盒装产品中每一盒的不合格品数;样本是被抽取的 n 盒产品中每一盒的不合格品数;
i =1 i =1 i =1 n n
= ∑ ( xi − x )( y i − y ) + 0 + 0 + n( x − c)( y − d ) = ∑ ( x i − x )( y i − y ) + n( x − c)( y − d ) .
用样本推断总体(知识点汇总 湘教9上)

第五章 用样本推断总体(一)平均数的计算方法(1)定义法:一般地,如果有n 个数,,,,21n x x x 数据比较分散,那么,)(121n x x x n x +++=叫做 这n 个数的平均数,x 读作“x 拔”。
(2)加权平均数法:如果所给数据重复出现,即n 个数中,1x 出现1f 次,2x 出现2f 次,…,k x 出现k f 次(这里n f f f k =++ 21)那么,根据平均数的定义,这n 个数的平均数可以表示为 nf x f x f x x k k ++=2211,这样求得的平均数x 叫做加权平均数,其中k f f f ,,,21 叫做权。
(3)新数据法:当所给数据都在某一常数a 的上下波动时,一般选用简化公式:a x x +='。
其中,常数a 通常取接近这组数据平均数的较“整”的数,(a x x -=11',a x x -=22',…, a x x n n -='。
)'''(1'21n x x x nx +++= 是新数据的平均数(通常把,,,,21n x x x 叫做原数据, ,',,','21n x x x 叫做新数据)。
(二)、统计学中的几个基本概念1、总体:所有考察对象的全体叫做总体。
2、个体:总体中每一个考察对象叫做个体。
3、样本:从总体中所抽取的一部分个体叫做总体的一个样本。
4、样本容量:样本中个体的数目叫做样本容量。
5、样本平均数:样本中所有个体的平均数叫做样本平均数。
6、众数:在一组数据中,出现次数最多的数据叫做这组数据的众数。
7、中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数) 叫做这组数据的中位数。
(三)总体平均数和方差的估计1、总体平均数:总体中所有个体的平均数叫做总体平均数; 统计中,通常用样本平均数估计总体平均数。
2、方差:在一组数据,,,,21n x x x 中,各数据与它们的平均数x 的差的平方的平均数,叫做这组数据的 方差。
概率论与数理统计(茆诗松)第二版课后第五章习题参考答案

(2)上班所需时间在半小时以内有 25 + 60 + 85 = 170 人. 5. 40 种刊物的月发行量(单位:百册)如下: 5954 5022 14667 6582 6870 1840 2662 4508 1208 3852 618 3008 1268 1978 7963 2048 3077 993 353 14263 1714 11127 6926 2047 714 5923 6006 14267 1697 13876 4001 2280 1223 12579 13588 7315 4538 13304 1615 8612 (1)建立该批数据的频数分布表,取组距为 1700(百册) ; (2)画出直方图. 解: (1)最大观测值为 353,最小观测值为 14667,则组距为 d = 1700, 区间端点可取为 0,1700,3400,5100,6800,8500,10200,11900,13600,15300, 频率分布表为 组序 1 2 3 4 5 6 7 8 9 合计 (2)作图略.
1091 1572 775 1044 738
3. 假若某地区 30 名 2000 年某专业毕业生实习期满后的月薪数据如下: 909 1086 1120 999 1320 1071 1081 1130 1336 967 825 914 992 1232 950 1203 1025 1096 808 1224 871 1164 971 950 866 (1)构造该批数据的频率分布表(分 6 组) ; (2)画出直方图. 解: (1)最大观测值为 1572,最小观测值为 738,则组距为 d =
样本的分布为 p ( x1 , x2 , L , xn ) = λ eλ x1 ⋅ λ eλ x2 L λ eλ xn = λ n e
样本含量估计ppt课件

26
确定样本量的方法---查表法
σ=1.5 δ=0.2 σ/δ =1.5/0.2=7.5
公式计算法:uα/2=1.96 n=(1.96)2(1.5)2/(0.2)2=216.1≈217
δ
检
检
总总
容
验
验
体体
许
水
效
标率
误
准
能
准
差
差7检验水准(Fra bibliotek值)即假设检验第一类错误出现的概率,也称假阳性率,,即检验水 准或显著性。α越小,所需的样本量越大,反之就要越小。α水平由 研究者根据具体情况决定,通常α取0.05或0.01。 ❖ 另外还应明确是单侧或双侧检验。
用统计学检验时,当研究结果高于和低于效应指标的界限均有 意义时,应该选择双侧检验,所需样本量就大;当研究结果仅高于 或低于效应指标的界限有意义时,应该选择单侧检验,所需样本量 就小。当进行双侧检验或单侧检验时,其α或β的U界值通过查标准 正态分布的分位数表可得。
地区性研究:平均样本人数500-1000人; 全国性研究:1500-2500人 描述性研究:样本最少占总体的10%,如果总体较小,则最
少占总体20% 相关性研究:受试者至少30人以上
6
确定样本量的方法---计算法和查表法
❖ 样本含量估计常用的两种方法。
❖ 需要提前确定以下参数:
TEXT
α
1-β
σ和π
u u 211/ k 2
n
2
试验组样本量为n,对照组样本含量为kn, 当两组样本含量相等时,k=1。
最新人教B版高中数学必修第二册第五章5.1.4 用样本估计总体

附: √74≈8.602.
分析(1)用样本中[0.40,0.60)和[0.60,0.80)内的比例估计产值增长率不低于
40%的企业比例,[-0.20,0)内的比例估计产值负增长的企业比例;(2)根据公
式求平均数.
解 (1)根据产值增长率频数分布表得,所调查的 100 个企业中产值增长率不
低于
14+7
40%的企业频率为 100 =0.21.
2
产值负增长的企业频率为 =0.02.
100
用样本频率分布估计总体分布得这类企业中产值增长率不低于 40%的企业
比例为 21%,产值负增长的企业比例为 2%.
(2) =
1
×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
3.误差
估计一般是有误差的.但是,大数定律可以保证,当样本的容量越来越大时,
估计的误差很小的可能性将越来越大.
名师点析 用样本估计总体出现误差的原因
样本抽取的方法不合适,导致代表性差;样本容量偏少等.
4.一般来说,在估计总体的数字特征时,只需直接算出样本对应的数字特征
即可.
5.样本是用分层抽样得到的,由每一层的数字特征估计总体的数字特征.以
数定律可以保证,当样本容量越大时误差越小.大数定律(大数法则):大量的,
在一定条件下重复的“随机现象”将呈现一定的规律和稳定性,这种稳定性
即频率的稳定性和平均数的稳定性.
微练习
如图所示是容量为100的样本的频率分布直方图,则由图中的数据可知,样
本落在[15,20]内的频数为(
)
A.20
概率论与数理统计 第5章

n
n
性质2.(分布可加性):若X~2(n1),Y~2(n2),X与 Y独立,则
X + Y~2(n1+n2 )
3、2分布表及有关计算
(1)构成 P{2(n)>λ}=α,已知n, α可查表求得λ; (2)有关计算P 2 (n) 2 (n) 称为上侧α分位数
例5.1 设 X ~ N ( , 2 ) (X1,X2,…,Xn)为X的一个样本,
求(X1,X2,…,Xn)的密度。 解 (X1,X2,…,Xn)为X的一个样本,故
X i ~ N ( , 2 )
n
i 1,2,, n
f ( x1 , x2 ,, xn ) f ( xi )
16 2
解
i 1,2,,16
2 1 16 2 2 P ( X i ) P 8 2 (16) 16 2 16 i 1
2—分布的密度函数f(y)曲线
n/2 1 f ( y) 2 ( n / 2) y 0,
n y 1 2 2
e , y0 y0
2 例5.4 X ~ N ( , ) (X1,X2,X3)为X的一个样本
X 1 X 2 X 3 的分布。 求
(n)为整体记号
2
2 (n) 2 2 查表得 0 ( 25 ) 34 . 382 10) 18.307 .1 0.05 (
1 当n充分大时,近似有 (n ) (u 2n - 1) 2 2
2
练习1. P(2(n)<s)=1-p ∵P(2(n) < s)=1- P(2(n) s )=1-p ∴ P(2(n) s )=p 2 s p (n) 练习2. P(2(11)>s)=0.05,求s
统计学 第五章

第五章 抽样推断抽样推断定义:是一种非全面调查,是按随机原则,从总体中抽取一部分单位进行调查,并以其结果对总体某一数量特征作出估计和推断的一种统计方法。
(一) 总体和样本在抽样推断中面临两个不同的总体,即全及总体和样本总体,全及总体也叫母体,简称总体。
全及总体的单位数用N 表示全及总体⎪⎩⎪⎨⎧⎩⎨⎧属性总体有限总体无限总体变量总体样本总体又叫抽样总体、子样,简称样本,样本总体的单位数称样本容量,用n 表示。
(二) 参数和统计量参数亦称全及指标,由于全及总体是唯一确定的,故根据全及总体计算的参数也是个定值 对于属性总体,可以有如下参数,全及总体成数p ,全及总体标准差)(2p p σσ方差 属性总体标准差:()p p p-=1σ统计量即样本指标设样本总体有n 个变量:n x x x x ,...,,,321 则:样本平均数 nx x ∑=(三) 样本容量与样本个数样本容量是指一个样本所包含的单位数,用n 来表示,一般地,样本单位数达到或超过30个的样本称为大样本,而在30个以下称为小样本。
社会经济统计的抽样推断多属于大样本,而科学实验的抽样观察则多取小样本。
样本个数又称样本可能数目,是指从全及总体中可能抽取的样本的个数。
一个总体可能抽取多少样本,与样本容量大小有关,也与抽样的方法有关。
在样本容量确定之后,样本的可能数目便完全取决于抽样方法。
抽样误差是抽样调查自身所固有的,不可避免的误差,虽然不能消除这种误差,但有办法进行计算,并能对其加以控制。
抽样平均误差越大,表示样本的代表性越低;抽样平均误差越小,表示样本的代表性越高。
在重复简单随机抽样时,样本平均数的抽样分布有数学期望值E(a)=a(a代表全及总体平均数,即X)X⇔。
样本平均数的平均数=总体平均数抽样平均误差=抽样标准误差=样本平均数的标准差(它反映抽样平均数与总体平均数的平均误差程度)例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用重复简单随机抽样的方法从全及总体中抽选出容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(15501700160015001400元=+++=X全及总体标准差()4500002=-=∑NX Xσ抽样平均误差x μ=nnσσ=2=)(0569.792*450000元=例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用不重复简单随机抽样的方法从全部总体中抽选容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(155041700160015001400元=+++==∑NXX全及总体标准差()4500002=-=∑NX Xσx μ=⎪⎭⎫ ⎝⎛--∙12N n N n σ=)(55.6414244*250000元=--∙例题:某电子元件厂,生产某型号晶体管,按正常生产试验,产品中属于一级品的占70%,现在从10000件晶体管中,抽取100件进行抽查检验,求一级品率的抽样平均误差? 解:已知:P=0.7 , P(1-P)=0.21在重复抽样的情况下,抽样平均误差为:()np p p -=1μ=%58.410021.0=在不重复抽样的情况下,抽样平均误差为:()⎪⎭⎫⎝⎛-∙-=N n n p p p 11μ=%56.410000*********.0=⎪⎭⎫ ⎝⎛-∙参数估计()()⎪⎪⎩⎪⎪⎨⎧→-==+≤≤是概率度是置信度,极限误差)样本指标总体指标极限误差—(样本指标区间估计:求不高的情况准确程度与可靠程度要点估计:适用于推断的t t F t F P α1例题:已知某车间某产品的合格率在某个置信度下的估计区间是(85%,95%),还已知样本容量为100,求置信度?解:显然p p ∆-=85%,p p ∆+=95%,即p=90%,p ∆=5%p ∆=μ⋅t μpt ∆=⇒=()()67.1100%901%90%51=-∙=-∆np p p ()t F =0.9052即置信度为90.51% ★求置信度,只需要求出t影响抽样数目的因素⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧∆样本单位不重置抽样可以少抽些单位,抽样需要多抽一些样本、在同等条件下,重置单位,则反之值越大,则多抽些样本、概率度则反之单位,的值大可以少抽些样本)、允许误差(极限误差越多,则反之值越大,必要抽样数目、总体标准差4321t x σ例题:某城市组织职工家庭生活抽样调查,职工家庭平均每户每月收入的标准差为11.50元,要求把握程度为95.45%,允许误差为1元,问需抽选多少户? 解:()t F =0.95452=⇒t , 元元,150.11=∆=x σxt n 222∆=σ=()户529150.1142=∙。
用样本推断总体

第五章用样本推断总体(总14页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--编写日期:2015年11月29日课时教案章节第四章课题总体平均数与方差的估计课型新授课教法讲练结合教学目标【知识与技能】1.掌握用样本平均数估计总体平均数2.掌握用样本方差估计总体方差.【过程与方法】通过对具体事例的分析、探讨,掌握简单随机样本在大多数情况下,当样本容量足够大时,样本的平均数和方差能反应总体相应的情况.【情感态度】感受数学在生活中的应用.教学重点样本平均数、方差估计总体平均数、方差的综合应用.教学难点体会统计思想,并会用样本平均数和方差估计总体平均数和方差.教学方法投影仪教学媒体一、情景导入,初步认知一所学校要从两名短跑速度较快的同学中选拔一名去参加市里的比赛,为了使选拔公平,每名同学都进行10次测试,结果两名同学测试的结果的平均数是相同的,那么,派谁去参加比赛更好呢?【教学说明】:二、思考探究,获取新知1.我们在研究某个总体时,一般用数据表示总体中每个个体的某种数量特性,所有这些数据组成一个总体,而样本则是从总体中抽取的部分数据,因此,样本蕴含着总体的许多信息,这使我们有可能通过样本的某些特性去推断总体的相应特性.2.从总体中抽取样本,然后通过对样本的分析,去推断总体的情况,这是统计的基本思想,用样本平均数,样本方差分别去估计总体平均数,总体方差就是这一思想的体现,实践和理论都表明:对于简单的随机样本,在大多数情况下,当样本容量足够大时,这种估计是合理的.3.思考:(1)如何估计某城市所有家庭一年内平均丢弃的塑料袋个数?(2)在检查甲、乙两种棉花的纤维长度时,如何估计哪种棉花的纤维长度比较整齐?【归纳结论】:4.探究:某农科院在某地区选择了自然条件相同的两个试验区,用相同的管理技术试种甲、乙两个品种的水稻各100亩.如何确定哪个品种的水稻在该地区更有推广价值呢?为了选择合适的稻种,我们需要关心这两种水稻的平均产量及产量的稳定性(即方差),于是,待水稻成熟后,各自从这100亩水稻随机抽取10亩水稻,记录它们的亩产量(样本),数据如下表所示:我们可以求出这10亩甲、乙品种的水稻的平均产量.因此,我们可以用这个产量来估计这两种水稻大面积种植后的平均产量.我们还可以计算出这10亩甲、乙品种的水稻的方差,从而利用这两个方差来估计.这两种水稻大面积种植后的稳定性(即方差),从而得出哪种水稻值得推广.5.通过上面的探究,怎样用样本去估计总体,才能使估计更加合理?【归纳结论】:6.如何用样本方差估计总体方差?【归纳结论】【教学说明】三、运用新知,深化理解1.见教材P143例题.年宁波市初中毕业生升学体育集中测试项目包括体能(耐力)类项目和速度(跳跃、力量、技能)类项目.体能类项目从游泳和中长跑中任选一项,速度类项目从立定跳远、50米跑等6项中任选一项.某校九年级共有200名女生在速度类项目中选择了立定跳远,现从这200名女生中随机抽取10名女生进行测试,下面是她们测试结果的条形图.(另附:九年级女生立定跳远的计分标准)九年级女生立定跳远计分标准:(注:不到上限,则按下限计分,满分10分)(1)求这10名女生在本次测试中,立定跳远距离的极差,立定跳远得分的众数和平均数;(2)请你估计该校选择立定跳远的200名女生得满分的人数.(2)因为10名女生中有6名得满分,所以估计200名女生中得满分的人数是200×610=120(人).3.某校要从甲、乙两名跳远运动员中挑选一人参加一项校际比赛,抽查了两人在最近10次选拔赛中的表现,他们的成绩(单位:cm)如下:你认为该派谁参加?4.如图所示,为了了解A、B两个旅游点的游客人数变化情况,抽取了从2002年至2006年“五一”的旅游人数变化情况,制成下图.根据图中所示解答以下问题:(1)B旅游点的旅游人数相对上一年,增长最快的是哪一年?(2)从平均数和方差的角度,用一句话对这两个旅游点的情况进行评价;编写日期:2015年11月30日课时教案教学目标【知识与技能】用样本中的“率”估计总体中的“率”.【过程与方法】经历数据的收集、整理、描述与分析的过程,进一步发展统计的意识和数据处理能力.【情感态度】体会统计在生活中的应用.教学重点用样本中的“率”估计总体中的“率”教学难点用样本中的“率”估计总体中的“率”.教学方法投影仪教学媒体一、情景导入,初步认知在实践中,我们常常通过简单的随机抽样,用样本的“率”去估计总体相应的“率”,例如工厂为了估计一批产品的合格率,常常从产品中随机抽取一部分进行检查,通过对样本进行分析,推断出这批产品的合格率.那么有什么方法来对“率”作出合理的估计呢?【教学说明】:二、思考探究,获取新知1.某工厂生产了一批产品,从中抽取1000件来检查,发现有10件次品,试估计这批产品的次品率.解:由于是随机抽取,即总体中每一件产品都有相同的机会被抽取,因此,随机抽取的1000件产品组成了一个简单随机样本,因而可以用这个样本的次品率作为对这批产品的次品率的估计,从而这批产品的次品率为1%.2.某地为提倡节约用水,准备实行“阶梯水价计费”方式,用户月用水量不超出基本月用水量的部分享受基本价格,超出基本月用水量的部分实行加价收费,为更好地决策,自来水公司随机抽取了部分用户的月用水量数据.并将这些数据绘制成了如下的图形:如果自来水公司将基本月用水量定为每户12吨,那么该地区20万用户中约有多少用户能够全部享受基本价格?【教学说明】:三、运用新知,深化理解1.见教材P147例2.2.某灯具厂从1万件同批次产品中随机抽取了100件进行质检,发现其中有5件不合格,估计该厂这一万件产品中不合格品约为多少件?3.为了了解我市某县参加2008年初中毕业会考的6000名考生的数学成绩,从中抽查了200名学生的数学成绩(成绩为整数,满分120分)进行统计分析,并根据抽查结果绘制了如下的统计表和扇形统计图:(1)请将以上统计表和扇形统计图补充完整;(2)若规定60分以下(不含60分)为“不合格”,60分以上(含60分)为“合格”,80分以上(含80分)为“优秀”,试求该样本的合格率、优秀率;(3)在(2)的规定下,请用上述样本的有关信息估计该县本次毕业会考中数学成绩优秀的人数和不合格的人数.年我市体卫站对某校九年级学生体育测试情况进行调研,从该校360名九年级学生中抽取了部分学生的成绩(成绩分为A、B、C三个层次)进行分析,绘制了频数分布表(如下),请根据图表信息解答下列问题:(1)补全频数分布表;(2)如果成绩为A等级的同学属于优秀,请你估计该校九年级约有多少人达到优秀水平.编写日期:2015年11月31日课时教案教学重点借助统计图表、统计量作出正确决策.教学难点能够利用统计的有关知识解决相关实际问题.教学方法投影仪教学媒体一、情景导入,初步认知我们知道能够用样本的量来估计总体中的量,那么,我们能不能利用样本来推算将来的情况呢?【教学说明】:二、思考探究,获取新知1.李奶奶在小区开了一家便利店,供应A,B,C,D,E5个品种的食物,由于不同品种的食物的保质期不同,因此,有些品种因滞销而变质,造成浪费,有些品种因脱销而给居民带来不便.面对这种情况,李奶奶很着急.请你想办法帮助李奶奶解决这一问题.分析:随机抽取几天中这5个品种的食物的销售情况,再根据结果提出合理的建议.(1)收集数据;(2)分析数据和统计结果;(3)估计结果确定进货方案.2.利用样本来推断总体的过程是怎样的呢?【归纳结论】:【教学说明】三、运用新知,深化理解1.见教材P151“做一做”.2.小红的奶奶开了一个牛奶销售店,主要经营“学生奶”“酸牛奶”“原味奶”,可奶奶经营不善,经常有些品种的牛奶滞销(没卖完)或脱销(量不够),造成了浪费或亏损,细心的小红结合所学的统计知识帮奶奶统计了一个星期牛奶的销售情况,并绘制了下表:(1)计算各品种牛奶的日平均销售量,并说明哪种牛奶销量最高;(2)计算各品种牛奶的方差(保留两位小数),并比较哪种牛奶销量最稳定;(3)假如你是小红,你会对奶奶有哪些好的建议?3.第九届中国国际园林博览会(园博会)已于2013年5月18日在北京开幕,以下是根据近几届园博会的相关数据绘制的统计图的一部分:(1)第九届园博会的植物花园区由五个花园组成,其中月季园面积为平方千米,牡丹园面积为平方千米;(2)第九届园博会园区陆地面积是植物花园区总面积的18倍,水面面积是第七、八两届园博会的水面面积之和,请根据上述信息补全条形统计图,并标明相应数据;(3)小娜收集了几届园博会的相关信息(如下表),发现园博会园区周边设置的停车位数量与日接待游客量和单日最多接待游客量中的某个量近似成正比例关系,根据小娜的发现,请估计将于2015年举办的第十届园博会大约需要设置的停车位数量(直接写出结果,精确到百位).第七届至第十届园博会游客量与停车位数量统计表解:(1)(2)陆地面积平分千米水面面积平方千米图略(3)3700【教学说明】:四、师生互动、课堂小结布置作业教材“习题”中第3 题.教学后记编写日期:2015年12月1日课时教案章节第四章课题章末复习课型新授课教法讲练结合教学目标【知识与技能】整合初中阶段所学统计知识,梳理形成知识网络.【过程与方法】加深对统计知识的理解,增强主动应用数学的意识和综合运用所学知识解决问题的能力.【情感态度】进一步理解用样本去估计总体的统计思想,培养从一般到特殊,再从特殊到一般的认知规律.教学重点统计知识的灵活应用.教学难点统计知识的灵活应用.教学方法投影仪教学媒体一、知识结构【教学说明】二、释疑解惑,加深理解1.由于简单随机样本客观地反映了实际情况,能够代表总体,因此我们可以用简单随机样本的平均数与方差分别去估计总体的平均数与方差.2.怎样用样本去估计总体,才能使估计更加合理?①抽取的样本要具有随机性;②样本容量要足够大.3.如何用样本方差估计总体方差?①计算样本平均数;②计算样本方差;③用样本方差估计总体方差.方差能够反映一组数据与其平均值的离散程度的大小.方差越大,离散程度越大,稳定性越差.4.在实践中,我们常常通过简单的随机抽样,用样本的“率”去估计总体相应的“率”.5.我们可以利用已有的统计数据来对事物在未来一段时间内的发展趋势做出判断和预测,为正确的决策提供服务.【教学说明】三、典例精析,复习新知1.如图所示是甲、乙两地某十天的日平均气温统计图,则甲、乙两地这10天的日平均气温的方差大小关系为:s2甲______s2乙(用>,=,<填空).2.某果园有果树200棵,从中随机抽取5棵,每棵果树的产量分别为(单位:千克):98,102,97,103,105,那么这5棵果树的平均产量为多少千克极差是多少这200棵果树的总产量约为多少千克3.某初中为了迎接初三学生体育中考,特地进行了一次考前模拟测试.如图是女生800米跑的成绩中抽取的10个同学的成绩.(1)求出这10名女生成绩的中位数、众数和极差;(2)按《萧山教育局中考体育》规定,女生800米跑成绩不超过3′25″就可以得满分.现该校初三学生有636人,其中男生比女生少74人.请你根据上面抽样的结果,估算该校初三学生中有多少名女生该项考试得满分?4.为了了解市场上甲、乙两种手表日走时误差的情况,从这两种手表中各随机抽取10块进行测试,两种手表日走时误差的数据如下(单位:秒):(1)计算甲、乙两种手表日走时误差的平均数;(2)你认为甲、乙两种手表中哪种手表走时稳定性好?说说你的理由.【教学说明】:四、复习训练,巩固提高1.下面是某地区2001~2004年初中生在校人数和全国初中学校数统计图(如图),由图可知从2001~2004年,该地区初中生在校人数()A.逐年增加,学校数也逐年增加B.逐年增加,学校数却逐年减少C.逐年减少,学校数也逐年减少D.逐年减少,学校数却逐年增加2.某环保小组为了解世博园的游客在园区内购买瓶装饮料数量的情况,一天,他们在某出口处,对离开园区的游客进行调查,并将在此出口调查所得的数据整理后绘成图.(1)在此出口的被调查游客中,购买2瓶及2瓶以上饮料的游客人数占此出口的被调查游客人数的()%.(2)试问此出口的被调查游客在园区内人均购买了多少瓶饮料?3.某市对九年级学生进行了一次学业水平测试,成绩评定分A、B、C、D四个等级.为了解这次数学测试成绩情况,相关部门从该市的农村、县镇、城市三类群体的学生中共抽取2 000名学生的数学成绩进行统计分析,相应数据的统计图表如下:(注:等级A、B、C、D分别代表优秀、良好、合格、不合格)(1)请将上面表格中缺少的三个数据补充完整;(2)若该市九年级共有60 000名学生参加测试,试估计该市学生成绩合格以上(含合格)的人数.4.为了了解学生参加体育活动的情况,学校对学生进行随机抽样调查,其中一个问题是“你平均每天参加体育活动的时间是多少?”,共有4个选项:A.小时以上B.1~小时C.~1小时D.小时以下图1、2是根据调查结果绘制的两幅不完整的统计图,请你根据统计图提供的信息,解答以下问题:(1)本次一共调查了多少名学生?(2)在图1中将选项B的部分补充完整;(3)若该校有3000名学生,你估计全校可能有多少名学生平均每天参加体育活动的时间在小时以下?【教学说明】:五、师生互动,课堂小结布置教材“复习题5”中第2、5、6、8、10题.作业。
概率论与数理统计(茆诗松)课后第五章习题参考答案

第五章 统计量及其分布习题5.11. 某地电视台想了解某电视栏目(如:每日九点至九点半的体育节目)在该地区的收视率情况,于是委托一家市场咨询公司进行一次电话访查. (1)该项研究的总体是什么? (2)该项研究的样本是什么? 解:(1)总体是该地区的全体用户;(2)样本是被访查的电话用户.2. 某市要调查成年男子的吸烟率,特聘请50名统计专业本科生作街头随机调查,要求每位学生调查100名成年男子,问该项调查的总体和样本分别是什么,总体用什么分布描述为宜?解:总体是任意100名成年男子中的吸烟人数;样本是这50名学生中每一个人调查所得到的吸烟人数;总体用二项分布描述比较合适.3. 设某厂大量生产某种产品,其不合格品率p 未知,每m 件产品包装为一盒.为了检查产品的质量,任意抽取n 盒,查其中的不合格品数,试说明什么是总体,什么是样本,并指出样本的分布. 解:总体是全体盒装产品中每一盒的不合格品数;样本是被抽取的n 盒产品中每一盒的不合格品数;总体的分布为X ~ b (m , p ),x m x qp x m x X P −⎟⎟⎠⎞⎜⎜⎝⎛==}{,x = 0, 1, …, n , 样本的分布为nn x m x n x m x x m x n n q p x m q p x m q p x m x X x X x X P −−−⎟⎟⎠⎞⎜⎜⎝⎛⎟⎟⎠⎞⎜⎜⎝⎛⋅⎟⎟⎠⎞⎜⎜⎝⎛====L L 2211212211},,,{ ∑∑⋅⎟⎟⎠⎞⎜⎜⎝⎛===−=∏ni tni tx mn x ni i q px m 111.4. 为估计鱼塘里有多少鱼,一位统计学家设计了一个方案如下:从鱼塘中打捞出一网鱼,计有n 条,涂上不会被水冲刷掉的红漆后放回,一天后再从鱼塘里打捞一网,发现共有m 条鱼,而涂有红漆的鱼则有k 条,你能估计出鱼塘里大概有多少鱼吗?该问题的总体和样本又分别是什么呢? 解:设鱼塘里有N 条鱼,有涂有红漆的鱼所占比例为Nn , 而一天后打捞出的一网鱼中涂有红漆的鱼所占比例为m k,估计mk N n ≈,故估计出鱼塘里大概有kmnN ≈条鱼;总体是鱼塘里的所有鱼;样本是一天后再从鱼塘里打捞出的一网鱼. 5. 某厂生产的电容器的使用寿命服从指数分布,为了了解其平均寿命,从中抽出n 件产品测其使用寿命,试说明什么是总体,什么是样本,并指出样本的分布. 解:总体是该厂生产的全体电容器的寿命;样本是被抽取的n 件电容器的寿命;总体的分布为X ~ e (λ ),p (x ) = λ e λ x ,x > 0,样本的分布为11212(,,,)e e e enin i x x x x n n p x x x λλλλλλλλ=∑=⋅=L L ,x i > 0.6. 美国某高校根据毕业生返校情况纪录,宣布该校毕业生的年平均工资为5万美元,你对此有何评论? 解:返校的毕业生只是毕业生中一部分特殊群体,样本的抽取不具有随机性,不能反应全体毕业生的情况.习题5.21. 以下是某工厂通过抽样调查得到的10名工人一周内生产的产品数149 156 160 138 149 153 153 169 156 156 试由这批数据构造经验分布函数并作图. 解:经验分布函数0,138,0.1,138149,0.3,149153,()0.5,153156,0.8,156160,0.9,160169,1,169.n x x x F x x x x x <⎧⎪≤<⎪⎪≤<⎪=≤<⎨⎪≤<⎪≤<⎪⎪≥⎩ 作图略.2. 下表是经过整理后得到的分组样本组序 1 2 3 4 5分组区间 (38,48] (48,58] (58,68] (68,78] (78,88] 频数 3 4 8 3 2试写出此分布样本的经验分布函数.解:经验分布函数0,37.5,0.15,37.547.5,0.35,47.557.5,()0.75,57.567.5,0.9,67.577.5,1,77.5.n x x x F x x x x <⎧⎪≤<⎪⎪≤<⎪=⎨≤<⎪⎪≤<⎪≥⎪⎩3. 假若某地区30名2000年某专业毕业生实习期满后的月薪数据如下:909 1086 1120 999 1320 1091 1071 1081 1130 1336 967 1572 825 914 992 1232 950 775 1203 1025 1096 808 1224 1044 871 1164 971 950 866 738(1)构造该批数据的频率分布表(分6组); (2)画出直方图. 解:(1)最大观测值为1572,最小观测值为738,则组距为15727381406d −=≈, 区间端点可取为735,875,1015,1155,1295,1435,1575, 频率分布表为 组序 分组区间 组中值 频数 频率 累计频率 1 (735, 875] 805 6 0.2 0.2 2 (875, 1015] 945 8 0.2667 0.4667 3 (1015, 1155] 1085 9 0.3 0.7667 4 (1155, 1295] 1225 4 0.1333 0.95 (1295,0.96672 0.066671435]13651 0.03333150516 (1435,1575]合计30 1(2)作图略.4.某公司对其250名职工上班所需时间(单位:分钟)进行了调查,下面是其不完整的频率分布表:所需时间频率0~10 0.1010~20 0.2420~3030~40 0.1840~50 0.14 (1)试将频率分布表补充完整.(2)该公司上班所需时间在半小时以内有多少人?解:(1)频率分布表为组序分组区间组中值频数频率累计频率10] 5 25 0.1 0.11 (0,20] 15 60 0.24 0.342 (10,30] 25 85 0.34 0.683 (20,40] 35 45 0.18 0.864 (30,50] 45 35 0.14 15 (40,合计250 1(2)上班所需时间在半小时以内有25 + 60 + 85 = 170人.5.40种刊物的月发行量(单位:百册)如下:5954 5022 14667 6582 6870 1840 2662 45081208 3852 618 3008 1268 1978 7963 20483077 993 353 14263 1714 11127 6926 2047714 5923 6006 14267 1697 13876 4001 22801223 12579 13588 7315 4538 13304 1615 8612 (1)建立该批数据的频数分布表,取组距为1700(百册);(2)画出直方图.解:(1)最大观测值为353,最小观测值为14667,则组距为d = 1700,区间端点可取为0,1700,3400,5100,6800,8500,10200,11900,13600,15300,频率分布表为组序分组区间组中值频数频率累计频率1700] 850 9 0.225 0.2251 (0,25509 0.225 0.453400]2 (1700,42505 0.125 0.5755100]3 (3400,59504 0.1 0.6756800]4 (5100,76504 0.1 0.7758500]5 (6800,1 0.025 0.893506 (8500,10200]1 0.025 0.825110507 (10200,11900]3 0.075 0.9127508 (11900,13600]4 0.1 11445015300]9 (13600,合计30 1(2)作图略.6.对下列数据构造茎叶图472 425 447 377 341 369 412 399400 382 366 425 399 398 423 384418 392 372 418 374 385 439 408429 428 430 413 405 381 403 479381 443 441 433 399 379 386 387 解:茎叶图为34 135369, 6377, 2, 4, 9382, 4, 5, 1, 1, 6, 7399, 8, 2400, 5, 3412, 9, 8, 8, 3, 9425, 5, 3, 8, 9, 8439, 0, 3447, 3, 14546472, 97.根据调查,某集团公司的中层管理人员的年薪(单位:千元)数据如下:40.6 39.6 37.8 36.2 38.838.6 39.6 40.0 34.7 41.738.9 37.9 37.0 35.1 36.737.1 37.7 39.2 36.9 38.3试画出茎叶图.解:茎叶图为34.735. 136.2, 7, 937.0, 1, 738. 639.6, 6, 240.6, 8, 041.742.43.844.9, 545. 4习题5.31.在一本书上我们随机的检查了10页,发现每页上的错误数为:4 5 6 0 3 1 4 2 1 4试计算其样本均值、样本方差和样本标准差.解:样本均值3)41654(101=+++++=L x ; 样本方差7778.3])34()31()36()35()34[(91222222≈−+−++−+−+−=L s ;样本标准差9437.17778.3≈=s .2. 证明:对任意常数c , d ,有11()()()()()()n niiiii i x c y d x x y y n x c y d ==−−=−−+−−∑∑.证:∑∑==−+−−+−=−−ni i i n i i i d y y y c x x x d y c x 11)]())][(()[())((∑=−−+−−+−−+−−=ni i i i i d y c x d y x x y y c x y y x x 1)])(())(())(())([())(()()()()())((111d y c x n x x d y y y c x y y x x ni i ni i ni i i −−+−−+−−+−−=∑∑∑===))(())(())((00))((11d y c x n y y x x d y c x n y y x x ni i i ni i i −−+−−=−−+++−−=∑∑==.3. 设x 1 , …, x n 和y 1 , …, y n 是两组样本观测值,且有如下关系:y i = 3 x i − 4,i = 1, …, n ,试求样本均值x和y 间的关系以及样本方差2x s 和2y s 间的关系.解:4343431)43(111111−=−=⎟⎟⎠⎞⎜⎜⎝⎛−=−==∑∑∑∑====x x n n x n x n y n y ni i n i i n i i n i i ; 212121229(19)]43()43[(11)(11x n i i n i i n i i ys x x n x x n y y n s =−−=−−−−=−−=∑∑∑===. 4. 记∑==n i i n x n x 11,∑=−−=n i i n x x n s 122)(11,n = 1, 2, …,证明 )(1111n n n n x x n x x −++=++,21221)(111n n nn x x n s n n s −++−=++. 证:)(111111111111111111n n n n n n n i i n i i n x x n x x n x n n x n x n n n x n x −++=+++=++⋅+=+=+++=+=+∑∑; ⎥⎦⎤⎢⎣⎡−+−−=−=++=+=++∑∑21112112121))(1()(1)(1n n n i n i n i n i n x x n x x n x x n s ⎥⎦⎤⎢⎣⎡−+⋅+−−+−=++=∑2122112)()1(1)1()()(1n n n n n i n i x x n n x x x x n 2122112)(111)(1)(11)1(1n n n n n n i n i x x n s n n x x n n x x n n n −++−=⎥⎦⎤⎢⎣⎡−++−−−=++=∑.5. 从同一总体中抽取两个容量分别为n , m 的样本,样本均值分别为1x , 2x ,样本方差分别为21s , 22s ,将两组样本合并,其均值、方差分别为x , s 2,证明:12nx mx x n m+=+,)1)(()(1)1()1(22122212−++−+−+−+−=m n m n x x nm m n s m s n s . 证:m n x m x n x x m n x x m n x m j j n i i m j j n i i ++=⎟⎟⎠⎞⎜⎜⎝⎛++=⎟⎟⎠⎞⎜⎜⎝⎛++=∑∑∑∑====211211121111; ⎥⎦⎤⎢⎣⎡−+−−+=∑∑==m j jn i i x x x x m n s 1221212()(11 ⎥⎦⎤⎢⎣⎡−+−+−+−−+=∑∑==221222211211)()()()(11x x m x x x x n x x m n m j j n i i ⎥⎥⎦⎤⎢⎢⎣⎡⎟⎠⎞⎜⎝⎛++−+−+⎟⎠⎞⎜⎝⎛++−+−−+=221222221121)1()1(11m n x m x n x m s m m n x m x n x n s n m n 2212222122221)()()(111)1()1(m n x x mn x x nm m n m n s m s n +−+−⋅−++−+−+−=)1)(()(1)1()1(2212221−++−+−+−+−=m n m n x x nm m n s m s n . 6. 设有容量为n 的样本A ,它的样本均值为A x ,样本标准差为s A ,样本极差为R A ,样本中位数为m A .现对样本中每一个观测值施行如下变换:y = ax + b ,如此得到样本B ,试写出样本B 的均值、标准差、极差和中位数.解:b x a b x n a nb x a n b ax n y n y A ni i n i i n i i n i i B +=+⋅=+=+==∑∑∑∑====11111)(1)(11;A n i A i n i A i n iB i B s a x x n a b x a b ax n y y n s ||)(11||)(11)(11121212=−−⋅=−−+−=−−=∑∑∑===; R B = y (n ) − y (1) = a x (n ) + b − a x (1) − b = a [x (n ) − x (1)] = a R A ; 当n 为奇数时,b am b ax y m A n n B +=+==⎟⎠⎞⎜⎝⎛+⎟⎠⎞⎜⎝⎛+5.021215.0,当n 为偶数时,b am b x x ab ax b ax y y m A n n n n n n B +=++=+++=+=⎟⎠⎞⎜⎝⎛+⎟⎠⎞⎜⎝⎛⎟⎠⎞⎜⎝⎛+⎟⎠⎞⎜⎝⎛⎟⎠⎞⎜⎝⎛+⎟⎠⎞⎜⎝⎛5.01221221225.0][2][21][21,故m B 0.5 = a m A 0.5 + b .7. 证明:容量为2的样本x 1 , x 2的方差为2212)(21x x s −=. 证:221212221221222112)(214)(4)(])2()2[(121x x x x x x x x x x x x s −=−+−=+−++−−=. 8. 设x 1 , …, x n 是来自U (−1, 1) 的样本,试求)(X E 和Var(X .解:因X i ~ U (−1, 1),有0211)(=+−=i X E ,3112)11()(Var 2=+=i X ,故0)(1)1()(11===∑∑==ni i n i i X E n X n E X E ,n n nXnX n X ni in i i 31311)(Var 11Var )(Var 2121=⋅⋅==⎟⎟⎠⎞⎜⎜⎝⎛=∑∑==. 9. 设总体二阶矩存在,X 1 , …, X n 是样本,证明X X i −与)(j i X X j ≠−的相关系数为 − (n − 1) − 1.证:因X 1 , X 2 , …, X n 相互独立,有Cov (X l , X k ) = 0,(l ≠ k ), 则),(Cov ),(Cov ),(Cov ),(Cov ),(Cov X X X X X X X X X X X X j i j i j i +−−=−−)(Var ),1(Cov )1,(Cov 0X X X nX n X j j i i +−−= 22221111)(Var )(Var 1)(Var 1σσσσnn n n X X n X n j i −=+−−=+−−=,且)1,(Cov 21),(Cov 2)(Var )(Var )(Var 22i i i i i X nX n X X X X X X −+=−+=−σσ)(Var 1212222X X nn n n j −=−=−+=σσσσ,故11111)(Var )(Var ),(Cov ),(Corr 222−−=−⋅−−=−⋅−−−=−−n nn n n n X X X X X X X X X X X X j i j i j i σσσ. 10.设x 1 , x 2 ,…, x n 为一个样本,∑=−−=ni i x x n s 122)(11是样本方差,试证: 22)()1(1s x x n n ji j i =−−∑<. 证:因⎟⎟⎠⎞⎜⎜⎝⎛−−=−−=∑∑==21212211)(11x n x n x x n s n i i n i i , 则⎟⎟⎠⎞⎜⎜⎝⎛−+=−+=−=−∑∑∑∑∑∑∑∑∑∑∑==========<n i n j j i n i n j j n i n j i n i n j j i j i n i n j j i j i j i x x x x x x x x x x x x 1111211211221122221)2(21)(21)( 221212111212)1(2221221s n n x n x n x n x n x n x x x n x n n i i n i i n i n j j i n j j n i i −=⎟⎟⎠⎞⎜⎜⎝⎛−=⎟⎟⎠⎞⎜⎜⎝⎛⋅−=⎟⎟⎠⎞⎜⎜⎝⎛−+=∑∑∑∑∑∑======, 故22)()1(1s x x n n ji j i =−−∑<. 11.设总体4阶中心矩ν4 = E [X − E (X )]4存在,试对样本方差∑=−−=ni i X X n S 122(11,有 2442442442)1(3)1()2(2)1()()Var(−−+−−−−−=n n n n n S σνσνσν,其中σ 2为总体X 的方差.证:因⎥⎦⎤⎢⎣⎡−−−−=−−−−=∑∑==212122)()(11)]()[(11µµµµX n X n X X n S n i i n i i ,其中µ = E (X ), 则⎥⎦⎤⎢⎣⎡−−−−=∑=21222)()(Var )1(1)Var(µµX n X n S n i i⎭⎬⎫⎩⎨⎧−+⎟⎟⎠⎞⎜⎜⎝⎛−−−⎥⎦⎤⎢⎣⎡−−=∑∑==])(Var[)(,)(Cov 2)(Var )1(12212122µµµµX n X n X X n n i i n i i ⎭⎬⎫⎩⎨⎧−+−−−−−=∑∑==22122122)Var())(,)Cov((2)Var()1(1µµµµX n X X n X n n i i n i i , 因E (X i − µ)2 = σ 2,E (X i − µ)4 = ν4,则)(})({}])([)({)Var(441224122412σνσνµµµ−=−=−−−=−∑∑∑===n X E X E X ni ni i i ni i ,因E (X i − µ) = 0,221)Var()(σµnX X E ==−,且当i ≠ j 时,X i − µ 与X j − µ 相互独立, 则∑∑==−−−−−=−−ni i i ni i X E X E X X E X X 12222122})()(])()[({))(,)Cov((µµµµµµ∑∑==⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⋅−⎥⎥⎦⎤⎢⎢⎣⎡⎟⎟⎠⎞⎜⎜⎝⎛−⋅−=ni nk k i n X n X E 1222121)(1)(σσµµ∑∑=≠⎭⎬⎫⎩⎨⎧−⎥⎦⎤⎢⎣⎡−⋅−+−=n i i k k i i n X E X E X E n1422421)()()(1σµµµ)(11])1([144142242σνσσσν−=⎭⎬⎫⎩⎨⎧−−⋅+=∑=n n n nni ,且224122421)(1])([)()Var(⎥⎦⎤⎢⎣⎡−⎥⎦⎤⎢⎣⎡−=−−−=−∑=σµµµµn X n E X E X E X n i i42221441)()(24)(1σµµµn X X X E n j i j i n i i −⎥⎦⎤⎢⎣⎡−−⎟⎟⎠⎞⎜⎜⎝⎛+−=∑∑<= 42221441)()(6)(1σµµµn X E X E X E n j i j i ni i −⎥⎦⎤⎢⎣⎡−−+−=∑∑<= 42443424444222442)3(11])1(3[11261σσνσσνσσσνn n n n n n n n n n n +−=−−+=−⎥⎦⎤⎢⎣⎡⋅⎟⎟⎠⎞⎜⎜⎝⎛⋅+=, 故⎭⎬⎫⎩⎨⎧⎥⎦⎤⎢⎣⎡+−+−⋅−−−=4244324444222)3(1)(12)()1(1)Var(σσνσνσνn n n n n n n S⎭⎬⎫⎩⎨⎧+−+−−−−=444444422)3(1)(2)()1(1σσνσνσνn n n 2442442444444442)1(3)1()2(2)1()()3(1)2(2)()1(1−−+−−−−−=⎭⎬⎫⎩⎨⎧−+−−−−=n n n n n n n n σνσνσνσνσνσν. 12.设总体X 的3阶矩存在,设X 1 , X 2 ,…, X n 是取自该总体的简单随机样本,X 为样本均值,S 2为样本方差,试证:nS X 32),Cov(ν=,其中ν3 = E [X − E (X )]3.证:因⎥⎦⎤⎢⎣⎡−−−−=−−−−=∑∑==212122)()(11)]()[(11µµµµX n X n X X n S n i i n i i ,其中µ = E (X ), 则⎟⎟⎠⎞⎜⎜⎝⎛⎥⎦⎤⎢⎣⎡−−−−−=−=∑=21222)()(11,Cov ),Cov(),Cov(µµµµX n X n X S X S X n i i ⎥⎦⎤⎢⎣⎡−−−−−−=∑=))(,Cov())(,Cov(11212µµµµX X n X X n n i i , 因0)()(=−=−µµi X E X E ,E (X i − µ)2 = σ 2,E (X i − µ)3 = ν3,且当i ≠ j 时,X i − µ 与X j − µ 相互独立,则∑∑∑∑====−−=⎟⎟⎠⎞⎜⎜⎝⎛−−=−−n i i i ni i n k k ni i X X n X X n X X 1212112))(,Cov(1)(,)(1Cov ))(,Cov(µµµµµµ331231])()()([1ννµµµ=⋅=−−−−=∑=n nX E X E X E n n i i i i , 且31232)(1)()()())(,Cov(⎥⎦⎤⎢⎣⎡−=−−−−=−−∑=n i i X n E X E X E X E X X µµµµµµ323313313311)(1)(1ννµµn n n X E n X E n n i i n i i =⋅=−=⎥⎦⎤⎢⎣⎡−=∑∑==,故n nn n n n n S X 333232111111),Cov(νννν=−⋅−=⎟⎠⎞⎜⎝⎛⋅−−=. 13.设1X 与2X 是从同一正态总体N (µ, σ 2)独立抽取的容量相同的两个样本均值.试确定样本容量n ,使得两样本均值的距离超过σ 的概率不超过0.01. 解:因µ==)()(21X E X E ,nX X 221)Var()Var(σ==,1X 与2X 相互独立,且总体分布为N (µ, σ 2),则0)(21=−=−µµX X E ,n n n X X 222212)Var(σσσ=+=−,即⎟⎟⎠⎞⎜⎜⎝⎛−n N X X 2212,0~σ, 因01.0222212}|{|21≤⎟⎟⎠⎞⎜⎜⎝⎛Φ−=⎥⎥⎦⎤⎢⎢⎣⎡⎟⎟⎠⎞⎜⎜⎝⎛Φ−=>−n n X X P σσσ,有995.02≥⎟⎟⎠⎞⎜⎜⎝⎛Φn ,5758.22≥n ,故n ≥ 13.2698,即n 至少14个.14.利用切比雪夫不等式求抛均匀硬币多少次才能使正面朝上的频率落在 (0.4, 0.6) 间的概率至少为0.9.如何才能更精确的计算这个次数?是多少?解:设⎩⎨⎧=,,0,,1次反面朝上第次正面朝上第i i X i 有X i ~ B (1, 0.5),且正面朝上的频率为∑==ni i X n X 11,则E (X i ) = 0.5,Var (X i ) = 0.25,且5.0(=X E ,n X 25.0)(Var =, 由切比雪夫不等式得n nX P X P 2511.025.01}1.0|5.0{|}6.04.0{2−=−≥<−=<<,故当9.0251≥−n时,即n ≥ 250时,9.0}6.04.0{≥<<X P ;利用中心极限定理更精确地计算,当n 很大时∑==ni i X n X 11的渐近分布为正态分布25.0,5.0(n N , 则)2.0()2.0()25.05.04.0(25.05.06.0()4.0()6.0(}6.04.0{n n nnF F X P −Φ−Φ=−Φ−−Φ=−=<<9.01)2.0(2≥−Φ=n ,即95.0)2.0(≥Φn ,64.12.0≥n ,故当n ≥ 67.24时,即n ≥ 68时,9.0}6.04.0{≥<<X P .15.从指数总体Exp (1/θ ) 抽取了40个样品,试求X 的渐近分布.解:因θ==)((X E X E ,2401)(Var )(Var θ==n X X ,故X 的渐近分布为)401,(2θθN .16.设X 1 , …, X 25是从均匀分布U (0, 5) 抽取的样本,试求样本均值X 的渐近分布.解:因25)()(==X E X E ,1211225)05()(Var )(Var 2=×−==n X X ,故X 的渐近分布为)121,25(N . 17.设X 1 , …, X 20是从二点分布b (1, p ) 抽取的样本,试求样本均值X 的渐近分布.解:因p X E X E ==)((,20)1()(Var )(Var p p n X X −==,故X 的渐近分布为20)1(,(p p p N −.18.设X 1 , …, X 8是从正态分布N (10, 9) 中抽取的样本,试求样本均值X 的标准差.解:因89)(Var )(Var ==n X X ,故X 的标准差为423)(Var =X . 19.切尾均值也是一个常用的反映样本数据的特征量,其想法是将数据的两端的值舍去,而用剩下的当中的值为计算样本均值,其计算公式是][2])[()2]([)1]([αααααn n X X X X n n n n −+++=−++L ,其中0 < α < 1/2是切尾系数,X (1) ≤ X (2) ≤ … ≤ X (n ) 是有序样本.现我们在高校采访了16名大学生,了解他们平时的学习情况,以下数据是大学生每周用于看电视的时间:15 14 12 9 20 4 17 26 15 18 6 10 16 15 5 8 取α = 1/16,试计算其切尾均值.解:因n α = 1,且有序样本为4, 5, 6, 8, 9, 10, 12, 14, 15, 15, 15, 16, 17, 18, 20, 26,故切尾均值8571.12)20865(216116/1=++++−=L x . 20.有一个分组样本如下:区间 组中值 频数 (145,155) 150 4 (155,165) 160 8 (165,175) 170 6 (175,185) 180 2试求该分组样本的样本均值、样本标准差、样本偏度和样本峰度.解:163)2180617081604150(201=×+×+×+×=x ;2338.9]2)163180(6)163170(8)163160(4)163150[(1912222=×−+×−+×−+×−=s ; 因81]2)163180(6)163170(8)163160(4)163150[(20122222=×−+×−+×−+×−=b , 144]2)163180(6)163170(8)163160(4)163150[(20133333=×−+×−+×−+×−=b ,14817]2)163180(6)163170(8)163160(4)163150[(20144444=×−+×−+×−+×−=b ,故样本偏度1975.02/3231==b b γ,样本峰度7417.032242−=−=b b γ.21.检查四批产品,其批次与不合格品率如下:批号批量不合格品率1 100 0.052 300 0.063 250 0.04 4 150 0.03试求这四批产品的总不合格品率.解:046875.0)03.015004.025006.030005.0100(8001=×+×+×+×=p . 22.设总体以等概率取1, 2, 3, 4, 5,现从中抽取一个容量为4的样本,试分别求X (1) 和X (4) 的分布. 解:因总体分布函数为⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎨⎧≥<≤<≤<≤<≤<=,5,1,54,54,43,53,32,52,21,51,1,0)(x x x x x x x F则F (1) (x ) = P {X (1) ≤ x } = 1 − P {X (1) > x } = 1 − P {X 1 > x , X 2 > x , X 3 > x , X 4 > x } = 1 − [1 − F (x )]4⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎨⎧≥<≤<≤<≤<≤<=,5,1,54,625624,43,625609,32,625544,21,625369,1,0x x x x x x且F (4) (x ) = P {X (4) ≤ x } = P {X 1 ≤ x , X 2 ≤ x , X 3 ≤ x , X 4 ≤ x } = [F (x )]4⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎨⎧≥<≤<≤<≤<≤<=,5,1,54,625256,43,62581,32,62516,21,6251,1,0x x x x x x故X (1) 和X (4) 的分布为6251625156256562517562536954321)1(P X ; 6253696251756256562515625154321)4(PX . 23.设总体X 服从几何分布,即P {X = k } = pq k − 1,k = 1, 2, …,其中0 < p < 1,q = 1 − p ,X 1, X 2, …, X n 为该总体的样本.求X (n ) , X (1)的概率分布.解:因k k kj j q qq p pqk X P −=−−==≤∑=−11)1(}{11,k = 1, 2, …,故n k n k ni i ni i n n n q q k X P k X P k X P k X P k X P )1()1(}1{}{}1{}{}{111)()()(−==−−−=−≤−≤=−≤−≤==∏∏;且nk k n ni i ni i q q k X P k X P k X P k X P k X P −=>−−>=>−−>==−==∏∏)1(11)1()1()1(}{}1{}{}1{}{.24.设X 1 , …, X 16是来自N (8, 4) 的样本,试求下列概率(1)P {X (16) > 10}; (2)P {X (1) > 5}.解:(1)1616161)16()16()]2810([1)]10([1}10{1}10{1}10{−Φ−=−=≤−=≤−=>∏=F X P X P X P i i = 1 − [Φ(1)]16 = 1 − 0.841316 = 0.9370;(2)3308.09332.0)]5.1([285(1[)]5(1[}5{}5{16161616161)1(==Φ=−Φ−=−=>=>∏=F X P X P i i . 25.设总体为韦布尔分布,其密度函数为⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎟⎟⎠⎞⎜⎜⎝⎛−=−mmm x mx m x p ηηηexp ),;(1,x > 0, m > 0, η > 0. 现从中得到样本X 1 , …, X n ,证明X (1) 仍服从韦布尔分布,并指出其参数. 解:总体分布函数mm mmx xt xmt xt mm xt t mtt t p x F ⎟⎟⎠⎞⎜⎜⎝⎛−⎟⎟⎠⎞⎜⎜⎝⎛−⎟⎟⎠⎞⎜⎜⎝⎛−⎟⎟⎠⎞⎜⎜⎝⎛−−−=−=⎟⎟⎠⎞⎜⎜⎝⎛===∫∫∫ηηηηηηe1e d ed ed )()(00010,x > 0,则X (1) 的密度函数为111(1)11()[1()]()eeemmmmx x x m m m n n n mmmxmnxp x n F x p x n ηηηηη⎛⎞⎛⎞⎛⎞⎛⎞−−−−−−−−⎜⎟⎜⎟⎜⎟−⎝⎠⎝⎠⎝⎠=−=⋅==,故X (1) 服从参数为⎟⎟⎠⎞⎜⎜⎝⎛m n m η,的韦布尔分布. 26.设总体密度函数为p (x ) = 6 x (1 − x ), 0 < x < 1,X 1 , …, X 9是来自该总体的样本,试求样本中位数的分布. 解:总体分布函数3203223)23(d )1(6d )()(x x t t t t t t t p x F xxx−=−=−==∫∫,0 < x < 1,因样本容量n = 9,有样本中位数)5(215.0x x m n ==⎟⎠⎞⎜⎝⎛+,其密度函数为)1(6)231()23(!4!4!9)()](1[)]([!4!4!9)(432432445x x x x x x x p x F x F x p −⋅+−−⋅=−⋅=. 27.证明公式∫∑−−=−−−−=−⎟⎟⎠⎞⎜⎜⎝⎛110)1()!1(!!)1(p r n r rk k n k dx x x r n r n p p k n ,其中0 ≤ p ≤ 1. 证:设总体X 服从区间(0, 1)上的均匀分布,X 1, X 2, …, X n 为样本,X (1), X (2), …, X (n )是顺序统计量,则样本观测值中不超过p 的样品个数服从二项分布b (n , p ),即最多有r 个样品不超过p 的概率为∑=−+−⎟⎟⎠⎞⎜⎜⎝⎛=>rk kn k r p p k n p X P 0)1()1(}{,因总体X 的密度函数与分布函数分别为⎩⎨⎧<<=.,0;10,1)(其他x x p ⎪⎩⎪⎨⎧≥<≤<=.1,1;10,;0,0)(x x x x x F则X (r + 1)的密度函数为⎪⎩⎪⎨⎧<<−−−=−−−=−−−−+.,0,10,)1()!1(!!)()](1[)]([)!1(!!)(111其他x x x r n r n x p x F x F r n r n x p r n r r n r r 故∫∑−−+=−−−−=>=−⎟⎟⎠⎞⎜⎜⎝⎛11)1(0)1()!1(!!}{)1(p r n r r rk kn k dx x x r n r n p X P p p k n . 28.设总体X 的分布函数F (x )是连续的,X (1), …, X (n )为取自此总体的次序统计量,设ηi = F (X (i )),试证: (1)η1 ≤ η2 ≤ … ≤ ηn ,且ηi 是来自均匀分布U (0, 1)总体的次序统计量;(2)1)(+=n iE i η,)2()1()1()Var(2++−+=n n i n i i η,1 ≤ i ≤ n ; (3)ηi 和ηj 的协方差矩阵为⎟⎟⎟⎟⎠⎞⎜⎜⎜⎜⎝⎛+−+−+−+−2)1(2)1(2)1(2)1(22212111n a a n a a n a a n a a 其中11+=n i a ,12+=n j a . 注:第(3)问应要求i < j . 解:(1)首先证明Y = F (X )的分布是均匀分布U (0, 1),因分布函数F (x )连续,对于任意的y ∈ (0, 1),存在x ,使得F (x ) = y , 则F Y ( y ) = P {Y = F (X ) ≤ y } = P {F (X ) ≤ F (x )} = P {X ≤ x } = F (x ) = y , 即Y = F (X )的分布函数是⎪⎩⎪⎨⎧≥<≤<=.1,1;10,;0,0)(y y y y y F Y可得Y = F (X )的分布是均匀分布U (0, 1),即F (X 1), F (X 2), …, F (X n )是均匀分布总体U (0, 1)的样本, 因分布函数F (x )单调不减,ηi = F (X (i )),且X (1) ≤ X (2) ≤ … ≤ X (n )是总体X 的次序统计量, 故η1 ≤ η2 ≤ … ≤ ηn ,且ηi 是来自均匀分布U (0, 1)总体的次序统计量; (2)因均匀分布U (0, 1) 的密度函数与分布函数分别为⎩⎨⎧<<=.,0;10,1)(其他y y p Y ⎪⎩⎪⎨⎧≥<≤<=.1,1;10,;0,0)(y y y y y F Y则ηi = F (X (i ))的密度函数为⎪⎩⎪⎨⎧<<−−−=−−−=−−−−.,0,10,)1()!()!1(!)()](1[)]([)!()!1(!)(11其他y y y i n i n y p y F y F i n i n y p i n i Y in Y i Y i即ηi 服从贝塔分布Be (i , n − i + 1),即Be (a , b ),其中a = i ,b = n − i + 1,故1)(+=+=n i b a a E i η,)2()1()1()1()()Var(22++−+=+++=n n i n i b a b a ab i η,1 ≤ i ≤ n ; (3)当i < j 时,(ηi , ηj )的联合密度函数为z y Y Y j n Y i j Y Y i Y ij z p y p z F y F z F y F j n i j i n z y p <−−−−−−−−−−=I )()()](1[)]()([)]([)!()!1()!1(!),(111011I )1()()!()!1()!1(!<<<−−−−−−−−−−=z y j n i j i z y z y j n i j i n , 则∫∫∫∫−−−+∞∞−+∞∞−−⋅−−−−−=⋅=1001)1()()!()!1()!1(!),()(z j n i j i ij j i dy z z y z y dz j n i j i n dydz z y p yz E ηη, 令y = zu ,有dy = zdu ,且当y = 0时,u = 0;当y = z 时,u = 1,则∫∫⋅−−=−⋅−−−−−−−1101)()()1()1()(zdu zu z zu z z dy z z y z y i j i j n zj n i j ij n j j n j i j i j j n z z j i j i i j i B z z du u u z z z −+−+−−−−−−=−+⋅−=−⋅−=∫)1(!)!1(!),1()1()1()1(1111,即∫−+−−−−−−−=101)1(!)!1(!)!()!1()!1(!)(dz z z j i j i j n i j i n E jn j j i ηη )1,2(!)!1(!)!()!1()!1(!+−+−−⋅−−−−=j n j B j i j i j n i j i n)2)(1()1()!2()!()!1(!)!1(!)!()!1()!1(!+++=+−+⋅−−⋅−−−−=n n j i n j n j j i j i j n i j i n , 可得)2()1()1(11)2)(1()1()()()(),Cov(2++−+=+⋅+−+++=−=n n j n i n j n i n n j i E E E j i j i j i ηηηηηη, 因11+=n i a ,12+=n j a , 则2)1()2()1()1(),Cov(212+−=++−+=n a a n n j n i j i ηη, 且2)1()2()1()1()Var(112+−=++−+=n a a n n i n i i η,2)1()2()1()1()Var(222+−=++−+=n a a n n j n j jη, 故ηi 和ηj 的协方差矩阵为⎟⎟⎟⎟⎠⎞⎜⎜⎜⎜⎝⎛+−+−+−+−=⎟⎟⎠⎞⎜⎜⎝⎛2)1(2)1(2)1(2)1()Var(),Cov(),Cov()Var(22212111n a a n a a n a a n a a j j i j i i ηηηηηη. 29.设总体X 服从N (0, 1),从此总体获得一组样本观测值x 1 = 0, x 2 = 0.2, x 3 = 0.25, x 4 = −0.3, x 5 = −0.1, x 6 = 2, x 7 = 0.15, x 8 = 1, x 9 = −0.7, x 10 = −1.(1)计算x = 0.15(即x (6))处的E [F (X (6))],Var[F (X (6))]; (2)计算F (X (6))在x = 0.15的分布函数值.解:(1)根据第28题的结论知1)]([)(+=n iX F E i ,)2()1()1()](Var[2)(++−+=n n i n i X F i ,且n = 10, 故116)]([)6(=X F E ,2425121156)](Var[2)6(=××=X F ; (2)因F (X (i ))服从贝塔分布Be (i , n − i + 1),即这里的F (X (6))服从贝塔分布Be (6, 5),则F (X (6))在x = 0.15的分布函数值为∫−⋅=15.00456)1(!4!5!10)15.0(dx x x F , 故根据第27题的结论知0014.085.015.0101)1(!4!5!10)15.0(501015.00456=××⎟⎟⎠⎞⎜⎜⎝⎛−=−⋅=∑∫=−k k k k dx x x F . 30.在下列密度函数下分别寻求容量为n 的样本中位数m 0.5的渐近分布.(1)p (x ) = 6x (1 − x ),0 < x < 1;(2)⎭⎬⎫⎩⎨⎧−−=222)(exp π21)(σµσx x p ; (3)⎩⎨⎧<<=.,0;10,2)(其他x x x p (4)||e 2)(x x p λλ−=.解:样本中位数m 0.5的渐近分布为⎟⎟⎠⎞⎜⎜⎝⎛⋅)(41,5.025.0x p n x N ,其中p (x )是总体密度函数,x 0.5是总体中位数, (1)因p (x ) = 6x (1 − x ),0 < x < 1,有35.025.003205.023)23()1(6)(5.05.05.0x x x x dx x x x F x x −=−=−==∫,则x 0.5 = 0.5,有nn p n 91)5.05.06(41)5.0(4122=×××=⋅, 故样本中位数m 0.5的渐近分布为⎟⎠⎞⎜⎝⎛n N 91,5.0;(2)因⎭⎫⎩⎨⎧−−=222)(exp π21)(σµσx x p ,有0.5 = F (x 0.5) = F (µ), 则x 0.5 = µ ,有n n p n 2ππ2141)(41222σσµ=⎟⎟⎠⎞⎜⎜⎝⎛×=⋅, 故样本中位数m 0.5的渐近分布为⎟⎟⎠⎞⎜⎜⎝⎛n N 2π,2σµ;(3)因⎩⎨⎧<<=.,0;10,2)(其他x x x p 有25.00205.05.05.02)(5.0x x xdx x F x x ====∫, 则215.0=x ,有n n p n 8121241214122=⎟⎠⎞⎜⎝⎛××=⎟⎠⎞⎜⎝⎛⋅, 故样本中位数m 0.5的渐近分布为⎟⎠⎞⎜⎝⎛n N 81,21; (4)因||e 2)(x x p λλ−=,有0.5 = F (x 0.5) = F (0),则x 0.5 = 0,有2221241)0(41λλn n p n =⎟⎠⎞⎜⎝⎛×=⋅, 故样本中位数m 0.5的渐近分布为⎟⎠⎞⎜⎝⎛21,0λn N .31.设总体X 服从双参数指数分布,其分布函数为⎪⎩⎪⎨⎧≤>⎭⎬⎫⎩⎨⎧−−−=.,0;,exp 1)(µµσµx x x x F其中,−∞ < µ < +∞,σ > 0,X (1) ≤ … ≤ X (n )为样本的次序统计量.试证明)(2)1()1()(−−−−i i X X i n σ服从自由度为2的χ 2分布(i = 2, …, n ). 注:此题有误,讨论的随机变量应为)(2)1()1()(−−+−i i X X i n σ.证:因(X (i − 1), X (i ))的联合密度函数为z y i n i i i z p y p z F y F i n i n z y p <−−−−−−=I )()()](1[)]([)!()!2(!),(2)1( z y in i z y z y i n i n <<−−⎭⎬⎫⎩⎨⎧−−⋅⎭⎬⎫⎩⎨⎧−−⋅⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−−−−=µσµσσµσσµσµI exp 1exp 1exp exp 1)!()!2(!2z y i n i z y y i n i n <<+−−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−−⎭⎬⎫⎩⎨⎧−−−−=µσµσµσµσI exp exp 1exp )!()!2(!122,则T = X (i ) − X (i − 1)的密度函数为∫+∞∞−−⋅⋅+=dy t y y p t p i i T 1),()()1(∫∞++−−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−+−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−−⎭⎬⎫⎩⎨⎧−−−−=µσµσµσµσdy t y y y i n i n i n i 122exp exp 1exp )!()!2(!∫∞+−+−+−⎥⎦⎤⎢⎣⎡⎭⎫⎩⎨⎧−−−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−−=µσµσσµσµσσy d y y t i n i n i i n i n exp )(exp 1exp exp )!()!2(!2112∫−−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−−=−+−+−012112)()1(exp )!()!2(!du u ut i n i n i i n i n σσσ∫−+−−⎭⎬⎫⎩⎨⎧+−−−−=1021)1()1(exp )!()!2(!du u ut i n i n i n i i n σσ )1,2()1(exp )!()!2(!−+−⎭⎬⎫⎩⎨⎧+−−−−=i i n B t i n i n i n σσ⎭⎬⎫⎩⎨⎧+−−+−=−+−⋅⎭⎬⎫⎩⎨⎧+−−−−=σσσσt i n i n n i i n t i n i n i n )1(exp 1!)!2()!1()1(exp )!()!2(!,t > 0,可得T i n X X i n S i i σσ2)1()(2)1()1()(+−=−+−=−的密度函数为⎭⎬⎫⎩⎨⎧−=+−⋅⎭⎬⎫⎩⎨⎧−+−=+−⋅⎟⎟⎠⎞⎜⎜⎝⎛+−=2exp 21)1(22exp 1)1(2)1(2)(s i n s i n i n s i n p s p T S σσσσ,s > 0, 故)(2)1()1()(−−+−=i i X X i n S σ服从参数为21的指数分布,也就是服从自由度为2的χ 2分布. 32.设总体X 的密度函数为⎩⎨⎧<<=.,0;10,3)(2其他x x x p X (1) ≤ X (2) ≤ … ≤ X (5)为容量为5的取自此总体的次序统计量,试证)4()2(X X 与X (4)相互独立.z −证:因总体X 的密度函数和分布函数分别为⎩⎨⎧<<=.,0;10,3)(2其他x x x p ⎪⎩⎪⎨⎧≥<≤<=.1,1;10,;0,0)(3x x x x x F 则(X (2), X (4))的联合密度函数为)4()2(I )()()](1[)]()([)]([!1!1!1!5),()4()2(1)4(1)2()4(1)2()4()2(24x x x p x p x F x F x F x F x x p <−−⋅⋅=103)4(3)2(3)4(2)4(5)2(102)4(2)2(3)4(3)2(3)4(3)2()4()2()4()2(I )1)((1080I 33)1)((120<<<<<<−−=⋅⋅−−=x x x x x x x x x x x x x x x ,设)4()2(1X X Y =,Y 2 = X (4),有X (2) = Y 1Y 2,X (4) = Y 2,则(X (2), X (4))关于( Y 1 , Y 2 )的雅可比行列式为21221)4()2(1),(),(y y y y y x x J ==∂∂=,且0 < X (2) ≤ X (4) < 1对应于0 < Y 1 < 1, 0 < Y 2 < 1,可得(Y 1 , Y 2 )的联合密度函数为210,10323213222521221242121I )1]()([)(1080||),(),(y y y y y y y y J y y y p y y p y y ⋅−−=⋅=<<<<103211210315121I )1(I )1(1080<<<<−⋅−=y y y y y y ,由于(Y 1 , Y 2 , …, Y n )的联合密度函数p ( y 1 , y 2)可分离变量, 故)4()2(1X X Y =与Y 2 = X (4)相互独立.33.(1)设X (1)和X (n )分别为容量n 的最小和最大次序统计量,证明极差R n = X (n ) − X (1)的分布函数∫+∞∞−−−+=dy y p y F x y F n x F n R n )()]()([)(1其中F ( y )与p ( y )分别为总体的分布函数与密度函数;(2)利用(1)的结论,求总体为指数分布Exp (λ)时,样本极差R n 的分布. 注:第(1)问应添上x > 0的要求. 解:(1)方法一:增补变量法因(X (1), X (n ))的联合密度函数为z y n z y n n z p y p y F z F n n z p y p y F z F n n z y p <−<−−−=−−=I )()()]()()[1(I )()()]()([)!2(!),(221, 对于其函数R n = X (n ) − X (1),增补变量W = X (1),⎩⎨⎧−==.;y z r y w 反函数为⎩⎨⎧+==.;r w z w y 其雅可比行列式为11101==J ,则R n 的密度函数为∫+∞∞−>−+−+−=dw r w p w p w F r w F n n r p r n R n 02I )()()]()()[1()(,故R n = X (n ) − X (1)的分布函数为∫∫∫∞−+∞∞−>−∞−+−+−==x r n x R R dw r w p w p w F r w F n n dr dr r p x F n n 02I )()()]()()[1()()(∫∫+∞∞−∞−>−+−+−=xr n dr r w p w p w F r w F n n dw 02I )()()]()()[1(∫∫+∞∞−−+−+−=xn dr r w p w F r w F dw w p n n 02)()]()([)()1(∫∫+∞∞−−+−+−=xn r w dF w F r w F dw w p n n 02)()]()([)()1(∫+∞∞−−−+−⋅−=x n w F r w F n dw w p n n 01)]()([11)()1(∫+∞∞−−−+=dw w p w F x w F n n )()]()([1 ∫+∞∞−−−+=dy y p y F x y F n n )()]()([1,x > 0;方法二:分布函数法因(X (1), X (n ))的联合密度函数为z y n z y n n z p y p y F z F n n z p y p y F z F n n z y p <−<−−−=−−=I )()()]()()[1(I )()()]()([)!2(!),(221, 故R n = X (n ) − X (1)的分布函数为∫∫+∞∞−+∞−=≤−==xy n n n R dz z y p dy x X X R P x F n ),(}{)(1)1()(∫∫+∞∞−+−−−=xy yn dz z p y p y F z F dy n n )()()]()([)1(2∫∫+∞∞−+−−⋅−=xy yn z F d y F z F y p dy n n )]([)]()([)()1(2∫∫+∞∞−−+∞∞−+−−+=−−⋅⋅−=dy y p y F x y F n y F z F n y p dy n n n x y y n )()]()([)]()([11)()1(11,x > 0;(2)因指数分布Exp (λ)的密度函数与分布函数分别为⎩⎨⎧≤>=−.0,0;0,e )(x x x p x λλ ⎩⎨⎧≤>−=−.0,0;0,e 1)(x x x F x λ故R n = X (n ) − X (1)的分布函数为∫∫+∞−−−+−+∞∞−−⋅−−−=−+=01)(1e )]e 1()e 1[()()]()([)(dy n dy y p y F x y F n x F y n y x y n R n λλλλ101011)e 1()(e 1)e 1(e )1()e 1()(e −−+∞−−−+∞−−−−−−=⎟⎠⎞⎜⎝⎛−⋅−=−⋅−=∫n x n y n x y n x n y n n d n λλλλλλ,x > 0.34.设X 1 , …, X n 是来自U (0, θ ) 的样本,X (1) ≤ … ≤ X (n ) 为次序统计量,令)1()(+=i i i X X Y ,i = 1, …, n − 1,Y n = X (n ) ,证明Y 1 , …, Y n 相互独立.。
数理统计第五章

湖北第二师范学院数学与数量经济学院《数理统计》课程教案课程类型:专业指选课任课教师:郭卫娟任课班级:10数学1、2班;课程学时:51学期:2012~2013学年度上学期湖北第二师范学院数学与数量经济学院《数理统计》课程教案课程类型:专业主干课任课教师:郭卫娟任课班级:10统计学专业;课程学时:51学期:2012~2013学年度上学期课次:第1次课授课时间:月日教学内容:第五章统计量及其分布第一节总体与样本第二节样本数据的整理与显示教学目标:1、掌握总体和样本的概念。
2、会初步整理数据,作出数据的频率直方图。
教学重点:总体和样本的概念;简单独立样本教学难点:总体和样本的概念;简单独立样本。
教学用具:多媒体课时安排:2学时教学过程设计及教学方法:§5.1 总体与样本一、总体与个体在数理统计学中我们把研究对象的全体所构成的一个集合称为总体或总体,而组成总体的每一单元成员称为个体。
在实际中我们所研究的往往是总体中个体的各种数值指标。
例如要研究某灯泡厂生产的一批灯泡的平均寿命。
这批灯泡就构成了一个总体,其中每一只灯泡就是一个个体。
我们关心的是灯泡的寿命指标,它是一个随机变量。
假设的分布函数是F(x)。
如果我们主要关心的只是这个数值指标。
为了方便起见我们可以把这个数值指标的可能取值的全体看作总体,并且称这一总体为具体分布函数F(x)的总体。
这样就把总体和随机变量联系起来了,并且这种联系也可以推广到R维,。
例如电视机显像管的寿命和亮度等,我们可以把这两个指标所构成的二维随机向量()可能取值的全体看成一个总体。
简称二维总体。
这二维随机变量()在总体上有一个联合分布函数F(x,y).称这一总体为具有分布函数F(x,y)的总体。
数理统计学中我们总是通过观测和试验以取得信息,我们可以从客观存在的总体中按机会均等的原则随机抽取一些个体,然后对这些个体进行观测或测试某一指标的数值,这种按机会均等的原则选取一些个体进行观测或测试的过程称为随机抽样。
医药统计学 第五章 抽样分布

3、总体参数(parameter): 总体X 的数字特征即总体的特征 指标。
eg: 、 。
(三)样本(sample):数理统计方法实质上是由局部来推 断整体,即通过一些个体的特征来推断总体的特征。 eg:观察某显像管厂所有显像管的平均寿命。
1、抽样研究(sampling):在实际工作中,所要研究的总 体无论是有限的还是无限的,通常都是采用抽样研究。
抽样:依照一定的规则从总体X 中抽取n个个体,然后对这
些个体进行测试或观察得到一组数据
。
目的:抽样研究的目的是用样本信息推断总体特征。
eg:
从上例的有限总体(浙江省2006年7岁健康男孩)中,按照随机化
原则抽取100名7岁健康男孩,他们的身高值
即为样本。因
此,从总体中抽取样本的过程为抽样,抽样方法有多种。
第四章 抽样分布
数理统计基本概念 抽样分布
学习目的和要求
掌握总体、样本、统计量、标准误等数理统计的基本概
念;查表求 2 分布、t 分布、F分布的临界值及其定理;
熟悉 X 的分布、 2分布、t 分布、F分布定义、性质和应
用。
数理统计的基本任务:
实验或 调查
以概率论为理论基础,通过样本提供的信息,对总 体的统计规律和特征进行估计与推断,其实用性较强。
1、 2分布(chi-square distribution):是指数分布的改进,
尤其当n较大时, 2分布可全面反映随机变量的分布。
eg: 寿命、保险等资料。
定义:设随机变量
为相互独立且服从标准
正态分布N(0,1),则称随机变量
2= X12 + X22 +X32 + … + … +Xn2
护理研究 第五章 总体和样本

3
基本概念
样本(sample)是从总体中随机抽取的部分 观察单位 抽样(sampling) 指从总体抽取部分个体的过 程 样本含量(sample size): 样本所包含观察单 位的数目
4
样本的选取应注意什么问题?
• 一是要留意样本在总体中是否具有代表 性, • 二是样本容量必须足够大, • 三是注意样本避免遗漏某一群体
14
第三节 样本量估计
检验水准,α( 犯假阳性错误的概率),如错 误地把无效的治疗方案判为有效的危险性,一 般错误定为0.05,也可定为0.01。 α越小, 所需样本含量越大 检验效能( 1-β ) , (β)二类错误出现概 率 , 犯假阴性错误的概率,如错误地把有效 的治疗方案判为无效的危险性一般情况β=0.2 或0.1或0.05,即80%、90%或95%把握度, 把握度高,样本数就大。
层(strata): 是指一个总体以某种特定的 标准将其分为互相不包含的部分, 分层常 在抽样过程中应用 随机化(randomization): 随机抽样: 总体中的每个研究个体有同等 的被抽取的机会 随机分组: 研究对象有均等的机会被分配 至各组
7
第二节 抽样的过程及方法
概率抽样法(probability sampling): 调查者用客观、随机的方法抽取样本。
10
概率抽样
3、分层抽样(stratified sampling)又称 分类抽样:当研究的变量在总体中的不同层 次有不同的分布时,需要采用分层抽样。 (先分层再抽签) 指先按照与研究目的明显有关的某种特征 将总体分为若干层,再从每一层内随机抽取 一定数量的观察单位,合起来组成样本。
11
第五章《用样本推断总体》复习讲义(解析版)

第五章 用样本推断总体(考点讲义)1.样本容量:样本中个体的数目叫做样本容量。
2.在用样本特性估计总体特性时,要注意一是样本要有代表性,二是样本容量要足够大。
3.求平均数的公式:123nx x x x x n++++=L【类型一】利用样本平均数估算总体数量【例1】为了创设全新的校园文化氛围,进一步组织学生开展课外阅读,让学生在丰富多彩的书海中,扩大知识源,亲近母语,提高文学素养.某校准备开展“与经典为友、与名著为伴”的阅读活动,活动前对本校学生进行了“你最喜欢的图书类型(只写一项)”的随机抽样调查,相关数据统计如下:请根据以上信息解答下列问题:(1)该校对_____名学生进行了抽样调查,m = _____n =_____(2)请将图1和图2补充完整,并求出扇形统计图中小说所对应的圆心角度数;(3)已知该校共有学生800人,利用样本数据估计全校学生中最喜欢科幻人数约为多少人?【解析】(1)用其它初一它的百分比即可;(2)用360∘乘以所占得百分比;(3)用样本估计总体.解:(1)20÷10%=200(名).由图1,得n=40,m=100-20-10-40=30答:该校对200名学生进行了抽样调查;m=30,n=40(2)如图:小说对应的圆心角度数为360∘×20%=72∘;(3)800×30%=240.答:全校学生中最喜欢小说的人数约为240名.【对应训练1】为了估计湖里有多少条鱼,小刚先从湖里捞出了100条鱼做上标记,然后放回湖里去.经过一段时间,带有标记的鱼完全混合于鱼群后,小刚又从湖里捞出200条鱼,如果其中15条有标记,那么估计湖里有鱼()A.1333条B.3000条C.300条D.1500条【答案】A【解析】在样本中“捕捞200条鱼,发现其中15条有标记”,即可求得有标记的所占比例,而这一比例也适用于整体,据此即可解答.【对应训练2】我国古代数学名著《九章算术》有“米谷粒分”.粮仓开仓收粮,有人送来谷米1608石,验得其中夹有谷粒.现从中抽取谷米一把,共数得256粒,其中夹有谷粒32粒,则这批谷米内夹有谷粒约是________石.【答案】201【解析】根据256粒内夹谷32粒,可得比例,再乘以1608石,即可得出答案.【解答】解:根据题意,得1608×32=201(石),256∴这批谷米内夹有谷粒约201石.【对应训练3】某山区中学280名学生参加植树节活动,要求每人植3至6棵,活动结束后随机抽查了若干名学生每人的植树量,并分为四种类型,A:3棵;B:4棵;C:5棵;D:6棵,将各类的人数绘制成扇形图(如图1)和条形图(如图2).回答下列问题:(1)这次调查一共抽查了________名学生的植树量;请将条形图补充完整;(2)被调查学生每人植树量的众数是________棵、中位数是________棵;(3)求被调查学生每人植树量的平均数,并估计这280名学生共植树多少棵?【解析】(1)由B类型的人数及其所占百分比可得总人数,总人数乘以D类型的对应的百分比即可求出其人数,据此可补全图形;(2)根据众数和中位数的概念可得答案;(3)先求出样本的平均数,再乘以总人数即可.【解答】(1)这次调查一共抽查植树的学生人数为8÷40%=20(人),D类人数=20×10%=2(人);条形图补充如图:(2)植树4棵的人数最多,则众数是4,共有20人植树,其中位数是第10、11人植树数量的平均数,则中位数是4,(3)x=4×48×562×7=5.3(棵),205.3×280=148(棵).答:估计这3280名学生共植树1484棵.【类型二】用样本估计总体【例2】为了提高学生的综合素养,某校开设了五门第二课堂活动课,按照类别分为:A“剪纸”、B“绘画”、C“雕刻”、D“泥塑”、E“插花”.为了了解学生对每种活动课的喜爱情况,随机抽取了部分同学进行调查,将调查结果绘制成如下两幅不完整的统计图.根据信息,回答下列问题:(1)本次调查的样本容量为________,统计图中的a=________,b=________;(2)通过计算补全条形统计图;(3)该校共有3000名学生,请你估计全校喜爱“雕刻”的学生人数.解:(1)样本容量为1815%=120,a=120×10%=12,b=120×30%=36.故答案为:120;12;36.(2)组频数:120―18―12―30―36=24(人),补全条形统计图如图所示:(3)3000×30120=750(人),答:该校喜爱“雕刻”约有750人.【跟踪训练1】在一个不透明的盒子中装有20个黄、白两种颜色的乒乓球,除颜色外其它都相同,小明进行了多次摸球试验,发现摸到白色乒乓球的频率稳定在0.2左右,由此可知盒子中黄色乒乓球约有…()A.2个B.4个C.18个D.16个【答案】D【跟踪训练2】质检部门从1000件电子元件中随机抽取100件进行检测,其中有2件是次品.试据此估计这批电子元件中大约有________件次品.【答案】20【解析】根据随机抽取100件进行检测,其中有2件是次品,可以计算出这批电子元件中大约有多少件次品.【跟踪训练3】书籍是人类进步的阶梯.为了解学生的课外阅读情况,某校随机抽查了部分学生本学期阅读课外书的册数,并绘制出如下统计图.(1)共抽查了多少名学生?(2)请补全条形统计图,并写出被抽查学生本学期阅读课外书册数的众数、中位数;(3)根据抽查结果,请估计该校1200名学生中本学期课外阅读5册书的学生人数.解:(1)12÷30%=40(名).(2)如图所示,由图知,众数为5,中位数为5.(3)∵抽查的样本中,课外阅读5册书的学生人数占14×100%=35%,40∴估计该校学生课外阅读5册书的学生人数约占35%,∴该校1200名学生中课外阅读5册书的学生人数约为1200×35%=420(人).【类型三】用样本频率估计总体频率【例3】中长跑(男生1000m,女生800m)是河南省某市中招体育考试的必考项目.甲、乙两校为了解本校九年级学生的训练情况,各随机抽取了20名九年级学生的中长跑模拟测试成绩(满分:30分),将成绩进行统计、整理与分析,过程如下:【收集数据】【整理数据】整理以上数据,得到模拟测试成绩x(分)的频数分布表.【分析数据】根据以上数据,得到以下统计量.根据以上信息,回答下列问题:(1)填空:a= ________,b=_________, m=________, n=________;(2)综合上表中的统计量,推断________校学生中长跑成绩更好,理由为________(写出一条即可)(3)若甲、乙两校各有800名学生,请估计两校中长跑模拟测试成绩不低于25分的学生一共有多少名?解:(1)由数据可得,a=7,b=8,m=24.75,n=23.4. 故答案为:7;8;24.75;23.4.(2)甲校学生成绩的平均数比乙校学生成绩的平均数高,且甲校学生成绩的方差比乙校学生成绩的方差小,成绩较稳定.(答案不唯一,合理即可)故答案为:甲.=720(名),(3)(800+800)×1082020答:估计两校中长跑模拟测试成绩不低于25分的学生一共有720名.【跟踪训练】今年是建党100周年,为了让全校学生牢固树立爱国爱党的崇高信念,某校开展了形式多样的党史学习教育活动,八、九年级(各有500名学生)举行了一次党史知识竞答(满分为100分),然后随机各抽取20名同学的成绩进行了收集、统计与分析,过程如下:【收集数据】两个年级抽取的20名同学的成绩如下表:八年级:7968878985598997898998938586899077898379九年级:8688979194625194877194789255979294948598【整理数据】将两个年级的抽样成绩进行分组整理:成绩x(分)50≤x<6060≤x<7070≤x<8080≤x<9090≤x<100八年级113114九年级2a b411【分析数据】抽样的平均数、众数、中位数、方差和优秀率(90分及以上为优秀)如下表:年级统计量平均数众数中位数方差优秀率八年级8589c80.420%九年级859491.5192d请根据以下信息,回答下列问题:(1)填空:a=________,b= ________,c=________,d=________;(2)请估计此次知识竞答中,八年级成绩优秀的学生人数;(3)小李同学认为九年级的整体成绩更好,请从至少两个方面分析其合理性.解:(1)由表中数据可知,九年级落在60≤x<70内的只有62,故a=1;九年级落在70≤x<80内的有71,78,故b=2;八年级成绩按照从小到大的顺序排列后,落在第10,11的数为87,89,∴中位数为88,故c=88;九年级90分及以上的学生有11人,∴九年级的优秀率为1120×100%=55%.故答案为:1;2;88;55%.(2)∵500×20%=100,∴估计此次知识竞答中,八年级成绩优秀的学生人数为100人.(3)九年级抽样成绩的众数,中位数和优秀率均高于八年级,说明九年级平均成绩更高,高分更多,因此九年级整体成绩更好.【类型四】用样本推断总体的实际应用【例4】某运动鞋经销商随机调查某校40名女生的运动鞋号码,结果如下表:鞋的号码35.53636.53737.5人数4616122现在该经销商要进200双上述五种运动鞋,你认为应该怎样进货比较合理?解析:先求出各鞋码所占比例,再乘200,即可得到所需进货数.解:由表中数据可知各鞋码的女生的比例,根据比例进货.需要进35.5码运动鞋:200×440=20(双),需要进36码运动鞋:200×640=30(双)需要进36.5码运动鞋:200×1640=80(双),需要进37码运动鞋:200×1240=60(双)需要进37.5码运动鞋:200×240=10(双)。
概率论数理统计基础知识第五章

C
]
(A)Y ~ 2 (n). (B)Y ~ 2 (n 1). (C)Y ~ F (n,1). (D)Y ~ F (1, n).
【例】设 随机变量X和Y都服从标准正态分布,则[ C ]
(A)X+Y服从正态分布.
2 2 2
(B)X2 +Y2服从 2分布. Y
2
2 X (C)X 和Y 都服从 分布. (D)
(X ) ~ t ( n 1) S n
客、考点 10,正态总体的抽样分布
33/33
34/33
35/33
【例】设总体 X ~ N (0,1),X 1 , X 2 , X1 X 2
2 2 X3 X4
, X n 是简单随机
2 X i. i 4 n
样本 , 试问下列统计量服从什么分布? (1 ) ; (2 ) n 1X1
记:F分布是两个卡方分布的商
2. F 分布的上侧分位数
设 F ~ F (k1 , k2 ) ,对于给定的 a (0,1) ,称满足条件
P{F Fa (k1 , k2 )}
Fa ( k1 ,k2 )
f F ( x)dx a
的数 Fa (k1 , k2 ) 为F 分布的上侧a 分位数。
服从F分布.
§5.5 正态总体统计量的分布
一、单个正态总体情形 总体
X ~ N ( , 2 ) ,样本 X1 , X 2 , , Xn ,
1 n 样本均值 X X i n i 1
n 1 2 样本方差 S 2 ( X X ) i n 1 i 1
1. 定理1 若设总体X~N(μ,σ2), 则统计量
有一约束条件
(X
i 1
高中数学总体和样本教案

高中数学总体和样本教案
授课内容:总体和样本
授课目标:
1. 理解总体概念以及总体特征的描述和分析方法;
2. 掌握抽样方法和样本的选取原则;
3. 能够根据样本数据进行总体参数的估计。
教学内容及安排:
1. 总体的概念及特征描述(30分钟)
- 总体的定义和分类;
- 总体参数的估计方法;
- 总体特征的描述和分析。
2. 抽样方法及样本的选取原则(30分钟)
- 简单随机抽样和分层抽样的原理;
- 样本的代表性和可靠性;
- 样本选取的步骤和技巧。
3. 样本数据的分析及总体参数的估计(40分钟)
- 样本数据的处理和分析方法;
- 样本数据与总体参数之间的关系;
- 样本数据如何用于总体参数的估计。
教学方法:
1. 讲授结合实例分析,让学生通过具体例子理解总体和样本的概念及关系;
2. 小组讨论,鼓励学生利用抽样方法选取样本并进行参数估计;
3. 课堂练习,让学生通过实际操作加深对总体和样本的理解。
评估方式:
1. 课堂提问,检查学生对总体和样本概念的理解程度;
2. 小组讨论成果的展示,评估学生对抽样方法和样本选取原则的掌握情况;
3. 课堂练习和作业,考察学生对样本数据分析和总体参数估计的能力。
教学反思:
在教学过程中,教师应注重引导学生通过实例和实践来理解总体和样本的概念,提高学生的实际应用能力。
同时,教师应及时对学生的学习状况进行评估和反馈,帮助学生及时纠正错误,提高学习效果。
概率论与数理统计-第五章

【数理统计简史】
1. 近代统计学时期
18 世纪末到 19 世纪,是近代统计学时期.这一 时期的重大成就是大数定律和概率论被引入统计 学.之后最小二乘法、误差理论和正态分布理论 等相继成为统计学的重要内容.这一时期有两大 学派:数理统计学派和社会统计学派.
【数理统计简史】 数理统计学派始于19世纪中叶,代表人物是比 利时的凯特莱( A.Quetelet , 1796-1874 ),著有 《概率论书简》《社会物理学》等,他主张用研 究自然科学的方法研究社会现象,正式把概率论 引入统计学,并最先用大数定律证明了社会生活 中随机现象的规律性,提出了误差理论.凯特莱 的贡献,使统计学的发展进入个了一个新的阶 段.
i =1 36
1 2 2 3 2 2 2 2 D( X ) = E ( X ) − E ( X ) = ( 0 + 1 + 2 + 3 ) − 4 2 5 = 4
2
二、样本与抽样 由于X1,X2,...,X36均与总体X同分布,且相互独 立,所以,Y的均值和方差分别为
E (Y ) = E ( ∑ X i ) = 36 E ( X ) = 54,
【数理统计简史】 18世纪到 19世纪初期,高斯从描述天文观测的 误差而引进正态分布,并使用最小二乘法作为估 计方法,是近代数理统计学发展初期的重大事件, 对社会发展有很大的影响.
【数理统计简史】 用正态分布描述观测数据的应用是如此普遍,以 至 在 19 世 纪 相 当 长 的 时 期 内 , 包 括 高 尔 顿 ( Galton )在内的一些学者,认为这个分布可用 于描述几乎是一切常见的数据.直到现在,有关 正态分布的统计方法,仍占据着常用统计方法中 很重要的一部分.最小二乘法方面的工作,在 20 世纪初以来,经过一些学者的发展,如今成了数 理统计学中的主要方法.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、目标总体:即,要研究的总体。是由研究目的决定 的符合抽样条件的被抽取样本的所有个体的集合体。
4ቤተ መጻሕፍቲ ባይዱ可得总体:根据研究需要能方便抽取的总体。 5、观察单位:个体或研究单位,研究总体的单位组成
部分,是科学研究中最基本的单位。
样本
样本(sample)是指从总体中随机抽取的部分
(一)概率抽样之简单随机抽样
或称单纯随机抽样,具体方法:先将总体的 全部研究个体统一编号,再用抽签法或随 机数字表法,随机抽取部分个体组成样本。 抽签法 随机数字表法 计算机随机函数
(一)概率抽样之系统抽样
又称等距抽样或机械抽样
具体方法:先将总体的每一个研究个体按某一特 征顺序编号,并根据抽样比例即样本含量和总体 含量之比规定好抽样间隔(H),在随机确定一 个小于H的数字K,然后以K为起点,每间隔H抽 取一个研究个体组成样本。(eg:学生手册考试)
问第二人,依此类推,与滚雪球一样,逐渐增加 样本人数,从而达到研究目的。 适用于研究某些特殊群体,而且样本难以寻找时。 例:吸毒者、家庭暴力、同性恋等等
第三节 样本含量估计
一、样本含量估计的方法 二、样本含量估计的注意事项
一、样本含量估计的方法
(一)与样本量相关的一些参数 检验水准 检验效能 总体标准差或总体率 容许误差
是指根据研究目的确定的同质观察单位的全 体,即,是具有相同性质的所有个体的某种 观察值的集合,总体所包含的范围随研究目 的不同而改变。(eg:)
二、样本(sample)
三、误差(error)
总体的类型
1、有限总体:总体通常限定在特定的空间、时间、人 群,同质研究对象的所有观察单位的所研究变量取 值的个数为有限个数。
2、抽取有代表性的样本
Ⅰ 遵循随机化原则 Ⅱ 足够的样本量
二、抽样方法
(一)概率抽样,又称随机抽样,指利用随
机的方法抽取样本。
1、简单随机抽样、2、系统抽样、3、分层抽样、4、 整群抽样、5、多阶段抽样:
(二)非概率性抽样
也叫非随机抽样,指抽样时没有用到随机的方法。 护理研究较多应用。常用的非概率抽样法有四种: 1、方便抽样、2、配额抽样、3、目的抽样、4、滚 雪球抽样
(一)概率抽样之多阶段抽样
大型调查时多种抽样方法联合使用或多级 抽样。从总体中先抽取范围较大的单元, 称为一级抽样单元(如县、市),再从抽 取的一级单元中抽取范围较少的二级单元 (如街、区),这就是二阶段抽样……
误差排序为:分层抽样<系统抽样<单纯随 机抽样<整群抽样
(二)非概率性抽样之方便抽样
不足:当编号代表的研究单位具有周期性趋势或 单调递增或递减时,系统抽到的样本会有明显的 偏性。(eg:按学习成绩编号)
(一)概率抽样之分层抽样
具体方法:先按照与研究目的明显有关的 某种特征将总体分为若干“层”,然后从 每一层内按比例随机抽取一定数量的个体, 组成该层的样本,各层样本之和代表整个 总体。(Eg:本科、大专、中专)
第五章 总体与样本
学习目标
理解总体、样本和误差的概念。 描述抽样的过程、抽样的分类、抽
样的方法和抽样原则。 理解常用的样本含量的估计方法。 叙述样本含量估计的注意事项。
本章学习内容
第一节 基本概念 第二节 抽样过程及方法 第三节 样本含量估计
第一节 基本概念
一、总体(population)
用最容易找到的人或物作为研究对象。Eg: 街头拦人法。央视采访。
方便、易行,但误差最大 结果的外推性小,论文价值不大
(二)非概率性抽样之配额抽样
根据总体内有层的特性,利用总体内各层的构成 比抽取与总体相似的样本。
例:研究护生对护士角色的看法,准备抽取40人 的样本,某校护生共200人,一、二、三、四年级 分别占20%、25%、30%、25%,进行配额抽样, 分别抽取一、二、三、四年级8、10、12、10人, 至于选谁不是随机的。
一、样本含量估计的参数
(二)确定样本量的方法 经验法 查表法 计算法
观察单位,其研究变量的实测值构成样本。 要求样本对于其所属的总体要有代表性 代表性:某观察指标在样本中的频数分布情况和该 观察指标在总体中实际分布情况比较接近,可看做 是总体的缩影。 例:研究本科护生心理健康状况
总体中男女比例是1:50 城市农村比是1:5
误差
误差(error):泛指收集的原始数据及其统计指 标与真实情况之间的差别。
1、偏倚(bias) 也叫系统误差,由某些不能确定量的但较为恒 定的因素所致。 受试者、观察者、仪器、外环境等
偏倚可以通过正确的实验设计、严格的技术措 施尽可能控制、减小甚至消除。
误差
2、随机误差:排除了系统误差后仍存在
的误差,是客观存在无法消除的。 抽样误差:是最重要的随机误差。是
指由于从整体中抽取样本才出现的误差。
在方便抽样的基础上增加了分层策略,是经常使 用的非概率抽样。
(二)非概率性抽样之目的抽样
研究者根据自己的专业知识和经验以及对 调查总体的了解,有意识地选择某些被判 断为最能代表总体的研究对象作为样本的 抽样方法。
缺点是没有客观指标来判断样本是否具有 代表性。
(二)非概率性抽样之滚雪球抽样
也称网络抽样 具体方法:先方法样本第一人,有第一人介绍访
注意选择分层用的特征指标和分层标志, 使层内差异较小,层间差异较大。
(一)概率抽样之整群抽样
具体方法:将总体中所有的个体按某种属 性分成若干个群体,其内的全部研究单位 构成样本。即整群抽样不是从总体中逐个 随机抽取个体,也不是从每个层随机抽取 个体,而是以群体为单位进行抽样。
适用范围:由于时间等问题,不能单纯和 分层随机抽样;组成总体的个体不明确。
原因:抽样本身 不可避免,但可减小
第二节 抽样过程及方法
一、抽样过程 二、抽样的原则 三、抽样方法(重点)
一、抽样过程
明确总体 确定抽样框 选择合适的样本量 确定抽样方法抽取样本
二、抽样原则
1、保证样本的可靠性:
样本中每一观察单位确实来自同质总体,如研究 对象为患者,则需要对研究对象的确认依据明确 的诊断标准、纳入标准、排除标准。