【精品】第三章 随机抽样和抽样分布
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章
随机抽样和抽样分布
在前两章的讨论中,我们知道了随机现象常常通过随机变量及其概率分布和数字特征来描述,然而,在实际问题中,要准确知道概率分布和数字特征,有时是很困难的。
例如,我们要以药丸的崩解时间或药片的溶解速度为指标来考察某一批药品的质量。
若把这批药品全部进行一下试验,其分布函数及其有关的数字特征都可求出。
但是,由于测定这些指标的试验,一般是破坏性的,报废了全部药品即使求出了有关指标也无意义。
还有一些检验指标,如蜜丸的重量、体积等,对它们的检验虽不是破坏性的,但要成批逐个检验,无论从人力还是物力上都会受到条件限制。
事实上,人们总是通过对部分产品的试验结果作分析,推断出全部产品的情况。
这就是数理统计研究的一个主要问题。
本章先讨论样本和统计量等基本概念,然后讨论常见的几种抽样分布,为进一步讨论统计推断方法打下必要的理论基础。
§3-1随机抽样
3-1.1总体与样本
总体与样本是数理统计中两个主要概念。
总体是指研究对象的全体,组成总体的每个单元称为个体.总体可以包含有限个个体,也可以包含无限多个个体.某个总体是有限的,但在个体相当多的情况下,往往把它作为无限总体来对待。
在数理
统计中,我们不笼统地研究所关心的对象,只考察它的某一种数值指标,例如,考察某批中成药丸的质量时,可以考察崩解时间、溶解速率、丸重等项指标.这里,如果我们只需注意药丸的重量,当然,每一丸都有一个确定的重量如:6g,6。
1g,6。
01g,5。
9g,….我们就把所有这些丸重数值当成丸重的总体;每个丸重值就是一个个体。
这样,丸重X实际上是一个随机变量,它的取值的全体是一个总体,每一个可能取值就是它的个体。
由于随机变量是用其概率分布F(x)(或密度函数()
f x)来刻画,所以若X具有分布函数F(X),则称这一总体为具有分布函数F(X)的总体.
为了研究总体,需在总体中抽取若干个个体,这就得出样本的概念.
定义1在一个总体X中抽取n个个体X
1,X
2
,…,X
n
,这n个个体称为总体
X的一个容量为n的样本.样本容量n是指样本中含有个体的数目,也称样本的大小。
由于X
1,X
2
,…,X
n
是从总体中随机抽出来的,可以看成是n个随机变量。
但在一次抽取后,它们都是具体的数值,记作x
1,x
2
,…,x
n
,称为样本值。
由于
两次各抽取n个个体的抽样,得到的两批样本值一般是不同的,因此,在不至引
起混乱的情况下有时也用x
1,x
2
,…,x
n
,表示n个随机变量,以此泛指一次抽取后
的结果。
这样,每当提到一个容量为n的样本时,常有双重含义:一是指某一次
抽样的具体数值x
1,x
2
,…,x
n
;有时是泛指一次抽出的可能结果,就表示n个随
机变量。
3—1。
2随机抽样
抽样的目的在于对总体的统计规律进行推断,因而很自然地要研究该怎样从总体中抽取样本,使其尽可能地反映总体的特征。
因此在抽样时,既要考虑抽样结果的代表性,又要考虑抽样本身的可行性,简便性。
抽样方法很多,对于不同的抽样方法,使用的统计推断方法也将不同,这里主要讨论简单随机抽样。
所谓简单随机抽样是指在抽取样本单位时,总体的每一个可能的样本被抽中的概率相同。
定义2样本X
1,X
2
,…,X
n
相互独立且与总体X有相同的分布函数,这样的
样本称为简单随机样本。
本书主要讨论简单随机样本,以下简称样本.
由以上定义可见,简单随机样本是满足下述两点要求的样本:其一,抽样随机,总体中每个个体被抽到的机会均等。
例如,在检查药品质量指标时,有意识地选优,就违反了随机性原则,所得指标必然不能反映总体的质量情况,不具代
表性;其二,样本X
1,X
2
,…,X
n
具有独立性,即抽取一个个体后,总体成分不
变。
例如,从一小批产品中,抽样检查合格品,要求有放回地抽样,可满足独立性条件;若无放回地抽样则不满足独立性条件。
对于无限总体,由于抽出的一个
样品放回与否不改变总体成分,可看作不影响抽样的独立性。
但实际应用中,即使总体个数N 有限,只要被抽取的个体数n 较小,比如不超过总体的5%,也可看作近似满足独立性条件,按无放回抽样,这样做可简化计算。
§3—2样本的数字特征 3—2。
1统计量
数理统计的主要任务,是以样本的特性去推测总体的特性。
为此,需要根据样本构造出某种函数(样本函数)作为推测的基础。
如当随机变量的某些总体数字特征未知时,就需要通过样本构造相应的函数。
不含任何未知参数的样本函数称为统计量,是统计推断中最常使用的工具。
定义1设X 1,X 2,…,X n 为总体X 的一个样本,g(X 1,X 2,…,X n )为一个样本函数.如果g 中不含有任何未知参数,则称g 为一个统计量.
例如,设X ~N(μ,σ2),且μ为已知,σ2为未知,X 1,X 2,…,X n 是X 的一个样本,则2
1
()n
i i X μ=-∑是一个统计量;而221
()n
i i X μσ=-∑仅是样本函数,不是统计量,因
为其中含有未知参数σ2. 3-2。
2样本的数字特征
下面我们来构造统计推断中最常使用的几种样本数字特征。
它是估计总体数字特征的方法之一. 一、样本均数
定义2设有容量为n 的样本X 1,X 2,…,X n ,则称1
X n =(X 1+X 2+…+X n )为样本均
数,亦可写为
11n i i X X n ==∑或1
i X X n
=∑(3—1)
明显地,由于容量为n 的样本是n 个独立同分布的随机变量,所以样本均数也是一个随机变量.样本均数的计算公式表明,它不含任何未知参数,是一个统计量。
二、样本方差、标准差、变异系数
定义3设有容量为n 的样本X 1,X 2,…,X n 则称
2
21
1()1n
i i S X X n ==--∑或 22222
11111111n n n i i i i i i S X nX X X n n n ===⎡⎤⎡⎤⎛⎫=-=-⎢⎥ ⎪⎢⎥--⎣⎦⎝⎭⎢⎥⎣⎦
∑∑∑(3-2) 为样本方差;S 称为样本标准差:
S
X
称为样本变异系数。
样本方差、标准差、变异系数都是刻画数据离散程度的指标。
和样本均数一样,都是随机变量,同时也都是统计量. 三、X 与S 2的运算性质
(1)若样本值i x 与i y 有如下关系:
i i y cx =(i=1,2,…,n)
则
,y x y cx S cS ==(2)若样本值i x 与i y 有如下关系:
则
1
,y x x a y S S b b
-=
=其中a ,b,c 为非零常数.在样本个体数很多、值很大的情况下,利用上述运算性质可使计算简化,节省工作量。
四、标准误
样本均数是随机变量,按样本均数、方差的定义、性质我们可以给出样本均数的均数及方差。
若总体均数EX 与总体方差DX 存在,则
EX EX =,1
DX DX n
=(3—3)
统计学中称样本均数的标准差为标准误。
一般用
X σ来表示,因此X σ=
S 来代替,可得标准误X S ,计算公式为
X S =
(3-4) 五、其他常用的数字特征
医药科研的统计中,还广泛地使用一些样本的数字特征。
关于刻画随机变量平均水平的还有:
中位数它是累积概率分布或分布函数等于50%所对应的变量值。
换言之,随机变量的取值大于它的概率和小于它的概率恰好相等,在概率意义上它位于正中。
众数它是随机变量的概率函数或概率密度函数最大值所对应的变量值.换言之,当大量独立重复试验时,样本值较多地集中在这个值的附近。
关于刻画随机变量分散程度的还有:
极差它等于随机变量有限个样本中最大值与最小值之差.在计算上较标准差方便,因而受到实际工作者的欢迎。
但是,它对随机变量的分布情况毕竟只能提供少量信息,因此远不能取代标准差的重要性.
例设某药厂生产的开胸顺气丸,崩解时间X ~N (μ,σ2),其中μ,σ2
均未知.今随机抽取5丸测得崩解时间如下(单位:分):
36,40,32,41,36 计算样本均数和方差
解为运算方便,可列表3-1。
2
5134225i i x =⎛⎫
= ⎪⎝⎭
∑,5n = 所以
X =15×185=37
()2211689718513515S ⎡⎤=-=⎢⎥-⎣⎦
§3—3抽样分布
统计量都是随机变量.数理统计中常要知道统计量的分布函数(抽样分布),由此去推断所研究的总体性质。
常用的统计量,除上节讨论过的样本均数、方差外,还有2
χ,t ,F 等统计量,这节我们将讨论这些统计量的分布.
3—3.1样本均数的分布
我们先不加证明给出正态变量的如下性质:
(1)两个相互独立的随机变量X 1~N (μ1,2
1σ)、X2~N (μ2,2
2σ)的代数和X=X 1±X 2仍服从正态分布,且有X ~N (μ1±μ2,2
1σ+2
2σ);
(2)n 个相互独立的随机变量X i ~N(μi ,2
i
σ)的和1
n
i
i X X
==
∑仍服从正态分布,且X ~
N(
1
n
i i μ=∑,21
n
i
i σ
=∑),其中i=1,2,…,n ;
(3)随机变量X ~N (μ,2
1σ)的线性函数Y=aX+b 仍服从正态分布,且Y ~N (a μ+b ,
22a σ),其中a ,b 均为常数;
(4)n 个相互独立的随机变量X i ~N (μi ,2i
σ)的线性组合1
n
i i
i X c X
==
∑仍服从正态分布,
且有X ~N (
1
n
i i
i c μ=∑,221
n
i
i
i c σ
=∑),其中c i 是不全为零的常数。
表3-1
i x
2i x
36 1296 40 1600 32 1024 41 1681 36
1286
5
1
185i
i x
==∑
5
2
1
6897i
i x
==∑
下面,我们来讨论样本均数的分布。
首先考虑样本来自正态总体时,即X i ~N(μ,2
σ)。
由样本均数的定义,是n 个相互独立同
分布的随机变量的线性组合,111n
n
i i i i X X X n n
====∑∑,则由正态变量的性质(4)容易推出:
2
21111(,)n
n i i X
N n n
μσ==∑∑即 2(,)X
N n μσ(3-5)
这个结论表明:来自正态总体的样本均数仍旧服从正态分布,该分布的均数等于原总体的均数,方差是原总体方差的
1
n
倍.由此可见,样本均数这一随机变量所服从的正态分布与总体的正态分布相比较在分散性方面有改善,且n 越大,
方差就越小,X 就越接近总体的均数μ。
再考虑样本来自非正态总体时的情况。
当抽样为小样本时,问题没有一般的确定解答;当抽样为大样本时,则由2-5。
3段的中心极限定理知
(0,1)X N (3—6)
也就是说,对于大样本,无论总体分布如何,式(3—6)总是成立的。
3—3.22χ分布
定义1设X 1,X 2,…,X n 是相互独立且同服从于N(0,1)分布的随机变量,则称随机变量
22212X X χ=++…2n X (3—7)
服从参数为n 的2
χ分布,记为2
χ~2
χ(n)。
2χ分布的概率密度函数是
12221,()2()20,x n n
e x n
f x --⎧⎪⎪=Γ⎨⎪⎪⎩
0x ≤当 x>0当 其中参数n 称为自由度,它表示式(3-7)中独立变量的个
数.
“自由度”的含意:
式(3-7)中的统计量2
χ是n 个独立的随机变量X i 的平方和,X i 之间没有约束条件,每个X i 均可自由变动,故称2χ的自由度为n.又如在式(3-2)中
2
21
1()1n
i i S X X n ==--∑ 有n 个变量X 1-X ,X 2—X ,…,X n -X ,它们之间存在着惟一的约束条件。
(X 1-X )+(X 2—X )+…+(X n -X )图3-1
=X 1+X 2+…+X n —n X =0
因此,n 个变量X 1—X ,X 2-X ,…,X n —X 中只有n —1个可以自由变动,所以样本方差S
2
的自由度为n —1。
f(x )的图形如图(3—1)所示,是一条偏向左侧的曲线。
自由度越小越偏,自由度相当大时,接近正态分布。
2χ(n )分布是p 分布在2β=,12
n
α=-时的特例。
2χ分布具有可加性。
设随机变量2
21
1()n χχ,2222()n χχ,且它们互相独立,则
2221212()n n χχχ±±这个性质也可推广到多个独立的21χ变量和或差的情形。
由此性质还可
推出下列结果:
若X 1,X 2,…,X n 为正态总体N (μ,σ2
)的一个样本,则有
2
22
(1)(1)n S n χσ--(3—8)
因为
2
2
2
2
11(1)n
n i i i i X X X X n S μμσσσ==⎛⎫⎛⎫--+--== ⎪ ⎪⎝⎭⎝⎭∑∑2
2
1n
i i X X n μμσσ=⎛⎫--⎛⎫=- ⎪
⎪⎝⎭⎝⎭∑
2
2
1n
i i X X n μσσ=⎛⎫-⎛⎫=-
⎪ ⎪⎝
⎭⎝⎭∑ 在此式中
(0,1)
i X N μ
σ
-(0,1)X N n
σ
从而可得
2
2
1()n
i i X n μχσ=-⎛⎫
⎪⎝
⎭∑,2
2(1)X n χσ⎛⎫ ⎪
⎝⎭
再由2
χ分布的可加性,即得
2
22
(1)(1)n S n χσ
--这个结论表明:22(1)n S σ-是一个服从2χ分布的随机变量,自由度
为n —1.
3-3.3t 分布
定义2设随机变量U~N(0,1),V ~2
χ(n )并且U 与V 相互独立,则称随机变量
t V n
=
服从自由度为n 的t 分布,记为t ~t (n)。
在不至于弄错的情况下,括号中的自由度可以省略。
t 分布的概率密度函数为
122
12()12n n t f x n n n π+-+⎛⎫Γ ⎪⎛⎫⎝⎭
=+ ⎪⎛⎫
⎝
⎭Γ ⎪⎝⎭
()
t -∞<<+∞其中n 为自由度.
f(t )的图形如图3-2所示。
曲线关于t=0对称,形状类似于标准正态概率密度函数的图形。
当n →∞时,它的极限分布是标准正态分布。
但当n 较小时,对于相同的变量值,t 分布的尾部比标准正态分布的尾部有着更大的概率,它们差异较大.
图3-2
t分布是统计学中极为重要的分布,应用最为广泛。
其应用的重要依据是下面的定理. 定理1设X1,X2,…,X n为正态总体N(μ,σ2)的一个样本,则
(1)
X
t n -证因为
2
(,)
X N n
μσ所以
(0,1)
X
N 又知
2
2
2
(1)
(1)
n S
n
χ
σ
-
-并且
X2
2
(1)
n S
σ
-
相互独立,从而由t分布的定义得
(1)
X
X
t n
=-定理2设
1
X,
2
X,…,
1
n
X和
1
Y,
2
Y,…,
2
n
Y分别是从同方差的总体N(μ1,σ2)和N(μ2,σ2)中所抽取的样本,它们相互独立,则
12
)
(2)
X Y
t n n
+-其中
22
21122
12
(1)(1)
2
n S n S
S
n n
ω
-+-
=
+-
2
1
S和2
2
S分别是这两个样本的方差。
证由定理的条件可知
22
12
12
()(,)
X Y N
n n
σσ
μμ
--+由已知两个总体方差相等,则
1212
()(0,1)11X Y U N n n σ-
=
+
给定条件知
2
2
1112
(1)(1)n S n χσ--,
2
222
22
(1)(1)n S n χσ--
且它们相互独立,由χ2分布的可加性
2
2
21122
122
2
(1)(1)(2)n S n S V n n χσ
σ
--=
+
+-从而,按t 分布的定义得
12121212
()(2)11
1X Y t n n V S n n n n ω-=+-+
+-
3-3。
4F 分布
定义3设随机变量U~2
χ(n 1),V ~2
χ(n 2),并且U 、V 相互独立,则称随机变量
12
21
U n n U F V n V n =
=⋅服从自由度为(n 1,n 2)的F 分布,记作F ~F(n 1,n 2). F 分布的概率密度函数为
1
1211222
11
121222
21,()220,
n n n n n n n n
x x n n f x n n +-
-⎧+⎛⎫Γ ⎪⎪⎛⎫⎛⎫⎝⎭⎪+ ⎪ ⎪=⎛⎫⎛⎫⎨⎝⎭⎝⎭
ΓΓ ⎪ ⎪⎪⎝⎭⎝⎭⎪⎩0
x x ≥<F 分布有两个自由度,第一自由
度n 1为组成统计量F 分子的随机变量的自由度;第二自由度n 2为分母的随机变量的自由度。
图3-3
f (x )的图形如图3-3所示.不对称的山状曲线,峰向左偏斜,随着n 1与n 2的同时增大,
其均数趋近于1,且f(x)的曲线趋向于对称。
再介绍一个常用的服从F 分布的随机变量。
定理3设1X ,2X ,…,1n X 为总体N (μ1,
21σ)的样本;1Y ,2Y ,…,2
n Y 为总体N(μ2,22σ)的样本,且二样本相互独立,样本方差
为21S 、2
2S ,则
2211122222
(1,1)S F n n S σσ--证因为
2
2
1112
1(1)(1)n S n χσ--2
222
222
(1)(1)n S n χσ--
所以由F 分布的定义,可知
2
11222111212222
222212
2
(1)1
(1,1)(1)1
n S S n F n n n S S n σσσσ--=⋅----最
后,读者必须注意:本节中介绍的2
χχ2分布、t 分布、F 分布都是对正态总体而言的,就是说,这些样本都是来自正态总体,在以后使用时,必须注意
这一前提条件。
§3-4概率纸及其应用
通过对样本的实际观测,能够获知一个变量的频率分布情况。
如果观测次数足够多,样本频率将接近总体概率,这时该变量的频率分布(统计分布)接近概率分布(理论分布)。
为验证一个随机变量的理论分布,可使用概率纸方法.
3—4.1正态概率纸
利用正态概率纸可判断一组数据是否取自正态总体。
一、正态概率纸的原理 设X ~N(μ,σ2
),那么
(0,1)X N μ
σ
-,令u=
X μ
σ
-,则F(x)=Φ(u )。
图3—4
因为u是x的线性函数,在坐标x-u中,u对x的图形是一条直线(图3—4),通过Φ值表,把纵轴刻度上的u值改写成对应的Φ(u)值,即F(x)值。
这样一来,在坐标系x-F(x)中,F(x)对x的图形仍是那一条直线。
于是,以普通均匀尺x为横轴,以函数尺Φ-1(F)为纵轴,就构成了正态概率纸,如图3-5。
二、正态概率纸的使用方法
(1)把样本数据x从小到大排队,并计算对应的累积频率F(x);
(2)在正态概率纸上描出点列(x,F(x));
(3)若点列能拟合一条直线,则变量X近似服从正态分布N(μ,σ2);
图3-5正态概率纸
(4)由纵轴上的F(x)=0。
50,0。
16(或0.84),找到横轴上对应的x0.50,x0。
16,或(x0.84),
则均数μ和标准差σ的估计值为ˆμ=x0.50,ˆσ=x0。
50-x0.16(或ˆσ=x0。
84—x0.50,或ˆσ=1
2
(x0.84—
x0.16))。
例1山东中医学院对六味地黄丸进行显微定量研究。
为探讨丸剂中熟地的某种特征物(棕色核状物)数目是否服从正态分布,镜检了67组载玻片中熟地的特征物数目,得到累积频率分布如表3-2所示。
表3—2累积频率分布表
特征物数 频数 累积频数
累积频率 特征物数 频数 累积频数 累积频率 56 1 1 0。
015 65 13 40 0.597 57 1 2 0.030 66 7 47 0.701 59 2 4 0。
060 67 4 51 0.761 60 3 7 0.104 68 5 56 0。
836 61 2 9 0。
134 69 6 62 0.925 62 5 14 0.209 70 2 64 0。
955 63 5 19 0.284 71 1 65 0.970 64 8
27
0.403
72
2
67
1。
000
利用正态概率纸描点,由于散点能拟合一条直线(图3-6)。
说明六味地黄丸中熟地所含该种
特征物的数目近似服从正态分布.从图上可求出均数和标准差的估计值
0.50ˆ64.8x μ
==0.840.50ˆ68.264.8 3.4x x σ=-=-= 3-4。
2对数正态概率纸
在药剂学、药理学等领域常可遇见一些不服从正态分布的随
机变量,如乳剂中油珠直径的分布,剂量-反应曲线等,其一般特征是其概率密度曲线偏向左侧而显出长尾状.这类随机变量的对数服从正态分布,称其服从对数正态分布。
判断随机变量是否服从对数正态分布,可以对所得样本资料取对数后借助正态概率纸来完成。
为免去取对数的工作,也可将正态概率纸的横轴改为对数坐标,构成对数正态概率纸(图37)。
利用这种坐标纸,可方便地直接以样本累积频率F(x)对x 作图,若呈直线状就可判断随机变量为对数正态变量。
至于均数和标准差的估计,宜分两步进行.首先,从图上查找F (x)=0。
50和0.84(或0。
16)所对应的横坐标值x 0.50和x 0。
84(或x 0。
16),注意到横轴为对数坐标,
读数为a 时应为lga,所以如果将取对数后正态分布的均数和标准差称为对数均数和对数标准差,分别记为μ'和σ',则类似于
图3—6正态分布的情形。
0.50ˆlg x μ
'=0.840.50ˆlg lg x x σ'=- (或0.500.16ˆlg lg x x σ
'=-,或[]0.840.161
ˆlg lg 2
x x σ'=-)
然后代入公式
2
ˆˆ1.15ˆ10μσμ
''
+=和 21
ˆ2.32
ˆˆ(101)σ
σ
μ''=-即得对数正态分布本身的均数和标准差的估计值。
(此公式的推导过程,读者可参见其他详细的数理统计课本)
3-4.3韦布尔概率纸
§2-2中已给出韦布尔分布的概率密度函数为
()
()1
()m
x m m
f x x e
αβ
αβ
--
-=
-,x α≥
分布函数为
()()1m
x F x e
αβ
--
=-(3-9)
其中有三个参数α、β和m 。
对式(3-9)改写后两端取对数,有
[]
()ln 1()m
x F x αβ
--=-
图3-7对数正态概率纸
变号后,再取对数,
ln{-ln[1-F(x)]}=mln(x—α)—lnβ
作变量代换
X=ln(x—α),B=—lnβ,Y=ln{-ln[1-F(x)]}
则有
Y=mX+B
可以看出Y与X存在线性关系,于是,以一个随机样本的累积频率代替F(x),以ln{—ln [1-F(x)]}对ln(x—α)作图,如α=0,便以ln{—ln[1—F(x)]}对lnx作图。
如果所得诸点按直线排布,便可认为该样本来自一个服从韦布尔分布的总体。
图3—8韦布尔概率纸
为避免多次查取自然对数,依上述原理制作韦布尔概率纸,如图3—8.图上有两条互相垂直的坐标轴,横向X 轴,纵向Y 轴。
为便于作图,在上、下、左、右四条边框上设有四把刻度尺,上边和右边分别称X 尺和Y 尺,系普通均匀尺度,以 X=lnx
(){}
1
ln ln 1ln ln
1()
Y F x F x =--=⎡⎤⎣⎦-的数值刻线,并实际标以X 或Y 的数值;下边的标
x 尺,名义上虽然刻以x 的数值,实际上却是据lnx 刻线;左边的称F(x )尺,同样,名义上虽标以F (x )的数值,实际上却是据
1
ln ln
1()
F x -刻线。
在韦布尔概率纸上,以样本的累积频率代替F (x ),利用左边的F (x)尺和下边的x 尺,按如下步骤作图估计:
(1)以F (x)对x 作图,
(2)若诸点排布接近直线,则适当拟合一直线,尤其注意照顾F(x)在30%至70%范围内的点,使之优先贴近直线。
(3)若诸点排布呈曲线状,则沿曲线趋势延伸,与x 轴交点的数值作为α的初步估计值,以F(x )对x-α作图。
如此反复修改,直到选定一个较好的α作为位置参数的估计值为止(图3—9)。
曲线:F (x)对x 作图. 直线:F (x )对x-α作图。
ˆα
:曲线与横轴交点。
(4)在F(x)对x-ˆα
所作的图上拟合一直线,由X=1和Y=0的交点(称m 点)作平行于该直线的平行线,查出它和Y 轴交点在Y 尺上投影的读数,不计正负号即得m 的估计值(图3-10)。
图3
—9图3-10
(5)所拟合的直线与x 轴有一交点,在x 尺上投影点的读数即为1m
ηβ=的估计值。
(6)依下式计算均数和标准差的估计值
111m m μβα⎛
⎫=Γ++ ⎪⎝⎭,112
22211m
m m σβ⎡⎤⎛⎫⎛⎫=Γ+-Γ+ ⎪ ⎪⎢⎥
⎝⎭
⎝⎭⎣⎦ 或查Y 尺右侧μη尺和σ
η
尺与m 估计值对应的数值,它们分别乘以η即为μ、σ的图估值。
习题三
1.思考下列问题:
(1)自总体中随机抽取的容量为n 的样本,可以看成是n 个随机变量,如何理解? (2)t 分布与正态分布的区别与联系是什么?
2.计算下列各样本的均数、方差、标准差及变异系数: (1)5,19,—3,7,1,1;
(2)5,-3,2,0,8,6;
(3)10,15,14,15,16;
(4)0,5,10,-3。
3.从同一批号的阿司匹林片中随机抽出5片,测定其溶解50%的所需时间分别为:
5。
3,6。
6,5。
2,3。
7,4。
9
试计算其样本方差,样本均数和变异系数。
4.在总体N(12,4)中随机抽一容量为5的样本Z1,Z2,…,Z5。
(1)求样本均值与总体均值之差的绝对值大于1的概率;
(2)求概率Pmax(Z1,…,Z5)>15;
(3)求概率Pmin(Z1,…,Z5)<10。
5.设随机变量X和Y相互独立,且都服从N(0,32),而X i(i=1,2,…,9)和Y i(i=1,
2,…,9)分别是来自总体X和Y的简单随机样本,求统计量
99
2
11
i i
i i
K X Y
==
=∑∑服从的分
布。
6。
某地101例30~39岁健康男子血清总胆固醇测定结果(mg/100ml)如下,
184。
0 130.0 237。
0 152.5 137。
4 163.2 166。
3 181。
7 219。
7 176.0 189。
2 168.8 208。
0 243。
1 201。
0 278。
8 214.0 151.7 201。
0 199.9 222.6 184。
9 197.8 200.6 197。
0 181。
4 183.1 155。
4 169.0 188.6 241。
2 205。
5 173。
6 178。
8 139。
4 171.6 125。
1 155.7 225。
7 157.9 129。
2 157。
5 185.1 201.8 191。
7 135.2 199。
1 196.7 226。
3 185.2 206.2 163.8 166.9 184.0 171.1 188。
5 214。
3 117。
5 175。
7 129。
2 188。
0 160.9 225.7 122。
7 176.4 168。
9 166.3 176.7 220.2 252。
9 183。
6 177。
9 245。
6 172.6 131。
2 150。
9 104。
2 177.5 157。
9 230。
0 211。
5 199。
2 207.8 150.0 177.9 172。
6 140。
6 167。
5 199。
9 237.1 160.8 117.9 159.2 251.4 181。
1 164.0 153。
4 246。
4 196.6 170.0 175.7
试用正态概率纸检验本样本数据是否来自正态总体。
若来自正态总体,试估计其均数和标准差。
7。
将三价糖酸锑钾的不同剂量注入小白鼠,观察存活与死亡情况,结果如表1。
试用对数正态概率纸估计LD50(使一组动物死亡一半时的剂量)。
表1
剂量(mg/20g)存活死亡死亡率
2.0 12 1 7。
7
2.5 7 3 30.0
3。
0 4 7 63.6
3.5 2 11 8
4.6
4。
0 1 16 94。
1
5。
0 0 17 100。
0 8。
慢速搅拌(30转/分)下测得在pH为7。
5的介质中某药物各时刻的累积溶解百分比数据如表2,问这个样本是否可以认为取自韦布尔分布总体?如果是取自韦布尔分布,试估测它的分布函数,估测其均数μ和标准差σ。
表2
时间(分) 5 10 15 20 25 30 累积溶解百分比27 58 78 91 96 100。