第五章抽样分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
13
第五章
抽样分布
§5.1 基本概念
14
一、总体与样本
定义5.1 一个统计问题总有它明确的研究对象。研 究对象的全体称为总体(母体),总体中每个成 员称为个体. (有限总体和无限总体)
总体
…
研究某批灯泡的质量
15
然而在统计研究中,人们关心总体仅仅 是关心其每个个体的一项(或几项)数量指标 和该数量指标在总体中的分布情况. 这时, 每个个体具有的数量指标的全体就是总体.
(
查表
0.009n 0.000999 n 0.009n
) 0.9
F F(( 1.29 x) ) 0.9 0.9
0.000999 n
1.29
5
解不等式得n≥21.
例5 在一家保险公司里有10000个人参加寿命保险,每
人每年付12元保险费。在一年内一个人死亡的概率为
0.6%,死亡时其家属可向保险公司领得1000元,问:
问题归结为n至少为多少时,
P{2n-200 Yn ≥ 0}≥0.9 上式化为 P{Yn≦0.01n}≥0.9
4
化为 P{Yn≦0.01n}≥0.9 YnB(n, 0.001), Y n : N (0.001n , 0.000999n ) ( 近似)
n 0.01n 0.001 n Yn 0.001 P{Yn 0.01n} P n 0.000999 n 0.000999
查表
=P(X≤110000/a)≥0.99
F .33 ) 0.99 0.99 F((2 x )
110000 60 a 2.33 a 1410.44 59.64
8
课堂练习
某电厂供应10000户人家用电,设每户用电的概 率为0.8。 (1)求同时用电户数超过8100户的概率。 (2)若每户用电100瓦,问电厂至少需要多大的发 电量才能以0.975的概率保证供电?
F10 ( x )
0, 1 / 10, 3 / 10,
6 / 10, 8 / 10, 1,
x 154 154 x 160 160 x 168 168 x 170 170 x 177 x 177
25
图形见P.120
对连续型问题,可作一曲线以估计其分布函数。
9
第五章
抽样分布
10
数理统计
数理统计是研究怎样以有效的方式收集、 整
理和分析带有随机性的数据,以便对所考察的 问题作出推断和预测,从而为采取一定的决策 和行动提供依据和建议。
11
数理统计不同于一般的资料统计,它更侧重于应 用随机现象本身的规律性进行资料的收集、整理 和分析。 由于大量随机现象必然呈现出它的规律性,因而 从理论上讲,只要对随机现象进行足够多次观察, 被研究的随机现象的规律性一定能清楚地呈现出 来。 但客观上只允许我们对随机现象进行 次数不多的观察试验,也就是说,我们获得的只 是局部观察资料。
三、样本分布函数(对F(x)的初步估计) 定义5.3(P.119)设 x1 , x2 ,, xn 是来自总体X的样本值,
x 重排: 1 0, 1 , n Fn ( x ) k , n 1, 令{ X x}, x R的频率 x2 xn x x1 1 1 1 频率: x1 x x2 n n n ) [ ) )[ x1 x x2 x 3
总体 理论分布
样本
样本观察值
统计是从手中已有的资料——样本观察值,去 推断总体的情况——总体分布. 样本是联系两者的 桥梁. 总体分布决定了样本取值的概率规律,也就 是样本取到样本观察值的规律,因而可以用样本 观察值去推断总体.
22
பைடு நூலகம்
二、统计表与统计图
1. 离散型:对pi 的初步估计—作条形图
2. 连续型:对f(x) 的初步估计----作频率直方图
12
现实世界中存在着各式各样的数据,分析这些数据 需要多种多样的方法。 因此,数理统计中的方法和支持这些方法的相应理 论是相当丰富的,概括起来可以归纳成两大类: 参数估计──根据数据,用一些方法对分布的未知 参数进行估计。 假设检验──根据数据,用一些方法对分布的未知 参数进行检验。 它们构成了统计推断的两种基本形式。这两种推断 渗透到了数理统计的每个分支。
n 1 2 S2 ( X X ) i n 1 i 1 3. 样本k阶原点矩 1 n M k X ik k 1为 X n i 1 4. 样本k阶中心矩 1 n C k ( X i X )k n i 1
n 1 2 s2 ( x x ) i n 1 i 1
3
例4: 保险业是最早使用概率论的部门之一,保险公司 为了估计企业的利润,需要计算各种概率。假设现 要设置一项保险:一辆自行车年交保费2元,若自 行车丢失,保险公司赔偿200元,设在一年内自行
车丢失的概率为0.001,问至少要有多少辆自行车投
保才能以不小于0.9的概率保证这一保险不亏本?
解: 设有n 辆自行车投保,Yn 表示一年内 n 辆自行车 中丢失的数量。则 YnB(n, 0.001)
xk x xk 1
x x
称为样本分布函数 或经验分布函数。
23
格林汶科定理(Glivenko Th)
对于任一实数 x , 当 n 时, Fn ( x ) 以概率 1 一致收敛于分布函数 F ( x ), 即
n
lim P Fn ( x ) F ( x ) 1.
第四章
大数定律与中心极限定理
内容回顾
1
三个大数定律
切比雪夫大数定律 伯努利大数定律 辛钦大数定律
1 n
1 p i n i 1
n
i 1
n
i
nA p f (A ) p n n 1 p i n i 1
伯努利大数定律以严密的数学形式论证了频率 的稳定性. 辛钦大数定律为用样本均值近似代替理论均值提 供了理论依据。
由简单随机抽样得到的样本称为简单随机样本,它 可以用与总体独立同分布的n个相互独立的随机变量 X1, X2, …, Xn 表示.
一旦取定一组样本,得到的是n个具体的数 x1,x2,…,xn, 称为样本的一次观察值,简称样本值 .
20
样本也是随机变量
某厂生产了一大批灯泡 ,现从中随机抽取 5只进行检测其 寿命(小时), 抽到哪5支是随机的 总体X
26
四、样本的数字特征 总体X有数字特征:
1. 均值 EX 2. 方差 DX 3. k阶原点矩( P .106 20题 ) k (k 1为EX ) EX k x i pi (离 , 公式( 3.7 )) k EX i 1 x k f ( x )dx (连 , 公式( 3.8))
(1)保险公司亏本的概率有多大? 解 设X表示一年内死亡的人数,则X~B(n,p),其中 n= 10000,p=0.6%, np=60, npq=59.64 于是由中心极限定理 X~N(np,npq) X~N(60, 59.64)
设Y表示保险公司一年的利润,则 Y=1000012-1000X P(Y0)=P(1000012-1000X0) =P(X120)
2
中心极限定理
林德伯格-列维定理 n i ~ N ( n , n 2 ) (近似) i 1 棣莫佛-拉普拉斯定理 若 : B (n , p ), ~ N (np, npq) (近似)
中心极限定理表明, 在一定的条件下, 当独 立随机变量的个数增加时, 其和的分布趋于正态 分布.
1 n k mk xi n i 1 1 n k ck ( xi x ) n i 1
28
5 统计量 从总体 X ~ F ( x) 抽取样本 X1 , X 2 , , Xn “杂乱无章”的数 包含了各种有用的“信息” 据 怎样集中、提炼出有用的信息 某班级《高等数学》课程考试成绩单列出 n 个学 生成绩分别为 X1 , X 2 , , Xn .如何评价全班整体学习情况? 下面的量能较好地反映全班整体学习情况
意义: 对于任一实数 x 当 n 充分大 时, 经验分布函 数的任一个观察值 Fn ( x ) 与总体分布函数 F ( x ) 只有微小的差别, 从而在实际上可当作 F ( x ) 来 使用.
24
例(P.119)从成年人群中随机抽10人,测得身高(单 位:cm)为: 168 168 170 160 154 177 160 177 168 170 求样本分布函数。 解 将样本值重排,并求出其频率
样本所包含的个体数称为样本容量
抽样分为有放回抽样与无放回抽样
19
抽样的目的是为了对总体进行统计推断,为了 使抽取的样本能很好地反映总体的信息,必须考虑 抽样方法.
最常用的一种抽样方法叫作“简单随机抽 样”.
每次取出的个体与总体有相同的分布
在相同条件下对总体 X 进行 n 次重复、独立观察 要求各次取样的结果互不影响
4. k阶中心矩 E ( X EX ) k
( k 2为DX )
27
x1 , x2 ,, xn为样本值 X 1 , X 2 ,, X n为来自X的样本 样本数字特征(随机变量): 样本数字特征观察值(数): 1 n 1 n 1. 样本均值 X X i x xi n i 1 n i 1 2. 样本方差
0.9952
7
(3)其他条件不变,为使保险公司一年的利润有99%的
概率不少于10000元,赔偿金至多可设为多少? 设赔偿金为a元,则 P(Y≥10000)=P(1000012-aX≥10000)
110000 60 a 0.99 59.64
=1P(X120)1 (7.769)=0;
6
(2) 该保险公司一年的利润不少于40000元的概率 P(Y≥40000)=P(1000012-1000X≥40000) =P(X≤80)
查表得
F ( 2.59) 0.9952
80 60 2.59 59.64
某批 灯泡的寿命
具有一定概率分布 的总体称为统计总体
指数总体
该批灯泡寿命的 全体就是总体
正态总体 …..
16
由于每个个体的出现是随机的,所以相应 的数量指标的出现也带有随机性。从而可以把 这种数量指标看作一个随机变量,因此随机变 量的分布就是该数量指标在总体中的分布。 所以,总体就可以用一个随机变量及其分 布来描述。 例如:研究某批灯泡的寿命时,关心的数量 指标就是寿命,那么,此总体就可以用随机变量 表示,或用其分布函数F ( x) 表示.
1 n Xi , max X i , min X i 1 i n 1 i n n i 1
通过构造样本函数, 加工提炼出有用信息
29
由样本值去推断总体情况,需要对样本值进行 “加工”,这就要构造一些样本的函数,它把样 本中所含的(某一方面)的信息集中起来.
定义5.4
不含任何未知参数的样本的函数 g(X1,X2,…,Xn) 称为统计量. 它是完全由样本决定的量.
17
类似地,在研究某地区中学生的营养状况时, 若关心的数量指标是身高和体重,我们用X和Y 分别表示身高和体重,那么此总体就可用二维随 机变量(X,Y)或其联合分布函数F(x,y)来表示.
数理统计中,总体这个 概念的要旨是:总体就 是一个 概率分布.
18
被研究对象(总体)的概率分布 F(x,) (或f(x,), p(xi,)) 往往是未知的, 或大体知其分布而参数未知。 为推断总体分布及各种特征,按一定规则从总体中 抽取若干个体进行观察试验,以获得有关总体的信息, 这一抽取过程为 “抽样” 定义5. 2 从总体中随机抽取若干个体组成的集合称为样本
…
X1, X2, X3, X4, X5 测得分别为
980, 960, 1030, 1300, 850
研究某批灯泡的寿命
观察前: X1 , X2 , , Xn 是相互独立,与总体同分布的r.v 观察后: 样本值 x1 , x2 , , xn 为 n 个具体的观察数据
21
总体、样本、样本观察值的关系