抽样误差_PPT幻灯片

合集下载

[实用参考]抽样误差.ppt

[实用参考]抽样误差.ppt
第七章 参数估计
Sampling Error & Estimation of Parameter
南方医科大学生物统计学系
Department of Biostatistics Southern Medical University
主要内容
抽样误差与标准误 t分布 可(置)信区间
变异
“世界上没有两片完全相同的叶子” ----植物学家
问题:如何度量抽样误差的大小?
抽样误差
由表1可见,各个样本均数`Xi 并不等于相应的
总体均数5.00,相互间也不完全相同。
由数理统计可证明,这些样本均数服从均数为
μ(本例为5.00),标准差为σ X的正态分布。
其中,σX的计算公式为:
X


n
一种统计量
抽样误差
标准误( Standard Error, SE)
方法
方法来控制。
SE 统计量的标准差 表示抽样误差大小
增大样本含量可减少
算式
X 2 X 2 / n
S
n 1
用途
随n 增大
求参考值范围 渐趋于稳定
S S/ n X 求可信区间 渐趋于0
t分布
t Distribution
t分布的发现
早在1875年,德国天文学家、测 量学家F.R.Helmert 就在数学上
频数 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
450
400
与n成反比,n↑,S`X↓;
350 300 250
200
n→∞时, S`X →0,而S
150 100 50

抽样误差和可信区间-幻灯片(1)

抽样误差和可信区间-幻灯片(1)

均数之差可信区间的计算
正常组
肝炎组
1=?
2=? 1- 2 =?
均 数:273.18ug/dL 标准差:9.77ug/dL
均 数: 231.86ug/dL 标准差:12.17ug/dL
X1X242.32
合并方差与均数之差的标准误
❖ 合并方差(方差的加权平均)
sC 2 (n11n)1s 12 n2(n 221)s22
❖ 每一自由度下的t分布曲线都有其自身分布规律。t界值 表。
t分布曲线下的面积
f (x)
nn21n1
x2 n
n12
2
-t 0 t
t界值表
单侧:
P(t <-tα,ν)= α或 P(t >tα,ν)= α 双侧:
-t 0 t
P(t <-tα/2,ν)+ P(t >tα/2,ν)= α 即:P(-tα/2,ν<t <tα/2,ν)= 1-α [例] 查t界值表得t值表达式
可信区间的定义
❖ 按一定的概率或可信度(1-α)用一个区间 来估计总体参数所在的范围,该范围通 常称为参数的可信区间或者置信区间 (confidence interval,CI),预先给定的概 率(1-α)称为可信度或者置信度 (confidence level),常取95%或99%。
❖ 可信区间(CL, CU )是一开区间 CL、CU 称 为可信限
❖ 这里的95%,指的是方法本身!而不
是某个区间! ❖ 总体参数虽未知,但却是固定的值,
而不是随机变量值 。
95%可信区间的含义
按这种方法 构建的可信区 间,理论上平 均每100次,有 95 次 可 以 估 计 到总体参数。

抽样误差与假设检验.pptx

抽样误差与假设检验.pptx
S S 0.38 0.032(1012 / L) X n 140
标准误的用途: 标准误是抽样分布的重要特征之一,可用于衡量抽 样误差的大小,更重要的是可以用于参数的区间估 计和对不同组之间的参数进行比较。
标准差与标准误的区别与联系
意义
标准差:描述个体值间的变异,标准差较 小,表示观察值围绕均数的波动较小。 说明样本均数的代表性。
假定某年某地所有13岁女学生身高服从
N(155.4,5.32),在该总体中作100次随
机抽样,ni = 30
总体
样本n1 样本n2
样本nk
样本均数
X1
153.6
X2
153.1
····
Xk 157.7
各样本均数不相同,为什么?
从正态总体N(155.4,5.32)抽样得到的100个样本均数的频数分布
抽样分布
抽样分布示意图
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数的变
异越小说明估计越精确,因此可以用标准误表示
抽样误差的大小:
X
n
实际中总体标准差 往往未知,故只能求得样 本均数标准误的估计值 : S
X
S
S
X
n
例4.1 在某地随机抽查成年男子140人,计算 得红细胞均数4.77×1012/L,标准差0.38 ×1012/L ,试计算均数的标准误。
第四章 抽样误差与假设检验
要求:
掌握:均数的抽样误差与标准误,t分 布的特征,t界值表,总体均数可信区间及
其与参考值范围的区别。
了解:t变换。
第一节 均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息研究 总体。由于个体存在差异,因此通过样本推论总体 时会存在一定的误差,如样本均数 往X往不等于总 体均数 ,这种由抽样造成的样本均数与总体均数 的差异称为抽样误差。对于抽样研究,抽样误差不 可避免。

抽样误差与假设检验(ppt 43页)

抽样误差与假设检验(ppt 43页)
认为治疗前后有差别。
假设检验的基本思想—利用反证法的思想
利用小概率反证法思想,从问题的对立面(H0)出发间 接判断要解决的问题(H1)是否成立。然后在H0成立的条
件下计算检验统计量,最后获得P值来判断。当P小于或等 于预先规定的概率值α,就是小概率事件。根据小概率事件
的原理:小概率事件在一次抽样中发生的可能性很小,如果 他发生了,则有理由怀疑原假设H0,认为其对立面H1成立
判断观察对象的某
项指标正常与否
• 某地调查100人得收缩压均数为18.62kPa, 标准差为1.33kPa。试估计:
• 该地95%的人收缩压在什么范围? • 该地所有人收缩压的均数可能在什么范围?
假设检验的意义和步骤
(Hypothesis Test)
要求: 掌握:假设检验的基本思想和基本步
骤,样本均数与总体均数的比较,配对 资料的比较,两个样本均数的比较,假 设检验应注意的问题。
4 .7, 7 S0 .3, 8 n 140
下限: X - u /2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 7 ( 1 0 1 1 /L 2 0 ) 上限: X u / 2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 8 ( 1 0 3 1 / L 2 0 )
24
1.711 2.064 2.492 2.797
25
1.708 2.060 2.485 2.787
2①6 自由度1相.7同06时,2│.0t5│6值越2.4大79,概2率.77P9越小;
2②7 t值相同1.时70,3 t0.025/.20,2522= t02.0.2457,223=2.20.7747。1

第四章抽样误差与区间估计.ppt

第四章抽样误差与区间估计.ppt

Z X
Z变换
标准正态分布
N(0,12)
均数 X
N(, 2 n)
Z X n
标准正态分布
N(0,12)
Student t分布
t X X ,
S n SX
v n 1 自由度:n-1
2020-11-9
感谢你的观看
10
f(t)
ν─>∞(标准正态曲线)
ν=5
ν=1
f (t) ( 1) 2 (1 t 2 / )( 1) 2
0.1580
250
200
150
100
50
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数
n 30; SX 0.0920
感谢你的观看
频数
450 400 350 300 250 200 150 100
50 0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19 均数
第四章 抽样误差与区间估计
2020-11-9
感谢你的观看
1
第一节 均数的抽样误差与标准误
例如,从总体均数 =4.83×1012/L、标准差 =0.52×1012/L 的正态分布总体
N(4.83, 0.522)中,随机抽取 10 人为一个样本(n=10),并计算该样本的均数、标
准差。如此重复抽取 100 次( g =100),可得到 100 份样本,可得到 100 对均数
( 2)
-5.0
-4.0
-3.0
-2.0
-1.0
0.0

抽样误差与参数估计-38页PPT文档资料

抽样误差与参数估计-38页PPT文档资料
• 在n确定的情况下,准确度↑,精确度↓;
• 在兼顾准确度和精确度时,一般取95%可信 区间;
• 在可信度确定的情况下,增加样本例数,可 提高精确度;
两样本均数之差的分布与标准误
• 从两个正态总体 N (1, 1 2),N (2, 2 2)
中随机抽样,分别得n1、X 1 、s1和 n2、X 2 、s2 则:
Parameter estimation
Hypothesis testing
Point estimation
Interval estimation
• 点估计(point estimation):就是用样本指 标直接地估计总体指标。
• 总体均数

X
• 总体率

p
• 即样本均数和样本率分别是总体均
X/2 XX/2 X
P(/2X /2)1 X
X/2/ n
n足够大,用样本标准 差S来估计σ
• 例7-4:已知某样本的 X 5.03 ,s=0.52, n=10,试计算该总体正常成年男子平均红细 胞计数的95%可信区间。
• 解:v=9,α=0.05(双侧),查t界值表,得
S X S / n 0 .5 2 / 1 0 0 .1 6 4
/ n 0 .5 0 /1 0 0 .1 5 8 X
• 实际工作中,只能根据一份样本计算出 一个标准误说明抽样误差的大小,即 估计μ的可靠程度
• 例7-3: 2019年,在某地20岁应征男青 年中随机抽取85人,平均身高为171.2cm, 标准差为5.3cm,计算当地20岁应征男青 年身高的标准误。
1. 未知时,按t分布的原理
tt/2,和 tt/2,的概率之和为α
P ( t/2 ,tt/2 ,) 1

均数的抽样误差PPT课件

均数的抽样误差PPT课件

第二个要素是“精确性”,常用可信区间的长度(CL,CU)来表示,当
然长度越小越好。精确性与变量的变异度大小、样本例数和1- 的取值 有关。当1- 的取值确定后,可信区间的长度受限于个体变异和样本含
量,个体变异越大区间越宽,样本越小区间越宽,反之区间越窄。
例:某年级学生总人数800人,通过计算其中50人 的医学统计学考试成绩来估计其总体均数。
抽样n=50, X =75.00。估计μ= ?。
①μ=75.00
可能性
②μ=70.00~80.00 可能性
③μ=65.00~85.00 可能性
24
二、t 检验
统计分析
统计描述
是用统 计指标、统计表 和统计图描述资 料的分析规律及 其数量特征。
统计推断
包括“总体 参数估计”和“ 假设检验”两个 内容。
本例自由度:ν-1=25-1=24; t0.05,24,经查表得t0.05,24 = 2.064 则
S X + t0.05,24 × X =73.6 + 2.064×6.5/ 25 = 76.3次/分
X
-
t0.05,24
×
S X
=
73.6
-
2.064×6.5/
25 = 70.9次/分
即该地区正常男子脉搏总体均数的95%可信区间为:
可能高,也可能低
双侧检验
肯定不会低(或高)
单侧检验
H1 : μ>μ0 μ<μ0 μ1 >μ2 μ1< μ2
33
17
2)小样本可信区间估计--t分布法:
x
总体均数95%可信区间估计计算公式:
X
t
0.05,
S X
总体均数99%可信区间估计计算公式:

抽样误差与假设检验培训课件(PPT 49页)

抽样误差与假设检验培训课件(PPT 49页)
点值估计(point estimation):例,120名成 年男子血清铁含量的均数是18.57。那么,该总体 范围(这个地区)的成年男子血清铁含量的均数就 是18.57。这种方法虽简单,但未考虑抽样误差, 一般不用。
区间估计(interval estimation)
也称置信区间。利用样本信息给出一个区间,并 同时给出按预先给定的概率估计该区间包含总体 均数的可能范围。 可信度:给定的概率称为可信度。用 1 表 示。通常取99%、95%。
山区男子脉搏的总体均数与一般成年男子的脉搏均 数不相等,差异可能是由地域等因素引起的——提 示山区男子与一般男子是两个不同的总体。
假设检验
——通过对假设作出取舍抉择来达到解决问题的目的
A.山区男子脉搏的总体均数与一般成年男子的脉搏均数
相等
无差异假设、零假设 H0(null hypothesis)
3. 确定P值,下结论。
P 值的概念
指从H0规定的总体中随机抽样抽得等于或大于 (或等于或小于)现有样本统计量的概率。
-2.045
2.045
本章总结
conclusion
样本均数的分布:
由中心极限定理及大数定理得出:
若原变量X服从正态分布,随机抽取样本含 量为n的样本均数 X 也服从正态分布。
即使从偏态总体中随机抽样,当n足够大( n>50),样本均数也近似服从正态分布。
这个定理不仅具有理论价值,而且具有很 高的实用价值。因为在实际工作当中,许多医 学测量结果并不知道它的确切分布,有了这个 性质,就可以利用正态分布的原理对其特征进 行统计推断。
t分布方法
应用条件:总体方差未知,样本量小
例4.2 某医师测的40名老年性慢性支气管炎病人尿中17-酮类固 醇排出量均数为15.19umol/d,标准差为5.03umol/d,试估计该 种病人尿17-酮类固醇排出量总体均数的95%可信区间。

抽样误差55262精选ppt

抽样误差55262精选ppt

精品课件
4
抽样实验
例1: 假定某地正常成年男子的红细胞计数服从
正态分布N(5.00,0.502) 的总体,单位1012/L。
用计算机模拟从该总体中随机抽样,每次抽10 例组成一个样本,重复100次抽样。结果见表1。
精品课件
5
抽样实验
表1 正常成年男子红细胞计数抽样实验结果
样本号
红细胞计数
X
S
1 5.59 5.11 4.26 5.11 4.74 … 5.55 5.04 0.44
反之, 当σ固定时,n越大, 则σX 就越小。
精品课件
17
样本均数的分布
若原始分布服从正态分布,则其样本均数服 从正态分布。
若原始分布不服从正态分布,当样本量够大 时(如n>60),其样本均数一般服从正态分布 (中心极限定理)。
精品课件
18
抽样误差
由数理统计的中心极限定理可知,无论原始 总体为何种分布, 只要它具有总体均数μ和标准
精品课件
6
抽样实验
总体
__
4.66
0.57
__
X2
S2
X1 S1
__
S X 1 0 0
100
精品课件
7
抽样误差
由于事物间普遍存在着变异,由此产生了 这么一个现象:
由于抽样而引起的误差 —— 抽样误差
精品课件
8
抽样误差
定义: 抽样误差(sampling error):是指
由于样本的随机性引起的统计量与参数的差 别,或同一总体的相同统计量之间的差别。
精品课件
23
t分布的发现
早在1875年,德国天文学家、测 量学家F.R.Helmert 就在数学上

第三讲抽样误差与区间估计优秀课件

第三讲抽样误差与区间估计优秀课件
(interval estimation)
参数的估计
点估计:由样本统计量 X、S、p 直接估计 总体参数 、、
区间估计:在一定可信度 (Confidence level) 下 ,同时考虑抽样误差
按预先给定的概率(1),确定一个包含未知总体参数的范
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
0
0
50
50
100
100
150
150
200
200
250
频数 频数
250Biblioteka 3003000.1580
n 10; SX
350
n 5; SX 0.2212
450 400 350
均数 X
N(, 2 n)
Z X n
标准正态分布
N(0,12)
Student t分布
t X X ,
S n SX
v n 1 自由度:n-1
t分布的特征
①以0为中心,左右对称的单峰分布;
②t 分布曲线是一簇曲线,其形态变化与自由度
的大小有关。
自由度越小,则t 值越分散,曲线越低平; 自由度逐渐增大时,t 分布逐渐逼近Z 分布(标 准正态分布);当趋于∞时,t 分布趋近Z 分布, Z 分布是t 分布的特例。
1. 4.58, 0.38 2. 4.90, 0.45 3. 4.76, 0.49
┆ 99. 4.87, 0.59 100. 4.79, 0.39
100 个
频数
将这100份样本的均数看成新变量值,按第二章 的频数分布方法,得到这100个样本均数得直方图见 图3-1。
30

《均数的抽样误差》PPT课件

《均数的抽样误差》PPT课件
若仅知样本均数及标准误的估计值,且样本较小 时,用标准误的估计值来代替标准误,误差较大 ,需要改用t值来推算可信区间。
精选ppt
6
二、t值与t分布 样本均数与总体均数间的差如以均数标准误 的估 计值的倍数来表示,此倍数即为t值
t x
Sx
从正态分布总体中抽取若干个样本含量相同的样 本,每个样本各计算一个t值,如抽取的样本很多 时,可发现t值的分布是以0为中心,两侧对称的 类似正态分布的一种分布。即t distribution。
t分布曲线的峰度kurtosis:受n的影响。当n小时, 曲线低平;n越大越接近正态分布。即t 分布曲线 是随自由度的大小而有规律地变动的。
精选ppt
7
degree of freedom: ν=n-1 (读:nu)
t分布曲线不是一条曲线而是一簇曲线
t 分布曲线与横轴间的面积有规律:
两侧外部面积为5%及1%的界限的t值常用t0.05(ν)、 t0.01(ν)表示 自由度趋于∞时,t分布趋向于均数为0,标准差为 1的标准正态分布。一般情况下t分布曲线较正态 分布低平,因而t0.05(ν)≥1.96, t0.01(ν)≥2.58 t值与P值呈反向关系:t越大,则P越小;反之亦 然。|t|≥ t0.05(ν),P≤0.05
抽取一定数量的观察单位作为样本进行抽样研究,
通过样本指标来说明总体特征,这种从样本获取
总体信息的过程,称~
精选ppt
2
二、均数的标准误
数理统计推论和中心极限定理central limit theorem 表明:(1)从正态总体N(μ,σ)中,随机抽
取例数为n的样本,样本均数 x 也服从正态分布;
(2)从均数为μ,标准差为σ的正态或偏态总体, 抽取例数为n的样本,样本均数 的x总体均数也 为μ,标准差用 表 x示。通常将样本统计量的 标准差称为标准误standard error, SE, 样本均 数的标准差即均数标准误standard error of mean, SEM。

抽样分布与抽样误差PPT(51张)

抽样分布与抽样误差PPT(51张)

按无关标志排队,其抽样效果相当于简单随机抽样; 按有关标志排队,其抽样效果相当于类型抽样。
4·整群抽样(集团抽样)
—— 将总体全部单位分为若干“群”,然后 随机抽取一部分“群”,被抽中群体的所有 单位构成样本
例:总体群数R=16 样本群数r=4
A D
E
B F G
CM N
J H
L K
P O I
LP HD
样本比例的抽样分布
(数学期望与方差)
1. 样本比例的数学期望
E(p)
2. 样本比例的方差
– 重复抽样
p2
(1)
n

不重复抽样
2 p
(1)Nn
n N1
第二节 抽样误差
一、抽样误差的概念 二、抽样平均误差 三、抽样极限误差
指样本估计量与总体参数之间数量抽样Biblioteka 差 上的差异,仅指由于按照随机原则
•第一个
•第二个观察值
•观察值
•1
•2
•3
•4
•1
•1,1
•1,2
•1,3
•1,4
•2
•2,1
•2,2
•2,3
•2,4
•3
•3,1
•3,2
•3,3
•3,4
•4
•4,1
•4,2
•4,3
•4,4
计算出各样本的均值,如下表。并给出样本均 值的抽样分布
•16个样本的均值(x)
•第一个 •观察值
•第二个观察值 •1 •2 •3 •4

值越来越接近被估计的总体参数
P(ˆ ) 较大的样本容量
B
较小的样本容量
A

ˆ

第4章抽样误差与假设检验ppt课件

第4章抽样误差与假设检验ppt课件
2.参数估计有点估计和区间估计两种方式。点估 计的重要表达方式是平均值;区间估计是指按预先 给定的概率,计算出一个区间,使它能够包含未知 的总体均数。区间越窄说明估计的准确度越高。
2020/5/17
3.总体均数可信区间的计算公式可以利用X 的
抽样分布获得。一种重要的方法是利用 t 分布计算
区间两端的可信限
问题归纳: 样本疗效
药物作用 + 机遇
d 1.38
μ 0? d
问题:| d 0| 究竟多大能够下“有效”的结论?
2020/5/17
假定治疗前后血清甘油三酯检测结果的差值服从正态分
布,若 H: 0则 t d 0 服从t 分布。
0
d
S/ n
d
图4-3 利用t 分布进行假设检验原理示意图
根据 t 分布能够计算出有如此大差异的概率P ,如果P 值很小,即计算出的t 值超出了给定的界限,则倾向于拒绝
假设分别为
H: 0 0d
H: 0
1
d
检验水准 是预先规定的拒绝域的概率值,实
际中一般取 0.05。
2020/5/17
[说明] :备择假设有双侧和单侧两种情况。双侧
检验指不论正方向还是负方向的误差,若显著地超出
检验水准则拒绝H0,H1 :μd 0即为双侧检验;单侧 检验指仅在出现正方向或负方向误差超出规定的水准
。单侧可信区间只需
Xt .S
α/2(ν) X
将公式中的双侧界值换成单侧界值。
4.假设检验的思想是,首先对所需要比较的总 体提出一个无差别的假设,然后通过样本数据去推 断是否拒绝这一假设。其实质是判断观察到的“差 别”是抽样误差引起还是总体上的不同,目的是评 价两个不同的参数或两种不同处理引起效应不同的
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
缩小。
16
NTU 2012
中心极限定理(central limit theorem)
Case 1:
从正态分布总体N (μ,σ) 中随机抽样(每个样本的含量 为n ),可得无限多个样本,每个样本计算样本均数,
则样本均数也服从正态分布。
– 样本均数的均数为 μ;

样本均数的标准差为 x
n

17
NTU 2012
抽样误差的表现
样本均数和

总体均数间

的差别 X i




样本均数和

样本均数间
的差别 X i X j
7
NTU 2012
抽样误差的规律性
抽样误差是不可避免的! 抽样误差是有规律的!
既然抽样误差是有规律的,那么它的 分布规律到底是怎样的?
8
NTU 2012
模拟试验
假设一个已知总体,从该总体中抽样,对每个 样本计算样本统计量(均数、方差等),观察样 本统计量的分布规律--抽样分布规律。
n=2
X Population A
X
X Population B
X Population C
X Population D
n=4
X
X
n=10
X
n=25
Sampling Distribution of sample means
Sampling Distribution of sample means
Sampling Distribution of sample means
20
与样本含量的关系
NTU 2012
n 越大,均数的均数就越接近总体均数; n 越大,变异越小,分布越窄;
对称分布接近正态分布的速度,大于非对称分布。 分布越偏,接近正态分布所需样本含量就越大。
21
NTU 2012
抽样误差的规律性(1)
均数的抽样误差规律:
– 在样本含量足够大时,无论总体分布如何,其均数的 分布趋于正态分布(大数定律)
主要内容(Content)
NTU 2012
抽样误差及其规律性 标准误 抽样分布与t分布 总结
1
NTU 2012
了解抽样误差规律的重要性
总体
随机 抽样
同质个体、个体变异
样本
代表性、抽样误差
总体参数
未知
样本统计量
统计 推断
已知
风险
2
NTU 2012
两种研究思路
概率论:已知总体样本具有什么性质? 统计学:已知样本总体具有什么性质?
Sampling Distribution of sample means
14
NTU 2012
从正态总体中随机抽样,其样本均数服从正态分 布;
从任意总体中随机抽样,当样本含量足够大时, 其样本均数的分布逐渐逼近正态分布;
样本均数之均数的位置始终在总体均数的附近; 随着样本含量的增加,样本均数的离散程度越来
标准误的意义
NTU 2012
反映了样本统计量(样本均数,样本率)分布的离散 程度,体现了抽样误差的大小。
标准误越大,说明样本统计量(样本均数,样本率) 的离散程度越大,即用样本统计量来直接估计总体参 数越不可靠。反之亦然。
标准误的大小与标准差有关,在例数n一定时,从标
准差大的总体中抽样,标准误较大;而当总体一定时, 样本例数越多,标准误越小。说明我们可以通过增加 样本含量来减少抽样误差的大小。
– 不同的样本含量对上述性质的影响如何?
10
NTU 2012
从已知正态总体中抽样
μ =0 σ =1
X =0.3747
S= 1.2473
X =0.0681
S =0.7245
样本含量n =10 抽样次数m =1000
X =-0.1703 S = 0.9248
11
NTU 2012
A Simulation Study
概率论:规律性中的随机性 统计学:随机性中的规律性
3
NTU 2012
NTU 2012
NTU 2012
抽样误差的定义
【定义】由于个体变异的存在,在抽样研究中产生 样本统计量和总体参数之间的差异,称为抽样误 差(sampling error)。
各种参数都有抽样误差,这里我们以均数为研究对象
6
NTU 2012
考察:
– 不同的分布 – 不同的样本含量
对统计量的影响。
9
均数的模拟试验
NTU 2012
从不同总体中进行抽样,观察均数的抽样分布规律。 – 正态分布总体 – 对数正态分布总体 – U型分布总体
考察: – 样本均数的均数与总体均数有何关系? – 样本均数的标准差与总体标准差有何关系? – 样本均数的分布形状如何?
越小,表现为样本均数的分布范围越来越窄,其 高峰越来越尖。
15
均数的抽样误差之特点
NTU 2012
各样本均数未必等于总体均数; 样本均数间存在差异; 样本均数的分布很有规律,围绕总体均数,中间
多两边少,左右基本对称; 样本均数的变异范围较之原变量的变异范围大大
缩小; 随着样本含量的增加,样本均数的变异范围逐渐
SAMPLE 1:x11 x12 x13 x14...x1n
X1
原始
SAMPLE 2:x21 x22 x23 x24...x2n
X2
总体
μ
k个样本均数的频数分布图
SAMPLE k:xk1 xk2 xk3 xk4...xkn
Xk
12
NTU 2012
模拟试验
随机现象的模拟系统
13
NTU 2012
Sampling distribution for means
中心极限定理(central limit theorem)
Case 2:
从非正态(nonnormal)分布总体(均数为μ,方差为σ)
中随机抽样(每个样本的含量为n ),可得无限多个样
本,每个样本计算样本均数,则只要样本含量足够
大(n >50),样本均数也近似服从正态分布。
– 样本均数的均数为 μ;

样本均数的标准差为 x
n

18
NTU 2012
标准误(standard error)
样本统计量的标准差称为标准误。 样本均数的标准差称为均数的标准误。 均数的标准误表示样本均数的变异度。
x
n
当总体标准差未知时,用样本标准差代替,
s
sx
n
前者称为理论标准误,后者称为样本标准误。
19
– 在样本含量较小时: 总体为正态分布时:正态分布 总体为非正态分布时:?
22
NTU 2012
正态分布的标准化变化
若 X ~ N(μ,σ) , 则
X ~ N(0,1。)

X~N(,X),

u X ~ N(0,1)

X
23
NTU 2012
.2
从N(0,1)中1000次抽样的 u 值的分布(n=4)
相关文档
最新文档