第4讲抽样误差与t分布
第四节抽样分布
(四)t分布表的使用
▪ 左列表示自由度。 ▪ 最上一行表示不同自由度下t分布两端的概率之和,
即在某t值时, t分布两端的概率之和,又称显著 性水平。 ▪ 中间数字:某一自由度和某一显著性水平t的临界 值。
志存高远,顽强拼搏
不管是正态分布,还是 在t分布,都存在标准误问题. 标准误的含义:某种统计量在抽样分布上的标准差,符号
自由度的变化而变化。 ▪ 联系:当自由度趋于无穷大时, t分布接近标准正态分布。
志存高远,顽强拼搏
(三)自由度
▪ 指总体参数估计量中变量值自由变化的个数,用符号df表 示。
▪ 任何变量中可以自由变化的数目 。 ▪ 自由度(degree of freedom, df)在数学中能够自由取值的变
量个数,如有3个变量x、y、z,但x+y+z=18,因此其自由 度等于2。在统计学中,自由度指的是计算某一统计量时, 取值不受限制的变量个数。通常df=n-k。其中n为样本含量, k为被限制的条件数或变量个数,或计算某一统计量时用 到其它独立统计量的个数。自由度通常用于抽样分布中。
在以笔名"Student"发表的一篇论文中推导的一种分布。
志存高远,Hale Waihona Puke 强拼搏(二) t分布的特征
▪ 1. t分布的平均值为0。 ▪ 2. t分布是以过平均值0的垂线为轴的对称分布,分布左侧t
为负值,分布右侧t为正值。 ▪ 3. t变量取值在--∞—+∞之间。 ▪ 4. 当样本容量趋于+∞时,t分布为正态分布。 ▪ 5.t分布的形态随自由度的变化而变化,呈一簇分布形态
▪ (三)无限多个n个随机变量平方和或标准分数 的平方和的分布,称为χ2分布。χ2分布是正偏态分 布;卡方值都是正值;卡方分布的和也是卡方分 布;χ2分布是连续型分布。
标准误、t 分布
教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验--- 3)、两样本均数的比较: A)、两小样本比较: 检验步骤: 1、建立假设,确定检验水准α 及单双侧 H0:无效假设:(两总体相同)该地急性克山病患者和健康人 的血磷值是否相同, μ 1= μ 2 H1:备择假设:(两总体不同) μ 1 ≠ μ 2 α =0.05 (双侧) 2、选择和计算统计量值: SX1-X2 = t = ( X1-X2 )/SX1-X2 [SC2(1/n1+1/n2)]1/2 = (1.521-1.085)/0.1729 =2.522 3、确定P值:按 v = v1+v2 = n1+n2-2 = 11+13-2 = 22 查t界值 表,得: P < 0.02 4、判断结果: P < 0.05 (α ), 故H1成立, 即该地急性克山病患者和健康人 的血磷值不同。
教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验: 3)、两样本均数的比较: A)、两小样本比较: t = (X1-X2)/SX1-X2 B)、两大样本比较: t = (X1-X2)/SX1-X2
v=n1+n2-2 v=n1+n2-2
SX1-X2 = ( S12/n1+S22/n2 )1/2 例: 抽查了25--29岁正常人群的RBC数(mmol/L) 其中男性156人,得均数为4.561,标准差为0.548 ;女性74人,得均数为4.222,标准差为0.442。问 该人群男、女的RBC数有无不同? 已知样本1 已知样本2 问题: 两样本所属总体 均数是否相同?(μ 1= μ 是否成立 ?)
教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验--- 1)、样本均数与总体均数比较:
4 第四章 均数的抽样误差与t分布
统计推断包括两个方面: 统计推断包括两个方面: 参数估计( 1、参数估计(总体均数的可信区 间估计) 间估计) 假设检验(均数的假设检验) 2、假设检验(均数的假设检验) 两样本均数必较( 检验、 ⑴、两样本均数必较(u检验、 检验) t检验) 多样本均数必较( 检验) ⑵、多样本均数必较(F检验)
t分布
(t - distribution) distribution)
从正态总体中随机抽取含量为n 从正态总体中随机抽取含量为n的若 干样本,由样本算得样本均数x 干样本,由样本算得样本均数x,x服从 正态分布, 则称为正态变量。若已知µ 正态分布,x则称为正态变量。若已知µ, 但未知σ 为了应用方便,可用s代替σ 但未知σ,为了应用方便,可用s代替σ, 求得σ 的估计值S 正态变量x 求得σx的估计值Sx,正态变量x可作变量 变换:t=(x变量变成t变量。 变换:t=(x-µ)/Sx, x变量变成t变量。每 个样本x可算得一个t变量, 个样本x可算得一个t变量,所有可能含量 的样本的t值构成t变量总体, 分布。 为n的样本的t值构成t变量总体,即t分布。
可信区间的两个要素
1.准确度 反映在可信度1 1.准确度:反映在可信度1–α的大 准确度: 小上,即区间包含总体均数的概率大小。 小上,即区间包含总体均数的概率大小。 概率越大越准确。 概率越大越准确。 2.精度 反映在可信区间的长度上。 2.精度:反映在可信区间的长度上。 精度: 长度越小越精密。 长度越小越精密。 在 n 确定的情况下,二者是矛盾的。 确定的情况下,二者是矛盾的。 (α ↓, tα.ν ↑) 如提高可信度 ,则区间变 在可信度确定的情况下, 长。在可信度确定的情况下,增加样本 减小区间长度, 例数 (SX ↓, tα,减小区间长度,提高 ↓) .ν 精度。 精度。
教育与心理统计学 第四章 抽样理论与参数估计考研笔记-精品
第四章抽样理论与参数估计第一节抽样理论的基本知识分层抽样,又叫分层随机抽样,这种抽样方法是按照总体已有的某些特征,承认总体中已有的差异,按差异将总体分为几个不同的部分,每一部分称为一个层,在每一个层中实行简单随机抽样。
它充分利用了总体的已知信息,因而是一种非常适用的抽样方法,其样本代表性及推论的精确性一般优于简单随机抽样。
分层的原则是层与层之间的变异越大越好,各层内的变异要小。
试述分层抽样的原则和方法?分层抽样是按照总体上已有的某些特征,将总体分成几个不同部分,在分别在每一部分中随机抽样。
分层的总的原则是:各层内的变异要小,而层与层之间的变异越大越好。
在具体操作中,没有一成不变的标准,研究人员可根据研究需要依照多个分层标准,视具体情况而定。
⑷两阶段随机抽样两阶段随机抽样首先将总体分成M个部分,每一部分叫做一个"集团"(或"群"),第一步从M个集团中随机抽取m个"集团”作为第一阶段样本,第二步是分别从所选取的m个"集团”中抽取个体(g构成第二阶段样本。
一般而言,两阶段抽样相对于简单随机抽样,标准误要大些,但是,两阶段抽样简便易行,节省经草贼,因而它是大规模调查研究中常被使用的抽样方法。
例如,如果我们要了解全国城市初中二年级学生的身高,第一步我们可以从全国几百个城市中随机抽取几十个城市作为第一阶段的样本。
第二步,在第一阶段随机抽取出来的城市中再随机抽取初中二年级的学生。
(二)非旃抽样非概率抽样不是完全按随机原则选取样本,有方便抽样、判断抽样。
方便抽样是由调查人员自由、方便地选择被调查者的非随机选样。
判断抽样是通过某些条件过滤,然后选择某些被调查者参与调查的抽样法。
当采取非概率抽样的方法选取样本时,研究者要说明采用此种方取样的原因以及对研究结果可能造成的影响。
第二节抽样分布[统计量分布、基本随机变量函数的分布]总体:又称母全体、全域,指具有某种特征的一类事物的全体。
第04章.抽样误差
100次抽样,可以求得100个t值,100个t
值编成频数表,可以绘制成频数分布图。
由于sx受 n的影响, 严格讲,受(n-1)的影响,
(n-1) 称为自由度。
= n-1 如下图。
◆
t分布的图形
2. 分布的特征(与正态分布比较)
① 单峰分布,以t=0为中点,两侧对称(高峰
位置)
②样本(自由度)越小,t分布曲线峰值越低,t
的概率。
精确度:由区间的宽度反映,越窄越好。
在n确定的时,二者无法兼顾,一般95%CI更
为常用,可信度确定的情况下,增加n可减小区 间宽度,即提高精确度。
思考!
均数置信区间与参考值范围的区别
意义:95%的参考值范围指同质的总体内包括
95%的个体值范围,对于正态分பைடு நூலகம்总体,按
X±1.96S计算。
95%的CI指按95%的可信度估计总体均数
x1 x2 x3 x4 x100
映个体变异的标准差相区别)
标准误用 表示,它是说明均数抽样误差的大小
x
◆
3.抽样误差的分布
理论上可以证明:若从正态总体 N( , 2 ) 中,反 复多次随机抽取样本含量固定为n 的样本,那么 这些样本均数 X 也服从正态分布,即 X 的总体均 数仍为,样本均数的标准差为 / n 。
2.均数的抽样误差与标准误的概念
从N(,2)的总体中做随机抽样,每次抽样样本含 量为n,样本均数为x,标准差为s。如下: 1 n x1 s1 s t1 可知:每一个样本均数与 2 n x2 s2 s t2 不一定相等,它们之差别是 3 n x3 s3 s t3 由抽样所造成的;另外,这 4 n x4 s4 s t4 100个样本均数大小也不尽 相同,它们之间的变异程度 … … … … … … 可以用样本均数的标准差来 100 n x100 s100 s t100 表示,即标准误(为了与反
04抽样误差及可信区间
818 East Tianyuan Rd. Nanjing, PR China, 211166 |
13
样本均数是总体均数的无偏估计;
样本均数的标准差是抽样误差的度量;
X
X
k i 1
i
2
k
X
n
818 East Tianyuan Rd. Nanjing, PR China, 211166 |
反映了样本统计量(样本均数,样本率)分布的 离散程度,体现了抽样误差的大小。 标准误越大,说明样本统计量(样本均数,样本 率)的离散程度越大,即用样本统计量来直接估 计总体参数越不可靠。反之亦然。 标准误的大小与标准差有关,在例数n一定时,从 标准差大的总体中抽样,标准误较大;而当总体 一定时,样本例数越多,标准误越小。说明我们 可以通过增加样本含量来减少抽样误差的大小。
t 分布的性质
t分布为一簇单峰分布曲线,高峰在0的位置上,说明从正 态总体中随机抽样所得样本计算出的t值接近0的可能性较 大。 t分布以0为中心,左右对称。 分布的高峰位置比 u 分布低,尾部高。 t分布与自由度有关,自由度越小,t分布的峰越低,而两 侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标 准正态分布;当自由度为无穷大时,t分布就是标准正态 分布。 每一自由度下的t分布曲线都有其自身分布规律。t界值表 。
Medical Statistics
医学统计学 第四讲
抽样误差及可信区间 Sampling Error & Confidence Interval
南京医科大学公共卫生学院 赵杨 zhaoyang@
818 East Tianyuan Rd. Nanjing, PR China, 211166 |
第四章抽样误差与假设检验
分布的界值
t分布的界值
t分布界值示意图,表示阴影的面积
习题
一、名词解释
1.抽样误差 2.均数标准误 3.置信区间
习题
3.σ未知且n较小时,按t分布计算总 体均数的可信区间
双侧 1 可信区间为:
X t 2, SX
思考
总体均数可信区间与 参考值范围的区别和联系?
第三节 t 分布
X ~ N,(标,准正2 )态分布与U统计量
U X ~ N (0,1) n
实际研究中未知,用样本的标准差S作为
的一个近似值(估计值)代替,得到变换后的 统计量并记为
4.30
154.1-
94
9.40
13.70
154.7-
191
19.10
32.80
155.3-
255
25.50
58.30
155.9-
216
21.60
79.90
156.5-
116
11.60
91.50
157.1-
63
6.30
97.80
157.7-
20
2.00
99.80
158.3-158.9
2
0.20
100.00
注意区别:
SX
SX n
S 和S X
和 X
第二节 总体均数的估计
参数的估计
点估计:将样本统计量作为 总体参数的估计
区间估计:按预先给定的概率确定 一个包含未知总体参数的范围,称 为参数的可信区间或置信区间 (confidence interval,CI)
第四章spss均数的抽样误差
x ± t 0.01(ν ) S x
�
实际中以S x 估计σ x,简记为: x ± 1.96 S x
:指这个范围内包括总体均数μ的可能性有95%. 指这个范围内包括总体均数μ的可能性有95%. 用各样本计算得到的可信区间并不是固定不变. 若仅知样本均数及标准误的估计值,且样本较小 时,用标准误的估计值来代替标准误,误差较大, 需要改用t 需要改用t值来推算可信区间.
均数标准误的计算:
σx = σ
n 实际应用中,总体标准差未知,常用样本标准差来估计均数抽样误差的估计值为: SX = S n
为了说误的数值(常为标准误的估计值),表示为:
x ± Sx
第2节 总体均数的可信区间 与t分布
一,大样本资料均数的可信区间 从均数为μ 标准差为σ 从均数为μ,标准差为σ的正态总体中,随机抽取 许多个样本量为n 许多个样本量为n的样本,则这样本均数近似地以 总体均数为中心呈正态分布.故95%的样本均数在 总体均数为中心呈正态分布.故95%的样本均数在 的范围内.
第四章 均数的抽样误差 与t分布
第1节 均数的抽样误差
一,抽样与抽样误差 抽样:从总体中随机抽取样本进行研究来 推论总体. 抽样误差sampling error: 抽样误差sampling error:由个体变异产生的,
抽样造成的样本统计量与总体参数间差异,称~. 抽样研究中不可避免,但可估计其大小.而系统 误差可以避免.
degree of freedom: ν=n-1 (读:nu) =n- (读:nu)
t分布曲线不是一条曲线而是一簇曲线 t 分布曲线与横轴间的面积有规律: 两侧外部面积为5%及1%的界限的t值常用t 两侧外部面积为5%及1%的界限的t值常用t0.05(ν), t0.01(ν)表示 自由度趋于∞时,t分布趋向于均数为0 自由度趋于∞时,t分布趋向于均数为0,标准差为 1的标准正态分布.一般情况下t分布曲线较正态 的标准正态分布.一般情况下t 分布低平,因而t 分布低平,因而t0.05(ν)≥1.96, t0.01(ν)≥2.58 1.96, t值与P值呈反向关系:t越大,则P越小;反之亦 值与P值呈反向关系:t越大,则P 然.|t|≥ 然.|t|≥ t0.05(ν),P≤0.05
均数的抽样误差与t检验
(一)点估计:以样本统计量估计对应的总体参数。
(二)区间估计
按一定的概率1- 确定的包含总体参数的一个范围,这 个范围称作可信度为1- 的可信区间(confidence interval, CI )
2
(n1 1) s1 (n 2 1) s 2 n1 n 2 2
(三)两小样本均数的t检验
例10-12 为研究某种蛋白与系统性红斑狼疮的关系,测试了 某医院中15名狼疮患者和12名正常人血清中该蛋白 的含量(g/dl),结果见下表。问患者和正常人的蛋 白含量是否有差异?
为识别原因,我们对其做假设检验。
一是检验假设(hypothesis to be tested),亦称原 假设或无效假设(null hypothesis),记为H0 ;
二是与H0相对立的备择假设(alternative hypothesis),记为H1 。
两者是互斥的,非此即彼。 H1:≠ 0。H0: = 0,
一、抽样误差与标准误 • 抽样误差的特点 1.不可避免
2.有一定的规律
产生抽样误差的根本原因:
个体差异
一、抽样误差与标准误 • 标准误(standard error):衡量抽样误差 的大小,即样本均数的标准差。 标准差(standard deviation): 指总体中 每一个变量与均值的差的平方和(又称为 离均差平方和)的均数的平方根。记为σ 公式:
假设检验时应该注意的问题一可比性二选用合适的t检验方法三结论不能绝对化四结合专业知识五报告结论应有样本统计量单侧检验和双侧检验一样本均数与总体均数比较的t检验二配对设计计量资料的t检验三两小样本均数的t检验四两大样本资料均数的z检验五i型错误和型错误六假设检验时应该注意的问题一样本均数与总体均数比较的t检验样本均数与已知总体均数比较的目的是推断该样本是否来自某已知总体
5、t分布及应用
Pα
,按检验水准 拒绝H0。
P 值越小,越有理由拒绝H0,认为总体之间有差
别的统计学证据越充分。
t / 2 近似计算。
( X u / 2 S X , X u / 2 S X )
95%CI ( X - 1.96S X , X + 1.96S X )
99%CI ( X - 2.58S X , X + 2.58S X )
例4.2
某医生测得25名动脉粥样硬化患者血浆纤
维蛋白原含量的均数为 3.32 g/L ,标准差为 0.57
例4.3 试计算例4.1中该地成年男子红细胞总体均 数的95%可信区间。
X 4.77,S 0.38,n 140
12 下限: X-u / 2 .S X 4.77 1.96 0.38 / 140 4.71(10 / L)
上限: X u . S 4.77 1.96 0.38 / 140 4.83(1012 / L) /2 X
总体假定某年某地所有13岁女学生身高服从n155453在该总体中作100次随机抽样n3015361531抽样得到的100个样本均数的频数分布组段cm频数频率1526101532401538401544222201550252501556212101562171701568301574201580158610合计1001000二抽样误差的分布理论上可以证明
g/L ,试计算该种病人血浆纤维蛋白原含量总体均
数的95%可信区间。
下限: 上限:
统计学第四章的教材
几个直观的结论
1. 样本均值的均值(数学期望)等于总体均值(式中:M为样本 n 数目); xi 22 23 28 i 1 25 X M 16 2. 抽样误差是随样本不同而不同的随机变量。抽样误差均值 等于0; xX 0
3. 样本均值的方差等于总体方差的1/n。
3
(二)抽样估计的一般步骤 1、设计抽样方案 2、 随机抽取样本(从总体随机抽取部分单位构成样本) 3、搜集样本资料(对样本单位进行调查登记) 4、整理样本资料(审查、分组汇总、计算样本指标的
数值,即计算估计量的具体数值)
5、估计总体指标(即估计总体参数)
总体参数与样本估计量的关系——对于特定的目 的,总体是惟一的,所以参数也是惟一的;而由 于样本是随机的,所以样本估计量是随机变量。
(3)抽样方法。相同条件下,重复抽样的抽样平均误 差大比不重复抽样的抽样平均误差大。
(4)抽样组织方式。由于不同抽样组织方式有不同的 抽样误差,所以,在误差要求相同的情况下,不同抽 样组织方式所必需的抽样数目也不同。
21
不知道总体方差时如何计算
用样本方差代替计算 用过去(总体或样本)方差代替计算 用同类现象(当前 或过去、总体或样本) 方 代替计算 有若干个方差可选择时,选方差最大者 (注意:对比率,即选择最接近0.5的值所 得的方差最大)
进无偏估计量。
29
二、区间估计
(一)区间估计的原理 区间估计就是根据样本估计量以一定 可靠程度推断总体参数所在的区间范围。 特点:考虑了估计量的分布,所以它能 给出估计精度,也能说明估计结果的把握 程度(置信度)。
30
(一)总体均值的置信区间
(1)假定条件
总体服从正态分布,且总体方差(2)已知
统计推断抽样误差大小评估及控制方法
统计推断抽样误差大小评估及控制方法一、引言统计推断是基于样本数据对总体进行推断的一种方法。
在进行统计推断时,我们常常需要评估抽样误差的大小,以确定推断的准确性和可靠性。
本文将介绍统计推断中抽样误差的概念、评估方法以及控制方法。
二、抽样误差的概念抽样误差是指样本统计量与总体参数之间的差异。
由于我们无法对整个总体进行调查,只能通过抽样得到样本数据,因此样本统计量与总体参数之间必然存在差异。
这种差异即为抽样误差,是统计推断中不可避免的一种误差。
三、抽样误差的评估方法评估抽样误差的大小对于统计推断的结果具有重要意义。
下面介绍几种常见的评估方法:1. 标准误差(Standard Error):标准误差是评估样本统计量与总体参数之间差异的一种方法。
它表示样本统计量的变异程度,标准误差越小,则样本统计量与总体参数越接近。
2. 置信区间(Confidence Interval):置信区间是估计总体参数的一种方法,它能够提供总体参数的一个范围。
置信区间的宽度反映了抽样误差的大小,置信区间越窄,则抽样误差越小。
3. 抽样分布(Sampling Distribution):抽样分布是样本统计量的分布情况。
通过研究抽样分布的形态和性质,可以评估抽样误差的大小。
常用的抽样分布包括正态分布、t分布等。
四、控制抽样误差的方法为了控制抽样误差,提高统计推断的准确性和可靠性,可以采取以下方法:1. 增加样本容量:样本容量是评估抽样误差的重要因素。
当样本容量增大时,抽样误差会减小,从而提高推断的准确性。
因此,在设计样本调查时,应该尽量增加样本容量。
2. 优化抽样方法:合理选择抽样方法可以减小抽样误差。
常见的抽样方法包括简单随机抽样、分层抽样、整群抽样等,根据具体情况选择最适合的抽样方法。
3. 控制实验条件:在实验和调查中,控制好实验条件可以减小误差的来源,从而控制抽样误差。
例如,在实验设计上做好随机分组、随机化处理等措施,可以减小实验结果的误差。
抽样误差与抽样分布
1 10
(72.8
71.6
73.9) 71.92
10
sx
(xi x )2
i 1
(72.8 71.92)2
(73.9 71.92)2 1.20 6.3 1.26
10 1
10 1
25
7
抽样误差
结果:
各样本均数不一定等于总体均数 样本均数间存在差异 样本均数的分布规律:围绕总体均数上下波动 样本均数的变异:由样本均数的标准差描述,样
7 74 67 71 77 70 61 66 70 73 69.9 4.8 61 77 -2.60
8 62 73 80 64 84 66 74 69 76 72.0 7.4 62 84 -0.50
9 73 68 62 73 73 69 76 71 68 70.3 4.1 62 76 -2.20
10 79 82 75 64 77 74 73 67 67 73.1 6.0 64 82 0.60 3
样本均数的总体标准差
x
资料的总体标准差
n
若 X ~ N(, 2) ,则其中任意一个随机样本Xn
的均数 X ~ N (, x 2 )
15
正态总体样本均数的分布
样本均数的标准差 X ,称为样本均数的标 准误(standard error of mean ,SE),简称均 数标准误 X
19
样本含量n=4
x 的平均数 = 1.0111 x 的标准差 = 0.7084
2 0.7071 4
x 的中位数 =0.8531
20
样本含量n=9
x 的平均数 =1.0078 x 的标准差 =0.4771
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t X X , v n1
S n SX
t变换
标准正态分布
N(0,12)
标准正态分布
N(0,12) Student t分布 自由度ν=n-1
t X X , v n 1
ቤተ መጻሕፍቲ ባይዱ
Sn
SX
由W.S. Gosset提出
t= x- s/ n
对于不同的n,有不同的t分布曲线。 X
• 图中非阴影部分面积的概率为,
P(-t/2,<t<t/2,)=1-
第三章 抽样误差与t分布
总体
抽取部分观察单位
样本
参数
统计推断
统计量
如:总体均数
总体标准差
如:样本均数 X 样本标准差S
在医疗卫生实践和医学研究中,往往难以对所要 研究的总体进行全部观察,通常从总体中随机抽 取样本进行观察,然后由样本的信息去推断总体 特征,这种研究方法叫做抽样研究方法。
用样本的信息去推断总体特征,这种分析方法称 为统计推断。
抽样误差产生的条件
• 抽样研究 • 个体变异
抽样误差的表现
样本均数和 总体均数间 的差别 Xi
样本均数和 样本均数间 的差别 Xi X j
抽样误差是不可避免的,可以通过保证总体 的同质性及增大样本含量来缩小抽样误差。
抽样误差的规律 性—正态分布抽样
从正态分布总体N(5.00,0.502)中,每 次随机抽取样本含量n=5,并计算其均数与
x 标准误 x = / n sx = s / n
n 100, 4.38cm
x
n
4.38 100
0.438cm
标准误的意义
反映了样本统计量(样本均数,样本率)分布的 离散程度,体现了抽样误差的大小。
标准误越大,说明样本统计量(样本均数,样本率) 的离散程度越大,即用样本统计量来直接估计总体 参数越不可靠。反之亦然。
X 118.21cm s=4.45cm
X 120.81cm s=4.33cm
X 120.18cm s=4.90cm
三次抽样得到了不同的结果!!!! 原因何在????
No Variation! No Sampling Error!
如果没有个体变异……
如果没有抽样研究…… No Random sampling!
t分布曲线下面积规律
• t分布曲线下总面积仍为1或100% • t分布曲线下面积以0为中心左右对称 • 由于t分布是一簇曲线,故t分布曲线下面积固定
面积(如95%或99%)的界值不是一个常量,而是 随自由度的大小而变化
• 其通式为
单侧:P(t≤-t,)=或P(t≥t,)= 双侧:P(t≤-t/2,)+P(t≥t/2,)=
标准误的大小与标准差有关,在例数n一定时,从 标准差大的总体中抽样,标准误较大;而当总体一 定时,样本例数越多,标准误越小。说明我们可以 通过增加样本含量来减少抽样误差的大小。
用途:
(1)衡量样本均值的可靠性 (2)估计总体均值的可信区间 (3)用于均数的假设检验
随机变量X N(,2)
均数
u变换
自由度分别为1、5、 ∞时的 t 分布
f(t) =∞(标准正态曲线)
=5
0.3
=1
0.2
0.1
-4 -3 -2 -1 0 1 2 3 4
t分布的特征:
①t分布为一簇单峰分布曲线。
②t分布以0为中心,左右对称。
③t分布与自由度ν有关,自由度越小,t分布的 峰越低,而两尾越高;自由度逐渐增大时,t分 布逐渐逼近标准正态分布;当自由度为无穷大 时,t分布就是标准正态分布。
n=5 5.00 0.50 4.99
n=10 5.00 0.50 5.00
n=30 5.00 0.50 5.00
均数标准差
0.2212 0.1580 0.0920
0.2236 0.1581 0.0913
3个抽样实验结果图示
n 5; SX 0.2212
n 10; SX 0.1580
n 30; SX 0.0920
从均数为 ,标准差为的正态总体中随机
抽取例数为n的样本,样本均数的总体均数
为 ,标准差为x
中心极限定理
标准误的定义
样本统计量(如均数)也服从一定的分布。
与描述观测值离散趋势的指标类似,样本统 计量的标准差就反映了从某个总体中随机抽 样所得样本之均数分布的离散程度。
用样本统计量的标准差来反映抽样误差的大 小。又称标准误(standard error)。
非正态分布抽样
• 分别从各总体中抽取10000个样本含量为 n的样本,计算每个样本的均数,并绘制 频数分布图。
• n分别取2、4、10、25。
偏三角分布抽样
均匀分布
指数分布
双峰分布
• 从正态总体中随机抽样,其样本均数服从正 态分布;
• 从任意总体中随机抽样,当样本含量足够大 时,其样本均数的分布逐渐逼近正态分布;
• 样本均数之均数的位置始终在总体均数的附 近;
• 随着样本含量的增加,样本均数的离散程度 越来越小,表现为样本均数的分布范围越来 越窄,其高峰越来越尖。
从正态总体中随机抽取例数为n的样本,样 本均数x也服从正态分布,即使从偏态总体 中抽样,只要样本例数足够大,如n>50, 样本均数x也近似正态分布。
基本手段
直接推断(参数估计) 间接推断(假设检验)
总体参数的估计
• 均数的抽样误差 • t分布 • 总体均数的估计
• 假如事先知道某地七岁男童的平均身高为119.41cm。为了 估计七岁男童的平均身高(总体均数),研究者从所有符 合要求的七岁男童中每次抽取100人,共计抽取了三次。
μ=119.41cm σ= 4.38cm
标准差;重复抽取1000次,获得1000份样本 ;计算1000份样本的均数与标准差,并对 1000份样本的均数作直方图。
按上述方法再做样本含量n=10、样本含 量n=30的抽样实验;比较计算结果。
抽样试验(n=5)
抽样试验(n=10)
抽样试验(n=30)
1000份样本抽样计算结果
总体的 总体标 均数的 均数 准差 均数
No Sampling Error!
• 三次抽样得到了不同的结果,原因何在?
不同男童的 身高不同
每次抽到的 人几乎不同
个体变异
随机抽样
抽样误差
【定义】由于个体变异的存在,在抽 样研究中产生样本统计量和总体参数 之间的差异,称为抽样误差 (sampling error)。
各种参数估计都有抽样误差,这里我们以 均数为研究对象