4 参数估计基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【例4】 一个包含4个数据(n=4)的样本 其平均值m等于5——受到m=5的条件限制
在自由确定4、2、5三个数据后, 第四个数据 只能是9, 否则m≠5。 因而这里的自由度 =n-1=4-1=3。
自由度(degree of freedom, df)
在估计总体方差时,使用的是离均差 平方和。只要n-1个数的离均差平方和确定 了,方差也就确定了; 因为均值就相当于一个限制条件,由 于加了这个限制条件,估计总体方差的自 由度为n-1。
均数抽样误差大小的估计
数理统计学证明: 对于任意分布,无论是正态还是偏态, 只要n足够大,则样本均数 X 的分布近似服 从正态分布:
X
j
均数抽样误差大小的估计
实际研究中总体标准差往往未知,用样本 标准差S来近似的估计
S SX n
标准差与标准误的联系与区别
标准差 均数标准误
含义 原始测量值的离散程度, 样本均数的离散程度,反映 反映原始数据波动大小 均数抽样误差大小 计算 ( x )2
附表2 t 界值表
自由度 单侧 双侧 1 2 3 4 5 6 7 8 9 10 21 22 23 24 25 0.25 0.50 1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.686 0.686 0.685 0.685 0.684 0.20 0.40 1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.859 0.858 0.858 0.857 0.856 0.10 0.20 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.323 1.321 1.319 1.318 1.316 0.05 0.10 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.721 1.717 1.714 1.711 1.708 概 率,P 0.025 0.01 0.05 0.02 12.706 31.821 4.303 6.965 3.182 4.541 2.776 3.747 2.571 3.365 2.447 2.365 2.306 2.262 2.228 2.080 2.074 2.069 2.064 2.060 3.143 2.998 2.896 2.821 2.764 2.518 2.508 2.500 2.492 2.485
【例3】 • 从标准正态分布总体(总体A)、均匀分布 总体(总体B)中分别进行随机抽样 • 每次抽取一个样本量为n的样本,计算其样 本均数,重复随机抽样10000次 • 10000个样本均数的均数与标准差见下表
均数的抽样误差及其规律性
不同样本含量时 10000 个模拟样本的均数及标准误 10000 个样本 均数之均数
总 体
均数之标准差 0.701518 0.495800 0.317598 0.200660 0.206427 0.145629 0.091450 0.057215
标准正态分布 μ=0.0000 σ=1.0000 均匀分布 μ=0.5000 σ=0.2887
n=2 n=4 n=10 n=25 n=2 n=4 n=10 n=25
t X X sX s/ n
~ t分布, = n 1
• t分布又称Student t分布(Student’s tdistribution) • t分布十分有用,它是小样本统计推断的理 论基础。
t分布
从前述实验的13岁女学生身高这个正态 总体中分别作样本量为 3和50的随机抽样, 各抽取1000份样本,并分别得到1000个样 本均数及其标准误。对它们分别作t变换, 并将t值绘制相应的直方图(见下图)所示。
抽样误差
• 概念: 由于抽样引起的样本统计量与总体参数 的差异 • 表现形式 :
– 样本统计量与总体参数间的差异 – 样本统计量之间的差异
抽样误差产生的原因
• 个体差异
• 抽样
抽样误差的特点
• 抽样误差是不可避免的! • 抽样误差是有规律的! 如何度量抽样误差的大小?
均数的抽样误差及其规律性
自由度(degree of freedom, df)
自由度:当以样本的统计量来估计总体的参 数时,样本中独立或能自由变化的资料的个 数。 首先,在估计总体的平均数时,由于样 本中的 n 个数都是相互独立的,从其中抽出 任何一个数都不影响其他数据,所以其自由 度为n。
自Fra Baidu bibliotek度(degree of freedom, df)
2 X
X
X )也可将其
转换为标准正态分布 N(0, 12),即 Z 分布。
3.实际工作中,由于
X
未知,用
S X 代替,
则 ( X ) / S X 不再服从标准正态分布,而服从
t 分布。
X X t , n 1 SX S n
式中为自由度(degree of freedom, df)
n=2 n=4
X
X
n=10
n=25
Sampling Distribution of sample means
X
X
Sampling Distribution of sample means
Sampling Distribution of sample means
Sampling Distribution of sample means
s
n
2
s
x
n s n
(x x)
n 1
x
大小
大
小
用途 描述测量值离散程度、计 参数可信区间的估计 算cv、计算正常值范围、 假设检验 计算标准误 联系 都是离散程度的指标,标准误是通过标准差来计算
第二节
t分布
2018/1/26
20
t分布
前面学习了:
• 二项分布 • poisson分布
双侧面积或双尾面积:用 表示。 t / 2, 双侧概率或双尾概率:用 表示。
3 . t 界值表:详见附表 2 ,可反映 t 分布曲下的面积。 t 界值表:详见附表,可反映 t 分布曲线下
t / 2, 双侧概率或双尾概率:用 表示。 表中数字即t临界值,表示当 和 P 确定时, 对应的值。
t分布
FREQUENCY 200
FREQUENCY 200
0 1 2 . 0 1 1 . 5 1 1 . 0 1 0 . 5 1 0 . 0 9 . 5 9 . 0 8 . 5 8 . 0 7 . 5 7 . 0 6 . 5 6 . 0 5 . 5 5 . 0 4 . 5 4 . 0 3 . 5 3 . 0 2 . 5 2 . 0 1 . 5 1 . 0 - 0 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 1 1 0 . . . . . . . . . . . . . . . . . . . . 0 0 . 0 5 0 5 0 5 0 5 0 5 0 5 0 5 0 5 0 5 0 5 . . 5 0 5 1 1 . 0 1 1 . 5 1 2 . 0
υ=∞(标准正态分布) f(t) υ=5 0.3 0.2 0.1 υ=1
布是 t 分布的特例。
-5 -4 -3 -2 -1
0
1
2
3
4
5
.参数 (only one): one): 22 .参数 (only
t分布的图形和t分布表
3. t 界值表:详见附表 2,可反映 t 分布曲下的面积。 的面积。 , 表示; 单侧概率或单尾概率:用 t 单侧面积或单尾面积:用 单侧概率或单尾概率:用 t , 表示; 表示;
-t
0
t
0.005 0.0025 0.001 0.0005 0.01 0.005 0.002 0.001 63.657 127.321 318.309 636.619 9.925 14.089 22.327 31.599 5.841 7.453 10.215 12.924 4.604 5.598 7.173 8.610 4.032 4.773 5.893 6.869 3.707 3.499 3.355 3.250 3.169 2.831 2.819 2.807 2.797 2.787 4.317 4.029 3.833 3.690 3.581 3.135 3.119 3.104 3.091 3.078 5.208 4.785 4.501 4.297 4.144 3.527 3.505 3.485 3.467 3.450 5.959 5.408 5.041 4.781 4.587 3.819 3.792 3.768 3.745 3.725
0 5 . 0 4 . 5 4 . 0 3 . 5 3 . 0 2 . 5 2 . 0 1 . 5 1 . 0 0 . 5 0 . 0 0 . 5 1 . 0 1 . 5 2 . 0 2 . 5 3 . 0 3 . 5 4 . 0 4 . 5 5 . 0
t50 MIDPOINT
t3 MIDPOINT
总体 样 本
概念复习
总体:同质研究对象(变量值)的全体。
样本:总体中随机抽取的一部分研究对象。
统计量:从样本计算出来的统计指标。
参数:描述总体的统计指标。
统计分析包括:
• 统计描述:
计量(集中水平、变异大小)、计数(相对数)
• 统计推断:用样本信息推断总体特征
–参数估计: 用样本的统计指标(统计量),对总体统 计指标(参数)进行估计
• 正态分布
t分布的概念
1.若某一随机变量 X 服从总体均数为 、总体标
2 X N ( , ) 准差为 的正态分布 , 则可通过 Z 变换( )
将一般正态分布转化为标准正态分布 N(0,12), 即 Z 分布;
2.若样本均数 X 服从总体均数为 、总体标准差为 X 的 正态分布 N ( , ) ,则通过同样方式的 Z 变换(
均数抽样误差的规律性
1. 从正态分布的总体中进行抽样,样本均数 的分布还是正态分布 2. 从非正态分布的总体中抽样,样本均数之 分布不再呈现原先分布之特征,且随着样 本含量n的增大,样本均数的分布逐渐接 近于正态分布,抽样分布的变异随样本含 量的增加而减少
均数抽样误差的规律性
3. 样本均数随机地出现在总体均数的两侧, 样本均数的平均水平始终接近于总体均数, 即与μ很接近 4. 随着样本含量n的增加,样本均数分布的 离散程度越来越小,表现为其分布范围越 来越窄,分布的高峰越来越高,体现为随 着样本含量n的增加,样本均数的标准差 之数值越来越小
s
2 ( x x )
n 1
自由度(degree of freedom, df)
推而广之: 任何统计量的自由度 =n-k。 • n为样本含量 • k为被限制的条件数或变量个数,或计 算某一统计量时用到其它独立统计量 的个数。
常用于抽样分布(样本统计量的概率分布)
t分布
• 英国统计学家W.S.Gosset于1908年以 “Student”笔名发表论文,提出t分布的概 念,即
总体 μ=155.4cm σ = 5.3 cm 正态分布
• 样本均数与总体均数不同! • 多次抽样研究所得的样本均数不同!
【例2】投掷一枚质地均匀的硬币 100次 第一次实验:46次“正面”, 频率=0.46 第二次实验:56次“正面”, 频率=0.56 第三次实验:51次“正面”, 频率=0.51 第四次实验:48次“正面”, 频率=0.48 • 在这四次实验,频率不等于0.5! • 两次获得的频率(统计量)也不相等!
–假设检验:又称显著性检验,是指通过样本间存在的 差别对样本所代表的总体间是否存在着差别做出判断。
第一节
抽样分布与抽样误差
2018/1/26
4
【例1】若定义“某地所有健康13岁女学生的 身高”为总体,普查得: 均数(): 155.4cm 标准差(σ): 5.3cm。 • • • • 在这样一个总体中随机抽样 每次均抽取30例组成一份样本; 共抽100次; 算出每一份样本的平均身高
0.012652 0.000362 0.002915 0.000622 0.504322 0.503483 0.501066 0.499888
A
总 体
B
均数的抽样误差及其规律性
总体A 总体B
n=2
n=4
n=10
n=25
不同分布特征的总体中样本均数的分布
X Population A Population B X Population C X Population D X
N=3时的t分布图形
N=50时的t分布图形
t分布图形
t值的分布与自由度
有关(实际是样本含 量n不同)。t 分布 的图形不是一条曲线, 而是一簇曲线。
f(t) 0.3 υ=1 0.2
υ=∞(标准正态分布)
υ=5
0.1
-5
-4
-3
-2
-1
0
1
2
3
4
5
不同自由度下的t分布图
t分布的图形与特征
1. 单峰分布,以 0 为中心,左右对称; 2. 自由度 越小,则 t 值越分散,t 分布的峰部越 矮而尾部翘得越高; 3. 当 逼近, t 分布逼近 Z 分布, 故标准正态分
在自由确定4、2、5三个数据后, 第四个数据 只能是9, 否则m≠5。 因而这里的自由度 =n-1=4-1=3。
自由度(degree of freedom, df)
在估计总体方差时,使用的是离均差 平方和。只要n-1个数的离均差平方和确定 了,方差也就确定了; 因为均值就相当于一个限制条件,由 于加了这个限制条件,估计总体方差的自 由度为n-1。
均数抽样误差大小的估计
数理统计学证明: 对于任意分布,无论是正态还是偏态, 只要n足够大,则样本均数 X 的分布近似服 从正态分布:
X
j
均数抽样误差大小的估计
实际研究中总体标准差往往未知,用样本 标准差S来近似的估计
S SX n
标准差与标准误的联系与区别
标准差 均数标准误
含义 原始测量值的离散程度, 样本均数的离散程度,反映 反映原始数据波动大小 均数抽样误差大小 计算 ( x )2
附表2 t 界值表
自由度 单侧 双侧 1 2 3 4 5 6 7 8 9 10 21 22 23 24 25 0.25 0.50 1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.686 0.686 0.685 0.685 0.684 0.20 0.40 1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.859 0.858 0.858 0.857 0.856 0.10 0.20 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.323 1.321 1.319 1.318 1.316 0.05 0.10 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.721 1.717 1.714 1.711 1.708 概 率,P 0.025 0.01 0.05 0.02 12.706 31.821 4.303 6.965 3.182 4.541 2.776 3.747 2.571 3.365 2.447 2.365 2.306 2.262 2.228 2.080 2.074 2.069 2.064 2.060 3.143 2.998 2.896 2.821 2.764 2.518 2.508 2.500 2.492 2.485
【例3】 • 从标准正态分布总体(总体A)、均匀分布 总体(总体B)中分别进行随机抽样 • 每次抽取一个样本量为n的样本,计算其样 本均数,重复随机抽样10000次 • 10000个样本均数的均数与标准差见下表
均数的抽样误差及其规律性
不同样本含量时 10000 个模拟样本的均数及标准误 10000 个样本 均数之均数
总 体
均数之标准差 0.701518 0.495800 0.317598 0.200660 0.206427 0.145629 0.091450 0.057215
标准正态分布 μ=0.0000 σ=1.0000 均匀分布 μ=0.5000 σ=0.2887
n=2 n=4 n=10 n=25 n=2 n=4 n=10 n=25
t X X sX s/ n
~ t分布, = n 1
• t分布又称Student t分布(Student’s tdistribution) • t分布十分有用,它是小样本统计推断的理 论基础。
t分布
从前述实验的13岁女学生身高这个正态 总体中分别作样本量为 3和50的随机抽样, 各抽取1000份样本,并分别得到1000个样 本均数及其标准误。对它们分别作t变换, 并将t值绘制相应的直方图(见下图)所示。
抽样误差
• 概念: 由于抽样引起的样本统计量与总体参数 的差异 • 表现形式 :
– 样本统计量与总体参数间的差异 – 样本统计量之间的差异
抽样误差产生的原因
• 个体差异
• 抽样
抽样误差的特点
• 抽样误差是不可避免的! • 抽样误差是有规律的! 如何度量抽样误差的大小?
均数的抽样误差及其规律性
自由度(degree of freedom, df)
自由度:当以样本的统计量来估计总体的参 数时,样本中独立或能自由变化的资料的个 数。 首先,在估计总体的平均数时,由于样 本中的 n 个数都是相互独立的,从其中抽出 任何一个数都不影响其他数据,所以其自由 度为n。
自Fra Baidu bibliotek度(degree of freedom, df)
2 X
X
X )也可将其
转换为标准正态分布 N(0, 12),即 Z 分布。
3.实际工作中,由于
X
未知,用
S X 代替,
则 ( X ) / S X 不再服从标准正态分布,而服从
t 分布。
X X t , n 1 SX S n
式中为自由度(degree of freedom, df)
n=2 n=4
X
X
n=10
n=25
Sampling Distribution of sample means
X
X
Sampling Distribution of sample means
Sampling Distribution of sample means
Sampling Distribution of sample means
s
n
2
s
x
n s n
(x x)
n 1
x
大小
大
小
用途 描述测量值离散程度、计 参数可信区间的估计 算cv、计算正常值范围、 假设检验 计算标准误 联系 都是离散程度的指标,标准误是通过标准差来计算
第二节
t分布
2018/1/26
20
t分布
前面学习了:
• 二项分布 • poisson分布
双侧面积或双尾面积:用 表示。 t / 2, 双侧概率或双尾概率:用 表示。
3 . t 界值表:详见附表 2 ,可反映 t 分布曲下的面积。 t 界值表:详见附表,可反映 t 分布曲线下
t / 2, 双侧概率或双尾概率:用 表示。 表中数字即t临界值,表示当 和 P 确定时, 对应的值。
t分布
FREQUENCY 200
FREQUENCY 200
0 1 2 . 0 1 1 . 5 1 1 . 0 1 0 . 5 1 0 . 0 9 . 5 9 . 0 8 . 5 8 . 0 7 . 5 7 . 0 6 . 5 6 . 0 5 . 5 5 . 0 4 . 5 4 . 0 3 . 5 3 . 0 2 . 5 2 . 0 1 . 5 1 . 0 - 0 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 1 1 0 . . . . . . . . . . . . . . . . . . . . 0 0 . 0 5 0 5 0 5 0 5 0 5 0 5 0 5 0 5 0 5 0 5 . . 5 0 5 1 1 . 0 1 1 . 5 1 2 . 0
υ=∞(标准正态分布) f(t) υ=5 0.3 0.2 0.1 υ=1
布是 t 分布的特例。
-5 -4 -3 -2 -1
0
1
2
3
4
5
.参数 (only one): one): 22 .参数 (only
t分布的图形和t分布表
3. t 界值表:详见附表 2,可反映 t 分布曲下的面积。 的面积。 , 表示; 单侧概率或单尾概率:用 t 单侧面积或单尾面积:用 单侧概率或单尾概率:用 t , 表示; 表示;
-t
0
t
0.005 0.0025 0.001 0.0005 0.01 0.005 0.002 0.001 63.657 127.321 318.309 636.619 9.925 14.089 22.327 31.599 5.841 7.453 10.215 12.924 4.604 5.598 7.173 8.610 4.032 4.773 5.893 6.869 3.707 3.499 3.355 3.250 3.169 2.831 2.819 2.807 2.797 2.787 4.317 4.029 3.833 3.690 3.581 3.135 3.119 3.104 3.091 3.078 5.208 4.785 4.501 4.297 4.144 3.527 3.505 3.485 3.467 3.450 5.959 5.408 5.041 4.781 4.587 3.819 3.792 3.768 3.745 3.725
0 5 . 0 4 . 5 4 . 0 3 . 5 3 . 0 2 . 5 2 . 0 1 . 5 1 . 0 0 . 5 0 . 0 0 . 5 1 . 0 1 . 5 2 . 0 2 . 5 3 . 0 3 . 5 4 . 0 4 . 5 5 . 0
t50 MIDPOINT
t3 MIDPOINT
总体 样 本
概念复习
总体:同质研究对象(变量值)的全体。
样本:总体中随机抽取的一部分研究对象。
统计量:从样本计算出来的统计指标。
参数:描述总体的统计指标。
统计分析包括:
• 统计描述:
计量(集中水平、变异大小)、计数(相对数)
• 统计推断:用样本信息推断总体特征
–参数估计: 用样本的统计指标(统计量),对总体统 计指标(参数)进行估计
• 正态分布
t分布的概念
1.若某一随机变量 X 服从总体均数为 、总体标
2 X N ( , ) 准差为 的正态分布 , 则可通过 Z 变换( )
将一般正态分布转化为标准正态分布 N(0,12), 即 Z 分布;
2.若样本均数 X 服从总体均数为 、总体标准差为 X 的 正态分布 N ( , ) ,则通过同样方式的 Z 变换(
均数抽样误差的规律性
1. 从正态分布的总体中进行抽样,样本均数 的分布还是正态分布 2. 从非正态分布的总体中抽样,样本均数之 分布不再呈现原先分布之特征,且随着样 本含量n的增大,样本均数的分布逐渐接 近于正态分布,抽样分布的变异随样本含 量的增加而减少
均数抽样误差的规律性
3. 样本均数随机地出现在总体均数的两侧, 样本均数的平均水平始终接近于总体均数, 即与μ很接近 4. 随着样本含量n的增加,样本均数分布的 离散程度越来越小,表现为其分布范围越 来越窄,分布的高峰越来越高,体现为随 着样本含量n的增加,样本均数的标准差 之数值越来越小
s
2 ( x x )
n 1
自由度(degree of freedom, df)
推而广之: 任何统计量的自由度 =n-k。 • n为样本含量 • k为被限制的条件数或变量个数,或计 算某一统计量时用到其它独立统计量 的个数。
常用于抽样分布(样本统计量的概率分布)
t分布
• 英国统计学家W.S.Gosset于1908年以 “Student”笔名发表论文,提出t分布的概 念,即
总体 μ=155.4cm σ = 5.3 cm 正态分布
• 样本均数与总体均数不同! • 多次抽样研究所得的样本均数不同!
【例2】投掷一枚质地均匀的硬币 100次 第一次实验:46次“正面”, 频率=0.46 第二次实验:56次“正面”, 频率=0.56 第三次实验:51次“正面”, 频率=0.51 第四次实验:48次“正面”, 频率=0.48 • 在这四次实验,频率不等于0.5! • 两次获得的频率(统计量)也不相等!
–假设检验:又称显著性检验,是指通过样本间存在的 差别对样本所代表的总体间是否存在着差别做出判断。
第一节
抽样分布与抽样误差
2018/1/26
4
【例1】若定义“某地所有健康13岁女学生的 身高”为总体,普查得: 均数(): 155.4cm 标准差(σ): 5.3cm。 • • • • 在这样一个总体中随机抽样 每次均抽取30例组成一份样本; 共抽100次; 算出每一份样本的平均身高
0.012652 0.000362 0.002915 0.000622 0.504322 0.503483 0.501066 0.499888
A
总 体
B
均数的抽样误差及其规律性
总体A 总体B
n=2
n=4
n=10
n=25
不同分布特征的总体中样本均数的分布
X Population A Population B X Population C X Population D X
N=3时的t分布图形
N=50时的t分布图形
t分布图形
t值的分布与自由度
有关(实际是样本含 量n不同)。t 分布 的图形不是一条曲线, 而是一簇曲线。
f(t) 0.3 υ=1 0.2
υ=∞(标准正态分布)
υ=5
0.1
-5
-4
-3
-2
-1
0
1
2
3
4
5
不同自由度下的t分布图
t分布的图形与特征
1. 单峰分布,以 0 为中心,左右对称; 2. 自由度 越小,则 t 值越分散,t 分布的峰部越 矮而尾部翘得越高; 3. 当 逼近, t 分布逼近 Z 分布, 故标准正态分