参数估计假设检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

α /2
0.05 0.025 0.005

/2
1.645 1.96 2.58
置信区间
95%
-1.96SE
μ
1.96SE
X
一个总体参数的区间估计
总体均值的区间估计 总体比例的区间估计
总体均值的置信区间
总体均值μ的95%置信区间
95%置信区间
总体均值的置信区间
总体均值μ的95%置信区间
X 1.96SE
( X 1.96SE, X 1.96SE)
保持不变 置信区间在波动
总体均值的置信区间
总体均值μ的95%置信区间
例5-1. 要估计某居民区人 均日收听广播时间,已知 标准差为=15分钟。现随 机地抽取n=25位居民,这 25人的平均日收听广播时 间为 X60分钟。 求整个居民区的平均日 收听广播时间的95%置 信区间。
• 一般来说,进行点估计时,如果样本越大,且 抽样方法越严谨,这种估计就越可信。但无论 如何,抽样误差总是难免的,而且点估计无法 得到估计值的可信程度。
所谓区间估计,就是用两个数组成的区间估计参数值。
现随机地抽取n=25位下马村居民区居民,调查了人均日 收听广播时间,这25人的平均日收听广播时间为60分钟。 那么整个下马村居民区的平均日收听广播时间是 54 < < 66分钟。
正态分布
连续型随机变量的概率分布
现实中, 几乎没有一组数据是完全呈正态分布的
实际生活中, 很多数据是近似于正态分布的 人类的属性和能力
工业产品的物理性质
……
连续型随机变量的概率分布
正态分布
最常用的连续型随机变量的概率分布
特征
对称的、单峰的、呈铃状的概率分布曲线
连续型随机变量的概率分布
正态分布
总体均值的置信区间
总体均值μ的置信度为1-α的置信区间
总体均值的置信区间
总体均值μ的置信度为1-α的置信区间
X Z SE
2
SE

n
X Z

2
n
总体均值的置信区间
当σ未知时,总体均值μ的置信区间
t 分布
以n-1为自由度(df)的t分布
总体均值的置信区间
Normal=t (df=∞) t (df=20) t (df=5)
推断统计部分
第五章 推断统计的理论基础 第六章 参数估计 第七章 假设检验
第五章 推断统计的理论基础
5.1 概率与概率分布 5.2 抽样分布
描述统计学是推断性统计的基础
描述统计学
统计学
概率 抽样分布
推断统计学
推断统计
在搜集、整理观测样本的基础上,对有关总体作出推 断,其特点是根据随机性的观测样本数据以及问题的条 件和假设,对未知事物作出的以概率形式表述的推断。
钟型对称 最普遍、常用 用均值和标准差可 以完整地描述
数学上, 完全光滑的正态 曲线是由复杂的公式给 出的
f ( x)
1 e 2
x2 2 2
连续型随机变量的概率分布
标准正态分布 (Z分布)
均值=0
标准差=1
连续型随机变量的概率分布
标准化 一般正态分布转化为标准正态分布(Z分布)的过程
P(A)=
m
n
=p
4.2 离散型随机变量的概率分布
离散型随机变量的概率分布
n=20
出现的点数(X) 1 2 3 4 5 6
频数(f ) 4 3 5 3 1 4
相对频率(f/n) 0.20 0.15 0.25 0.15 0.05 0.20
离散型随机变量的概率分布
骰子的相对频率分布
点数 X 1 2 3 4 5 6 相对频率 n=20 0.20 0.15 0.25 0.15 0.05 0.20 n=100 0.18 0.17 0.15 0.15 0.20 0.15 n=∞ 1/6 1/6 1/6 1/6 1/6 1/6
(n=4, df=3, t 0.025=3.1824)
=(360+400+240+300) /4±t 0.025(3) =325±3.1824*70/2
[ 213.6 < < 436.4 ]
t
X 0 *S n
总体比例P的置信区间
总体比例P的95%置信区间
P(1 P) P 1.96 n
第六组:卡方的一致性检验(第15周)(Nonparametric Test菜单Chi-Square命令)
第七组:卡方的独立性检验(第16周)(Crosstabs命令的X2 检验 ) 第八组:制定数据的综合分析(包括描述性分析和推断分析,前七项内容中不少于 三项)(第17周)
第二轮小组作业
• 要求: 包括理论内容和软件操作两个部分 制作讲述内容的ppt 选择适合的数据资料进行软件操作的展示 每小组最多由两位同学讲授,并且不能与第一轮讲 授的同学重复
Z
X

连续型随机变量的概率分布
任何正态分布都满足68-95-99.7的规则
• 在任何正态分布中,如果反复试验或观测,则大约有68%的观
测值落在距均值一个标准差的范围内 (严格些说是68.3%) 95%的观测值落在距均值两个标准差的范围内 (严格些说是1.96个标准差) 99.7%的观测值落在距均值三个标准差的范围内 (严格些说是2.96个标准差)
置 信 区 间
Confidence Interval
• 由样本统计量所构造的总体参数的估计区间称为置信区间
置信区间 置信水平=1-α
置信下限
点估计值
置信上限
那么整个下马村居民区的平均日收听广播时间是 54 < < 66分钟。
常用置信水平的Zα/2值
置信水平
90% 95% 99%
α
0.10 0.05 0.01
= 60 ± 5.88 54.12 < < 65.88
P=2.5% P=0.5%
= 60 ± 7.74 52.26 < < 67.74
99%置信区间
Z 0.025 Z 0.005
总体均值的置信区间
Z 随着置信度的提高,
2
随之增大,因此置信区间变
得更宽,即更加含糊不明确。
置信度和精度之间是矛盾的 要在两者之间作合理的折中。
组距较大时
组距减半时,高度也不变
虽然组距变窄,但图形的形状没有太大的变化;虽然棒条变窄,但是所 有棒条的面积之和仍然等于1.
连续型随机变量的概率分布
相 对 频 率 密 度
相对频率(面积)=相对频率密度 × 组距
连续型随机变量的概率分布
样本量逐渐增大 组距逐渐减少
直方图逐渐变 成一条曲线图
连续型随机变量的概率分布
连续型随机变量的概率分布
男子身高分组数据的直方图
35% 30% à Ï Ô ¶ µ Æ Ê Â 25% 20% 15% 10% 5% 0% 151cm 157cm 163cm 1 169cm 175cm 181cm 187cm 0.02 0.06 0.08 0.02 0.22 0.32 0.28
连续型随机变量的概率分布
0.678(1 0.678) 0.678 1.96 0.678 0.046 400
0.632<
<0.724
• 我们有95%的把握说,昆明市民中有63.2%至72.4%的人支持实 施道路交通“休克”疗法来用一年的拥堵换取未来的出行畅通。
第二轮小组作业
• 讲述内容:
第一组:样本所在总体平均数,与已知总体平均数的比较( Compare Means菜单 One -sample T Test)(第13周) 第二组:两个样本平均数差别的比较,即通常所说的两组数据的T检验( Compare Means菜单 Independent-sample T Test) (第13周) 第三组:配对样本(数据)的平均值比较。 ( Compare Means菜单 Paired-sample T Test) (第14周) 第四组:多组样本平均数的比较( Compare Means菜单 One-Way ANOVA ) (第14 周) 第五组:相关分析(第15周)(Correlate菜单Bivariate过程)
• 展示时间安排: 第13周——第17周
wenku.baidu.com
两个总体均值之差μ1—μ2 的置信区间 (两个总体均值的比较)
• 在某一公司相互独立地随机抽取了男、女员工各5 名,他们的月收入(元)如下表:
男员工 2500
女员工 2200
2550
2300
2050
1900
2300
2000
1900
相 对 频 率
相 对 频 率
组距较大时
组距减半时,高度也减半
随着分数的增多(组距相应减小),相对频率分别图的形状将越来越扁, 棒条宽 度也越来越窄,但所有棒条的高度之和仍然是1.
连续型随机变量的概率分布
相对频率密度=
相对频率 组距
连续型随机变量的概率分布
相 对 频 率 密 度 相 对 频 率 密 度
• 设X是一个连续型变量,它代表某一区间或多个区间中 的任意数值,它的概率分布通过概率密度函数来表述, 记作f(x)。 • 概率密度函数只是给出了连续型随机变量某一特定值的 函数值,这一函数值不是真正意义上的取值概率,连续 型随机变量在给定区间内取值的概率对应的是概率密度 函数f(x)曲线(或直线)在该区间上围成的面积,这一 特征恰恰意味着连续行随机变量在某一点的概率值为零, 因为它对应的面积为零。所以对任一区间端点的取舍并 不影响该区间的概率。
推断性统计的基本特征:通过从总体中抽取样本构 造适当的统计量,由样本性质去推断关于总体的性质。
随机事件与概率
概率的统计定义
(probability)
在相同条件下随机试验n次,某事件A出现m次(m≤n), 则比值m/n称为事件A发生的频率。随着n的增大,该频率围绕 某一常数p上下波动,且波动的幅度逐渐减小,取于稳定,这 个频率的稳定值即为该事件的概率。
( X 2.58SE, X 2.58SE)
总体均值的置信区间
例5-3:要估计某居民区人均日收听广播时间,已知标准差为 =15分钟。现随机地抽取n=25位居民,这25人的平均日收听 广播时间为 60分钟。 求整个居民区的平均日收听广播时间的95%,99%置信区 间。
95%置信区间
总体比例P的99%置信区间
P(1 P) P 2.58 n P(1 P) P Z / 2 n
总体比例P的置信区间
• 从昆明市抽取了一个400人的随机样本,而计算出样本中 表示支持实施道路交通“休克”疗法的比例为67.8%,那 么在95%的置信度下,总体比例的置信区间为:
连续型随机变量的概率分布
2 3
68.3% 95.4%
99.7%
68.3% 80%
95%
99%
1.28 1.96 2.58
标准正态分布表
抽样分布
不管总体本身是否服从正态分布
样本均值的分布都是渐近正态的
第六章 参数估计
Parameter estimation
Z scale
-1.96 -1.96 -2.086 -2.571 df= ∞ df=20 df= 5 +1.96
t scale
+1.96 +2.086 +2.571 P=2.5% t values
总体均值的置信区间
例5-4 从一大工厂中随机地抽取 4 位职工,他们当月 的奖金分别为: 360元、400元、240元、300元 计算全厂当月平均奖金μ的 95% 置信区间
X 1.96SE
P=2.5%
= 60 ± 6 54 < < 66
Z 0.025
总体均值的置信区间
总体均值μ的95%置信区间
X 1.96SE
总体均值μ的99%置信区间
( X 1.96SE, X 1.96SE)
保持不变
置信区间在波动
X 2.58SE
4.3 连续型随机变量的概率分布
连续型随机变量的概率分布
200名男子身高的频数分布表(cm)
组限 148-154 154-160 160-166 166-172 172-178 178-184 184-190 总计 组中值 151 157 163 169 175 181 187 频数(f) 4 12 44 64 56 16 4 200 相对频率(f/n) .02 .06 .22 .32 .28 .08 .02 1.00
所谓点估计,就是用一个最适当的样本统计
量来代表总体的参数。
• 要调查昆明市民对昆明实施道路交通“休克”疗法的态度, 从昆明市抽取了一个100人的随机样本,而计算出样本中表 示赞成的比例为67%,那么我们可以说,昆明市民中有67%的 人支持实施道路交通“休克”疗法来有一年的拥堵换取未来 的出行畅通。
相关文档
最新文档