第6章 统计推断
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
提出假设 作出决策
拒绝假设! 别无选择.
总体
我认为人口的平 均年龄是70岁
抽取随机样本
第六章 统计推断
均值 X = 50
原假设和备择假设
什么是原假设?
研究者想收集证据予以反对的假设,又称
“0假设”
总是有等号( , 或) 表示为 H0
第六章 统计推断
2、臵信区间
设 是总体 的一个参数, X
是 的 2 1 和
两个估计量,且1 ,对给定的常数 2
,有 (0 1)
随机区间 1 ,是臵信度(臵信水平)为 2
P(1 ,则称 2 ) 1
该广告是否是属实的?
该不该信赖它呢?
第四章 统计描述
调查了339名50岁以上的人,其中205 名吸烟者中有43个患慢性气管炎,在134名 不吸烟者中有13人患慢性气管炎。 调查数据能否支持“吸烟者容易患慢性 气管炎”这种观点呢? 回答这些问题我们需要进行假设检验。
第六章 统计推断
基本概念
假设——对总体参数的数值所作的一种陈述
在简单随机抽样条件下,样本均值和样本比例 的抽样误差: 样本均值的抽样误差
重复抽样: 不重复抽样:
x
n
x
N n ( ) n N 1
2
当总体方差 2未知时,可用样本方差 S 2 代替。
第六章 统计推断
样本比例的抽样误差
重复抽样:
不重复抽样:
p
1
n
p
i 1 i
n
2
5
s s 5 5 , x t 2 (n 1) ,55 2.1314 x t 2 (n 1) 55 2.1314 n n 16 16
我们有95%的把握认为,该外资企业员工平均每 周加班时间为52.3小时至57.7小时之间。
总体参数包括总体均值、比例、方差等 分析之前必需陈述
我认为吸烟者容 易患慢性气管炎
第六章 统计推断
基本概念
假设检验——事先对总体参数或分布形
式作出某种假设,然后利用样本信息来 判断原假设是否成立
参数假设检验、非参数假设检验
第六章 统计推断
假设检验的过程
(提出假设→抽取样本→作出决策)
即,我们有90%的把握认为,贷 款学生总体中的平均欠款额在 第六章 统计推断 29862.92至30137.08元之间。
【例6.4】
一家研究机构为估计在某外资企业工作的 员工每周加班的平均时间,随机抽取了16个员 工,得到他们每周加班的时间数据如下(单位: 小时)
50 52 62 58 57 51 54 45
即,我们有95%的把握认为,19岁以下的青少年 上 网比例在40.64% 至49.36%之间。 第六章 统计推断
三、样本容量的确定
样本容量的影响因素
估计的精度要求
估计的臵信度要求 抽样估计中所能承担的费用情况
第六章 统计推断
样本容量n的确定
(一)估计总体均值时样本容量的确定 1、重复抽样
n
某地区企业总经理的 1 95%, Z 2 1.96 年收入服从正态分布, 随机抽取25个企业, 总体均值 在臵信水平 得到25个企业总经理 下的臵信区间为: 1 的平均收入为135000元。 x z , x z 2 2 已知总体的标准差为 n n 55000元,试求:该 55000 55000 ,135000 1.96 135000 1.96 地区企业总经理的 25 25 (113440,156560) 年平均收入95%的臵信 区间。 我们可以95%的概率保证该地
第六章 统计推断
原假设和备择假设
什么是备择假设?
与原假设对立的假设,也称“研究假设” 研究者想收集证据予以支持的假设
总体均值的区间估计
总体均值 在臵信水平
1下的臵信区间为:
n
已知
2
x z 2
未知
2
s 大样本 x z 2 n
s 正态总体+小样本x t 2 (n 1) n
第六章 统计推断
【例6.2】
解:已知 X ~ N ( ,550002 )
x 135000, n 25,
第六章 统计推断
(3)一致性
随着样本容量n的增大,点估计量越来越 接近被估总体参数. 3、点估计的特点 (1)优点: 简洁明了;能提供具体的估计值。 (2)缺点:
无法提供误差情况;估计的可靠程度无从知晓。
第六章 统计推断
(二)区间估计
相关概念
1、区间估计——
给出总体参数的一个区间范围,并在抽样 分布的基础上给出估计的可靠性度量。
解:已知
x 30000, n 3600, s 5000 1 90%, Z 2 1.645 由于总体方差未知,且为大样本, 所以总体均值 在臵信水平下 的臵信区间为: 1
s s x z 2 , x z 2 n n 5000 5000 ,30000 1.645 30000 1.645 3600 3600 (29862.92,30137.08)
第六章 统计推断
第一节 统计推断及其特点
第二节 参数估计 第三节 假设检验
第六章 统计推断
第一节
统计推断及其特点
一、统计推断的概念及其特点 概念 统计推断是在抽样调查的基础上,根 据从总体中抽取的部分样本资料计算样本 值,然后用样本的估计值对总体参数做出 具有一定可靠程度的估计和判断,从而反 映总体数量特征和分布的一种方法。
第六章 统计推断
区企业总经理的年收入在 113440至156560元之间。
【例6.3】
在一项对大学生资助 贷款的研究中,从全 国各地随机抽取3600 名贷过款的大学生作 为样本,得到毕业前 的平均欠款余额为 30000元,标准差为 5000元。试求贷款 学生总体中平均欠 款额的90%的臵信区 间。
总体比例 的臵信水平 区间为:
p z 2
(1 )
n
总体比例 未知,用样本比例p来代替:
p(1 p) p z 2 n
第六章 统计推断
【例6.5】
为调查网民的平均年龄,随机抽取500人
作样本,发现其中有225个上网者是19岁以下
的青少年,试估计网民总体中,19岁以下的
第六章 统计推断
三、统计推断的误差 1、抽样误差 概念 也称随机误差,是指由于抽样的随机性引起 的样本结果与总体真值之间的误差。 抽样误差不是指某个具体的样本观测值 与总体真值之间的差距,而是指样本的所有 可能结果与总体真值之间的平均性差异,因 此,也叫抽样平均误差。
第六章 统计推断
抽样误差的计算
第六章 统计推断
总体比例
的区间估计
p N ( ,
样本比例p的抽样分布 大样本时(满足 np 5和n(1 - p) 5 )
(1 )
n
)
使用正态分布统计量
z p ~ N (0,1) 1 n
第六章 统计推断
总体比例
的区间估计
下的臵信 1
第六章 统计推断
一个总体参数的区间估计
总体均值 的区间估计 总体比例 的区间估计
第六章 统计推断
一个总体参数的区间估计
总体均值的区间估计
——建立在抽样分布的基础上的。
第六章 统计推断
样本均值的抽样分布
总体
正态总体
非正态总体
大样本
大样本
x
小样本
N ( ,
小样本 非正态分布
2
n
)
第六章 统计推断
n
( z 2 ) p(1 p)
2
D
百度文库
2
式中: D为估计误差。
第六章 统计推断
样本容量n的确定
2、不重复抽样
n
N ( z 2 ) p(1 p)
2
ND ( z 2 ) p(1 p)
2 2
(N为总体容量)
注意:结果遵循圆整法则。 见书中【例6.9】
第六章 统计推断
第三节
假设检验
第六章 统计推断
第二节 参数估计
一、参数估计概述 1、参数估计——根据样本统计量来估计总体 参数的一种方法。 2、估计量——用于估计总体参数的统计量的 名称。 3、估计值——根据一组具体样本计算出的估 计量的取值。
第六章 统计推断
二、参数估计的方法
(一)点估计 1、定义:是指用样本统计量的某个取值直接作 为总体参数的估计值。 2、评价标准 (1)无偏性 估计量的数学期望等于被估计的总体参数。 (2)有效性 对于同一总体参数的两个无偏估计量,方 差越小的越有效。
青少年上网比例的95%的臵信区间。
第六章 统计推断
解:已知n 500 ,根据抽样结果 , z 2 1.96 样本比例为: p 225 45% 500
p(1 p) p z 2 , p z 2 n p(1 p) n
45% 55% 45% 55% (40.64%,49.36%) 45% 1.96 ,45% 1.96 500 500
一、 基本概念、原理及步骤
二、总体平均数的检验 三、总体比例的检验
第四章 统计描述
基本概念、原理与步骤
1.基本概念 2.原理
3.步骤
第六章 统计推断
引例:一项新的减肥产品在广告中声称:服用 该产品的第一周内,参加者的体重平均至少可 以减轻8磅。现随机抽取40位服用该减肥产品 的样本,结果显示:样本的体重平均减少7磅, 标准差为3.2磅。
第六章 统计推断
2、非抽样误差 概念 是指除抽样误差之外,由于其他原因引起的 样本观测结果与总体真值之间的差异。
非抽样误差在于各种抽样和调查中。
第六章 统计推断
非抽样误差的影响因素 (1)抽样框因素 ; (2)回答因素 (3)无回答因素 (4)调查员的因素 (5)测量因素 注:非抽样误差从理论上可以避免,但实际上 很难控制。
第六章 统计推断
统计推断的特点 按照随机原则从总体中抽取样本单位; 随机原则是指在抽取样本时,排除主观 意识地抽取调查单位,使每个单位都有一定 的机会(概率)被抽中,因此也叫概率抽样。 其目的是由部分信息来推断总体特征;
其理论基础是概率论;
其误差事先可以计算并加以控制。
第六章 统计推断
二、统计推断的基本方法 1、参数估计——研究如何利用样本统计量来 推断总体未知参数的方法。 2、假设检验(参数检验)——事先对总体参 数提出一个假设,然后再利用样本信息去 检验这个假设是否成立的一个过程。
59 60
64 49
53 55
55 56
假定员工每周加班时间服从正态分布,试估计平 均每周加班时间的95%的臵信区间。
第六章 统计推断
解:已知 X ~ N ( , 2 )
由样本数据可知:
n n 1 员工平均每周加班时间的臵信区间为:
x
xi
i 1
n
55;
s
( x x)
1
的臵信区间(区间估计)。其中1 和 分别 2
为臵信下限和臵信上限。
第六章 统计推断
3、臵信度(臵信系数/臵信水平),是指臵信区 间中包含总体参数真值的可能性大小,也就 是人们可以信赖的程度,通常用 1 表示。 置信度也可以指重复抽样条件下,在构 造的所有置信区间中包含参数真值的区间所 占的比例,也就是说构造的所有置信区间中 有1 区间包含总体参数真值。
( z 2 )
2
2
D
2
式中:D为估计误差。
第六章 统计推断
样本容量n的确定
2、不重复抽样
n
N ( z 2 )
2 2 2
2 2
ND ( z 2 )
( N 为总体容量)
注意:结果遵循圆整法则。 见书中【例6.7】、【例6.8】
第六章 统计推断
样本容量n的确定
(二)估计总体比例时样本容量的确定 1、重复抽样
1 N n
n ( N 1
)
当总体比例
未知时,可以用样本比例 p 代替。
第六章 统计推断
影响抽样误差的因素
总体各单位标志值的差异程度,差异程度越
大,则抽样误差愈大,反之,则愈小;
抽样方法。一般情况下,重复抽样误差比不
重复抽样误差要大一些;
抽样调查的组织形式。
注: ①不同的抽样组织形式有不同的抽样误差; ②抽样误差是一种随机性误差,只存在于概率 抽样中
拒绝假设! 别无选择.
总体
我认为人口的平 均年龄是70岁
抽取随机样本
第六章 统计推断
均值 X = 50
原假设和备择假设
什么是原假设?
研究者想收集证据予以反对的假设,又称
“0假设”
总是有等号( , 或) 表示为 H0
第六章 统计推断
2、臵信区间
设 是总体 的一个参数, X
是 的 2 1 和
两个估计量,且1 ,对给定的常数 2
,有 (0 1)
随机区间 1 ,是臵信度(臵信水平)为 2
P(1 ,则称 2 ) 1
该广告是否是属实的?
该不该信赖它呢?
第四章 统计描述
调查了339名50岁以上的人,其中205 名吸烟者中有43个患慢性气管炎,在134名 不吸烟者中有13人患慢性气管炎。 调查数据能否支持“吸烟者容易患慢性 气管炎”这种观点呢? 回答这些问题我们需要进行假设检验。
第六章 统计推断
基本概念
假设——对总体参数的数值所作的一种陈述
在简单随机抽样条件下,样本均值和样本比例 的抽样误差: 样本均值的抽样误差
重复抽样: 不重复抽样:
x
n
x
N n ( ) n N 1
2
当总体方差 2未知时,可用样本方差 S 2 代替。
第六章 统计推断
样本比例的抽样误差
重复抽样:
不重复抽样:
p
1
n
p
i 1 i
n
2
5
s s 5 5 , x t 2 (n 1) ,55 2.1314 x t 2 (n 1) 55 2.1314 n n 16 16
我们有95%的把握认为,该外资企业员工平均每 周加班时间为52.3小时至57.7小时之间。
总体参数包括总体均值、比例、方差等 分析之前必需陈述
我认为吸烟者容 易患慢性气管炎
第六章 统计推断
基本概念
假设检验——事先对总体参数或分布形
式作出某种假设,然后利用样本信息来 判断原假设是否成立
参数假设检验、非参数假设检验
第六章 统计推断
假设检验的过程
(提出假设→抽取样本→作出决策)
即,我们有90%的把握认为,贷 款学生总体中的平均欠款额在 第六章 统计推断 29862.92至30137.08元之间。
【例6.4】
一家研究机构为估计在某外资企业工作的 员工每周加班的平均时间,随机抽取了16个员 工,得到他们每周加班的时间数据如下(单位: 小时)
50 52 62 58 57 51 54 45
即,我们有95%的把握认为,19岁以下的青少年 上 网比例在40.64% 至49.36%之间。 第六章 统计推断
三、样本容量的确定
样本容量的影响因素
估计的精度要求
估计的臵信度要求 抽样估计中所能承担的费用情况
第六章 统计推断
样本容量n的确定
(一)估计总体均值时样本容量的确定 1、重复抽样
n
某地区企业总经理的 1 95%, Z 2 1.96 年收入服从正态分布, 随机抽取25个企业, 总体均值 在臵信水平 得到25个企业总经理 下的臵信区间为: 1 的平均收入为135000元。 x z , x z 2 2 已知总体的标准差为 n n 55000元,试求:该 55000 55000 ,135000 1.96 135000 1.96 地区企业总经理的 25 25 (113440,156560) 年平均收入95%的臵信 区间。 我们可以95%的概率保证该地
第六章 统计推断
原假设和备择假设
什么是备择假设?
与原假设对立的假设,也称“研究假设” 研究者想收集证据予以支持的假设
总体均值的区间估计
总体均值 在臵信水平
1下的臵信区间为:
n
已知
2
x z 2
未知
2
s 大样本 x z 2 n
s 正态总体+小样本x t 2 (n 1) n
第六章 统计推断
【例6.2】
解:已知 X ~ N ( ,550002 )
x 135000, n 25,
第六章 统计推断
(3)一致性
随着样本容量n的增大,点估计量越来越 接近被估总体参数. 3、点估计的特点 (1)优点: 简洁明了;能提供具体的估计值。 (2)缺点:
无法提供误差情况;估计的可靠程度无从知晓。
第六章 统计推断
(二)区间估计
相关概念
1、区间估计——
给出总体参数的一个区间范围,并在抽样 分布的基础上给出估计的可靠性度量。
解:已知
x 30000, n 3600, s 5000 1 90%, Z 2 1.645 由于总体方差未知,且为大样本, 所以总体均值 在臵信水平下 的臵信区间为: 1
s s x z 2 , x z 2 n n 5000 5000 ,30000 1.645 30000 1.645 3600 3600 (29862.92,30137.08)
第六章 统计推断
第一节 统计推断及其特点
第二节 参数估计 第三节 假设检验
第六章 统计推断
第一节
统计推断及其特点
一、统计推断的概念及其特点 概念 统计推断是在抽样调查的基础上,根 据从总体中抽取的部分样本资料计算样本 值,然后用样本的估计值对总体参数做出 具有一定可靠程度的估计和判断,从而反 映总体数量特征和分布的一种方法。
第六章 统计推断
区企业总经理的年收入在 113440至156560元之间。
【例6.3】
在一项对大学生资助 贷款的研究中,从全 国各地随机抽取3600 名贷过款的大学生作 为样本,得到毕业前 的平均欠款余额为 30000元,标准差为 5000元。试求贷款 学生总体中平均欠 款额的90%的臵信区 间。
总体比例 的臵信水平 区间为:
p z 2
(1 )
n
总体比例 未知,用样本比例p来代替:
p(1 p) p z 2 n
第六章 统计推断
【例6.5】
为调查网民的平均年龄,随机抽取500人
作样本,发现其中有225个上网者是19岁以下
的青少年,试估计网民总体中,19岁以下的
第六章 统计推断
三、统计推断的误差 1、抽样误差 概念 也称随机误差,是指由于抽样的随机性引起 的样本结果与总体真值之间的误差。 抽样误差不是指某个具体的样本观测值 与总体真值之间的差距,而是指样本的所有 可能结果与总体真值之间的平均性差异,因 此,也叫抽样平均误差。
第六章 统计推断
抽样误差的计算
第六章 统计推断
总体比例
的区间估计
p N ( ,
样本比例p的抽样分布 大样本时(满足 np 5和n(1 - p) 5 )
(1 )
n
)
使用正态分布统计量
z p ~ N (0,1) 1 n
第六章 统计推断
总体比例
的区间估计
下的臵信 1
第六章 统计推断
一个总体参数的区间估计
总体均值 的区间估计 总体比例 的区间估计
第六章 统计推断
一个总体参数的区间估计
总体均值的区间估计
——建立在抽样分布的基础上的。
第六章 统计推断
样本均值的抽样分布
总体
正态总体
非正态总体
大样本
大样本
x
小样本
N ( ,
小样本 非正态分布
2
n
)
第六章 统计推断
n
( z 2 ) p(1 p)
2
D
百度文库
2
式中: D为估计误差。
第六章 统计推断
样本容量n的确定
2、不重复抽样
n
N ( z 2 ) p(1 p)
2
ND ( z 2 ) p(1 p)
2 2
(N为总体容量)
注意:结果遵循圆整法则。 见书中【例6.9】
第六章 统计推断
第三节
假设检验
第六章 统计推断
第二节 参数估计
一、参数估计概述 1、参数估计——根据样本统计量来估计总体 参数的一种方法。 2、估计量——用于估计总体参数的统计量的 名称。 3、估计值——根据一组具体样本计算出的估 计量的取值。
第六章 统计推断
二、参数估计的方法
(一)点估计 1、定义:是指用样本统计量的某个取值直接作 为总体参数的估计值。 2、评价标准 (1)无偏性 估计量的数学期望等于被估计的总体参数。 (2)有效性 对于同一总体参数的两个无偏估计量,方 差越小的越有效。
青少年上网比例的95%的臵信区间。
第六章 统计推断
解:已知n 500 ,根据抽样结果 , z 2 1.96 样本比例为: p 225 45% 500
p(1 p) p z 2 , p z 2 n p(1 p) n
45% 55% 45% 55% (40.64%,49.36%) 45% 1.96 ,45% 1.96 500 500
一、 基本概念、原理及步骤
二、总体平均数的检验 三、总体比例的检验
第四章 统计描述
基本概念、原理与步骤
1.基本概念 2.原理
3.步骤
第六章 统计推断
引例:一项新的减肥产品在广告中声称:服用 该产品的第一周内,参加者的体重平均至少可 以减轻8磅。现随机抽取40位服用该减肥产品 的样本,结果显示:样本的体重平均减少7磅, 标准差为3.2磅。
第六章 统计推断
2、非抽样误差 概念 是指除抽样误差之外,由于其他原因引起的 样本观测结果与总体真值之间的差异。
非抽样误差在于各种抽样和调查中。
第六章 统计推断
非抽样误差的影响因素 (1)抽样框因素 ; (2)回答因素 (3)无回答因素 (4)调查员的因素 (5)测量因素 注:非抽样误差从理论上可以避免,但实际上 很难控制。
第六章 统计推断
统计推断的特点 按照随机原则从总体中抽取样本单位; 随机原则是指在抽取样本时,排除主观 意识地抽取调查单位,使每个单位都有一定 的机会(概率)被抽中,因此也叫概率抽样。 其目的是由部分信息来推断总体特征;
其理论基础是概率论;
其误差事先可以计算并加以控制。
第六章 统计推断
二、统计推断的基本方法 1、参数估计——研究如何利用样本统计量来 推断总体未知参数的方法。 2、假设检验(参数检验)——事先对总体参 数提出一个假设,然后再利用样本信息去 检验这个假设是否成立的一个过程。
59 60
64 49
53 55
55 56
假定员工每周加班时间服从正态分布,试估计平 均每周加班时间的95%的臵信区间。
第六章 统计推断
解:已知 X ~ N ( , 2 )
由样本数据可知:
n n 1 员工平均每周加班时间的臵信区间为:
x
xi
i 1
n
55;
s
( x x)
1
的臵信区间(区间估计)。其中1 和 分别 2
为臵信下限和臵信上限。
第六章 统计推断
3、臵信度(臵信系数/臵信水平),是指臵信区 间中包含总体参数真值的可能性大小,也就 是人们可以信赖的程度,通常用 1 表示。 置信度也可以指重复抽样条件下,在构 造的所有置信区间中包含参数真值的区间所 占的比例,也就是说构造的所有置信区间中 有1 区间包含总体参数真值。
( z 2 )
2
2
D
2
式中:D为估计误差。
第六章 统计推断
样本容量n的确定
2、不重复抽样
n
N ( z 2 )
2 2 2
2 2
ND ( z 2 )
( N 为总体容量)
注意:结果遵循圆整法则。 见书中【例6.7】、【例6.8】
第六章 统计推断
样本容量n的确定
(二)估计总体比例时样本容量的确定 1、重复抽样
1 N n
n ( N 1
)
当总体比例
未知时,可以用样本比例 p 代替。
第六章 统计推断
影响抽样误差的因素
总体各单位标志值的差异程度,差异程度越
大,则抽样误差愈大,反之,则愈小;
抽样方法。一般情况下,重复抽样误差比不
重复抽样误差要大一些;
抽样调查的组织形式。
注: ①不同的抽样组织形式有不同的抽样误差; ②抽样误差是一种随机性误差,只存在于概率 抽样中