应用统计(第五版)期末总复习(对外经贸大学)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
注意以下三个方面的问题 1.确定组数
2.确定组距:组距为上限与下限之差。
等距数列-数据分布均匀。 异距数列-数据分布不均匀。 3.确定组限 应能把现象的不同类型划分出来 。 要考虑到数据是连续性变量还是离散型 变量。
无法确定实际数据的取值范围,或者数 据中存在极端数值,可采用开口组的形 式。 4.确定组中值 :(上限+下限)/2 ,开口组
■由于
当n 30
■单一总体平均数的置信区间的临界值仍为
当X服从正态分布,未知,n 30
X X Z (标准正态值) t s s n n
单一总体平均数的置信区间的临界值为
X t
s n
未知,当X服从正态分布,n 30
时的单一总体平均数的区间估计 举例,教材144页
单一总体比率的区间估计
如果统计值 落入拒绝域, 拒绝H0
• 双尾检验
H 0 : 0 H1 : 0
总体均值的假设检验
• 单一总体均值的假设检验 • 两总体均值之差的假设检验 –独立样本 –匹配样本
两总体平均数间差异的比较
• 独立样本
–正态总体方差已知或大样本
–两正态总体方差未知,但相等,小 样本 –两正态总体方差未知,但不等,小 样本 • 配对样本
2
( X )
N
s
2
(x x) ( x)
n 1
2
抽样分布
• 样本统计量的概率分布称为抽样分布。 用以描述抽样误差的规律性,是统计推 断的理论基础。
X 的抽样分布
• 单一样本均值的抽样分布
– 正态分布再生定理 – 中心极限定理
• 两样本均值差异的抽样分布
正态分布再生定理
■当总体服从正态分布时,从中抽取样本容 量为n的样本,样本均值一定服从正态分布。 ■样本均值的期望值和方差?它们与总体的 期望值和方差有何关系
▼变量(标志):参数(总体)和统计量(样本)
●定义: 反映总体单位属性或特征的名词 ●种类: ♦品质变量:变量值表示事物类别或顺序的变量.
♦数量变量:标志表现事物数字特征的变量.
♦连续型变量 ♦离散型变量
初级数据
• 初级资料(primary data)、第一手资料, 是 指由数据的使用者组织,通过调查和实验 而得到的数据 • 对原始资料的采集方法为: • 统计调查 • 实验 • 观察
2 1
2 2
样本容量的确定
●估计总体均值时
根据均值区间估计公式可得样本容量n为
样本容量的确定
●估计总体比率时 根据比率区间估计公式可得n为
分组、描述性统计和参数估计
• 请复习期中考试习题(计算第一题)
五、假设检验
假设检验在统计方法中的地位
统计方法
描述统计
推断统计
参数估计
假设检验
直接通过样本 估计总体参数
随机抽样
• • • • • 简单随机抽样 系统抽样 分层抽样 整群抽样 多步抽样
三、描述性统计
频数分布编制
分组的关键 变量的选择,选择与研究的问题有关的 变量 。 组限的确定。应遵循穷尽和互斥原则 。 定性数列编制:组限的确定一般比较简单 。
如人口按性别分组、企业按所有制分组等 分为单项数列和组距数列两种形式。 定量变量编制: 单项数列:即变量的一个取值为一组,适用于离散 型变量,并且变量的取值较少。 组距数列:即每一组有一个上限值和一个下限值所 形成的区间,适用于连续性变量,或离散型变量且 变量的取值较多的情况。
• 估计方法
– 点估计 – 区间估计
• 单一总体均值估计 • 单一总体比率估计
参数估计的统计过程
总体均值μ=?
从总体中选取几项组 成一个简单随机样本
用 X 的值对 μ 值 进行推断
对样本数据的汇总提 供了样本均值 X 的值
参数估计的方法
●点估计 ●区间估计
点估计
• 定义:以实际抽样得到的某一估计量的 单一值作为相应总体参数的估计值的估 计称为点估计 • 估计量优良性的标准
两总体均值之差的假设检验
两总体方差已知的独立样本
• 在处理某大型跨国公司是否存在男女员工的工资歧视案 件时,处理此案件的部门通过抽样调查,收集了如下资 料。 • 男员工 女员工 • 样本容量 44 32 • 样本平均工资 9.25 8 .70 (美元/小时) • 总体标准差的经验值 1 0.8 • 问题:本案例中有工资歧视吗?
●次级数据
次级数据(secondary data)又称间接资 料、第二手资料, 是指已经经过加工整理、 由个体过度到总体,能够在一定程度上说明 总体现象的统计资料. 所有的次级资料, 都来源于初级资料. 初级资料较为形象、 生动和可靠, 而次级资 料的可靠性就差一些.
二、统计调查
• 调查方案的结构
参数与统计量
• 参数:反应总体分布特征的指标统称 为总体参数,简称参数。常用的有
, , 和
2
• 统计量:反应样本分布特征的指标统 称为样本统计量,简称统计量。常用
x , s , s, p
2
总体参数 平均数 比率 方差
样本统计量
X
N
x x
n
N1 N
(X )
2
n1 p n
应用条件: ( )时, 样本比率 p近似服从正态分布。
使用正态分布统计量Z
总体比率 为 在1- 置信水平下的置信区间
pZ
p(1 p) n
两个总体平均数差异的区间估计
应用条件: ♦两个样本都是大样本 ♦两样本彼此独立
两个总体平均数之差1-2在1- 置信水平下的 置信区间为
( x1 x2 ) Z n1 n2
两总体均值之差的假设检验
两总体方差未知但相等的独立样本
• 作业: 教材(P208)
注意:
• 如何确定假设
• 方法和步骤
两总体均值之差的假设检验
双尾检验和单尾检验的假设形式
假设 双尾检验 单尾检验
左尾检验 右尾检验 原假设 备择假 设 H0: µ=µ0 H0:μ≥μ0 H1:μ≤μ0 H1:μ≠μ0 H1:μ<μ0 H1:
µ>µ0
假设决定 和拒绝域的方向
• 左尾检验 H 0 : 0
H1 : 0
• 右尾检验
H 0 : 0 H1 : 0
先假设 总体参 数具有 某特征 ,然后 看样本 提供的 信息是 否与假 设矛盾
假设(hypothesis)
• 假设(hypothesis):
是对总体参数的具体 数值所作的陈述。 – 参数是总体的均值、 比例、方差
我认为这批 产品的重量 符合现实要 求!
– 参数必须在分析前确 定
原假设(null hypothesis)
►推断统计学
●定义: 是只依据样本资料推断总体特征的技术和方法。 ●方法: 包括参数估计和假设检验的方法。 ●内容: ♣第五讲:抽样分布与参数估计 ♣第六讲:假设检验 ♣第七讲:方差分析
►有关概念
• 总体和总体单位
• 样本和样本单位
• 变量(标志)
• 数据
▼总体和总体单位
●总体(有限总体和无限总体)
• 临界值:置信区间的上限和下限
• 注意置信系数和 区间宽窄的关系
区间估计的程序
• • • • • • 选定置信系数 抽取一个样本容量为n的样本 计算相应的统计量 确定统计量的概率分布 得到置信区间的临界值 得到参数的置信区间
单一总体平均数的区间估计
• 当σ已知时μ的置信区间 • 当σ未知时μ的置信区间
第一类错误 弃真错误
两类错误
实际情况
第二类错误 存伪错误
统计决策 接受 H0
H0 是真实的 ( =100)
正确决策 1-α 错误决策 α
H0 是假的 ( ≠100)
错误决策 β 正确决策 1-β
拒绝H0
a & b 间的关系
它们的关系就像跷跷板 α大β小,α小β就大
b
假设检验的基本步骤
– 确定原假设和备择假设 – 选定显著性水平 – 抽取样本容量为n的样本并计算相应的统计量 – 确定统计量的抽样分布 – 根据选定显著性水平计算临界值 – 确定决策规则 – 判断是否接受零假设 – 得出结论
–大样本 –小样本
当
已知时计算μ的置信区间的步骤
•选定置信系数 •抽取一个样本容量为n的样本 •计算 •确定 统计量的概率分布 •求置信区间的临界值 •单一总体平均数的置信区间的临界值为
当
未知时的单一总体平均数的区 间估计(大样本)
未知,一般情况下用S替代,
X Z (标准正态值) s n
无偏性
有效性
一致性
常用的优良估计量
我们用 X 来点估计总体均值 . s 来点估计总体标准差 . p 来点估计总体比例π.
区间估计的定义
♦ 区间估计是在一定的置信系数的 保证下,根据统计量得到的一个 取值范围去估计总体的参数。
区间估计的几个关键概念
• 置信系数 1 使人相信区间包含总体均值的 概率,一般取 0.95,0.90,0.99.它的大小说明估计的 把握性的大小. • 置信区间:在一定概率的保证下,包含总体均值的区 间,区间的宽窄说明估计精度的大小.区间越宽,估计 的精度就小;否则就大.
调 查 目 的
调查 对象 调查 单位
调 查 项 目
调 查 时 间
调查 表和 调查 问卷
调 查 方 式
调 查 方 法
制定 组织 实施 计划
判断抽样
非随机抽样
方便抽样 配额抽样
抽样调查
随机抽样
简单随机抽样 系统抽样 分层抽样 整群抽样 多步抽样
15
非随机抽样
• 判断抽样 – 按照一定的标准有意识地在总体中抽取若干合 乎标准的样本单位进行调查; • 方便抽样 – 抽取样本的标准主要是方便,这样抽出的样本 代表性不高,常用于案例研究; • 配额抽样 --根据已经定好的单位数抽取样本。
– 样本均值的ห้องสมุดไป่ตู้望值等于总体均值 – 方差(有退还抽样、无退还抽样)
(退还抽样)
(不退还抽样)
中心极限定理
■设某总体的元素总量为N,期望值为 ,标 准差为 ;若从该总体中随机抽取样本容量为 n的样本,当n很大(n>30)时,则样本平均数 的抽样分布近似为正态分布,即:
(退还抽样) (不退还抽样)
参数估计
显著性水平(小概率) 判断是否接受原假设的依据 • 如果原假设是正确的,而根据样本的 信 息却拒绝了原假设的概率. 用 表示
• 一般取 0.01, 0.05, 0.10
• 显著性水平是事先确定的
小概率
• 在一次试验中,一个几乎不可能发生 的事件发生的概率 • 在一次试验中小概率事件一旦发生, 我们就有理由拒绝原假设 • 小概率事件由研究者事先确定
应用统计 总复习
对外经济贸易大学 国际商学院 统计与技术经济学系 杨震宁
复习重点
• • • • • • 基本概念 基本公式 基本原理 课后习题和期中考题 老师上课强调的内容 复习的重点内容
一、基本概念
统计学内容
描述统计学
推断统计学
►描述统计学
●定义: 指搜集、整理、分析并提供统计资料的理论和方法。 ●主要任务: 使反映客观事物的统计数据可以一目了然,条理清 晰,使用方便,可以说明现象的数量特征和数量关 系。 ●内容: ♣第二讲:数据的采集 ♣第三讲:数据的整理和表述 ♣第四讲:数据的描述性分析
定义:研究具有某些相同性质的全部单位或事 件的整体。 特征:
♥. 同质性
♥. 大量性 ♥. 变异性
●总体单位:组成总体的个体。
▼样本和样本单位
●样本: 在总体中抽取部分总体单位进行调查, 被抽出的总体单位构成一个整体,这个整 体称为样本。 ●样本单位: 总体 组成样本的个体。
样本 样本单位
总体单位
1、研究者想收集证据予以反对的假设 2、称“零假设” 3、总具有符号=,≤或≥ 4、表示为H0 如 . H0: µ =100
备择假设(Alternative hypothesis)
1、研究者想收集证据予以支持的假设 2、称“对立假设” 3、总具有≠,<或> 4、表示为H1(Ha) 如. H1: µ ≠ 100
统计图
• • • • • • 饼图 条形图 直方图 折线图 曲线图 茎叶图
用途?
集中趋势的测定—平均数
概念 表明同类现象在一定时间、地点、条件下所达到的 一般水平,是总体内某个变量大小各异的观察值的 代表性数值。也是对变量分布集中趋势的测定。 数据集中区
变量x
x
四、参数估计
解决方法
• 原假设:没有歧视 H0:µ1-µ2=0
H1:µ1-µ2≠0 • Z统计量
Z ( X 1 X 2 ) ( 1 2 )
• 备择假设:有歧视(但需要寻找证据)
2
1
n1
2
2
n2
本例的Z统计量计算结果
z 9.25 8.7 0.55 2.66 2 0.2067 1 0 .8 44 32