应用统计复习

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


分布近似
统 样本比例的数学期望
E( p)

样本比例的方差 重复抽样


2 p

(1 )
n

不重复抽样

2 p

(1 )
n
N n N 1
17
中心极限定理的应用
例3.33
应 练习题3-23 用 统 计
复 习
18
第四章 参数估计

复 习
回 答 误 差
无 回 答 误 差
汇 总 误 差
调 查 员 误 差
3
第二章 统计数据的描述
数据的计量尺度
应 统计数据的整理 用 分布集中趋势的测度 统 分布离散程度的测度 计 分布偏态与峰度的测度
统计表与统计图
复 习
4
第二章 统计数据的描述
数据的计量尺度

列名尺度(nominal scale)
中心极限定理(central limit theorem)
中心极限定理:设从均值为,方差为 2的

一个任意总体中抽取容量为n的样本,当n充

分大时,样本均值的抽样分布近似服从均值 为μ、方差为σ2/n的正态分布

计 一个任意分
布的总体
x


n
当样本容量足够 大时(n 30) ,

样本均值的抽样 分布逐渐趋于正
0的偏离程度,则需要计算P值。
如果仅根据显著性水平来检验假设,所有的 可靠性都是一样的。
32
显著性水平
如果事先确定了一个显著性水平,也就意味着要求
用于拒绝原假设H0的证据必须强到P值小于的程度。

如果P值< ,拒绝H0;

如果P值> ,不拒绝H0


传统的显著性水平,如1%、5%、10%等,已经被人们 普遍接受为“拒绝原假设足够证据”的标准。
应 用

x z / 2 n
允许误差
统 计
z/2是标准正态分布上侧面积为α/2时的z值。 表5.3 常用置信水平的z/2值

置信水平

/2
z/2
90%
0.10
0.05
1.645

95%
0.05
0.025
1.96
99%
0.01
0.005
2.58
22
不同情况总体均值的区间估计
应ห้องสมุดไป่ตู้
总体分布

如在40000个家庭中抽取了400个家庭,

样本中拥有家用计算机的家庭有72个,

试估计总体拥有计算机比例的置信区 间。怎么算?

复 习
p(1 p)
p z / 2
n
24
第五章 假设检验
基本原理
应 一个总体均值的检验 用 一个总体比率的检验 统 计
复 习
25
基本问题
假设的陈述
由于P值=0.312495远远大于=0.05,所以不
38
能拒绝H0,得到的结论与前面相同。
例5.6 单侧检验(右)
某一小麦品种的平均产量为5200㎏/公顷。一
用 如果备择假设具有特定的方向性,并含有符

号“>”或“<”的假设检验,称为单侧检验或

单尾检验(one-tailed test)。
研究者感兴趣的备择假设没有特定的方向,

只是关心备择假设H1是否不同于原假设H0, 并不关心是大于还是小于,如果备择假设没

有特定的方向性,并含有符号“≠”的假设检
样本容量
已知
未知
用 统
大样本(n≥30)
x z / 2

n
x z / 2
s n

正态分布

小样本(n<30)

x z/2 n
x t / 2
s n

非正态分布 大样本(n≥30)

x z / 2 n
x z / 2
s n
23
一个总体比率的区间估计
样本比例置信区间的确定
31
o 临界值
(c)右侧检验
利用P值进行决策
应 如果原假设H0为真,所得到的样本结果会像

实际观测结果那么极端或更极端的概率,称
统 计
为P值(P-value),也称为观察到的显著性水平 (observed significance level)。
要测量出样本观测数据与原假设中假设的值
复 习

原假设,因此不能证明该天生产的饮料不符

合标准要求。

拒绝H0
拒绝H0

0.025
0.025
37
–1.96
0
1.96
方法二:计算P值

NORMSDIST(1.01)

0.843 752 345
P值的1/2


0

检验统计量的观察值 z=1.01
习 双侧检验,P=2*(1-0.843752345)=0.312495。
(在一般正态分布及标准正态分布中)
13
常用的抽样方法
抽样调查是一种常用的统计技术,其目的在

于用样本统计量推断我们所关心的总体参数。

抽样方式


概 率抽样
非 概率抽样
复 习
14
简 单随机抽样 整 群抽样
多 阶段抽样
分 层抽样 系 统抽样
方 便抽样 自 愿样本 配 额抽样
判 断抽样 滚 雪球抽样
复 正态分布随机变量的均值和标准差

均值 E(X) =μ
方差 D(X)=σ 2
9
正态分布曲线的主要特性
关于x = μ对称的钟形曲线
应 参数μ决定正态曲线的中心位置 用 参数σ 决定正态曲线的陡峭或扁平程度 统 以X轴为渐近线,即当x→ ± ∞ 时,f(x) → 0 计
f(x)
复 习

-2.58 -1.96 -1.65 0 +1.65 +1.96 +2.58 z

常用的正态概率值
(在一般正态分布及标准正态分布中)
12
正态分布


68.27%

95.45%

99.73%
x
-3σ -2σ -σ +σ +2σ +3σ

-3 -2
-1 0 +1 +2
+3
z

常用的正态概率值
mode(array) median(array)
统 四分位数 quartile(array,n) n=0\1\2\3\4
计 几何平均数 geomean(array)
切尾均值 trimmean(array,percent)
复 偏态系数 skew(array)
习 峰度系数 kurt(array)
方差 (样本) var(array)
区分总体是否服从正态分布、总体方差2是
否已知等几种情况。
复 习
34
例5.4
一种罐装饮料采用自动生产线生产,每罐的
应 用
容量是255ml,标准差为5ml。为检验每罐容 量是否符合要求,质检人员在某天生产的饮 料中随机抽取了40罐进行检验,测得每罐平

均容量为255.8ml。取显著性水平=0.05,检
究者想收集证据予以支持的假设,也称为研
复 习
究假设,用H1和Hɑ表示。备择假设通常是用 于支持你自己的看法。
确定原假设和备择假设,在假设检验中十分 重要,它直接关系到检验的结果。
27
在假设检验中,研究者感兴趣的备择假设的

内 化容 ,, 也可可以以是是原一假种设没有H0特在定某方一向特的定变方化向。的变

检验统计量数值的含义是:样本均值与检验
的总体均值相比,相差1.01个抽样标准差。
36
方法一:计算临界值
根据给定的显著性水平=0.05,查书后所附
应 用
的标准正态分布表得z/2=z0.025=1.96。由于 |z|=1.01<z/2=1.96,所以,不拒绝原假设。检 验结果表明:样本提供的证据还不足以推翻

性别、民族

顺序尺度(ordinal scale)

产品等级、满意度
间隔尺度(interval scale)
复 习
百分制成绩、温度、年龄
比例尺度(ratio scale)
产量、产值、利润
品质标志 数量标志
5
第二章 统计数据的描述
分布集中趋势的测度

众数

中位数
f(x)
σ较小
σ较大
2
x
σ相同而μ不同的正态曲线 10

x
μ相同而σ不同的正态曲线
标准正态分布
μ=0、σ=1的正态分布,记为N (0, 1)
应 其概率密度φ(x)
用 分布函数 Ф(x), NORMSDIST(Z) 统 X~N (μ、σ 2 ), 则 : Z~N (0,1 )

标准化
Z X
复 习
若 Z~N (0,1 ),则有:
φ(z)
P(| Z| ≤ a)=2Ф(a)-1
Ф(-a)=1-Ф(a)
Φ(a)
-a 0 a
z
标准正态曲线 11
正态分布


90%

95%

99%
x
-2.58σ -1.96σ -1.65σ +1.65σ +1.96σ +2.58σ
验,称为双侧检验或称双尾检验(two-tailed
test)。
28
应 用 统 计
复 习
29
应 用 统 计
复 习
30
显著性水平、拒绝域和临界值
置信水平(1–)
拒绝域
拒绝域


/2
/2

临界值 o 临界值

(a)双侧检验

拒绝域

置信水平(1–) 置信水平(1–)
拒绝域

临界值 o
(b)左侧检验
基本原理
应 一个总体均值的区间估计 用 一个总体比率的区间估计 统 计
复 习
19
由样本统计量所构造的总体参数的区间估计,
应 用
称为置信区间(confidence interval),其中区间 的最小值称为置信下限,最大值称为置信上 限。
统 计
将构造置信区间的步骤重复多次,置信区间 中包含总体参数真值的次数所占的比率称为
应 “假设”(hypothesis)就是对总体参数的具体

数值所作的陈述。
统 假设检验(hypothesis test)也就是利用样本信息

判断假设是否成立的过程。
比如:

一家食品生产企业以生产袋装食品为主,

每天的产量为8000袋左右。按规定每袋的 重量应为100g。为对产品质量进行监测,
统 计

均值 对分组数据进行计算的公式
M0

L
1 1 2
i
Me

L
N 2
Sm1 i
fm

6
k
x

x1 f1 x2 f2 xk f1 f2 fk
fk

xi fi
i1 k
fi
i1
常用函数
平均值
average(array)
应 众数 用 中位数
7 标准差(样本)stdev(array)
第三章 概率分布与抽样分布
概率分布
应 常用抽样方法 用 抽样分布 统 中心极限定理的应用 计
复 习
8
正态分布
X~N (μ、σ 2 ),其概率密度为:
应 用
f (x)
1
e

(
x )2 2 2
-∞< x <∞

2

NORMDIST(X,μ,σ,0)
置信水平(confidence level) ,或称为置信系数

(confidence coefficient)。
习 一般将α称为显著性水平, 1-α置信水平
20
置信区间示意图


置信区间

置信水平=1–


置信下限
点估计值
置信上限

21
一个总体均值的区间估计
总体均值所在(1-)置信水平下的置信区间为:
企业质检部门经常要进行抽检,以分析每
26
袋重量是否符合要求。
在假设检验中,首先需要提出两种假设,即

原假设和备择假设。
用 原假设(null hypothesis)通常是研究者想收集证

据予以反对的假设,也称为零假设,用H0表 示。
计 备择假设(alternative hypothesis)通常是利用研

验该天生产的饮料容量是否符合标准要求。
复 习
35
解:这里所关心的焦点是饮料容量是否符合

要求,也就是是否为255ml。大于或小于
255ml都不符合要求,因而属于双侧检验问题。

提出的原假设和备择假设为:

H0:=255,H1:≠255
计 计算检验统计量的具体数值:

z 255 .8 255 1.01 5 / 40

态分布
15
x
x
样本均值抽样分布的特征
应 样本均值的数学期望 用
E(x)

计 样本均值的方差

重复抽样

2 x

2
n

不重复抽样
抽样平均误差 抽样标准误差

n
16

2 x

2
n

N n N 1
样本比例(率)抽样分布的特征
应 当样本容量很大时,样本比例的抽样分布可用正态
第一章 数据与统计学
统计学的产生和发展
应 统计数据的来源 用 统计数据的质量 统 统计学的基本概念 计
复 习
1
统计调查的方式
统计调查(主要用来取得社会经济数据)


全面调查


报表制度 普查
重点调查

非全面调查

2
典型调查 抽样调查
统计数据的质量

数据误差


抽样误差
非抽样误差
P<0.10代表有“一些证据”不利于原假设;

P<0.05代表有“适度证据”不利于原假设;

P<0.01代表有“很强证据”不利于原假设。
33
一个总体参数的检验
5.2.1 总体均值的检验
应 在对总体均值进行假设检验时,采用什么检
用 统 计
验步骤和检验统计量取决于所抽取的样本是 大样本(n≥30)还是小样本(n<30),此外还需要
相关文档
最新文档