第四章 统计推断
多元正态总体的统计推断.
0z
0z
条件 检验条件量 H0、H1
n1p1≥5 n1q1≥5n2
u
p2≥5
n2q2≥5
p1 p2
pq pq n1 n2
(1) H0:P1=P2 H1:P1 ≠P2 (2) H0: P1 ≤P2
H1:P1 > P2
p
n1
p1
n2
p2
n1 n2
(3) H0:P1 ≥P2 H1:P1 <P2
总体参数
的值是多大?
推断估计
抽样分布
参数估计
统计量
随机原则
假设检验
检验未知参数
的值是 0 吗
一、参数估计
参数估计分为点估计和区间估计两种。
点估计:用某一具体的值去估计某一未知参数
区间估计:给出未知参数在一定把握程度 (概率或置信度下的取值区间,也称为置信 区间。
对总体的未知参数 作区间估计,就是要给出
确定α,就确定了临界点c。 1、随机抽样:样本均值
2、 X 标准化:
3、确定α值
4、查概率表,知临界值 | Z |
2
5、计算Z值,作出判断
检验步骤
1
建立总体假设 H0,H1
2
抽样得到样
3
选择统计量
4
根据具体决策
本观察值
确定H0为真 时的抽样分布
要求确定α
6
计算检验统
5
确定分布上的临
计量的数值
7
第四章 多元正态总体的统计推断
第一节 一元正态总体的统计推断
推断统计: 利用样本统计量对总体某些性质或数 量特征进行推断。
统计推断1
小概率事件在一次观察中是不应发生的, 但是它现在发生了!!说明了什么? 一个合理的解释就是它本不是“小概率事件”, 是人们把概率算错了,算错的原因就是在 一开始就做了一个错误的假设 米
换句话说,此时应该认为: 即年来男孩的身高有明显增长。
【例2 】某地进行了两个水稻品种对比试验, 在相同条件下,两个水稻品种分别种植10个 小区,获得两个水稻品种的平均产量(kg/亩) 为:
第四章 统计推断
第一节 统计推断概述
研究样本的目的是以各种样本统计量的 抽样分布为基础去推断总体。 如何从一些包含有随机误差,又不完全的信息 中得出科学的、尽可能正确的结论是统计学 要解决的主要问题。
从样本中获得的信息所包含的不确定性,
主要来自以下几个方面:
(1)测量过程引入的随机误差;
(2)取样随机性所带来的变化,由于只取出 少数样品测量,那么取出的这一批样品的测量 结果与抽取另外一批当然会有差别; (3)我们所关心的性质确实发生了某种变化。 显然,只有第三种变化才是我们要检测的。
对于从有误差的实验数据中得出结论的科学工作者
来说,统计学是一种不可或缺的工具。
一、 统计推断的途径
1、 统计假设检验** 2、总体参量估计。
二、假设检验的基本思想 先看两个实例 【例1】 某地区10年前普查时,13岁男孩子的 平均身高是1.51米,现抽查200个12.5~13.5岁 的男孩子,身高平均值为1.53米,标准差为 0.073米,问:10年来该地区男孩身高是否有 明显增长?
3、选择显著性水平与建立拒绝域 (2)建立拒绝域
① 分位数法(临界值法) ② 概率法(P值法) 利用显著性水平(概率值)构成接受域和拒绝域。 根据统计量数值的大小,先计算(或查表)出 (X>统计量数值)出现的概率,这个概率称为P值, 用P值与显著性水平相比较进行判断。
第4章 统计推断2
成对数据平均数的比较
在生物学或医学试验中,经常将试验配成若干配对,分 别作以不同处理,例如:用高粱的若干父本与两个不同 母本杂交,同一父本的两个杂交种是一个配对;用若干 同窝的两只动物作不同处理,每一窝的两只动物是一个 配对;在做药效试验时,测定若干试验动物服药前后的 有关数值,服药前后的一对数值是一个配对,等等。
2 2 x1 120.17( g ) s1 451.97( g ) 2 2 x2 101.00( g ) s2 425.33( g )
n1 12 n2 7
(1)假设 H0:σ12=σ22=σ2
HA: σ12 ≠ σ22
(2)水平 选取显著水平α=0.05 (3)检验
s12 451.97 F 2 1.063 s2 425.33
差异?
B法:调查200株,平均天数为70.3d
试比较两种调查方法所得黑麦从播种到开花天数有无显著差别。
分 析
(1)这是两个样本(成组数据)平均数比较的假设检 验,σ12=σ22=(6.9d)2,样本为大样本,用u检验。
(2)因事先不知A、B两方法得到的天数孰高孰低,用 双尾检验。
6
(1)假设 (2)水平 (3)检验
2 e 2 1 2 2
s x1 x2
2 2 se se 10 .005 n1 n2
x1 x2 t 1.916 sx x
1 2
x1 x2 t 1.916 sx x
1 2
df=(n1-1)+(n2-1)=17 t 0.05(17) =2.110 P>0.05
差值样本的平均数等于样本平均数的差值
25
样本差数的方差
s
2 d
第4章统计推断PPT课件
x x (3.41)
t
s x
sn
9
t分布的特征:
(1)曲线左右对称,围绕平均数μt=0向两侧递降。
(2) t分布受自由度df=n-1的制约,每个自由度都有一
条t分布曲线。
(3)和正态分布相比,t分布的顶部偏低,尾部偏高, df〉30时,其曲线接近正态分布曲线,当df→+∞时,则和正态 曲线重合。
拒绝域比较,若没落入,则认为有显著差异,单未 达极显著差异,拒绝H0
若也落入α=0.01拒绝域,则认为差异极显著,拒
绝H0
36
例3.1 已知豌豆重量(mg)服从N(377.2,3.32)。
在改善栽培条件后,随机抽取9粒,籽粒平均重 X =379.2,若标准差仍为3.3,问改善栽培条件是否显 著提高了豌豆籽粒重量?
解:1.小麦的株高是服从正态分布的随机变量
2.假设:
H0: σ=σ0(14cm)
HA: σ<σ0(14cm)
关于备择假设的说明:小麦经过提纯后株高只 能变得更整齐,绝不会变得更离散。即σ只能小于σ0 。因此, HA: σ<σ0
3.显著性水平:规定α=0.01
40
4.统计量的值: 2n 1 0 2S2 ~2n1
正态分布和t分布:双侧检验--取绝对值与分位数 比 ;单侧检验--下单尾是小于负分位数拒绝H0; 上单尾是大于分位数拒绝H0。
χ2分布:下侧分位数和上侧分位数
35
5.计算统计量
把样本观测值代入统计量公式,求得统计量取值 ,检查是否落入拒绝域。
若没落入,则认为无显著差异,接受H0
若落入α=0.05的拒绝域,则应进一步与α=0.01的
10
注: t1(n)t(n) 分位点
生物统计第4章 统计推断
4.1.5 变异性的显著性检验:2检验
一个混杂的小麦品种,株高标准差0 =14cm,经 提纯后随机抽取10株,它们的株高为:90, 105, 101, 95, 100, 100, 101, 105, 93, 97, 考察 提纯后的群体是否比原群体整齐?
1、小麦株高是服从正态分布的随机变量 2、提出假设 关于备择假设的说明:小麦经提纯后只 能变得更整齐,绝不会更离散,即只能 小于0,因此HA:< 0 。
2014-8-4
4.1.5 变异性的显著性检验:2检验(续) 3、显著性水平规定=0.05 4、统计量的值:
5、建立的拒绝域:因HA: < 0 ,故为下尾 单侧检验,当2<21-时拒绝H0 ,从附表6中可 以查ቤተ መጻሕፍቲ ባይዱ29,0.99 = 2.09 6、结论,因2<29,0.99,拒绝H0 ,接受HA , 提纯后株高比原株高整齐。
2014-8-4
小概率原理
在一次试验中,几乎是不会发生的,若根 据一定的假设条件计算出来的该事件发生 的概率很小,而在一次试验中它竟然发生 了,则可认为原假设条件不正确,给予否 定。 在生物统计的显著性检验中,通常取5%或 1%小概率为显著性水平,记为“”
2014-8-4
小概率原理用于显著性检验
2014-8-4
两种类型的错误
–Ⅰ型错误:假设是正确的,却错误地拒绝了它。 犯Ⅰ型错误的概率不会大于 。(以真为假) –Ⅱ型错误:当 0但错误地接受了 = 假设时所犯的错误。(以假为真)
0的
2014-8-4
关于两种类型错误的三点解释
• 当1越接近于0时,犯Ⅱ型错误的概率愈 大;当1越远离0时,犯Ⅱ型错误的概率 愈小。 • 在样本含量和样本平均数都固定时,为了 降低犯Ⅰ型错误的概率 (就应将图5-2 中的竖线右移),必然增加犯Ⅱ型错误的 概率。 • 为了同时降低和就需增加样本含量。
第4章 统计推断
第一节 假设检验的方法 第二节 单个样本平均数假设测验 第三节 两个样本平均数假设测验 第四节 参数的区间估计
学习目的
理解假设检验与区间估计的原理
掌握假设检验的步骤 对实际问题进行统计测验及总体参数估 计
第一节 假设检验的方法
统 计 推 断 的 概 念
总体
抽样分布
样本1
表2 两种栽培方法的地瓜产量 单位(kg/亩)
有机
2722.2
2866.7
2675.9
2169.2
2253.9
2315.1
标准
951.4
1417
1275.3
2228.5
2462.6
2715.4
(一) 成组数据的平均数比较
1. u检验
两个样本总体方差已知,或总体方差未知, 但为大样本时采用 例1 已知早稻佳辐品种σ2=1.35,用A、B两种方 法取样,A取15个样点,平均产量x1=7.69;B法取9 个样点,平均产量x2=8.77。检验两种取样法测得
t = d sd
[例4-7] 选生长期、发育
进度、植株大小和其他方
面皆比较一致的两块地的 红心地瓜苗配成一对,共 有6对。每对中一块地按 标准化栽培,另一块地进
表 两种栽培方法的地瓜产量 单位(kg/亩)
有机 2722.2 2866.7 2675.9 2169.2 2253.9 2315.1
标准 951.4 1417 1275.3 2228.5 2462.6 2715.4
两尾测验与一尾测验
假设 双尾测验 左尾测验 右尾测验
H0 HA
μ=μ0 μ≠μ0
μ≥μ0 μ<μ0
μ≤μ0 μ>μ0
第四章 统计推断
.
二、双侧检验与单侧检验 (一)双侧检验 H0:µ =µ 0, HA:µ ≠ µ 0 H0的拒绝域 :|U| > ua/2 ; H0的接受域: |U| < ua/2 。(见图示) (二)单侧检验 H0:µ =µ 0, HA:µ < µ 0 或 HA:µ > µ 0 1、下尾检验 H0:µ =µ 0, HA:µ < µ 0 H0的拒绝域 :U< -ua ;
.
u=
x m0
s
x
s s x = n
.
10.23 10 u= = 3.15 0.40 30
根据u值的大小,即可判定假设H0:µ=µ 0 ( m =10㎏)是否正确?
.
.
.
查附表2,实得u=3.15值对应的概率p< 0.05。表明0.23Kg差异属于抽样误差的概 率小于5%。 (三)根据小概率事件实际不可能性原理, 推断 H0是否正确。 判定假设H0是否正确的小概率标准称为
.
2 s1 193.4 F = 2 = = 0.206 s2 937.7
.
④H0的拒绝域:因为是下尾检验,当F<F0.95时拒 绝 H 0。
F19,19,0.95 =
.
1 F19,19,0.05
2 n 1 s 10 124.23 2 = = = 1.113
.
.
14 2 ④H0的拒绝域:当a=0.01时,拒绝域为2 <20.99 从附表6中查出20.99,9=2.088 。
s 02
⑤结论:因实得2 < 2.088 ,P < 0.01,所以拒 绝H 。推断经过提纯后株高已变得非常整齐。
s F = s
2 1 2 2
统计学第四章 统计推断1
求解似然方程
ˆ
1 1 7 i1 xi x 4
27
7
27
【例】总体均匀分布 X ∼ U(a,b),其中,a,b 是未知参数。设 X1,..., X n 为来自该总体的随机样本, x1 ,..., xn 为样本观察值,求未知参 数 a,b 的极大似然估计
1 x [a, b] b a f (x, a, b) 解:总体服从均匀分布,即 0 x [a, b]
ˆ X,
n n 1 1 ˆ 2 X i2 X 2 ( X i X ) 2 . n i 1 n i 1
16
16
例总体X的概分布为
X
1
1
2
„
1 „
θ
1
试求未知参数θ的估计量。
pi
E ( X ) 1
1 1 1 1 1 (1 ) (1 ) 2 (1 2 ) [ ] 2 2
12
(一) 矩估计法
统计学中,矩是指以期望值为基础而定 义的数字特征,如数学期望、方差、协方差等。 矩估计法是英国统计学家K.皮尔逊最早提 出来的,其理论基础是大数定理。 设X为随机变量,对任意的正整数k ,称E(Xk)、
E[(X-EX)] k分别为随机变量X的k 阶原点矩和k 阶中心矩。
由样本矩去估计总体矩的方法称为矩估计法; 由矩估计法得到的估计量称为矩估计量。
13
k E ( X ) 存在,则 由大数定律,若总体 k 阶原点矩
1 n k lim P X i E ( X k ) 0 n ,即样本的 n i 1
k 阶原点矩依概率收敛于总体
k k E ( X ) E ( X ) 知时,自然会想到用子样 k 阶 k 阶原点矩 ,所以当
第4章 统计推断 120
H0
1 2
1 2 1 2
H1
1 2
1 2 1 2
医学统计学
12
三 、双尾检验与单尾检验
2
否定区 接受区
2
否定区
双尾 检验
接受区 否定 区
单尾 检验
二 、假设检验的步骤
2.确定检验水准 检验水准(size of a test)亦称显著 性根水据准选(定sig的ni显fic著an性ce水le平ve(l)0,.0符5或号0为.0α1。),决定接受 还它是是拒判绝别H差0. 异有无统计意义的概率水准,其大小 应根据分析的要求确定。通常取α= 0.05。
u值。
医学统计学
15
二 、假设检验的步骤
4.确定概率P值 P值是指在H0所规定的总体中作随机抽样,获得等于
或及的样大前本于提(下间出或的小现差于观异)察由样现抽有本样统以误计及差更量所的极致概端的率情概。况即的率概在。率H0为。真
│t│≥ tα,υ ,则P≤ α;
可以认为差别不由抽样误差引起,可以拒绝H0
医学统计学
14
二 、假设检验的步骤
3.选定检验方法和计算统计量
的根选检据验择研方究法适设。计当如的完类的全型随统和机统计设计计推方中断,法的两目计样的本要算均求数H选的用0比不较同 可不成同用的t立检统验计的,检样可验本方能含法量,性较可大即得时到(概不n同>率1的00有统)计,可多量用,大Z如检t验值。和
假设检验的原理
反证法:当一件事情的发生只有两种可能A和B, 为了肯定其中的一种情况A,但又不能直接证实A, 这时否定另一种可能B,则间接的肯定了A。
小概率原理:概率很小的事件在一次抽样试验中
统计学 第四章 推断统计概述
第四章 推断统计概述第一部分 概率论基本知识← 一、概率的定义;二、概率的性质;三、概率的加法定理和乘法定理← 四、概率分布类型四、概率分布类型← 概率分布(probability distribution )是指对随机变量取不同值时的概率的描述,一般用概率分布函数进行描述。
← 依不同的标准,对概率分布可作不同的分类。
1、离散型分布与连续型分布← 依随机变量的类型,可将概率分布分为离散型概率分布与连续型概率分布。
← 教育统计学中最常用的离散型分布是二项分布,最常用的连续型分布是正态分布。
2、经验分布与理论分布← 依分布函数的来源,可将概率分布分为经验分布与理论分布。
← 经验分布(empirical distribution )是指根据观察或实验所获得的数据而编制的次数分布或相对频率分布。
← 理论分布(theoretical distribution )是按某种数学模型计算出的概率分布。
3、基本随机变量分布与抽样分布← 依所描述的数据的样本特性,可将概率分布分为基本随机变量分布与抽样分布(sampling distribution )。
← 基本随机变量分布是随机变量各种不同取值情况的概率分布,← 抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。
第二部分 几种常见的概率分布← 一、二项分布← 二项分布(binomial distribution )是一种具有广泛用途的离散型随机变量的概率分布,它是由贝努里创始的,因此又称为贝努里分布。
← 2.二项分布函数← 二项分布是一种离散型随机变量的概率分布。
← 用 n 次方的二项展开式来表达在 n 次二项试验中成功事件出现的不同次数(X =0,1…,n )的概率分布,叫做二项分布函数。
← 二项展开式的通式(即二项分布函数):← ←← ← ←← 成功概率 p ;样本容量 n← 在成功概率为p 的总体中随机抽样,抽取样本容量为n 的样本中,有X 次为成()011111100q p C q p C q p C q p C q p n n n n n n n n n n n ++++=+---Λ()Xn X X n X q p C P -⋅⋅=()X n X q p X n X n -⋅-=!!!功的概率: ←(X =0,1…,n ) ←称X 服从参数为n ,p 的二项分布,记为: ←X ~B(n ,p ) 其中,0<p<1 ←二项分布的性质 ←二项分布有如下性质: ←①当p=q 时,图形是对称的。
第四章统计推断
第四章统计推断第四章统计推断⼀、单项选择题1.⽆偏估计是指()。
A、本统计量的值恰好等于待估的总体参数B、所有可能样本估计值的数学期望等于待估总体参数C、样本估计值围绕待估参数使其误差最⼩D、样本量扩⼤到和总体单元相等时与总体参数⼀致2.当样本容量⼀定时,置信区间的宽度()。
A、随着置信⽔平的增⼤⽽减⼩B、随着置信⽔平的增⼤⽽增⼤C、与置信⽔平的⼤⼩⽆关D、与置信⽔平的平⽅成反⽐3.95%的置信⽔平是指()。
A、总体参数落在置信区间内的概率为95%B、总体参数落在置信区间内的概率为5%C、总体参数落在⼀个特定的样本所构造的区间内的概率为5%D、在⽤同样⽅法构造的总体参数的多个区间中,包含总体参数的⽐率为5%4.从⼀个正态总体中随机抽取⼀个容量为n的样本,其均值和标准差分别为50和8。
当n=25 时,构造总体均值µ的95%置信区间为()。
A、50±3.14B、50±3.3C、50±0.63D、50±3.295、将由显著性⽔平所规定的拒绝域平分为两部分,置于概率分布的两边,每边占显著性⽔平的⼆分之⼀,这是()。
A.单侧检验B.双侧检验C.右单侧检验D.左单侧检验6.在假设检验问题中,原假设为H0,给定显著性⽔平为α,则正确的是()。
A、P(接受H0|H0正确)=αB、P(拒绝H0|H0正确)=αC、P(接受H0|H0不正确)=1-αD、P(拒绝H0|H0不正确)=1-α7.下列说法正确的是()。
A、原假设正确的概率为αB、如果原假设被拒绝,就可以证明备择假设是正确的C、如果原假设未被拒绝,就可以证明原假设是正确的D、如果原假设未被拒绝,也不能证明原假设是正确的8.若检验的假设为H0:µ=µ0,H1:µ≠µ0,则拒绝域为()。
A、z>zαB、zC、z>zα/2或z<-zα/2D、z>zα或z<-zα9.若假设形式为H0:µ≥µ0,H1:µ<µ0,当随机抽取⼀个样本,其均值⼤于µ0,则__________()。
第四章统计推断
概率。从样本平均数的 抽样分布入手。
第三章里讲到:
x
~
N (x
,
2 x
),
其中 x
, x
n
所以,u x x x ~ N (0,1) x / n
在本题中, x 308, 300, 9.5, n 9,带入上式得到
从本题中样本观察到的 u 308 300 2.526 9.5 / 9
5 总结:假设检验的基本程序
(a)根据题意,书写零假设H0和备择假设HA (b)确定检验所需的统计量,如u统计量,t统计量等,并计 算其数值 (c)根据备择假设确定拒绝域 (d)如果统计量的值落在拒绝域内,则否定H0接受HA,如果 统计量的值落在拒绝域外,则不否定H0
第二节 样本平均数的假设检验
用来否定或接受零假设的小概率标准称为显著性水平,记 为α。在生物学研究中,常取α=0.05,称为显著;或α= 0.01,称为极显著。
在例一中, 0.05,因为尾区概率 P(| u | 2.562) 0.014 ,所以否定H0。
u (双侧) u /2 1.96
这一推断过程等同于将u 2.562同 0.05的
(三)假设检验的两类错误
(1)第一类错误:若客观上H0为真,我们 的结论却是“拒绝H0”,就会犯第一类错误。
犯第一类错误的概率恰好等于显著水平α。
(2)第二类错误:若客观上H0为假,而我 们的结论却是“不拒绝H0”,就会犯第二类
错误。第二类错误的概率用β表示。凡是有
利于做出“拒绝H0”的结论的措施,都能降
但是,在我们的实验中确实得到了现有的样本,这只能说明H0成立 的前提是错误的。因此,我们在显著性水平为0.05的情况下,否定 H0,而接受HA。所以这种药剂对玉米单穗重有显著的影响。
第四章 统计推断-
1、总体方差σ2已知,无论n是否大于30都可采用u检验法
例:某鱼场按常规方法所育鲢鱼一月龄的平均体长为7.25cm,
标准差为1.58cm,现采用一新方法进行育苗,一月龄时随机抽 取100尾进行测量,其平均体长为7.65cm, 问新育苗方法与常规方法有无显著差异?
分 析
(1)这是一个样本平均数的假设检验,因总体σ2已知 采用u检验; (2)新育苗方法的鱼苗体长≥ 或≤常规方法鱼苗体长, 应进行双尾检验。
检验治疗后的总体平均数是否还是治疗前的126(mg/L)?
H0:μ=μ0 =126(mg/L)
HA:μ ≠μ
0
本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样, 二者来自同一总体,接受零假设则表示克矽平没有疗效。 而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数 和治疗前的平均数来自不同总体,即克矽平有疗效。
双尾 检验 分位数
u 0.05=1.96 u 0.01=2.58
>
否定区
接受区
否定区
接受区
否定区
单尾 检验 分位数
u 0.05=1.64 u 0.01=2.33
查表求正态离差时,单尾概率等于双 尾概率乘以2
四 、两类错误
第一类错误(type I error),H0正确,假设检验却 否定了它,又称弃真错误或 错误; 第二类错误( type II error ) , H0错误,假设检 验却接受了它,又称纳伪错误或 错误
2 、 确定显著水平
能否定H0的人为规定的概率标准称为显著水平,记作。 统计学中,一般认为概率小于0.05或0.01的事件为 小概率事件,所以在小概率原理基础上建立的假设检验 也常取=0.05和=0.01两个显著水平 。
第四章-多元正态分布的统计推断
y)2
( y k ni
i1 j1
ij
yi )2
( y k ni
i1 j1
ij
y)2
k 1 nk n 1
SS A k 1 SSe nk
—
SSA SSe k 1 n k
—
—
NEXT
查F分布表得临界值
F0.05(2,18) 3.554 F0.01(2,18) 6.013
a1 i1
a1 i1
由于交叉乘积项为零,故
组间叉积矩阵+组内叉积矩阵=总叉积矩阵
组内叉积矩阵:主要由随机因素构成
k na
SSE
(xi(a) x (a) )(xi(a) x (a) )
a1 i1
组间叉积矩阵:主要由系统因素构成
k
SS (TR) na (x (a) x )(x (a) x ) a1
故可以将霍特林分布的统计量换算成F统计量。
对给定的显著性水平α,检验的规则
nk k(n 1)
T
2
F
(k , n
k ), 拒绝原假设
nk k(n 1)
T
2
F
(k , n
k ), 接受原假设。
某地区农村男婴的体格测量数据如下
编号 1
身高(cm) 78
胸围(cm) 60.6
上半臂长(cm) 16.5
i j (i j,i, j 1,2, , k)
因而还应该进一步讨论到底是哪些总体之间存在差异。
Scheffe检验
H0 : i j (i j,i, j 1,2, , k) H1 : i j (某些i j)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
80名
小郑
1720
求全班学生的平均月支出
测算每一名学生的月支出 ?
根据部分学生月支出推断 全体学生平均月支出
在相同条件下,对80名学生进行5次 重复的、独立的抽样(或观测), 结果见下表
姓名
月支出(元)
小张
小王 小赵 小蔡 小唐
1120
1320 1870 1600 1740
x 1530
估计认为全班80名学生的月均支出 为1530元。
p
某学校进行了一次全校性英语测试,为了了解考 试情况,从参加测试的1000名学生中,随机重复 抽选了10%进行调查,所得的分配数列如下:
测试成绩 学生数 60以下 10 60-70 20 70-80 22 80-90 40 90以上 8
试以95.45%的置信度估计: (1)该校1000名学生英语平均成绩的估计区间 (2)成绩在80分以上学生所占比重的估计区间
●由于总体参数未知,无法计算其实际抽样 误差。只能从样本的角度,根据样本估计量 的抽样分布来计算其抽样的平均误差程
度。
●在计算抽样误差时常常假设不存在登记性 误差和系统误差。
(二)抽样误差大小的影响因素
(1)总体各单位标志值的变异程度。在其他条件 不变的情况下,总体各单位标志值的变异程度愈 大,抽样误差也愈大,反之则愈小。 (2)样本单位数的多少。在其他条件不变的情况 下,样本单位数愈多,抽样误差就愈小,反之则 愈大。 (3)抽样方法。抽样方法不同,抽样误差也不同。 (4)抽样的组织形式。选择不同的抽样组织形式, 也会有不同的抽样误差。
(三)抽样平均误差的两种形式
(1)在重置抽样条件下: 样本平均数误差 x x 样本成数误差 P P
x
n P(1 P) n
x:样本标准差 n:样本个数 P:样本成数
在有限总体中,一般都是重置抽样
(2)在非重置抽样条件下: 样本平均数误差 1 n N n 样本成数误差
4. 置信区间: X:x 即:
t, x t x n n
在某工地抽查144名工人,测得每人平均挖土4.95m 3,
2 2.25,试以95.45%的概率推断全部工人的平均挖土量。
解:由题意得, x 4.95, 1.5,n 144 1.5 0.125 n 144 由置信度为95.45%得t 2, t 0.125 2 0.25 置信区间可写为:(x x ) 5.2) 即(4.95-0.25 4.95+0.25 )=(4.7
解: 13 (1)n=100 p= =0.13 100 P:p- p, p p 即 6.2% P 19.8 %
2 ( 2) p =p(1-p)=0.13 0.87=0.1131
0.1131 = = = 0.034 = 3.4% 100 n p 6.8% =2 p= t t= = 3.4% F (2)=0.9545
40 8 已知n=100,p= 0.48, 1 p 0.52 100 p(1 p) 0.48 0.52 p 0.05 n 100 p t 0.05 2 0.1 置信区间为(p- p+)=(0.48-0.1 0.48+0.1) 即(0.38 0.58) 在95.45%的概率保证下,1000名学生成绩 在80分以上的比重在38%至58%之间。
置信区间越大
( 0分
100分)
置信度越高
100%
抽样推断的精确度就越低
精确度为0
第二节
抽样误差
一、误差的构成
抽 样 中 的 误 差 登记性 误差
系统性 误差 抽样 误差
实际误差 抽样平均误差
代表性 误差
(一)抽样误差
抽样误差是由于抽样的随机性而产生的样本 指标(如样本平均数)与总体指标(如总体 平均数)之间的代表性误差。 如:样本平均数-总体平均数
x p
n p(1-p) n
第四节 区间估计
学生姓名 小张 小刘 小李 小王 小赵 小黄 小谭 小杜 小蔡 小唐 小高 小许 小卢 小吴
月支出(元) 1120 1980 1500 1320 1870 1390 1700 1380 1600 1740 1760 1850 1780 1670
人事经理
销售和营销经理 广告和公关经理 采购经理 研究和开发经理 石油工程技术人员 化工工程技术人员 电子仪器与测量技术人员
13.1960
15.2436 15.2718 12.0846 19.0520 10.6693 9.3447 3.3389
第四章 统计推断
第一节 置信度与置信区间
一、置信度也称为置信水平,它是指总体 参数真值落在样本估计值某一区间内的 概率(把握性程度)。它反映的是抽样 推断的可靠性程度。 如:以100%的概率保证统计学考试成绩在 (0分 100分) 以5%的概率保证英语六级考试成绩在 (480分 490分)
二、置信区间指的是样本估计值的波动范围, 置信区间反映的是抽样的精确性程度。
例题
设要检验10000件某产品的质量,现随机抽 取100件,发现其中有25件废品,求抽样平 均误差。
解: 25 p= =0.25 100 2 p=p(1 p)=0.25 0.75=0.1875 0.1875 p= n 100 =4.3%
p
四、抽样的实际误差
抽样实际误差是指样本指标和总体 指标之间抽样误差的可能范围。
在1530元上下浮动的一个区间内。
点估计和区间估计
(一)点估计 当总体参数不清楚时,用一个特定值(一
般用样本统计量)对其进行估计,称为点估 计。如:用样本均值代替总体均值,用样本 2 离差 ( )代替总体方差 ( ) 2 S 点估计从总体抽取一个样本,根据该样本的 观察值对总体指标作出一个数值点的估计 。
n 100 0.208 P 0.392
第五节 总方差、组内方差与组间方差
2005年南京市企业主要岗位高级别工资指导价位(万元)
财务经理 企业经理(厂长) 生产或经营经理 行政经理 17.2074 24.6347 15.0087 10.9362 计算机应用工程技术人员 电气工程技术人员 通信工程技术人员 建筑工程技术人员 13.6300 10.9897 15.6587 6.7116
●总体成数区间估计
()样本成数 1 f' p f
(2)抽样平均误差
p
p
n
p(1 p) n
(3) 实际误差 p pt
(4)区间估计 P: p p
例题
对某批产品的质量进行 检验,现随机抽取10 0件, 发现其中有13件废品 ,在极限误差不超过6 .8%的条件 下,试求该批产品的不 合格率的范围及相应的 概率。
修正因子
P
P (1 P ) n (1 ) n N
其中,N:总体单位数;
:样本标准差;
n:样本单位数 p: 样本成数
例某公司出口一种名茶,规定每包规格重量不
低于150g,现用简单随机抽样方法抽取其中1% 进行检验,结果如下:
每包重量g 包数
148—149 149—150 150—151 151—152
X
x t / n
2
f (t)
x X t / n
1-
t (n 1)
2
0
t (n 1)
2
t
当t (n 1) 1.96时,查表得:1- 95%
x 1.96 / n x 2 / n
2
2
X
x 1.96 / n x 2 / n
二、抽样误差的度量
抽样实际误差 抽样平均误差 抽样实际误差是指在某一次抽样中,由随机 因素引起的样本指标与总体指标之间的数量 差异,常用R表示。 平均数的实际误差 Rx X x
成数的实际误差
Rp P p
三、抽样平均误差
(一)抽样推断理论基础:中心极限定理
当总体X服从正态分布时:X N(X, 2 ),
作业
从1000名学生中按理论抽样法抽取100人进行分析, 资料如下: 2 成绩 样本数目 (x x) f
60分以下 60—70 70—80 80—90 90分以上
合计
10 20 40 20 10
100
4000 2000 0 2000 4000
12000
求:(1)样本成绩的平均抽样误差。 ( 2 )以 F ( 1.96 ) =95% 的置信度估计全部学生 的平均成绩。 (3)以F(2 ) =95.45%的置信度估计全部学生中 80分以上学生所占的比重。
◆全班中抽取10名学生,算出平均月支出额为 1530元,据此认为估计认为全班80名学生的 月均支出为1530元
(二)区间估计
区间估计就是根据样本估计量以一定可靠程 度推断总体参数所在的区间范围。 如:在一定置信度下 X在区间( x-x x+x)
◆在95%的置信度下,估计认为全班80名学生的月 均支出为 (1530元-30元 1530元+30元)
解:先求出各组组中值,再开展以下步骤 xf x 76.6分 f ( x x) f = 11.38 f
i i i 2 i i i
11.38 1.14 n 100 由于置信度为95.45%,故临界值t 2 t 1.14 2 2.28 置信区间为(x x )=(76.6-2.28 76.6+2.28) 即(74.32 78.88) 在95.45%的概率保证下,该校学生英语测验的平均成绩 在74.32分至78.88分之间。
xf 解:( 1 )x 75, f n (2) t 2.15 (3) p 0.3,