统计学第五章 统计推断(1)
统计学 第五章
第五章 抽样推断抽样推断定义:是一种非全面调查,是按随机原则,从总体中抽取一部分单位进行调查,并以其结果对总体某一数量特征作出估计和推断的一种统计方法。
(一) 总体和样本在抽样推断中面临两个不同的总体,即全及总体和样本总体,全及总体也叫母体,简称总体。
全及总体的单位数用N 表示全及总体⎪⎩⎪⎨⎧⎩⎨⎧属性总体有限总体无限总体变量总体样本总体又叫抽样总体、子样,简称样本,样本总体的单位数称样本容量,用n 表示。
(二) 参数和统计量参数亦称全及指标,由于全及总体是唯一确定的,故根据全及总体计算的参数也是个定值 对于属性总体,可以有如下参数,全及总体成数p ,全及总体标准差)(2p p σσ方差 属性总体标准差:()p p p-=1σ统计量即样本指标设样本总体有n 个变量:n x x x x ,...,,,321 则:样本平均数 nx x ∑=(三) 样本容量与样本个数样本容量是指一个样本所包含的单位数,用n 来表示,一般地,样本单位数达到或超过30个的样本称为大样本,而在30个以下称为小样本。
社会经济统计的抽样推断多属于大样本,而科学实验的抽样观察则多取小样本。
样本个数又称样本可能数目,是指从全及总体中可能抽取的样本的个数。
一个总体可能抽取多少样本,与样本容量大小有关,也与抽样的方法有关。
在样本容量确定之后,样本的可能数目便完全取决于抽样方法。
抽样误差是抽样调查自身所固有的,不可避免的误差,虽然不能消除这种误差,但有办法进行计算,并能对其加以控制。
抽样平均误差越大,表示样本的代表性越低;抽样平均误差越小,表示样本的代表性越高。
在重复简单随机抽样时,样本平均数的抽样分布有数学期望值E(a)=a(a代表全及总体平均数,即X)X⇔。
样本平均数的平均数=总体平均数抽样平均误差=抽样标准误差=样本平均数的标准差(它反映抽样平均数与总体平均数的平均误差程度)例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用重复简单随机抽样的方法从全及总体中抽选出容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(15501700160015001400元=+++=X全及总体标准差()4500002=-=∑NX Xσ抽样平均误差x μ=nnσσ=2=)(0569.792*450000元=例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用不重复简单随机抽样的方法从全部总体中抽选容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(155041700160015001400元=+++==∑NXX全及总体标准差()4500002=-=∑NX Xσx μ=⎪⎭⎫ ⎝⎛--∙12N n N n σ=)(55.6414244*250000元=--∙例题:某电子元件厂,生产某型号晶体管,按正常生产试验,产品中属于一级品的占70%,现在从10000件晶体管中,抽取100件进行抽查检验,求一级品率的抽样平均误差? 解:已知:P=0.7 , P(1-P)=0.21在重复抽样的情况下,抽样平均误差为:()np p p -=1μ=%58.410021.0=在不重复抽样的情况下,抽样平均误差为:()⎪⎭⎫⎝⎛-∙-=N n n p p p 11μ=%56.410000*********.0=⎪⎭⎫ ⎝⎛-∙参数估计()()⎪⎪⎩⎪⎪⎨⎧→-==+≤≤是概率度是置信度,极限误差)样本指标总体指标极限误差—(样本指标区间估计:求不高的情况准确程度与可靠程度要点估计:适用于推断的t t F t F P α1例题:已知某车间某产品的合格率在某个置信度下的估计区间是(85%,95%),还已知样本容量为100,求置信度?解:显然p p ∆-=85%,p p ∆+=95%,即p=90%,p ∆=5%p ∆=μ⋅t μpt ∆=⇒=()()67.1100%901%90%51=-∙=-∆np p p ()t F =0.9052即置信度为90.51% ★求置信度,只需要求出t影响抽样数目的因素⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧∆样本单位不重置抽样可以少抽些单位,抽样需要多抽一些样本、在同等条件下,重置单位,则反之值越大,则多抽些样本、概率度则反之单位,的值大可以少抽些样本)、允许误差(极限误差越多,则反之值越大,必要抽样数目、总体标准差4321t x σ例题:某城市组织职工家庭生活抽样调查,职工家庭平均每户每月收入的标准差为11.50元,要求把握程度为95.45%,允许误差为1元,问需抽选多少户? 解:()t F =0.95452=⇒t , 元元,150.11=∆=x σxt n 222∆=σ=()户529150.1142=∙。
第05章 统计推断
单侧检验 α=0.05或0.01 统计推断 第五章
§5.1 单个样本的统计假设检验
5.1.2 单个样本的显著性检验程序
统计假设检验的三步曲: 1、建立零假设(null hypothesis)——假设差异不显著或无关; 2、计算统计量(u-检验,t-检验,x2-检验,F-检验);
3、判断假设。 对于带备择假设的零假设:需根据备择假设的拒
F
s , df n 1, df n 1 s
下侧临界点F1-α的 值,按右式计算
解释: F< F0.05,或P>0.05,接受H0; F> F0.05,或P<0.05,拒 Fdf1,df2,α,df 1附表7中没有给出 df 2为分母自由度 为分子自由度, 1 绝H0, ② F < F 1-α
s ③HA:μ≠μ0,包括μ>μ0和μ<μ0 此时相应各备择假设的H0的拒绝域分别为:
①t > tα解释: t<t0.05,接受H0; t>t0.05,拒绝H0 ②t < -tα ③|t| > tα/2,或表示为|t| > tα(两侧)
t n 1
n
第五章 统计推断
§5.1 单个样本的统计假设检验
379.2 377.2 u 1.82 3. 3 n 9 由于u 1.82 u0.05 1.645 ,所以拒绝H0假设、接受HA。
即栽培条件的改善显著地提高了豌豆籽粒重量。
x 0
第五章 统计推断
§5.1 单个样本的统计假设检验
5.1.4 σ未知时平均数的显著性检验——t 检验(t-test) 检验的程序: (1)零假设H0:μ=μ0 备择假设:①HA:μ>μ0,若已知μ不可能小于μ0 (2)计算统计量: x 0 (3)判断统计量: ②HA:μ<μ0,若已知μ不可能大于μ0
《统计学原理》第5章:抽样推断
σ
n )
抽样推断的基本原理
抽样推断的优良标准
设θ 为待估计的总体参数, θ为样本统计量,则 θ的优良标 准为: 1若 E(θ ) =θ ,则称 θ为 θ 的无偏估计量(无偏性)
更有效的估计量(有效性) 2若σθ1 < σθ2,则称θ1为比θ2
3若 越大σθ 越小,则称 θ 为θ 的一致估计量(一 致性)
即中选成分相同但中选顺序不同的视为同一样本
抽样推断的一般问题
抽样组织方式
简单随机抽样 类型抽样 整群抽样 等距抽样 多阶段抽样 多重抽样
抽样推断的一般问题
样本可能数目
按照一定的抽样方法和组织方式,从总体N中抽取n个 单位构成样本,一共可以抽出的不同样本的数量,一般 用M表示. 考虑顺序的不重复抽样 考虑顺序的重复抽样 不考虑顺序的不重复抽样 不考虑顺序的重复抽样
抽样推断的一般问题
全及总体指标:参数 (未知量) 统计推断 样本总体指标:统计量 (已知量)
抽样推断的一般问题
抽样推断的特点 按随机原则抽取样本 运用概率论的理论和方法,用样本指标来推断 总体指标。 推断的误差可以事先计算和控制。
抽样推断的一般问题
抽样推断的应用 无法或 很难进行全面调查而又需要了解 其全面情况时 某些可以采用全面调查的社会经济现象, 也可采用抽样推断。 可用于生产过程的质量控制 进行假设检验
抽样推断的基本原理
抽样推断的优良标准——有效性 中位数的抽样分布
9 8 7 6 5 4 3 2 1 0 -1 45 50 55 60 65 70 75
平均数的抽样 分布
E(x) =
E ( me ) =
e
σx <σm
抽样推断的基本原理
统计推断的基本解法
统计推断的基本解法统计推断是统计学的重要分支,用于从样本中推断总体特征。
在统计分析中,我们通常使用一些基础的解法来进行统计推断。
本文将介绍一些常用的基本解法。
点估计点估计是一种基本的统计推断方法,用于估计总体参数的值。
在点估计中,我们通过样本数据得到一个点估计量,作为总体参数的估计值。
例如,常见的点估计方法包括样本均值、样本方差和样本比例等。
区间估计区间估计是一种更精确的统计推断方法,用于估计总体参数的范围。
在区间估计中,我们通过样本数据得到一个区间估计量,包含了总体参数真值的可能范围。
例如,常见的区间估计方法包括置信区间和可信区间等。
假设检验假设检验是一种常用的统计推断方法,用于验证关于总体参数的假设。
在假设检验中,我们首先提出一个原假设和一个备择假设,然后使用样本数据来判断哪个假设更为合理。
例如,常见的假设检验方法包括单样本检验、双样本检验和方差分析等。
相关分析相关分析是一种用于研究变量之间关系的统计推断方法。
在相关分析中,我们通过计算相关系数来衡量变量之间的相关程度。
例如,常见的相关分析方法包括皮尔逊相关系数和斯皮尔曼相关系数等。
回归分析回归分析是一种用于预测和探索变量之间关系的统计推断方法。
在回归分析中,我们使用回归方程来建立变量之间的函数关系,并通过回归系数来解释这种关系。
例如,常见的回归分析方法包括线性回归和逻辑回归等。
综上所述,统计推断的基本解法包括点估计、区间估计、假设检验、相关分析和回归分析等。
这些方法在统计学领域中被广泛应用,帮助我们从样本中推断总体的特征和关系。
统计学原理第五章习题
《统计学原理》第五章习题河南电大贾天骐一.判断题部分题目1:从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本。
()答案:×题目2:在抽样推断中,全及指标值是确定的、唯一的,而样本指标值是一个随机变量。
()答案:√题目3:抽样成数的特点是:样本成数越大,则抽样平均误差越大。
()答案:×题目4:抽样平均误差总是小于抽样极限误差。
()答案:×题目5:在其它条件不变的情况下,提高抽样估计的可靠程度,则降低了抽样估计的精确程度。
()答案:√题目6:从全部总体单位中抽取部分单位构成样本,在样本变量相同的情况下,重复抽样构成的样本个数大于不重复抽样构成的样本个数。
()答案:√题目7:抽样平均误差反映抽样误差的一般水平,每次抽样的误差可能大于抽样平均误差,也可能小于抽样平均误差。
()答案:√题目8:在抽样推断中,抽样误差的概率度越大,则抽样极限误差就越大于抽样平均误差。
()答案:√题目9:抽样估计的优良标准有三个:无偏性、可靠性和一致性。
()答案:×题目10:样本单位数的多少与总体各单位标志值的变异程度成反比,与抽样极限误差范围的大小成正比。
()答案:×题目11:抽样推断的目的是,通过对部分单位的调查,来取得样本的各项指标。
()答案:×题目12:用来测量估计可靠程度的指标是抽样误差的概率度。
()答案:√题目13:总体参数区间估计必须具备三个要素即:估计值、抽样误差范围和抽样误差的概率度。
()答案:×二.单项选择题部分题目1:抽样平均误差是()。
A、抽增指标的标准差B、总体参数的标准差C、样本变量的函数D、总体变量的函数答案:A题目2:抽样调查所必须遵循的基本原则是()。
A、准确性原则B、随机性原则C、可靠性原则 C、灵活性原则答案:B题目3:在简单随机重复抽样条件下,当抽样平均误差缩小为原来的1/2时,则样本单位数为原来的()。
统计学第5章抽样推断
任 何 抽 样 误 差 因 素 。 即 用 x直 接 代 表 X , 用 p 直 接 代 表 P。
例 在 全 部 产 品 中 , 抽 取 100件 进 行 仔 细 检 查 , 得 到 平 均 重 量 x1002克 , 合 格 率 p98% , 我 们 直 接 推 断 全 部 产 品 的 平 均 重 量 X 1002克 , 合 格 率 P 98% 。
(1)
2
n
(1 )
12 2 (1
100
) 1.19 (千克 )
x
n
N
100 10000
(2) 若以概率 95.45%(t 2)保证,该农场 10000 亩小麦的平均
亩产量的可能范围为:
X : x 400 2 1.19 x
X (: 397 .62 ,402.38 ) (3) 若以概率 99.73%(t 3)保证,该农场 10000 亩小麦的平均
在重复抽样情况下:
p (1 p )
p
n
在不重复抽样情况下:
p (1 p ) n
(1 )
p
n
N
例
某玻璃器皿厂某日生产15000只印花玻璃 杯,现按重复抽样方式从中抽取150只进行 质量检验,结果有147只合格,其余3只为不 合格品,试求这批印花玻璃杯合格率(成数) 的抽样平均误差。
N15000n150
二、区间估计
根据样本指标和抽样误差去推断全及 指标的可能范围,它能说清楚估计的准 确程度和把握程度。
总体平均数和总体成数的估计
X :(x x, x x)
1的概率保证下:x tx
P:(pp, pp)
1的概率保证下: p tp
应用统计学(第五章 统计推断)
检验统计量: χ2 (n 1) s2 σ02
例题5 已知某农田受到重金属污染,抽样测定其镉含量
(μg/g)分别为:3.6、4.2、4.7、4.5、4.2、4.0、3.8、
3.7,试检验污染农田镉含量的方差与正常农田镉含量的方 差0.065是否相同。
解:假设 H0:σ 2 σ02 , H A:σ 2 σ02
P(μ-1.960 σ x ≤ x < μ+1.960 σ x)=0.95
否定区
接受区
否定区
左尾
0.025
μ-1.960σ x
0.95
0.025
0 μ+1.960σ x
右尾
临界值: ± uσ x= ± 1.960σ x
双尾检验 = 0.01
P(μ-2.576 σ x ≤ x < μ+2.576 σ x)=0.99
解: 假设: H0: μ ≤ μ0, HA : μ > μ0 确定显著水平:α=0.05 检验统计量:u x μ0 379.2 377.2 1.818 σ n 3.3 9 u0.05=1.645,计算得:u=1.818>u0.05,P<0.05
推断:否定H0,接受HA。
即:栽培条件的改善,显著提高了豌豆籽粒重量。
4)推断
接受/否定H0(HA,实际意义)
例题1 正常人血钙值服从的正态分布,平均值为2.29 mM,标准差为 0.61mM。现有8名甲状旁腺减退患者经治疗后,测得其血钙值平均为 2.01mM,试检验其血钙值是否正常。
1)提出假设 2)确定显著水平 3)计算概率 4)推断
1)提出假设
H0
零假设 /无效假设
对 /检验假设
统计学第五章课后题及答案解析
第五章一、单项选择题1.抽样推断的目的在于( )A.对样本进行全面调查 B.了解样本的基本情况C.了解总体的基本情况 D.推断总体指标2.在重复抽样条件下纯随机抽样的平均误差取决于( )A.样本单位数 B.总体方差C.抽样比例 D.样本单位数和总体方差3.根据重复抽样的资料,一年级优秀生比重为10%,二年级为20%,若抽样人数相等时,优秀生比重的抽样误差( )A.一年级较大 B.二年级较大C.误差相同 D.无法判断4.用重复抽样的抽样平均误差公式计算不重复抽样的抽样平均误差结果将( )A.高估误差 B.低估误差C.恰好相等 D.高估或低估5.在其他条件不变的情况下,如果允许误差缩小为原来的1/2,则样本容量( )A.扩大到原来的2倍 B.扩大到原来的4倍C.缩小到原来的1/4 D.缩小到原来的1/26.当总体单位不很多且差异较小时宜采用( )A.整群抽样 B.纯随机抽样C.分层抽样 D.等距抽样7.在分层抽样中影响抽样平均误差的方差是()A.层间方差 B.层内方差C.总方差 D.允许误差二、多项选择题1.抽样推断的特点有()A.建立在随机抽样原则基础上 B.深入研究复杂的专门问题C.用样本指标来推断总体指标 D.抽样误差可以事先计算E.抽样误差可以事先控制2.影响抽样误差的因素有( )A.样本容量的大小 B.是有限总体还是无限总体C.总体单位的标志变动度 D.抽样方法E.抽样组织方式3.抽样方法根据取样的方式不同分为( )A.重复抽样 B.等距抽样 C.整群抽样D.分层抽样 E.不重复抽样4.抽样推断的优良标准是( )A.无偏性 B.同质性 C.一致性D.随机性 E.有效性5.影响必要样本容量的主要因素有( )A.总体方差的大小 B.抽样方法C.抽样组织方式 D.允许误差范围大小E.要求的概率保证程度6.参数估计的三项基本要素有()A.估计值 B.极限误差C.估计的优良标准 D.概率保证程度E.显著性水平7.分层抽样中分层的原则是( )A.尽量缩小层内方差 B.尽量扩大层内方差C.层量扩大层间方差 D.尽量缩小层间方差E.便于样本单位的抽取三、填空题1.抽样推断和全面调查结合运用,既实现了调查资料的_______性,又保证于调查资料的_______性。
suyu统计学原理第五章 统计推断1(参数估计)
一个总体参数的区间估计
总体参数
均值
符号表示
样本统计量
x
方差
2
s
2
二、总体参数的点估计
• 点估计:总体均数的点估计(point estimation)就 是用样本均数来直接地估计总体均数,这种方 法比较简单,由于没有考虑到抽样误差,只适 合大样本资料的统计推断。 • 优点在于能够提供总体参数的具体估计值,可 以作为行动决策的数量依据。 • 不足之处在于任何点估计不是对就是错,并不 能提供误差情况如何,误差程度有多大的信息。
一致性 (consistency)
• 一致性:随着样本容量的增大,估计量的值越来 越接近被估计的总体参数
lim P( ) 1
n
P( ˆ )
较大的样本容量
B A
较小的样本容量
ˆ
有效性 (efficiency) • 有效性:对同一总体参数的两个无偏点估计量, 有更小标准差的估计量更有效
B
ˆ
如果 是被估计的参数, 是估计 的样本 统计量,则当 E ( ) 时,就称 为 的 无偏估计量。就是说,虽然每一次抽样, 所决定的统计量取值和总体参数的真值可 能有误差,误差可正可负,可大可小,但 在多次反复的估计中,所有样本统计量取 值的平均数应该等于总体参数本身。亦即 说样本统计量的估计平均说来是没有偏误 的。
2
自由度为n-1的2分布
总体方差的区间估计 (例题分析)
【例】一家食品生产企业以生产袋装食品为主,现从某 天生产的一批食品中随机抽取了25袋,测得每袋重量如 下表所示。已知产品重量的分布服从正态分布。以95% 的置信水平建立该种食品重量方差的置信区间
05第五章 抽样推断
置信水平
(confidence level)
1.
2.
将构造置信区间的步骤重复很多次,置信区间 包含总体参数真值的次数所占的比例,也称置 信度 表示为 (1 - 为是总体参数未在区间内的比例
3.
常用的置信水平值有 99%, 95%, 90% 相应的 为0.01,0.05,0.10
总体参数估计就是以样本统计量来估 计总体参数。 参数估计要求:
1. 精确性—适当的极限误差范围;
2. 可靠性—估计结果正确的概率。
参数估计—点估计和区间估计。
2014-3-30 第五章 抽样推断 20
2.2 点估计(point estimate)
点估计就是根据总体参数与样本统计 量之间的内在联系,直接以样本统计量 作为相应总体参数的估计值,点估计又 称为定值估计。 常用的点估计量有:
第五章
抽样推断
第一节 抽样推断及其特点
第二节 总体参数估计 第三节 假设检验概述
统计名言
不象其他科学,统计从来不打算使自 己完美无缺,统计意味着你永远不需 要确定无疑
—— Gudmund R.Iversen
参数估计在统计方法中的地位
统计方法
描述统计 推断统计
参数估计
2014-3-30 第五章 抽样推断
ˆ x X
2014-3-30
2 ( x x )
ˆp ˆ 2 S2 P
n1
21
第五章 抽样推断
估计量与估计值
(estimator & estimated value)
1. 2.
3. 4.
参数估计 (parameter estimation) 就是用样本统计量去估 计总体的参数 估计量:用于估计总体参数的统计量的名称 如样本均值,样本比例,样本方差等 例如: 样本均值就是总体均值 的一个估计量 参数用 表示,估计量用 表示 ˆ 估计值:估计参数时计算出来的统计量的具体值 如果样本均值 x =80,则80就是 的估计值
第五章假设检验与统计推断1
5-19
Hypothesis Tests and Spreadsheet Support (cont’d)
Type of Test
Excel/PHStat Procedure
Two sample test for means, s unknown, assumed equal
Excel t-test: Two-Sample Assuming Equal Variances
5-12
Quantifying Outcomes
Probability of Type I error (rejecting H0 when it is true) = a = level of significance
Probability of correctly failing to reject H0 = 1
Divide the sampling distribution into a rejection region and non-rejection region.
If the test statistic falls in the rejection region, reject H0 (concluding that H1 is true); otherwise, fail to reject H0
PHStat: Two Sample Tests – t-Test for Differences in Two Means
Paired two sample test for means
Excel t-test: Paired Two-Sample for Means
Two sample test for proportions Equality of variances
f第五章 统计推断
【例5.1-1b】
用 实 验 动 物 做 实 验 材 料 , 要 求 动 物 平 均 体 重 μ=10.00g, 若 μ<10.00g需再饲养,若μ>10.00g则应淘汰。已知总体标准差 σ=0.40g。从实验动物群体中,随机抽取含量n=10的样本, 样本平均数y=10.23g。这批动物实际饲养的时间比根据以往 经验所需饲养的时间长。问这批动物能否用于实验。
n 10
若假设成立,则得到实际样本这一事件为小概率事件。 假设不成立,拒绝零假设,接受备择假设。
在假设H0正确的情况下,计算样本实际发 生的概率P,若P>α,接受H0 ;若P<α, 拒绝H0 ,接受HA 。在实际应用时,并 不直接求出具体的概率值,而是建立在α 水平上H0的拒绝域和接受域。
拒绝域(rejection region):在上尾、或下尾、 或双侧检验中,U > uα、或U < -uα、或|U| > uα/2的区域,称为在α水平上H0的拒绝域。 接受域(acceptance region):相应的U < uα, 或U > -uα ,或-uα/2 < U < uα/2的区域,称为 在α水平上H0的接受域。 临界值(critical value):接受域的端点称为 临界值。
用实验动物做实验材料 , 要求动物平均体重 μ=10.00g,若 μ<10.00g需再饲养,若μ>10.00g则应淘汰。已知总体标准 差σ=0.40g。从实验动物群体中,随机抽取含量n=10的样本, 样本平均数y=9.77g。这批动物实际饲养时间比根据以往经 验所需饲养的时间短。问这批动物能否用于实验。
《统计学原理》第5章:抽样推断
n
抽样推断的基本原理
统计推断的理论基础—样本的概率分布
按一定方法随机抽取样本时,所有可能样本的 特征值及其所对应的概率分布情况
学生 A B C D E F G 成绩 30 40 50 60 70 80 90
按随机原则考虑顺序重复抽样抽选出4名学生。
抽样推断的一般问题
样本可能数目
按照一定的抽样方法和组织方式,从总体N中抽取n个 单位构成样本,一共可以抽出的不同样本的数量,一般 用M表示.
考虑顺序的不重复抽样 考虑顺序的重复抽样
M N! (N n)!
M Nn
不考虑顺序的不重复抽样 不考虑顺序的重复抽样
M N! n!(N n)!
全及指标与样本指标
•根据全及总体中各单位的标志值或标志属性计算得 来,反映总体某种特征的指标 •根据样本总体中各单位的标志值或标志属性计算得 来的综合指标.
抽样推断的一般问题
抽样方法
•重复抽样和不重复抽样
•考虑顺序的抽样和不考虑顺序的抽样
抽样推断的一般问题
抽样方法—重复抽样
从总体N个单位中随机抽取一个容量为n的样本,每 次抽取一个单位,把结果登记后再放回到总体中,重新 参加下一次的抽取.
抽出个体
登记特征
放回总体
继续抽取
抽样推断的一般问题
抽样方法—不重复抽样
从总体N个单位中随机抽取一个容量为n的样本, 每次抽取一个单位,把结果登记后不再放回到 总体参加下一次的抽取.
抽出 个体
登记 特征
继续 抽取
抽样推断的一般问题
抽样方法—考虑顺序的抽样
从总体N个单位中抽取n个单位构成样本,不但考虑样本 各单位成分的不同,而且还要考虑样本各单位的中选顺 序.
第五章 统计推断 《统计学》 ppt课件
少抽些样本单位,Δ值小则要多抽一些样本单位。Δ是调查 前规定的,是根据调查目的确定的。 (3)概率度t 。t值愈大,要求把握程度愈高,则要多抽 些单位;t值愈小,要求把握程度低,则可少抽些单位。把 握程度也是在抽样之前根据抽样的目的和要求来规定的。 (4)抽样方法。在同等条件下,重置抽样需要多抽一些单 位,不重置抽样可少抽一些样本单位。 (5)抽样的组织方式。简单随机抽样,类型随机抽样, 等距随机抽样,整群随机抽样,阶段随机抽样等都是抽样 的组织方式,由于采用的组织方式不同,必要抽样数目也 不相同。
二、统计推断的几个基本概念
1.总体和样本 在统计推断中存在全及总体和样本总体。
全及总体也叫母体,简称总体,是所要认识的研究对象的 全体,它由具有某种共同性质或特征的单位组成。全及总 体的单位数用N表示。
全及总体按其各单位标志的性质不同可分为变量总体和 属性总体。
样本总体又叫抽样总体、子样,简称样本,是从全及总 体中随机抽选出来的单位所组成的小总体。
样本平均数的抽样分布是由样本平均数的可能取值和与 之相应的概率组成。
例5.3
在不重复抽样时,样本平均数的抽样分布有数学期望
E(x) a
即样本平均数的平均数等于总体平均数
X
在不重复简单随机抽样时,样本平均数的抽样分布有方 差,即
2 x
2
n
(
N N
n) 1
在不重复抽样条件下,用
x
表示抽样平均误差(也称抽样标准误差),则
(
方差σ2 )。
设总体N个单位中,有N1个单位具有某种属性,N0个单 位不具有某种属性,且N1十N0=N ,则: P N1 N
第五章 统计推断
2019/4/2
22
本章习题
3. 某种产品生产过程设计规格为每批平均生产 120 个,超过或低于这个标准都是不合理的。有10批 产品组成的样本中,每批生产的产品数量如下: 108 118 120 122 119 113 124 122 120 123。 检验样本结果能否表示该生产过程运作正常? (假定总体服从正态分布,α=0.05。)
6
1、假设检验问题
【例5.1】 在超市上出售的某种品牌方便面,按规定每
包净重少于 100 克的比例不得超过 1%。技术监督部门 从某超市的货架上任意抽取 200包该种品牌的方便面, 经检验发现有 3包(1.5%)重量少于 100克,试问:超 市出售的这种方便面是否符合质量标准?
在本例中,超市上出售的这种方便面的不合格率是未 知的,我们关心的问题是:如何根据这 200 包方便面 (样本)的不合格率 p=1.5% 来判断超市上出售的这种 品牌的方便面(总体)的不合格率 P≤1% 是否成立?
并非因为它存在逻辑的绝对错误,只是因为它存
在的可能性很小。
2019/4/2 14
6、假设检验的一般步骤
( 1 )根据所研究的问题,提出原假设 H0 和备择 假设H1;
(2)构造检验统计量;
( 3 )计算检验统计量的值和检验统计量观测值 发生的概率; (4)给定显著性水平α(即发生第一类错误的最 大允许概率),并做出统计决策。
2019/4/2
15
5.2 单样本 t 检验
单样本的 T 检验,是一个正态总体在方差未知时,总体 均值与某一已知数是否有显著性差异的假设检验;检验 统计量为(该统计量服从自由度为n-1的t分布):
t
x 0 s/ n
x 0
2017统计推断附答案
第五章 统计推断一、填空题5.1.1 设样本()120,,,,1.69,:35来自则对检验n X X X N H m m = ,采用的检验量是X Z =5.1.2 设12,,,n X X X 是来自总体X 的一个样本,又设()()2,E X D X m s ==,则总体均值m 的无偏估计为()样本均值X ;总体方差2s 的无偏估计为2S (样本方差)。
5.1.3 若检验统计量的观测值落在拒绝域内,则应拒绝 0H 。
5.1.4 设11ni i X X n ==å为来自正态总体()2,N m s 的样本均值,m 未知,欲检验2200:H s s=,检验的统计量为()2201n S s-。
5.1.5 两个正态总体均值的假设检验()2201212:已知=H m m s s =,检验量为X Y()122T t n n a >+-。
5.1.6 若其他条件不变,置信度越高,则置信区间的长度越长 。
二、单项选择题(在每小题的3个备选答案中选出1个正确答案,并将其字母填在题干后面的括号内)5.2.1 对总体参数进行抽样估计的首要前提是必须 ( B )A .事先对总体进行初步分析B .按随机原则抽取样本C .保证调查数据的准确性、及时性5.2.2 若其它条件相同,则下列诸检验的P 值中拒绝原假设理由最充分的是 ( A )A .2%B .10%C .25%5.2.3 某校有学生8000人,随即抽查100人,其中有20人对学生管理有意见,则该校学生中对学校后勤管理有意见的人数的点估计值为 ( C )A .20%B .20C .16005.2.4 如果总体服从正态分布,但总体均值和方差未知,样本量为n ,则用于构造总体方差置信区间的随机变量的分布是 ( C )A .()0,1NB .()2,N m sC .()21n c -5.2.5 其他条件相同时,要使抽样误差减少1/4,样本量必须增加 ( C )A .1/4B .4倍C .7/95.2.6 影响区间估计质量的因素不包括 ( B )A. 置信度B. 总体参数C. 样本量5.2.7 某企业最近几批产品的优质品率分别为88%,85%,91%,为了对下一批产品的优质品率进行抽样检验,确定必要的抽样数目时,P 应选 ( A )A .85%B .87%C .90%5.2.8 设()2~,X N m s ,()12,,,n X X X 是X 的一个简单随机样本,则未知参数2s 的矩估计量为( A )A .()21i X X n-åB .()2i X m -åC .()2i nX m -å三、多项选择题(在下列4个备选答案中,至少有二个是正确的,请将其全部选出,并把字母填在题干后面的括号内)5.3.1 推断统计学研究的主要问题是 ( ABD )A .如何科学地从总体中抽出样本B .怎样控制样本对总体的代表性误差C .怎样消除样本对总体的代表性误差D .如何科学地由所取样本去推断总体5.3.2 确定样本容量时,必须考虑的影响因素有 ( ACD )A .总体各单位之间的离散程度B .样本各单位之间的离散程度C .抽样方式的极限误差D .抽样推断的把握程度 5.3.3 影响抽样误差大小的因素有 ( ACD )A .总体各单位之间的离散程度B .调查人员的素质C .抽样方式与抽样方法D .样本容量5.3.4 若12ˆˆ,q q 都是总体参数q 的无偏估计量,正确的说法是( BC )A .12ˆˆ,q q q q ==B .若()()12ˆˆD D q q £,则12ˆˆ比q q 更有效C .()()12ˆˆ0,0E E q q q q -=-= D .21ˆ的无偏估计量qq 5.3.5 在其他条件不变时,抽样推断的置信度1a -越大,则 ( ACD )A .允许误差范围越大B .抽样推断的精确度越高C .抽样推断的精确度越低D .抽样推断的可靠性越高 5.3.6 区间估计 ( BD )A .没有考虑抽样误差大小B .考虑了抽样误差大小C .不能说明估计结果的可靠程度D .能说明估计结果的可靠程度5.3.7 关于原假设的建立,下列叙述中正确的有 ( CD )A .若不希望否定某一命题,就将此命题作为原假设B .尽量使后果严重的错误成为第二类错误C .质量检验中若对产品质量一直很放心,原假设为“产品合格(达标)”D .若想利用样本作为对某一命题强有力的支持,应将此命题的对立命题作为原假设。
第五章 统计推断
为研究电渗处理对草莓果实中钙离子含量的影响, 选用10个草莓品种来进行电渗处理与对照的对比试验, 结果如下,问电渗处理对草莓钙离子含量是否有影响?
电渗处理草莓果实钙离子含量
品种号
1
2
3
4
5
6
7
8
910电渗ຫໍສະໝຸດ 理22.2323.42
23.25
21.38
24.45
22.42
24.37
21.75
19.82
三,假设测验的基本方法 ①对所研究的总体首先提出一个无效假设 ②规定测验的显著水平α(一般α=0.05有时α=0.01) ③在承认上述无效假设正确的前提下,获得平均数的抽样分布,计 算假设正确的概率 ④根据"小概率事件实际上不可能发生"的原理接受或否定无效假 设 如小麦品种 旧品种:0=300kg/亩 σ=75kg 新品种:1=330kg/亩 y=330kg 第一步:首先提出假设: HA:1≠0 第二步:平均数的抽样分布,计算概率: = 15 ( kg ) σ y = σ / n = 75 / 25 样本容量n=25 H0:1=0=300kg
135.2
135.2
133.5
(二),成对资料平均数的假设测验
若试验设计是将性质相同 若试验设计是将性质相同的两个供试单位配成一对, 性质相同的两个供试单位配成一对 配成一对, 并设多个配对,然后对每一配对的两个供试单位分别随机 成对数据. 地给予不同处理,所得的观察值为成对数据 地给予不同处理,所得的观察值为成对数据.
1.提出假设.H0:1-2=0,即两条生产线的平均日产量无显著 差异.对HA:1-2≠0,即两条生产线上的平均日产量有显著差 异. 2.确定显著水平.α=0.01. .确定显著水平.α 0.01. 3.检验计算. y1 = 65 . 83 S 2 = 59.7299 y 2 = 59 .77 S 2 2 = 42.8747
【统计学概论】抽样推断
每包重量(克) 149以下 149—150
150—151 151以上
包数 10 20 50 20
(1)以99.73%的概率保证估计这批茶叶平均每包重量的 可能范围
(2)以同样的概率保证估计这批茶叶包装的合格率的可 能范围
• 三必要抽样数目的确定
• (一)影响抽样数目的因素
•
影响抽样数目的因素有:
(一)总体和样本
总体:调查研究的事物或现象的全体,所包含 的单位数用“N”表示。
样本:从总体中所抽取的部分个体所构成的小 的总体,当中所包含的单位数用“n”
表 示,称为“样本容量”。 样本可分为: 大样本 小样本
(二)全及指标与样本指标 (参数与统计量)
1、全及指标:说明全及总体的综合数量 特征,是唯一的,又称为“参数”。
尺度,用“ ”。
2、公式:
(1)重复抽样条件下:
(2)不重复抽样条件下:
五、抽样极限(允许)误差
1、概念:是在一定的概率保证下,用样本 指标估计全及指标时允许出现的
最 大误差,用“△”表示.
2、计算公式: 根据置信度(即可靠性,F(t)=1-α),
查正态概率分布表,查得对应的概率度t。 (在总体方差未知的情况下)
例3:P94
例4 P95
例5 P96
三、抽样误差
1、概念:是在遵循随机原则的条件下,用 样本指标来代表全及指标所不可避免 的误差。就是统计误差中的随机误差
抽样误差=样本指标 -全及指标 2、影响因素:
①抽取单位数n的多少 ②被研究标志的变异程度 ③抽样方法 ④抽样组织方式
四、抽样平均误差
1、概念:是所有可能组成的样本的抽样误 差的平均数,反映样本指标与全及指标的 平均误差程度,是衡量样本代表性大小的
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
第一节 假设检验的原理和方法
一、假设检验的概念 二、假设检验的步骤 三、两尾检验与单侧检验 四、统计假设的两类错误
5
一、假设检验的概念
(一)什么是假设检验?
1、概念:又称为显著性检验(test of significance), 事先对总体参数(平均值、方差等)或分布形式作出某 种假设,然后利用样本信息来判断原假设是否成立。 2、特点:假设检验所采用的逻辑推理方法是反证法; 结论的合理性依据统计学上的小概率原理。
13
注意:假设检验选用的显著性水平应根据实验的要求而 定。 如果实验中难以控制的因素很多,试验精度不是很高, 则显著性水平α的值可稍大点; 如果实验的精度很高,真实差异不容易被误差所掩盖, 处理的作用容易被检验出来,这时显著性水平α可适当 取小些。 无论如何,显著性水平α的值必须在实验开始前 在实验开始前就已经 在实验开始前 确定下来。
统计方法
描述统计 推断统计 假设检验 参数估计
10
二、假设检验的步骤
(一)对试验样本所在的总体提出原假设(null hypothesis) 和备择假设(alternative hypothesis ):
H0:µ=2.00公斤/只, 即送来的鸭子符合要求。 H1 :µ≠µ0(或µ>2.00公斤/只或µ<2.00公斤/只)即送来的鸭子不符 合要求,偏轻
17
三、双侧检验与单侧检验
(一)假设的形式(以方差已知,单个样本的平均 数显著性检验为例)
拒绝区域是检验统计量取值的小概率区域,我们可以将这个小概率区 域安排在检验统计量分布的两端,也可以安排在分布的一侧,分别称作 双侧检验(two-sided test)与单侧检验( one-sided test )。
27
一、在 σ 已知的情况下,单个平均数的显著性 检验—— u 检验(u- test)
已知的总体平均数一般为一些公认的理论数值。如畜禽正常 的生理指标、怀孕期、生产性能指标等,都可以样本平均数 与之比较,检验差异显著性。
检验的基本程序如下: 检验的基本程序如下: 1. 假设从σ 已知的正态总体,或近似正态总体 假设从σ 已知的正态总体, 样本。 中,随机抽取含量为的 n 样本。
两类错误之间的关系如何?
二者的区别是I型错误只有在否定H0 的情况下发生,而II型 错误只有在接受H0时才会发生。 二者的联系是,在样本容量相同的情况下,I型错误减小,II 型错误就会增大;反之II型错误减小,I型错误就会增大。比 如,将显著性水平α从0.05提高到0.01,就更容易接受H0, 因此犯I型错误的概率就减小,但相应地增加了犯II型错误的 26 概率。
6
例5-1
“全聚德”是北京烤鸭的杰出代表,要求鸭子的重
± 量2.00 ± 0.20公斤/只(µ σ)。养鸭户送来鸭子
100只,平均每只重1.88公斤。养鸭户送来的鸭 子样本是否比“全聚德”对鸭子总体要求偏轻?
7
(二)假设检验的基本思想 根据抽样分布的规律,判断样本发生的概率 例5-1中就是看在2.00
假设的形式 假设 H0 H1 研究的问题 双侧检验 µ = µ0 µ ≠µ0 左侧检验 µ ≥ µ0 µ < µ0 右侧检验 µ ≤ µ0 µ > µ0
18
两尾测验示意图
否定区域 2.5%
否定区域 2.5%
接受区域 95%
19
左 尾 测 验
α=0.05
_
否定区 0.95
接受区
µ0
否定区
y
接受区
右 尾 测 验
± 0.20公斤/只的鸭子总体
中抽取100只鸭子,鸭子平均重量小于1.88公斤/ 只得概率,如果概率小于α,说明是小概率事件, 鸭子明显偏轻。
8
(三)假设检验的过程:
1、提出原假设和备择假设 2、确定适当的检验统计量 3、规定显著性水平 4、计算检验统计量的值 5、作出统计决策
9
假设检验在统计方法中的地位
第二节 单个样本的统计假设检验
一、σ已知时单个平均数的显著性检验 已知时单个平均数的显著性检验—— u 检验 已知时单个平均数的显著性检验 (u- test) ) 二、 σ 未知时平均数的显著性检验 未知时平均数的显著性检验――t 检验(t 检验( test) ) 三、变异性的显著性检验 变异性的显著性检验――χ2 检验(χ2- test) 变异性的显著性检验 χ 检验( )
假设检验
统 计 推 断
知道的统计总体提出一些假设; 知道的统计总体提出一些假设;然定的计算,作出在概率意义 显著性检验) 实际结果,经过一定的计算,
上应当接受哪种假设的测验。 上应当接受哪种假设的测验。
参数估计是指由样本结果对总体参数作出点估
参数估计
计 (point estimate) 或 者 区 间 估 计 (interval estimate)。
32
3 显著性水平:根据实验要求(籽粒重量是否有“显著” 提高)规定α=0.05。 4 统计量的值:由于s 已知可使用u 检验, u=(y-µ0 )/(s/√n)代入数值,得: u=1.82 5 建立H0的拒绝域:因HA:µ>µ0 ,故为单侧检验,当u >u0.05时拒绝H0。α=0.05时u0.05=1.645。 6 结论:因为u>u0.05 ,所以结论是拒绝H0,接受HA。 上述样本很可能不是抽自N(37.72,0.332)的总体,抽 出样本的那个总体的平均数是大于37.72的某个值,即栽 培条件的改善显著地提高了豌豆籽粒重量。
28
2. 零假设
H0:µ=µ0。
备择假设可有以下三种情况: 备择假设可有以下三种情况: (1)HA:µ>µ0 ,若已知µ不可能小于 0 。 ) > 若已知 不可能小于µ 不可能小于 若已知µ不可能大于 不可能大于µ (2)HA:µ<µ0 ,若已知 不可能大于 0 。 ) < 包括µ> (3)HA:µ≠µ0 ,包括 >µ0 和µ<µ0 ) <
11
(二)确定适当的检验统计量
大样本还是小样本? 总体方差已知还是未知? 选择正确的检验统计量,计算结果
12
(三)规定显著性水平α
1、小概率事件原理
(1)小概率事件:统计学上指在一次试验中,一个几乎不可能发生的事 件发生的概率,称为小概率事件实际不可能原理。 (2)在一次试验中小概率事件一旦发生,原假设就是错误的。 2、小概率值α的概念及统计学意义: α表示原假设为真时,拒绝原假设 犯错误的概率,被称为抽样分布的拒绝域,1-α称为置信水平,表示接 受原假设的可信度或可靠程度,被称为抽样分布的接受域。 3、α值大小的确定:常用的α=0.01、0.05由研究者事先确定。当α取 0.05时,表明作出接受原假设的决定时,其正确的可能性(概率)为 95%。
第五章 统计推断
1
学习要求:
• 掌握:有关的假设检验方法及统计软件 SPSS、Excel的应用。 • 熟悉:不同条件下使用的统计量。 • 了解:假设检验和参数估计之间的关系。
2
讲授内容
第一节 假设检验的原理和方法 第二节 单个样本的统计假设检验 第三节 两个样本的差异显著性检验
3
指根据于某种实际需要, 指根据于某种实际需要,对未知的或不完全
u =
y − µ
σ
0
n
30
5. 相应于 中个备择假设的 0的拒绝域分别为: 相应于2 中个备择假设的H 的拒绝域分别为: (1)u>u α ) > (2)u<- α ) <-u <- (3)│u│>u α/2 ,或表示为 ) > α/2 或表示为│u│>u α(双侧) > 双侧) 正态分布的分位数,可以从附表中查出。 正态分布的分位数,可以从附表中查出。 6. 根据以上所做的分析,得出结论,并给予生物学解释。 根据以上所做的分析,得出结论,并给予生物学解释。
31
已 知豌 豆籽 粒重量 例 5-2 已知 豌 豆籽粒 重量 ( 克 / 100 ) 服从 正 态分 布 N 在改善栽培条件后, (37.72,0.332)。在改善栽培条件后,随机抽取 9 粒, , 其重量平均数 Y= 37.92,若标准差仍为 = , 若标准差仍为0.33,问改善条 , 栽培件是否显著提高了豌豆籽粒重量? 栽培件是否显著提高了豌豆籽粒重量? 解 根据检验的基本程序: 1 已知豌豆的重量是服从正态分布的随机变量,σ已知。 2 假设: H0:µ=µ0 =37.72 HA:µ>µ0 =37.72 关于备择假设的说明:由于改善栽培条件,只会 使籽粒重量提高,不会使籽粒重量降低,因此备择假设HA 为µ>µ0 。
22
如果H0是错误的,我们通过测验没有发 现其不真实而接受了它,即犯了一个接受 不 真 实 的 H0 的 错 误 。 这 叫 第 二 类 错 误 (second kind error)或II型错误 型错误。由于犯这 型错误 类错误的概率通常用β表示,故又称其为 β错误 错误。 错误
23
假设检验结果 客观实际
21
四、统计假设的两类错误
统计假设测验是根据一定的概率标准对总体特征作 出推断。否定了H0,并不等于已证明H0不真实;接受了 H0 ,也不等于已证明H0是真实的。 如果H0是真的,我们通过测验却否定了它,就犯了 一个否定真实假设的错误。这叫第一类错误 第一类错误(first kind 第一类错误 error)或I型错误 型错误。由于规定了显著水平α值,就注定要犯 型错误 错误,故I型错误又称为α错误 错误。 错误
H0正确 H0不正确 否定H0 接受H0
I型错误(α) 推断正确(1-β)
推断正确(1-α) II型错误(β)
24
α 错误和 β 错误的关系
α和β的关系就 像翘翘板, 像翘翘板,α 就大, 小β就大, α大 β就小 你不能同时减 少两类错误! 少两类错误!
β
α
25
如何降低两类错误的概率?
一般通过增加样本含量n,获得更多的关于总体的信息, 从而降低推断中可能出现的错误的概率。