第4章简单统计推断
统计推断1
小概率事件在一次观察中是不应发生的, 但是它现在发生了!!说明了什么? 一个合理的解释就是它本不是“小概率事件”, 是人们把概率算错了,算错的原因就是在 一开始就做了一个错误的假设 米
换句话说,此时应该认为: 即年来男孩的身高有明显增长。
【例2 】某地进行了两个水稻品种对比试验, 在相同条件下,两个水稻品种分别种植10个 小区,获得两个水稻品种的平均产量(kg/亩) 为:
第四章 统计推断
第一节 统计推断概述
研究样本的目的是以各种样本统计量的 抽样分布为基础去推断总体。 如何从一些包含有随机误差,又不完全的信息 中得出科学的、尽可能正确的结论是统计学 要解决的主要问题。
从样本中获得的信息所包含的不确定性,
主要来自以下几个方面:
(1)测量过程引入的随机误差;
(2)取样随机性所带来的变化,由于只取出 少数样品测量,那么取出的这一批样品的测量 结果与抽取另外一批当然会有差别; (3)我们所关心的性质确实发生了某种变化。 显然,只有第三种变化才是我们要检测的。
对于从有误差的实验数据中得出结论的科学工作者
来说,统计学是一种不可或缺的工具。
一、 统计推断的途径
1、 统计假设检验** 2、总体参量估计。
二、假设检验的基本思想 先看两个实例 【例1】 某地区10年前普查时,13岁男孩子的 平均身高是1.51米,现抽查200个12.5~13.5岁 的男孩子,身高平均值为1.53米,标准差为 0.073米,问:10年来该地区男孩身高是否有 明显增长?
3、选择显著性水平与建立拒绝域 (2)建立拒绝域
① 分位数法(临界值法) ② 概率法(P值法) 利用显著性水平(概率值)构成接受域和拒绝域。 根据统计量数值的大小,先计算(或查表)出 (X>统计量数值)出现的概率,这个概率称为P值, 用P值与显著性水平相比较进行判断。
统计学第四章课后习题答案
第四章一.思考题1、一组数据的分布特征可以从哪几个方面进行测度?答:可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。
2、怎样理解平均数在统计学中的地位?答:平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。
从统计学思想上看,平均数是一组数据的重心所在,是数据误差相互抵消后的必然结果。
3、简述四分位数的计算方法。
答:四分位数是一组数据排序后处于25%和75%位子上的值。
四分位数是通过3个点将全部数据等分成4分,其中每部分包含25%的数据。
中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值和处在75%位置上的数值。
它是根据为分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数据就是四分位数。
4、对于比率数据的平均数为什么采用几何平均?答:几何平均数是适用于特殊数据的一种平均数,主要适用于计算平均比率。
当所掌握的变量值本身是比率的形式时,采用几何平均法计算平均比率更为合理。
5、简述众数、中位数、平均数的特点和应用场合。
答:众数是数据中出现次数次数最多的变量值。
主要应用于分类数据。
中位数是一组数据排序后处于中间位置的变量值,其适用于顺序数据。
平均数也称均值,它是一组数据相加后除以数据个数的结果,是集中去世的主要测量值,它适用于数值型数据。
6、简述异众比率、四分位差、方差、标准差的使用场合。
答:异众比率主要适合测度分类数据的离散程度,对于顺序数据以及数值型数据也可以计算异众比率。
四分位差主要用于测度顺序数据的离散程度。
方差和标准差适用于测度数值型数据的离散程度。
7、标准分数有哪些用途?答:首先是比较不同单位和不同质数据的位置。
其次是和正态分布结合起来,求得概率和标准分值之间的对应关系。
还有就是在假设检验和估计中应用。
医学统计学-实习二定量资料的统计推断
a. Lilliefors Significance Correction
Sig. .466 .482
2.方差齐性检验、
两样本比较的t 检验:
结果输出:
Independent Samples Test
Levene's Test for
Equality of Variances
t-test for Equality of Means
95%置信区间
结果输出:
二、定量资料的 差异性检验
有关样本资料的差异性比较
数据类型
定量资料
设计类型
不满足t 检验/方 差分析条件的
定性资料
设计
类型
设计类型
单 样 本
配 对 设 计
两 独 立 样
多 独 立 样
本本
随析重 机因复 区设测 组计量 资资资 料料料
单 样 本
配 对 设 计
两 多 独 立 样 本
a. Not corrected for ties.
b. Grouping Variable: group
【例6.4】为研究某种抗癌新药对小白鼠移植性肉瘤S180 的抑瘤效果,将20只小白鼠按性别、体重、窝别配成对子。 每对中随机抽取一只服用抗癌新药,另一只作为阴性对照, 服用生理盐水,观察其对小白鼠移植性肉瘤S180的抑瘤效 果,经过一定时间,测得小白鼠瘤重如表4所示。问小白 鼠服用抗癌新药和生理盐水后平均瘤重有无不同?
Std. Error M ea n 184.699
140.079
Pair 1 甲 组 - 乙 组
Paired Samples Test
M ea n 795.000
Paired Differences
生物统计学 第四版 李春喜课后习题答案
2.2试计算下列两个玉米品种10个果穗长度(cm)的标准差和变异系数,并解释所得结果。
24号:19,21,20,20,18,19,22,21,21,19;金皇后:16,21,24,15,26,18,20,19,22,19。
【答案】1=20,s1=1.247,CV1=6.235%;2=20,s2=3.400,CV2=17.0%。
2.3某海水养殖场进行贻贝单养和贻贝与海带混养的对比试验,收获时各随机抽取50绳测其毛重(kg),结果分别如下:单养50绳重量数据:45,45,33,53,36,45,42,43,29,25,47,50,43,49,36,30,39,44,35,38,46,51,42,38,51,45,41,51,50,47,44,43,46,55,42,27,42,35,46,53,32,41,4,50,51,46,41,34,44,46;若侵犯了您的版权利益,敬请来信通知我们!℡课后答案网=4.7398,s=0.866,CV=18.27%2.2试计算下列两个玉米品种10个果穗长度(cm)的标准差和变异系数,并解释所得结果。
24号:19,21,20,20,18,19,22,21,21,19;金皇后:16,21,24,15,26,18,20,19,22,19。
【答案】1=20,s1=1.247,CV1=6.235%;2=20,s2=3.400,CV2=17.0%。
2.3某海水养殖场进行贻贝单养和贻贝与海带混养的对比试验,收获时各随机抽取50绳测其毛重(kg),结果分别如下:单养50绳重量数据:45,45,33,53,36,45,42,43,29,25,47,50,43,49,36,30,39,44,35,38,46,51,42,38,51,45,41,51,50,47,44,43,46,55,42,27,42,35,46,53,32,41,4,50,51,46,41,34,44,46;若侵犯了您的版权利益,敬请来信通知我们!℡课后答案网1=42.7,R=30,s1=7.078,CV1=16.58%;2=52.1,R=30,s2=6.335,CV2=12.16%。
第4章 统计推断
第一节 假设检验的方法 第二节 单个样本平均数假设测验 第三节 两个样本平均数假设测验 第四节 参数的区间估计
学习目的
理解假设检验与区间估计的原理
掌握假设检验的步骤 对实际问题进行统计测验及总体参数估 计
第一节 假设检验的方法
统 计 推 断 的 概 念
总体
抽样分布
样本1
表2 两种栽培方法的地瓜产量 单位(kg/亩)
有机
2722.2
2866.7
2675.9
2169.2
2253.9
2315.1
标准
951.4
1417
1275.3
2228.5
2462.6
2715.4
(一) 成组数据的平均数比较
1. u检验
两个样本总体方差已知,或总体方差未知, 但为大样本时采用 例1 已知早稻佳辐品种σ2=1.35,用A、B两种方 法取样,A取15个样点,平均产量x1=7.69;B法取9 个样点,平均产量x2=8.77。检验两种取样法测得
t = d sd
[例4-7] 选生长期、发育
进度、植株大小和其他方
面皆比较一致的两块地的 红心地瓜苗配成一对,共 有6对。每对中一块地按 标准化栽培,另一块地进
表 两种栽培方法的地瓜产量 单位(kg/亩)
有机 2722.2 2866.7 2675.9 2169.2 2253.9 2315.1
标准 951.4 1417 1275.3 2228.5 2462.6 2715.4
两尾测验与一尾测验
假设 双尾测验 左尾测验 右尾测验
H0 HA
μ=μ0 μ≠μ0
μ≥μ0 μ<μ0
μ≤μ0 μ>μ0
【2024版】食品实验数据处理与分析-第四章
可编辑修改精选全文完整版一、单个样本平均数的u 检验 1. u 检验u 检验(u -test ),就是在假设检验中利用标准正态分布来进行统计量的概率计算的检验方法。
Excel 中统计函数(Ztest )。
有两种情况的资料可以用u 检验方法进行分析:✓ 样本资料服从正态分布 N (μ,σ2),并且总体方差σ2已知;✓ 总体方差虽然未知,但样本平均数来自于大样本(n ≥30)。
【例4-1】某罐头厂生产肉类罐头,其自动装罐机在正常工作时每罐净重服从正态分布N (500,64)(单位,g )。
某日随机抽查10瓶罐头,得净重为:505,512,497,493,508,515,502,495,490,510。
问装罐机当日工作是否正常?(1) 提出假设无效假设H 0:μ=μ0=500g ,即当日装罐机每罐平均净重与正常工作状态下的标准净重一样。
备择假设H A :μ≠μ0,即罐装机工作不正常。
(2)确定显著水平α=0.05(两尾概率)(3)构造统计量,并计算样本统计量值样本平均数:均数标准误:统计量u 值:(4)统计推断 由显著水平α=0.05,查附表,得临界值u 0.05=1.96概率P>0.05,故不能否定H 0 ,所以,当日装罐机工作正常。
2.t 检验 t 检验(t -test )是利用t 分布来进行统计量的概率计算的假设检验方法。
它主要应用于总体方差未知时的小样本资料(n<30)。
其中, 为样本平均数,为样本标准差,n 为样本容量。
[例4-2]用山楂加工果冻,传统工艺平均每100g 加工500g 果冻,采用新工艺后,测定了16次,得知每100g 山楂可出果冻平均为520g ,标准差12g 。
问新工艺与老工艺在每100g 加工果冻的量上有无显著差异?(1)提出无效假设与备择假设 ,即新老工艺没有差异。
,即新老工艺有差异。
(2)确定显著水平 α=0.01(3=520g所以(4)查临界t 值,作出统计推断 由df =15,查t 值表(附表3)得t 0.01(15)=2.947,因为|t |>t 0.01, P <0.01, 故应否定H 0,接受H A , 表明新老工艺的每100g 加工出的果冻量差异极显著。
《数学教育测量与评价》第 4 章 成绩的推断统计
4.2 推断统计的基本思想和一般步骤
一 参数估计
参数估计(parameter estimation)是利用从总体中抽取的 样本来估计总体的未知参数的方法。人们常常需要根据手中的 数据,分析或推断数据反映的本质规律。即根据样本数据如何 选择统计量去推断总体的分布或数字特征等。统计推断是数理 统计研究的核心问题。所谓统计推断是指根据样本对总体分布 或分布的数字特征等做出合理的推断。参数估计是统计推断的 一种基本形式,是数理统计学的一个重要分支,分为点估计和 区间估计两部分。
二 总体参数和样本统计量
数理统计中把代表总体特征的量数成为参数,代表样本特 征的量数称为统计量。总体参数是根据总体中所有个体的相应 数值或属性计算的反映总体某种属性或特征的指标,又称为总 体指标。常用的总体指标有总体平均数(或总体中数)、总体 标准差(或总体方差 )、总体相关系数等。
样本统计量是由样本中所有个体的相应观测数值或属性计 算出来的反映样本特征的指标,又称样本指标或抽样指标,用 来估计总体指标。统计量用来估计总体参数,因此与总体参数 相对应,统计量有样本平均数(或样本中数)、样本标准差 (或样本方差 )、样本相关系数等。
通常,当样本容量较大时,样本平均数的抽样分布近似服 从正态分布,其分布以总体平均数为中心,即平均数抽样分布 的平均数等于总体平均数(平均数的抽样分布的平均数指的是 所有样本的平均数的平均数,可以验证它与总体的平均数相 等)。平均数抽样分布的标准差称为其抽样误差或者标准误, 可以用统计方法估计其大小。抽样误差的大小与样本容量的平 方根成反比,对特定总体,样本容量越大,抽样误差越小,用 样本统计量估计总体参数的可靠性就越高。但是,样本容量与 抽样误差之间不存在直线关系,即样本容量增加到一定程度时, 抽样误差减少的速度变得很慢,但是此时抽样成本就很高了, 从而样本容量也不是越大越好。
《应用统计学》(04)第4章 用样本推断总体
1500 1520 1510 1470
*
应用统计学
Applied Statistics
一个总体均值的区间估计
(例题分析—小样本)
解:已知X~N(,2),n=16, 1- = 95%,t/2=2.131 根据样本数据计算得:x 1490 , s 24.77 总体均值在1-置信水平下的置信区间为
资 料 来 源 : GUDMUND R.IVERSEN 和 MARY GERGRN著,《统计学—基本概念和方法》
4-5
*
应用统计学
Applied Statistics
统计应用
小儿麻痹症实验
1954年,为了检验沙克疫苗对小儿麻痹症预防的有效 性而进行了一项实验。大约有20万名儿童注射了无效 的盐水,而另外20万名儿童注射了疫苗 这项实验是“双盲的”,因为接受注射的儿童不知道 是被注射了疫苗还是安慰剂,进行注射并评价结果的 医生也不知道 在20万名注射疫苗的儿童中,只有33人后来患了小儿 麻痹症,而注射了盐水的 20万名儿童中后来有 115 人 患了小儿麻痹症。根据这些结果和其他一些结果的统 计分析得出结论,沙克疫苗在预防小儿麻痹症方面确 实是有效的
4 - 20
应用统计学
Applied Statistics
无偏性
(unbiasedness)
无偏性:估计量抽样分布的数学期望等于被 估计的总体参数
P(ˆ ) 无偏 有偏Biblioteka A4 - 21
B
ˆ
*
应用统计学
Applied Statistics
有效性
(efficiency)
量,有更小标准差的估计量更有效
怎样解决下面的问题?
一个水库里有多少鱼? 一片原始森林里的木材储蓄量有多少?
第4章 统计推断 120
H0
1 2
1 2 1 2
H1
1 2
1 2 1 2
医学统计学
12
三 、双尾检验与单尾检验
2
否定区 接受区
2
否定区
双尾 检验
接受区 否定 区
单尾 检验
二 、假设检验的步骤
2.确定检验水准 检验水准(size of a test)亦称显著 性根水据准选(定sig的ni显fic著an性ce水le平ve(l)0,.0符5或号0为.0α1。),决定接受 还它是是拒判绝别H差0. 异有无统计意义的概率水准,其大小 应根据分析的要求确定。通常取α= 0.05。
u值。
医学统计学
15
二 、假设检验的步骤
4.确定概率P值 P值是指在H0所规定的总体中作随机抽样,获得等于
或及的样大前本于提(下间出或的小现差于观异)察由样现抽有本样统以误计及差更量所的极致概端的率情概。况即的率概在。率H0为。真
│t│≥ tα,υ ,则P≤ α;
可以认为差别不由抽样误差引起,可以拒绝H0
医学统计学
14
二 、假设检验的步骤
3.选定检验方法和计算统计量
的根选检据验择研方究法适设。计当如的完类的全型随统和机统计设计计推方中断,法的两目计样的本要算均求数H选的用0比不较同 可不成同用的t立检统验计的,检样可验本方能含法量,性较可大即得时到(概不n同>率1的00有统)计,可多量用,大Z如检t验值。和
假设检验的原理
反证法:当一件事情的发生只有两种可能A和B, 为了肯定其中的一种情况A,但又不能直接证实A, 这时否定另一种可能B,则间接的肯定了A。
小概率原理:概率很小的事件在一次抽样试验中
第四章 第一次课(2+1) 假设检验的原理
本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样,二者 来自同一总体,接受零假设则表示克矽平没有疗效。
而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数和治疗 前的平均数来自不同总体,即克矽平有疗效。
2 、 确定显著水平 能否定H0的人为规定的概率标准称为显著水平,记作。 统计学中,一般认为概率小于0.05或0.01的事件为小概率事件,所以 在小概率原理基础上建立的假设检验也常取=0.05和=0.01两个显著水平 。 3 、选定检验方法,计算检验统计量,确定概率值 根据研究设计的类型和统计推断的目的选择使用不同的检验方法。 例
确定
水准
计算统计量
确定P值并与给定的
比较
做出推断结论。 假设检验的基本逻辑是“小概率事件在一次抽样 中不太可能出现”。 假设检验有两类错误。 假设检验与相应的置信区间估计既能提供等价的 结果,又有各自不同的功能。 假设检验方法很多,每种方法有相应的适用条件。 综合考虑研究目的、设计类型、变量类型、样本 含量等要素之后才能选择合适的假设检验方法。 三、课后练习 1假设检验的理论依据是什么? 2假设检验的两类错误的区别与联系是什么? 3t检验的应用条件是什么? 4假设检验中P值的意义是什么? 5如何确定检验水准? 6如何恰当地应用单侧与双侧检验?
=11头,标准差S1=1.76头;大白猪10头经产母猪产仔平均数
=9.2头,标准差S2=1.549头。能否仅凭这两个平均数的差值
-
=1.8头,立即得出长白与大白两品种经产母猪产仔数不同的结论 呢?统计学认为,这样得出的结论是不可靠的。这是因为如果我们再分 别随机抽测10头长白猪和10头大白猪经产母猪的产仔数,又可得到两个 样本资料。由于抽样误差的随机性,两样本平均数就不一定是11头和 9.2头,其差值也不一定是1.8头。造成这种差异可能有两种原因,一是 品种造成的差异,即是长白猪与大白猪本质不同所致,另一可能是试验 误差(或抽样误差)。对两个样本进行比较时,必须判断样本间差异是 抽样误差造成的,还是本质不同引起的。如何区分两类性质的差异?怎
概率论与数理统计 第四章
50 1 1 1 ( ) 49 2 100 2
数理统计
28
②
骣n 1 2 2 E (S ) = E 琪 X i - nX 琪 å 琪 n - 1 桫= 1 i
= 1 n- 1 n n 1
2
1 n 2 2 EX i nEX n 1 i 1
2
(n E X
若总体X是连续型随机变量,其概率密度为
f ( x ),
则样本的联合概率密度为
f ( x1 , x 2 , , x n ) f ( x1 ) f ( x 2 ) f ( x n )
对于离散型总体,有相似的结论。
数理统计 17
例 设 ( X 1 , X 2 , , X n ) 是取自正态总体 N ( , 2 ) 的 样本,求样本的概率分布。 解 总体X的密度函数为
数理统计
30
X EX 1 P DX
X 1 P 1 10
0 .0 2 E X DX
E(X ) 0 D(X ) 1 100
显然
X ( 1 ) m in X i ,
1 i n
X (n) m ax X i ,
1 i n
两者也分别称为最小次序统计量和最大次序统计量. 称
R X ( n ) X ( 1 ) 为样本极差
X n1 ( 2 ) Md 1 (X n X n ( ) (1 ) 2 2 2 n 为奇数 (4 - 15) n 为偶数
总体 样本
随机变量 X 随机向量
( X 1 , X 2 , , X n )
数理统计
15
在一次试验中,样本的具体观测值 称为样本值。记为 ( x 1 , x 2 , , x n ) . 有时候样本与样本值使用同一符号, 但含义不同。 简单随机样本 若 X 1 , X 2 , X n 是相互独立的并与总体
统计第四章
补充
平均差有时候也可以用中位数来求:
∑ X −M AD=
i
d
n评价Biblioteka 优点:(1)反应灵敏,每个数据都参与了计 算,所以能较好地反映次数分布的离散程度。 (2)意义明确。如果将一个观测值与平均数 的离差看作误差,平均差就是误差平均的结果, 离差有正有负,和为0,所以取绝对值。 缺点:计算时用绝对值,不适合进一步代数运 算,这大大限制了它的应用范围。
四分位差
Q3 − Q1 Q= 2 1 × N − Fb Q1 = Lb + 4 ×i f 3 × N − Fb Q3 = Lb + 4 ×i f
百分位差
P 9 0 − P1 0 P9 3 − P7
二、 百分等级分数
百分等级是指某个数值在以一定顺序排列的一组观察 值中所对应的百分位置,用PR表示。它是百分位数的 逆运算。由此可见百分等级分数和百分位分数是不同 的。百分位分数是预先确定分布中的某个百分点,然 后根据这个百分点去求相应的百分位分数;百分等级 分数则相反,是事先已知次数分布中的一个原始分数, 求这个原始分数在分布中所处的相对位置——百分等 级。 百分等级分数:次数分布中低于某个原始分数的次数 百分比,即原始数据在常模团体中的相对位置。
第三节 标准差的应用
一、相对差异量 绝对差异量数与其集中量数的比。 二、应用
种类
1、四分差系数:Q ' D ' = Q D × 1 0 0 %
M
d
2、平均差系数:A ' D ' =
AD ×100% M AD A' D ' = ×100% Md
3、差异系数、变异系数、相对标准差、标准差 系数:
s s CV = × 100% = × 100% M X
统计推断
平均身高:X=173cm 标准差: S=3cm
统计学的目标:利用样本信息推断总体的性质
3
样本统计量
有以下常用的样本统计量 衡量中心位置的: 衡量离散程度的: 偏差 平方和 均方差(方差) 标准差
自由度df指的是独立偏差 的个数。
4
对总体参数进行估计
样本统计量的目的是对总体参数进行估计,存在 以下两类估计方法: 点估计
发电机A和B产出的样本统计量 样本量 平均值 标准差 A 10 84.24 2.90 B 10 85.54 3.65 两组数据平均值的差异δ=1.30
A和B之间样本平均值的差异δ =1.30是显著的差 异还是仅仅是偶然的差异?
假设检验可以回答这个问题
23
假设检验的思想
顾名思义,假设检验先对某个主张进行假设,然后 寻找答案去证明或者推翻这个主张(一般都是去推 翻原来的主张)。 假设检验的一般步骤: 阐述假设 寻找证据 作出结论 例如:当某人极力向你辩护他/她没有说谎时, 你会说 寻找证据 假设
“好,我先相信你没有说谎,以后要是我知道了你真
的说谎了,我再也不相信你了”
作出结论
24
假设检验的术语
备择假设(Alternative Hypothesis) 原假设(Origin Hypothesis) 我们预先假定的状态; 我们希望的状态; 发电机的例子中,原假设就 发电机的例子中,我们希望经过 是A和B的产出没有差异; 投资改造,B的产出会增加; 寻找证据是为了推翻这种假 寻找证据是为了证明这种假设; 设; 统计学上用符号Ho表示(H: 统计学上用符号Ha表示(H: Hypothesis;o:origin) Hypothesis;a:alternative) 统计学对原假设的描述: 统计学对原假设的描述:
第四章 统计推断-
1、总体方差σ2已知,无论n是否大于30都可采用u检验法
例:某鱼场按常规方法所育鲢鱼一月龄的平均体长为7.25cm,
标准差为1.58cm,现采用一新方法进行育苗,一月龄时随机抽 取100尾进行测量,其平均体长为7.65cm, 问新育苗方法与常规方法有无显著差异?
分 析
(1)这是一个样本平均数的假设检验,因总体σ2已知 采用u检验; (2)新育苗方法的鱼苗体长≥ 或≤常规方法鱼苗体长, 应进行双尾检验。
检验治疗后的总体平均数是否还是治疗前的126(mg/L)?
H0:μ=μ0 =126(mg/L)
HA:μ ≠μ
0
本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样, 二者来自同一总体,接受零假设则表示克矽平没有疗效。 而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数 和治疗前的平均数来自不同总体,即克矽平有疗效。
双尾 检验 分位数
u 0.05=1.96 u 0.01=2.58
>
否定区
接受区
否定区
接受区
否定区
单尾 检验 分位数
u 0.05=1.64 u 0.01=2.33
查表求正态离差时,单尾概率等于双 尾概率乘以2
四 、两类错误
第一类错误(type I error),H0正确,假设检验却 否定了它,又称弃真错误或 错误; 第二类错误( type II error ) , H0错误,假设检 验却接受了它,又称纳伪错误或 错误
2 、 确定显著水平
能否定H0的人为规定的概率标准称为显著水平,记作。 统计学中,一般认为概率小于0.05或0.01的事件为 小概率事件,所以在小概率原理基础上建立的假设检验 也常取=0.05和=0.01两个显著水平 。
第四章-多元正态分布的统计推断
y)2
( y k ni
i1 j1
ij
yi )2
( y k ni
i1 j1
ij
y)2
k 1 nk n 1
SS A k 1 SSe nk
—
SSA SSe k 1 n k
—
—
NEXT
查F分布表得临界值
F0.05(2,18) 3.554 F0.01(2,18) 6.013
a1 i1
a1 i1
由于交叉乘积项为零,故
组间叉积矩阵+组内叉积矩阵=总叉积矩阵
组内叉积矩阵:主要由随机因素构成
k na
SSE
(xi(a) x (a) )(xi(a) x (a) )
a1 i1
组间叉积矩阵:主要由系统因素构成
k
SS (TR) na (x (a) x )(x (a) x ) a1
故可以将霍特林分布的统计量换算成F统计量。
对给定的显著性水平α,检验的规则
nk k(n 1)
T
2
F
(k , n
k ), 拒绝原假设
nk k(n 1)
T
2
F
(k , n
k ), 接受原假设。
某地区农村男婴的体格测量数据如下
编号 1
身高(cm) 78
胸围(cm) 60.6
上半臂长(cm) 16.5
i j (i j,i, j 1,2, , k)
因而还应该进一步讨论到底是哪些总体之间存在差异。
Scheffe检验
H0 : i j (i j,i, j 1,2, , k) H1 : i j (某些i j)
数理统计第四章
第4章数据汇总这一章,我们介绍数据的描述和汇总方法•这些方法大部分以图形的方式展示数据,也可以用其揭示数据结构•在不使用随机模型的情况下,这些方法可以达到描述性分析的目的•如果考虑随机模型,那获得的数据%,X2,…,X n,在一些情形下将它们视为独立同分布的n个随机变量X i,X2, ,X n的实现.我们首先讨论经验累积分布函数等,这些方法可以用于展示数据值的分布。
接着,我们讨论直方图和相关的图形,它们扮演着随机变量的概率密度的角色,从另一角度展示数据值的分布•我们还将介绍数据的简单汇总,比如用以代表数据中心的样本均值、中位数等,用以量化数据分散程度的样本标准差等,这些统计量比直方图等图形提供了更加浓缩的汇总信息•接着将介绍箱线图,它通过一种简单的图形方式将中心值、散度和分布形状等信息汇总起来•最后介绍散点图,用以揭示变量相关性的信息.§ 4.1基于累积分布函数的方法经验累积分布函数设x1,x2/,x!是一组数据,经验累积分布函数(empirical cumulative distributen function,ecdf)定义为1F n(X)= —#{X 兰X}n显然F n(x)是阶梯形的右连续的函数例 4.1 (见P261)如果要进一步讨论经验累积分布函数的统计性质,那必须置于随机模型下去讨论.数据x1,x2/ ,x n视为简单随机样本X1,X2/ ,X n的实现, 它们公共的分布函数为F(x)( —般假定F(x)是连续型分布).样本X i,X2,…,X n的经验累积分布函数定义为1F n(x) #{X i 沁}n对于任意给定的实数x , F n(x)是一个随机变量,并且n F n(x) ~B(n,F(x)),从而1E(F n(x)) E(V n(x)) =F(x),nVar(F n(x))二Var(V n(x)) = F(x)(1-F(x)).n n可见,F n(x)是F(x)的无偏估计,且n「:时Var(F n(x)) > 0,从而知F n(x) 是F(x)的相合估计.关于F n(x)还有更强的结论:定理(格里汶科)对于任意的自然数n,设X i,X2,…,X n是来自总体分布函数F(x)的一个样本,F n(x)为其经验分布函数,记D n = sup |F n(X)-F(x)|,则有x ■■■:::P(lim D n=0) =1n )::该定理表明,经验分布函数F n(x)会一致地强收敛于总体分布函数F(x). 这也说明用经验分布函数F n(x)推断总体分布函数F(x),用样本各阶矩(即F n(x)的矩)去推断总体的矩等是合理的,是有理论依据的 .生存函数随机变量T的生存函数定义为S(t)=P(T t)设随机变量T的分布函数为F(t),那么生存函数S(t)=1-F(t),两者给出的信息是等价的•在应用中,对于寿命数据(一般是非负的),通常分析生存函数而不是分布函数•若样本的经验分布函数为&(t),那么经验生存 函数为S n (t)=1-F n (t)例 4.2(见 P262)生存函数与危险函数有联系.危险函数定义为其中f(t),F(t)分别为T 的密度函数和分布函数也即为了看清危险函数的统计意义,我们考查元件在使用了 t 时间还未失效 的条件下,在接下来的时间段(t,r .]内失效的条件概率P(t :::T I :|t t)假设密度f(t)在t 处连续,那么有F(t :)- F(t)丄 f(t) 1-F(t)S(t) 因此h(tp P(t ::T -^ A l T t)或P(t T <t -qT t)MtTm 。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.总体均值的区间估计
(1)总体方差已知情况下
(2)总估计1
一家食品生产企业以生产袋装食品为主,为对产量质量进行 监测,企业质检部门经常要进行抽检,以分析每袋重量是否 符合要求。现从某天生产的一批食品中随机抽取了25袋,测 得每袋重量如下表所示。已知产品重量的分布服从正态分布 ,且总体标准差为 10克。试估计该批产品平均重量的置信区 间,置信水平为95%。
2未知,且小样本
2. 使用t 统计量
X μ0 t ~ t( n 1 ) S n
35
例6. 机器性能是否良好
某机器制造出的肥皂厚度为5cm,今欲了解 机器性能是否良好,随机抽取10块肥皂为 样本 ,测得平均厚度为5.3cm,标准差为 0.3cm,试分别以0.05,0.01的显著性水平 检验机器性能良好(即厚薄合乎规定)的 假设。
4
1. 点估计的常用方法
点估计的常用方法主要有:
矩估计法
顺序统计量法 最大似然法 最小二乘法
5
二、区间估计
什么是区间估计: 区间估计是在点估计的基础之上,把置信 水平与置信区间联系起来,由样本统计量 推断总体参数的一种统计方法,是参数估 计的主要方法。
根据被估计的总体参数的不同,区间估计 也有不同的内容。
33
(5)根据计算结果作出统计决策:
-2.83
图1 加工零件椭圆度差异性决策示意图 由图中可见,计算出的 Z 值落入了拒绝域,显然,我们 应当拒绝原假设,接受备择假设,即我们可以认为新机床 加工零件的椭圆度总体均值与以前相比发生了显著差异。
34
2. 总体方差σ2未知
1. 假定条件
总体为正态分布
2. 3.
将检验统计量的值与 水平的临界值进行比较 得出拒绝或不拒绝原假设的结论
28
三、一个正态总体均值的检验
检验统计量的确定
是
总体 是否已知
否
大
样本容量n
小
用样本标准 差S代替σ
z 检验
z 检验
t 检验
29
1. 总体方差σ2已知
1. 假定条件
总体服从正态分布 若不服从正态分布, 可用正态分布来近似(n30) 2 已知:
应用统计
第四章 简单统计推断
第四章 简单统计推断
§1 参数估计 §2 假设检验
§1 参数估计
一、点估计
二、区间估计
3
一、点估计
点估计即是设总体随机变量 X 的分布函数 形式为已知,但它的一个或多个参数未知, 若从总体 X 中抽取一组样本观察值x1,
x2,…,xn,用该组数据直接估计总体参数, 称该估计为参数的点估计。
24
什么是检验统计量?
检验统计量—— 用于假设检验进行决策的统计量
•
检验统计量的基本形式为
X μ0 Z σ n
25
3、规定显著性水平α
(significant level) 统计上把α定义为显著性水平,是指当原 假设为正确时人们却把它拒绝了的概率 或风险。即弃真错误。
显著性水平α是人为确定的,它实际代表 人们在进行假设检验时愿意承担的犯弃 真错误的风险,通常取α=0.05,α=0.01
x μ0 5.3 5 t 3.16 s n 0.3 10
37
(3)规定显著性水平α,并确定临界值: 当α=0.05,自由度n-1=9时,查表得 tα/2(9)=2.2622 此时,t=3.16>tα/2(9)=2.2622,因此,应当 拒绝原假设H0,接受备择假设H1,说明该机器的性 能不够好。
14
用软件实现区间估计
Excel:工具-数据分析-描述统计-汇总统计/ 平均数置信度 Spss:analyze-descriptive statfrequencies
例2灯泡使用寿命的区间估计 例3下岗职工中女性比例的区间估计
15
§2 假设检验
一、假设检验的基本思想 二、假设检验的一般步骤 三、一个正态总体均值的假设检验 四、一个正态总体比例的假设检验 五、双侧检验和单侧检验
25袋食品的重量 112.5 101.0 103.0 102.0 100.5
102.6
100.0
107.5
123.5
95.0
102.0
108.8
101.6
115.6
102.2
116.6 136.8
95.4 102.8
97.8 101.5
108.6 98.4
105.0 93.3
8
总体均值的区间估计
解 : 已 知 : X ~ N( , 102) , n=25, 1- = 95% ,
例4. 新生儿体重问题
从1990年的新生儿中随机抽取30个,测得其平 均体重为3210克。根据1989年的统计资料,新 生儿的平均体重为3190克,问1990年新生儿与 1989年相比,体重有无显著差异。
22
原假设:“1990年出生的新生儿与1989年 出生的新生儿在体重上没有差异”。即:
18
小概率原理
假设检验的基本思想是应用小概率的原理。 小概率原理是指,发生概率很小的随机事 件在一次实验中是几乎不可能发生的。 根据这一原理,可以作出适当的假设,并 根据在一次抽样中这种假设是否发生,进
而做出我们是否应当接受原假设的决定。
小概率是由人们在检验前指定的。
19
二、假设检验的步骤
z/2=1.96。根据样本数据计算得: x 105.36 总体均值在1-置信水平下的置信区间为 σ 10 x zα 2 105.36 1.96 n 25 105.36 3.92
101.44 ,109.28
该 食 品 平 均 重 量 的 置 信 区 间 为 101.44 克 ~109.28克之间,置信水平为95%。
批灯泡平均使用寿命95%的置信区间 16只灯泡使用寿命的数据 1510 1520 1480 1450 1480 1510 1480 1490 1530 1460 1460 1470
1500 1520 1510 1470
11
总体均值的区间估计
解: 已知 X ~ N ( , 2) , n=16, 1- = 95% , t/2=2.131。根据样本数据计算得: x 1490 s 24.77 ,总体均值 在 1- 置信水平 下的置信区间为 σ 24.77 x tα 2 1490 2.131 n 16 1490 13.2 1476.8 ,1503.2 该种灯泡平均使用寿命的置信区间为 1476.8 ~ 1503.2小时,估计的置信水平为95%。
市场调查 第四篇 第16章
16
一、假设检验的基本思想
假设检验的基本思路包含有两种重要的思 想
反证法思想和小概率思想。
17
反证法思想
反证法思想是指,在进行假设检验时,先假定原 假设为真,然后抽取样本进行测量,根据样本数 据判断原假设是否成立,如不成立则拒绝原假设, 而接受备择假设。 由于反证是在样本数据的基础上作出的,其反证 的正确性有或然性,或者说是在一定概率基础上 的反证,因此,是一种包含有概率性质的反证法。
2.
使用Z-统计量
X μ0 Z ~ N ( 0 ,1 ) σ n
2 未知:
X μ0 Z ~ N ( 0 ,1 ) S n
30
例5(总体方差已知的检验)
某机床厂加工一种零件,根据经验知道, 该厂加工的零件的椭圆度渐近服从正态分 布,其总体均值为0.081mm,总体标准差为 0.025mm。今另换一种新机床进行加工,取 200个零件进行检验,得到椭圆度均值为 0.076mm。试问新机床加工零件的椭圆度总 体均值与以前有无显著差别。
32
(3)给出显著性水平: 根据假设检验的一般要求,设显著性水 平为α=0.05,因为是双侧检验,查Zα/2, 查表结果为: Zα/2=±1.96 (4)计算检验统计量的值: 将上述已知条件代入Z 统计量,可得:
0.076 0.081 Z 2.83 0.025 200
实际上,这一步骤与第(2)步确定统计量可以合为一 个步骤。
或 α=0.001等。
26
4、计算检验统计量的值
在提出了原假设H0和备择假设H1,确定了检验统 计量,并规定了显著性水平α以后,接下来就要 根据样本数据计算检验统计量的值。如例8-4的 问题中,计算检验统计量的基本公式为:
x μ Z σ/ n
27
5、作出统计决策
1.
根据给定的显著性水平,查表得出相应的临界 值z或z/2, t或t/2
9
总体方差σ2未知
1.
假定条件
总体服从正态分布,且方差(2) 未知 小样本 (n < 30)*
Xμ t ~ t( n 1 ) S n
2.
使用 t 分布统计量
3. 总体均值 在1-置信水平下的置信区间为 S X tα 2 n
10
例2. 总体均值的区间估计2
已知某种灯泡的寿命服从正态分布,现从一批灯泡中 随机抽取16只,测得其使用寿命 (小时) 如下。建立该
1、提出原假设H0和备择假设H1; 2、确定适当的检验统计量;
3、规定显著性水平α; 4、计算检验统计量的值; 5、作出统计决策。
20
1、提出原假设和备择假设
在统计学中,把需要通过样本去推断其正 确与否的命题称为原假设,用H0表示。
与原假设相对立的假设是备择假设,用H1