第五章分布检验.
第五章-假设检验与回归分析
件,得到拒绝域;
步骤 4:明确或计算样本均值 x ,得到U 变量的观测值 u x 0 n 0
若观测值 u 落入拒绝域,则拒绝零假设 H 0 ,即接受备择假设 H1 ,
否则不能拒绝零假设 H 0 。
第五章 假设检验与回归分析 例1、 已知某面粉自动装袋机包装面粉,每袋面粉重量 Xkg
服从正态分布 N(25,0.02) ,长期实践表明方差 2 比较稳定,从
第五章 假设检验与回归分析
U 检验的步骤:
步骤 1:提出零假设 H 0 : 0 与备择假设 H1 ;
步骤 2:明确所给正态总体标准差 0 值、样本容量 n 的
值,当零假设 H 0 成立时,构造变量
U X 0 n ~ N(0,1) 0
第五章 假设检验与回归分析
步骤 3:由所给检验水平 的值查标准正态分布表求出对应 的双侧分位数 u 的值或上侧分位数 u 的值,构造小概率事
u
2
0.05, u 1.96 ,
2
第五章 假设检验与回归分析
x 0 n
12.5 12 1 100
5 u
2
1.96
故拒绝 H0 ,即认为产品平均质量有显著变化。
小结与提问:
理解假设检验的基本原理、概念;掌握假设检验的步骤。
课外作业:
P249 习题五 5.01, 5.02,5.03。
0.10,再在表中第一列找到自由度 m n 1 7 1 6 ,
其纵横交叉处的数值即为对应的 t 分布双侧分位数 t 1.943
2
,使得概率等式
PT 1.943 0.10
成立。这说明事件 T 1.943是一个小概率事件,于是得到
拒绝域
t 1.943
第五章 假设检验与回归分析
韦伯分布检验
韦伯分布检验
韦伯分布是一种概率分布,用于描述在可靠性工程和寿命检验中常见的可靠性或寿命数据。
韦伯分布检验是一种统计方法,用于检验一组数据是否符合韦伯分布。
以下是韦伯分布检验的一般步骤:
1.收集数据:收集需要进行韦伯分布检验的数据。
这些数据应该是一组寿命时间或可靠性数据,并且需要是连续的数据。
2.数据预处理:对收集到的数据进行预处理,包括数据清洗、缺失值处理、异常值处理等。
确保数据的质量和可靠性。
3.绘制直方图:将预处理后的数据绘制成直方图,观察数据的分布情况。
直方图可以帮助我们初步判断数据是否符合韦伯分布的形状。
4.计算统计量:计算韦伯分布的统计量,包括均值、方差、偏度、峰度等。
将这些统计量与韦伯分布的理论值进行比较,初步判断数据是否符合韦伯分布。
5.进行拟合优度检验:进行拟合优度检验是检验数据是否符合韦伯分布的关键步骤。
常用的拟合优度检验方法包括卡方检验、柯尔莫哥洛夫-斯米尔诺夫检验等。
这些检验方法可以比较实际数据与韦伯分布的理论值,判断数据的拟合程度。
6.判断结果:根据拟合优度检验的结果,判断实际数据是否符合韦伯分布。
如果拟合优度检验的结果表明实际数据与韦伯分布的理论值相似,那么可以认为这组数据符合韦伯分布。
否则,需要进一步考虑其他分布的可能性。
需要注意的是,在进行韦伯分布检验时,选择合适的统计量和检验方法是非常重要的。
同时,要充分理解韦伯分布的性质和特征,以便更好地解释检验结果。
第五章 χ2检验
χ2的连续性矫正
由上式计算的 χ2 只是近似地服从连续型随机变 量 χ2 分布。在对次数资料迚行χ2 检验利用连续型随 机变量χ2分布计算概率时,常常偏高,特别是当自 由度为1时,偏差较大。
矫正后的χ2值记为χc2
当自由度大于1时, χ2分布与连续型随机变量
χ2分布相近似,这时,可不作连续性矫正,但要
总和
r1 r2
总和
R1= O11 + O12 R2= O21 + O22
C1= O11 + O21
C2= O12 + O22
T
给药方式与给药效果的2×2列联表 给药方式
口服 注射
有效
58 64
无效
40 31
总数
98(R1) 95(R2)
有效率
59.2% 67.4%
总数
122(C1)
71(C2)
193(T)
1.H0 :给药方式与给药效果相互独立。
HA :给药方式与给药效果有关联。
2.给出显著水平α=0.05
3.计算各个理论数 Eij=Ri×Cj/T=行总数×列总数/总数
E11= R1 × C1/T=61.95 E21= R2 × C1/T=60.05 E12= R1 × C2/T=36.05 E22= R2 × C2/T=34.95
本章内容
一、离散型数据 x2 统计量和 x2分布 二、拟合优度检验 三、独立性检验
拟合优度检验 (吻合度检验)
理论数可以通过一定的理论分布或某种学说 推算出。用实际观察数与理论数直接比较,从而得
出两者之间是否吻合,这一类检验称为吻合度检验。
独立性检验
分析两类因子是相互独立还是彼此相关。理论 值的推算没有什么理论或学说作依据,这时可假设 观察的各属性之间没有关联,然后证明这种无关联 的假设是否成立。这种检验称为独立性检验。
第5章t检验
1. 建立检验假设,确定检验水准 H0: σ12= σ 22 两组体重的总体方差相等 H1: σ12≠ σ22 两组体重的总体方差不等 α=0.05 2. 计算检验统计量 已知:n1=12 X1=45.75 S12=17.659 n2=13 X2=36.538 S22=3.269
S1 (较大) 17.659 F 2 5.402 S 2(较小) 3.269
注: P<0.01 差别有高度统计学意义 (P越小,越有理由拒绝H0)。
第三节
配对样本t检验
d 0 d t Sd Sd / n
配对设计主要有以下两种形式:
①同源配对: 同一受试对象处理前后的数据;同一受 试对象两个部位的数据;同一样品用两 种方法(仪器)检验的结果; ②异源配对: 配对的两个受试对象分别接受两种处理 后的数据。
第四节 两独立样本 t 检验 Two independent sample t-test • 又称成组t检验 • 适用于完全随机设计的两样本均数的比 较
将受试对象完全 随机地分配到两 组中
一、总体方差相等时的两独立样本 t 检验
应用条件:1. 两样本所代表的总体服从正态分布
2. 两总体方差具有齐性
s1 s12 17.659 2 sx 1.472 1 n n1 12 1
2 s2 s2 3.269 2 sx 2.179 2 n n2 12 2 2
2
三、完全随机分组两组几何均数比较的t检验
宜用几何平均数表示集中水平的资料,不服从 正态分布,但是测量值的对数值服从正态分布, 如抗体滴度的资料。此时可对lgx进行t检验。
t
' 2 2 S x t (1 ) S x t ( 2 )
《统计学》第5章 假设检验
假设不成立时,即拒绝原假设时备以选择的假设,通常用H1 表示。备择
假设和原假设互斥,如在例5.1中,原假设是“2022 年全国城市平均
PM2.5 浓度与2018 年相比没有显著差异”,那么备择假设就是“2022
年全国城市平均PM2.5 浓度与2018 年相比存在显著差异”。相应的统计
小越好。但是,在一定的样本容量下,减少犯第I类错误的概率,就会
使犯第II类错误的概率增大;减少犯第II类错误的概率,会使犯第I类
错误的概率增大。增加样本容量可以使犯第I类错误的概率和犯第II类
错误的概率同时减小,然而现实中资源总是有限的,样本量不可能没有
限制。因此,在给定的样本容量下,必须考虑两类可能的错误之间的权
易被否定,若检验结果否定了原假设,则说明否定的理由是充分的。
第四章 参数估计
《统计学》
16
5.1 假设检验的基本原理
(四) P值法
假设检验的另一种常用方法是利用P值(P-value) 来确定检验决策。P值
指在原假设0 为真时,得到等于样本观测结果或更极端结果的检验统计
量的概率,也被称为实测显著性水平。P值法的决策规则为:如果P值大
1.96) 中。这里−1.96和1.96 称为临界值,区间(−1.96, 1.96) 两侧的
区域则被称为拒绝域。基于样本信息,可以计算得到相应的z检验统计量
值,已知ҧ = 46,0 = 53, = 14 , n = 100 = −5
14/10
第四章 参数估计
《统计学》
14
5.1 假设检验的基本原理
犯第I 类(弃真) 错误的概率 也称为显著性水平(Significance level),
第五章 数据处理和检验
1.Excel(打开excel表第五章) 2.SPSS软件
SPSS结果与excel计算的一样。
三、可疑值的取舍
在实验中得到一组数据,个别数据离群 较远,这一数据称为异常值、可疑值或极端 值。若是过失造成的,则这一数据必须舍去。 否则异常值不能随意取舍,特别是当测量数 据较少时。 处理方法有4d法、格鲁布斯(Grubbs)法和 Q检验法。
格鲁布斯法优点,引人了正态分布中的两个 最重要的样本参数x及s,故方法的准确性较好。 缺点是需要计算x和s,手续稍麻烦。
3. Q检验法
设一组数据,从小到大排列为: x1,x2,……,xn-1,xn 设x1、xn为异常值,则统计量Q为:
Q x n x n 1 x n x1
Q
x 2 x1 x n x1
上述分析结果共有11位数字,从运算 来讲,并无错误,但实际上用这样多位 数的数字来表示上述分析结果是错误的, 它没有反映客观事实,因为所用的分析 方法和测量仪器不可能准确到这种程度。 那么在分析实验中记录和计算时,究竟 要准确到什么程度,才符合客观事实呢? 这就必须了解“有效数字”的意义。
有效数字的意义及位数
2. 格鲁布斯(Grubbs)法
有一组数据,从小到大排列为: x1,x2,……,xn-1,xn 其中x1或xn可能是异常值。 用格鲁布斯法判断时,首先计算出该组数据的 平均值及标准偏差,再根据统计量T进行判断。
T x x1 s
T xn x s
若T>Ta,n,则异常值应舍去,否则应保留。
有效数字的运算规则小结
1.根据分析仪器和分析方法的准确度正 确读出和记录测定值,且只保留一位可疑数 字。 2.在计算结果之前,先根据运算方法确 定欲保留的位数,然后按照数字修约规则对 各测定值进行修约,先修约,后计算。
生物统计学习题集
生物统计学:班级:学号:第一章概论一、填空1 变量按其性质可以分为_______变量和_______变量。
2 样本统计数是总体_______的估计量。
3 生物统计学是研究生命过程中以样本来推断_______的一门学科。
4 生物统计学的根本容包括_______、_______两大局部。
5 统计学的开展过程经历了_______、_______、_______3个阶段。
6 生物学研究中,一般将样本容量_______称为大样本。
7 试验误差可以分为_______、_______两类。
二、判断〔〕1 对于有限总体不必用统计推断方法。
〔〕2 资料的准确性高,其准确性也一定高。
( ) 3 在试验设计中,随机误差只能减少,而不可能完全消除。
〔〕4 统计学上的试验误差,通常指随机误差。
三、名词解释样本总体连续变量非连续变量准确性准确性第二章试验资料的整理与特征数的计算一、填空1 资料按生物的性状特征可分为_______变量和_______变量。
2 直方图适合于表示_______资料的次数分布。
3 变量的分布具有两个明显根本特征,即_______和______。
4 反映变量集中性的特征数是_______,反映变量离散性的特征数是_______。
5 样本标准差的计算公式s=_______。
二、判断( ) 1 计数资料也称连续性变量资料,计量资料也称非连续性变量资料。
( ) 2 条形图和多边形图均适合于表示计数资料的次数分布。
〔〕3 离均差平方和为最小。
〔〕4 资料中出现最多的那个观测值或最多一组的中点值,称为众数。
〔〕5 变异系数是样本变量的绝对变异量。
三、名词解释资料数量性状资料质量性状资料计数资料计量资料普查抽样调查全距〔极差〕组中值算数平均数中位数众数几何平均数方差标准差变异系数四、单项选择〔〕1 下面变量中属于非连续性变量的是_______。
A 身高B 体重C 血型D 血压〔〕2 对某鱼塘不同年龄鱼的尾数进展统计分析时,可做成_______图来表示。
概率论第五章统计量及其分布
P(x2 = 1 | x1 = 0) = (Np)(N1)
21 October 2019
华东师范大学
第五章 统计量及其分布
第18页
显然,如此得到的样本不是简单随机样本。 但是,当N 很大时,我们可以看到上述两种 情形的概率都近似等于p 。所以当N 很大, 而n不大(一个经验法则是 n N 0.1)时可
21 October 2019
21 October 2019
华东师范大学
第五章 统计量及其分布
第6页
比如:两个生产同类产品的工厂的产品的总体 分布:
X
0
1
p
0.983
0.017
X
0
1
p
0.915
0.085
21 October 2019
华东师范大学
第五章 统计量及其分布
第7页
例5.1.2 在二十世纪七十年代后期,美国消费 者购买日产SONY彩电的热情高于购买美产 SONY彩电,原因何在?
以把该样本近似地看成简单随机样本。
思考:
若总体的密度函数为p(x),则其样本的(联 合)密度函数是什么?
21 October 2019
华东师范大学
第五章 统计量及其分布
第19页
§5.2 样本数据的整理与显示
5.2.1 经验分布函数
设 x1, x2, …, xn 是取自总体分布函数为F(x)的样 本,若将样本观测值由小到大进行排列,为 x(1), x(2), …, x(n),则称 x(1), x(2), …, x(n) 为有序样本,
用有序样本定义如下函数
0, Fn ( x) k / n, 1,
第五章数理统计的基础知识
第五章数理统计的基础知识在前四章的概率论部分中,我们讨论了概率论的基本概念、思想和方法。
知道随机变量的统计规律性是通过随机变量的概率分布来全面描述的。
在概率论的许多问题中,概率分布通常是已知的或假设为已知的,在这一前提下我们去研究它的性质、特点和规律性,即讨论我们关心的某些概率、数字特征的计算以及对某些问题的判断、推理等。
但在许多实际问题中,所涉及到的某个随机变量服从什么分布我们可能完全不知道,或有时我们能够根据某些事实推断出分布的类型,但却不知道其分布函数中的某些参数。
例如:1、某种电子元件的寿命服从什么分布是完全不知道的。
2、检测一批灯泡是否合格,则每个灯泡可能合格,也可能不合格,则服从(0—1)分布,但其中的参数p 未知。
对这类问题要深入研究,就必须知道与之相应的分布或分布中的参数.数理统计要解决的首要问题就是:确定一个随机变量的分布或分布中的参数.数理统计学是研究随机现象规律性的一门学科,它以概率论为理论基础,研究如何以有效的方式收集、整理和分析受到随机因素影响的数据,并对所考察的问题作出推理和预测,直至为采取某种决策提供依据和建议。
数理统计研究的内容非常广泛,可分为两大类:一是:怎样有效地收集、整理有限的数据资料.二是:怎样对所得的数据资料进行分析和研究,从而对所考察对象的某些性质作出尽可能精确可靠的判断—本书中参数估计和假设检验。
第一节数理统计的基本概念一、总体与总体的分布在数理统计中,我们将研究对象的全体称为总体或母体,而把组成总体的每个元素称为个体。
总体中所包含的个体的个数称为总体的容量. 容量为有限的总体称为有限总体;容量为无限的总体称为无限总体. 总体和个体之间的关系就是集合与元素之间的关系。
在实际问题中,研究对象往往是很具体的事物或现象,而我们所关心的不是每一个个体的种种具体的特征,而是其中某项或某几项数量指标,记为X .例如:研究一批灯泡的平均寿命时,该批灯泡的全体构成了研究的总体,其中每个灯泡就是个体.但在实际问题中,我们仅仅关心灯泡的使用寿命(记X 表示该批灯泡的寿命)。
第5章 假设检验课后习题解答
第五章 假设检验一、选择题1.单项选择题(1)将由显著性水平所规定的拒绝域平分为两部分,置于概率分布的两边,每边占显著性水平的1/2,这是( B )。
A.单侧检验B.双侧检验C.右单侧检验D.左单侧检验(2)检验功效定义为( B )。
A.原假设为真时将其接受的概率B.原假设不真时将其舍弃的概率C.原假设为真时将其舍弃的概率D.原假设不真时将其接受的概率(3)符号检验中,(+)号的个数与(-)号的个数相差较远时,意味着( C )。
A.存在试验误差(随机误差)B.存在条件误差C.不存在什么误差D.既有抽样误差,也有条件误差(4)得出两总体的样本数据如下:甲:8,6,10,7,8;乙:5,11,6,9,7,10秩和检验中,秩和最大可能值是( C )。
A.15B.48C.45D.662.多项选择题(1)显著性水平与检验拒绝域的关系是( ABD )。
A.显著性水平提高(α变小),意味着拒绝域缩小B.显著性水平降低,意味着拒绝域扩大C.显著性水平提高,意味着拒绝域扩大D.显著性水平降低,意味着拒绝域扩大化E.显著性水平提高或降低,不影响拒绝域的变化(2)β错误( ACDE )。
A.是在原假设不真实的条件下发生的B.是在原假设真实的条件下发生的C.决定于原假设与实际值之间的差距D.原假设与实际值之间的差距越大,犯β错误的可能性就越小E.原假设与实际值之间的差距越小,犯β错误的可能性就越大二、计算题1.某牌号彩电规定无故障时间为10000小时,厂家采取改进措施,现在从新批量彩电中抽取100台,测得平均无故障时间为10150小时,标准差为500小时,能否据此判断该彩电无故障时间有显著增加(α=0.01)?解:假设检验为H 0:μ0=10000,H 1:μ0<10000(使用寿命应该使用单侧检验)。
n =100可近似采用正态分布的检验统计量zα=0.01水平下的反查正态概率表得到临界值2.34到2.36之间(因为表中给出的是双侧检验的接受域临界值,因此本题的单侧检验显著性水平应先乘以2,再查到对应的临界值)。
统计学--假设检验(第五章)-(1)-2
左侧检验:
×
抽样分布
Region of Rejection
拒绝H0
置信水平
1 -
Region of Non rejection
临界值
H0
观察到的样本统计量
【例3】一家研究机构估计,某城市中家庭拥有汽车的比例超 过30%。为验证这一估计是否正确,该研究机构随机抽取 了一个样本进行检验。试陈述用于检验的原假设与备择 假设。
36.6
36.9
36.7
37.2
36.3
37.1
36.7
36.8
37.0
37.0
36.1
37.0
根据样本数据,计算的平均值为36.8oC,标准差为0.36oC 根据参数估计方法,健康成年人平均体温的95%的置信区
间为(36.7,36.9) 研究人员发现这个区间内并没有包括37oC! 因此,提出了“不应该再把37oC作为正常人体温的一个有
解:研究者抽检的意图是倾向于证实这种洗涤剂的平均
净含量并不符合说明书中的陈述。
建立的原假设和备择假设为:
H0 : 500 H1 : < 500
<提出假设>
【例3】一家研究机构估计,某城市中家庭拥有汽车的比例超 过30%。为验证这一估计是否正确,该研究机构随机抽取 了一个样本进行检验。试陈述用于检验的原假设与备择 假设。
传统上,做出决策所依据的是样本统 计量,现代检验中人们直接使用由统计量
算出的犯第一类错误的概率,即所谓的P
值。
注:假设检验不能证明原假设正确。
① 假设检验只提供不利于原假设的证据。当拒绝原假设时, 表明样本提供的证据证明它是错误的;当没有拒绝原假设时 ,我们也不说“接受原假设”,因为没法证明原假设是正确 的
统计学与研究方法试题答案
统计学与研究方法试题答案第一章绪论1单选题1、总体是指()A.全部研究对象B.全部研究对象中抽取的一份C.全部样本D.全部研究指标E.全部同质研究对象的某个变量的值2、统计学中所说的样本是指()A.随意抽取的总体中任意部分B.有意识的选择总体中的典型部分C.依照研究者要求选取总体中有意义的一部分D.依照随机原则抽取总体中有代表性的一部分E.有目的的选择总体中的典型部分3、下列资料属等级资料的是()A.白细胞计数B.住院天数C.门急诊就诊人数D.病人的病情分类E.ABO血型分类4、为了估计某年华北地区家庭医疗费用的平均支出,从华北地区的5个城市随机抽样调查了1500户家庭,他们的平均年医疗费用支出是997元,标准差是391元。
该研究中研究者感兴趣的总体是()A.华北地区1500户家庭B.华北地区的5个城市C.华北地区1500户家庭的年医疗费用D.华北地区所有家庭的年医疗费用E.全国所有家庭的年医疗费用5、欲了解研究人群中原发性高血压病(EH)的患病情况,某研究者调查了1043人,获得了文化程度、高血压家族史、月人均收入、吸烟、饮酒、打鼾、脉压差、心率等指标信息。
则构成计数资料的指标有()A.文化程度、高血压家族史吸烟、饮酒、打鼾B.月人均收入、脉压差、心率C.文化程度、高血压家族史、、打鼾D.吸烟、饮酒E.高血压家族史、饮酒、打鼾第二章计量资料统计描述及计数资料统计描述1、描述一组偏态分布资料的变异度,以()指标较好。
A.全距B.标准差C.变异系数D.四分位数间距E.方差2、用均数和标准差可以全面描述()资料的特征。
A.正偏态分布B.负偏态分布C.正态分布D.对称分布E.对数正态分布3、各观察值均加(或减)同一数后()。
A.均数不变B.几何均数不变C.中位数不变D.标准差不变E.变异系数不变4、比较某地1~2岁和5~5.5岁儿童身高的变异程度。
宜用()。
A.极差B.四分位数间距C.方差D.变异系数E.标准差5、偏态分布宜用()描述其分布的集中趋势。
第5章 定量资料的t检验
第五章定量资料的t检验第一节单样本定量资料的t检验第二节配对设计定量资料的t检验第三节两独立样本比较的t检验第四节t检验的注意事项⏹t检验是以t分布作为其理论依据的检验方法,应用条件包括:¤独立性要求:要求变量值(观测值)之间相互独立;¤正态性要求:样本所来自总体是正态分布总体;¤方差齐性要求:在两独立样本均数比较时,两总体方差齐性。
⏹在实际工作中,只要数据分布为单峰且近似对称分布也可应用;当样本含量较大时可用u检验。
第一节单样本定量资料的t检验知总体均数(一般为理论值、标准值或经大量观察所得的稳定值)的比较,比较的目的是推断样本所代表的那个未知的总体均数与已知的总体均数有无差别。
☐检验统计量t 的计算公式为:00X X X t S S nμμ--==举例:已知北方农村儿童前囟门闭合月龄为14.1月。
某研究人员从东北某县抽取36名儿童,得囟门闭合月龄均值为14.3月,标准差为5.08月。
问该县儿童前囟门闭合月龄的均数是否等于一般儿童?1. 建立假设,确定检验水准: ,该县儿童前囟门闭合月龄的平均水平与一般儿童的平均水平相同:.该县儿童前囟门闭合月龄的平均水平与一般儿童的平均水平不同。
0=μμ0μμ≠1H 0H 0.05α=下:014.314.10.236/ 5.08/36X t S n μ--===3. 确定P 值,做推断结论:0.05(,35)2=2.030, 0.236<2.030>0.05t P ,因此。
0H 尚不能拒绝,差别无统计学意义,可以认为该县儿童前囟门闭合月龄的平均水平与一般儿童的平均水平相同。
⏹如果P值小于或等于检验水准α,意味着在成立的前提下发生了小概率事件,根据“小概率事件在一次随机试验中不(大)可能发生”的推断原理,怀疑的真实性,从而做出拒绝(reject)的决策。
⏹如果P值大于α,在成立的假设下发生较为可能的事件,没有充足的理由对提出怀疑。
《非参数统计》课程教学大纲
非参数统计Non-parametricStatistics一、课程基本信息学时:48(含实验8学时)学分:3考核方式:考试,平时成绩占总成绩30%。
中文简介:非参数统计为有效地分析试验设计及其实际问题中所获得的数据提供了丰富的统计工具。
本课程从问题背景与动机、方法引进、理论基础、计算机实现、应用实例等诸多方面介绍了非参数统计方法,其内容包括:基于二项分布的检验、列联表、秩检验、Ko1mogorov-Smirnov 型统计量等。
本课程在强调实用性的同时,突出了应用方法与理论的结合。
在人才培养体系中,该课程属于选修课程,但建议每个统计学专业的学生必须掌握若干种非参数统计方法,以其作为其他重要统计方法的补充。
特别是针对名义数据分析及有序数据分析时相当有用。
二、教学目的与要求非参数统计是研究随机现象存在的统计规律的学科,其在经济、工农业生产和科学技术等领域有广泛的应用,是一门应用性很强的一门课程。
本课程(1)使学生掌握非参数理论的基本原理和方法,重点掌握单样本,多样本的位置检验和尺度检验,以及相关检验和分布检验。
注意与参数统计的区别;(2)结合实际例子,运用非参数理论,提高学生运用该工具解决实际问题的能力。
(3)使学生进一步掌握具体与抽象、偶然与必然、特殊与一般等辨证关系,培养学生辨证唯物主义观点。
三、教学方法与手段教学中主要采用课堂教学的方法,当中穿插大量的案例,同时预留课堂讨论与练习的时间让学生进行实际的操作。
本课程同时设立计算机上机课程,由老师自编实验指导书详细指导学生进行上机实践,强调动脑与动手相结合,理论与实践相结合。
o五、推荐教材和教学参考资源教材:非参数统计:基于R语言案例分析,柳向东编,暨南大学出版社,2010年12月(第1版)参考资料:1)非参数统计,王星编著,北京:中国人民大学出版社,2(X)5年1月(第一版)2)非参数统计方法,吴喜之等,北京:高等教育出版社,1996年(第1版)3)孙山泽.非参数统计讲义.北京:北京大学出版社,2000。
第五章第三节 异方差性的检验
3、 G-Q检验具体步骤
(1)将样本(观察值)按某个解释变量的大小排序;
(2)将序列中间(段)约 c = 1 / 4 个观察值除去,并使余下的头、尾两段样本容量相同,均为(n-c)/2 个;(3)提出假设:
H0 : ui为同方差; H1:ui为异方差
(4)分别对头、尾两部分样本进行回归,且计算各残差平方和分别为
对(2)式进行回归
R2
a) H0 : 1 2 P H1 : 至少一个i 0
三、Glejser (格里瑟)检验(选学)
四、Breusch—Pagan (布鲁士—佩格)检验(选学) 五、White(怀特)检验 六、ARCH检验
除了图示法以外的检验方法都是构造统计量 实施检验,称为解析法
共同思路
• 异方差性,是相对于不同的样本点,即相对于不 同的X观测值, ui具有不同的方差
ei2
图形分析法是利用残差序列绘制出各种图形,以供分析检验使用。 包括:
1、解释变量为X 轴,残差的平方ei 2 为Y轴的 散点图。
2.解释变量为X 轴,被解释变量为Y轴的X-Y散点图
异方差的类型大致可以分为递增异方差、递减异方差、 复杂异方差三种。 用Y X 作散点图的区域逐渐变宽、变窄、不规则变化, 认为存在异方差; 用ei2 X 作散点图上e2并不近似于某一常数, 则认为存在异方差。
(2)求出残差et , 进而求出et2
(3)估计et2
0
1 X 2t
2 X3t
3
X
2 2t
4
X
2 3t
5 X2t
X 3t
t
(4)针对上述模型作回归,并计算统计量nR2。其中:n为样本
第五章 正态分布、常用统计分布和
1 2
x2 e 2
标准正态分布其实是一般正态分布的一个特 例,记作N(0,1),一般正态分布记作N(μ,σ2)。 一般正态分布之所以能变成唯一的标准正态 分布,就是把原来坐标中的零点沿着X轴迁到μ点, 并且以σ为单位记分。
σ=1
0
图5-5
(一)正态分布与标准正态分布的特点对比
1.标准正态曲线在Z=0处达到最高点; 2.标准正态曲线以Z=0为中心,双侧对称; 3.标准正态曲线从最高点向左右缓慢下降,并无 限延伸,但永不与基线相交; 4.平均数为0,标准差为1; 5.标准正态曲线从最高点向左右延伸时,正负1 个标准差内向下向内弯,从正负1个标准差开 始,向下向外弯。
已知 N 例5: 服从标准正态分布 (0,1), 求P( 1.3) ?
解: 附表4中没有给出Z 0时的 ( Z )值, 但根据标准 正态图形以Z 0对称的原理, 我们知道 P( 1.3) P( 1.3) 1 (1.3) 0.0968
已知 N 例6: 服从标准正态分布 (0,1), 求P(1.3 2.3) ?
解: 将0.95 2 0.475作为正态曲线下平均数 以上的面积, 查附表4, 找与 ( Z ) 0.5 0.475 0.975所对应的Z 1.96, 根据Z X X
X
移项得, 平均数以上的分数是
X X Z X 72 1.96 6 83.76 平均数以下的分数为 :X X Z X 72 1.96 6 60.24
(二)正态分布与标准正态分布面积 之间的对应关系
当x u 时,Z xu
x u u u 当x u 时,Z 1
则有 P (u u ) P (1 1)
第五章 二维随机变量及其分布
( X ,Y )的联合分布列为
X
概 率 论 与 数 理 统 计
Y
1 2 3 4
1 1 4 1 8 1 12 1 16
2 0 1 8 1 12 1 16
3 0 0 1 12 1 16
4 0 0 0 1 16
P ( X Y ) P ( X Y 1) P ( X Y 2) 25 P ( X Y 3) P ( X Y 4) 皖西学院 应用数学学院 48 2019/4/2
概 率 论 与 数 理 统 计
解:X ,Y的所有可能取值都是1,2,3,4, 且 P ( X 1,Y 1) P ( X 1) P (Y 1 X 1) 1 1 1 ; P ( X 2,Y 1) 4 4 1 1 1 P ( X 2) P (Y 1 X 2) ; 4 2 8 1 1 1 P ( X 3,Y 1) ; 4 3 12 1 1 1 P ( X 4,Y 1) ; …… 4 4 16 皖西学院 应用数学学院 2019/4/2 14
ke 2 x 3 y , x 0, y 0; p( x , y ) 其他 0 ,
2019/4/2 皖西学院 应用数学学院 19
求: 1 k值; 2 P ( X 1,Y 1);
概 率 论 与 数 理 统 计
3 P( X Y ) 解: 1由正则性,
有界性:
右连续性: F ( x 0, y ) F ( x , y ), F ( x , y 0) F ( x , y ). P ( a X b, c Y d ) 非负性: F ( b, d ) F ( a , d ) F ( b, c ) F ( a , c ) 0 . 注意 :上述四条性质是联合分布函数的充要条件 皖西学院 应用数学学院 2019/4/2 5 .
第五章 正态分布与z分数、T分数
第五章 正态分布与z 分数、T 分数第一节 正态分布与z 分数一、正态分布正态分布曲线(Normal distribution carve )是一个单峰曲线,中间高,两边逐渐下降,在正负一个标准差的地方有拐点,两端永远不与横轴相交,两侧完全对称的钟形曲线(图5-1)。
它的数学模型公式如下: 正态分布的公式:一般正态分布的公式:222/)(21σμπσ--=x e y (5.1)标准正态分布的公式:2/221x e y -=π (5.2)式中,y :次数或纵线的高度;X :原始分数;μ:总体平均数;σ:总体标准差;π和e :常数(3.14,2.718)从公式看出,决定曲线位置和形态的关键数值是分布的平均数μ和标准差σ。
μ值决定曲线的最高点在横轴上的位置。
μ值越大曲线在横轴上的位置越向右。
σ值决定曲线的形状,是高耸还是矮平。
凡是符合以上条件的曲线就是正态曲线,因此有多少对μ值和σ值的组合就有多少条正态分布曲线。
换句话说,任何特定的正态分布的确定的性质是由公式中的μ和σ值决定的。
在为数众多的正态曲线中,有一条正态曲线,平均数μ等于0,标准差 σ等于 1,统计中规定它为标准正态曲线,任何一条正态分布曲线都可以转化为标准正态曲线,方法就是将原始分数转变为z 分数。
z 分数图5-1 标准正态分布曲线二、z 分数z 分数也叫标准分数(Standard score ),它是以标准差为尺子去度量某一原始分数偏离平均数的距离,这段距离含有几个标准差,z 分数就是几。
从而确定这一数据在全体数据中的位置。
称这一过程为标准化。
转化的公式为5.3即:计算z 分数的公式SX X z -= ( 5.3) 式中,X :原始数据;X :平均数;S :标准差z 分数是以标准差为单位的离均差。
从z 分数的计算可以看出,由于在运算过程中保留了原数据与平均数的差的关系)(X X -,平均数的z 分数等于0, 其它数值的z 分数比平均数大的为正值,比平均数小的为负值。
第五章t检验
第五章t检验第五章 t 检验前面讲了样本平均数抽样分布的问题。
抽样研究的目的是用样本信息来推断总体特征。
所谓统计推断是根据样本和假定模型对总体作出的以概率形式表述的推断,它主要包括假设检验(test of hypothesis )和参数估计(parametric estimation )二个内容。
由一个样本平均数可以对总体平均数作出估计,但样本平均数包含有抽样误差,用包含有抽样误差的样本平均数来推断总体,其结论并不是绝对正确的。
因而要对样本平均数进行统计假设检验。
假设检验又叫显著性检验(test of significance ),是统计学中一个很重要的内容。
显著性检验的方法很多,常用的有t 检验、F 检验和χ2检验等。
尽管这些检验方法的用途及使用条件不同,但其检验的基本原理是相同的。
本章以两个平均数的差异显著性检验为例来阐明显著检验的原理,介绍几种t 检验的方法,然后介绍总体参数的区间估计(interval estimation )。
第一节显著性检验的基本原理一、显著性检验的意义为了便于理解,我们用一个具体的例子来说明显著性检验的意义。
随机抽取10头长白猪和10头大白猪的产仔数,数据如下:长白:11,11,9,12,10,13,13,8,10,13 大白:8,11,12,10,9,8,8,9,10,7经计算,得长白猪10头经产母猪产仔平均数1x =11头,标准差S 1=1.76头;大白猪10头经产母猪产仔平均数2x =9.2头,标准差S 2=1.549头。
能否仅凭这两个平均数的差值1x -2x =1.8头,立即得出长白与大白两品种经产母猪产仔数不同的结论呢?统计学认为,这样得出的结论是不可靠的。
这是因为如果随机测试10头长白猪和10头长白猪的产仔数,可以多得到两个样本数据。
由于抽样误差的随机性,两个样本的平均值不一定是11和9.2,差值也不一定是1.8。
造成这种差异的原因可能有两个,一个是品种造成的差异,即长白猪和大白猪的本质不同,另一个可能是实验误差(或取样误差)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于给定的显著性水平 ,由分布 2 (r 1) 定出。
2 c (r 1)
可
3
例1 某大公司的人事部门希望了解公司职工的病假是否服 从均匀分布在周一到周五,以便合理安排工作。如今抽取 了100名病假职工,其病假日分布如下:
工作日 频数 周一 17 周二 27 周三 10 周四 28 周五 18
X2
…
合计
B1
B2
… … … …
Bc
n2c
X1
A1 A2
Ar
合计
n11 n12 n21 n 22
n1c
n1 n 2
nrc
n r1
nr 2 n 2
nr
n1
n c
n
12
在这种列联表中,人们关心的问题是两个特征是否独 立,称这类问题为列联表的独立性检验。
A1 ,, Ar
B1 ,, Bc
442
625
1159
合计
60
210
1062
1668
3000
18
ˆ i p ˆj np
男
大专以 上 36.8
中专技 校 128.9
高中
初中及 以下 1023.6
合计
651.7
1841
女
23.2
81.1
410.3
644.4
1159
合计
60
210
1062
1688
3000
19
例5 有一千人按性别和是否色盲分类如下:
{W 0.842}
为计算统计量常列成如下表的计算表
26
i
1
x(i )
-1.2
x( n1i )
3.7
x( n1i ) x(i )
4.9
ai
0.5739
2
3
ห้องสมุดไป่ตู้
-1.0
-0.6
2.7
2.0
3.7
2.6
0.3291
0.2141
4
5
-0.3
j
), (3.6.3)
pij pi p j
在这一问题中统计量
2 可写改为
14
(nij npij ) (npij )
2 2 i 1 j 1
r
c
(nij npi p j ) (npi p j )
2 i 1 j 1
r
c
最后一个等式是在原假设 H 0 为真时导出的,在最后 一个式子中有 r+c个未知参数 pi 和 p j 需要估计。 又由
7
三、总体为连续分布的情况
设样本 X 1 ,, X n 为来自总体 X 的一个样本, 要检验的假设是: H 0 : X 服从分布 F ( x) 其中 F ( x) 含有 k 个未知参数,若 k 0 , 那 就 完全已知. 检验 H 0 的做法如下: (1) 把 X 的取值范围分成 r 个区间,设为: 设各区间为 a0 a1 ar 1 ar
为明确写出检验问题,记总体 X 为 ( X 1 , X 2 ) ,它是 二维随机变量,这里 X 1 被分成 r 类, X 2 被分成 c 类,并设
P( X Ai B j ) pij , i 1,, r; j 1,, c.
记
pi P( X 1 Ai ) pij , i 1,, r
2 ( n np ) i 2 i npi i 1 r
3.6.1
2
并指出,当样本容量 n 充分大且 H 0 为真时, 2 近似服从自由度为 r-1 的分布。 当 可认为原假设不真。
H 0 为真时, 2 不应过大,若 2
过大,就
基于此想法,检验的拒绝域应有如下形式:
W { c}
抗压强度区间 (190,200) (200,210) (210,220)
(ai 1 , ai ]
频数 10 26 56
ni
(220,230)
(230,240) (240,250)
64
30 14
合
计
200
本检验方法依赖分组,分组不同有可能得出不同的 10 结论,这是在连续场合 2 拟合优度检验的不足之处。
在水平上检验如下假设:通过该交叉路口的汽车数量 服从泊松分布 P ( ) 。 0.05 解:这里把总体分成12类,每一类出现的概率分别为: i
pi i! e
5
记 Ai 表示15秒钟内通过交叉路口的汽车为 i 辆, i 0,1,,11 .要检验的假设记为:
H 0 : P( Ai ) pi , i 0,1,,11
pi P(ai 1 X ai ) F (ai ) F (ai 1 )
从而用未知参数的极大似然估计代替后可算得各 这样就把检验问题化为分类数据的检验问题 , 以后的计算同前面。
pi .
9
例3 为研究混凝土抗压强度的分布,抽取了200件混凝 土制作测定其抗压强度,经整理得频数分布表如下表。试 在水平 0.05下检验抗压强度的分布是否为正态分布。
拒绝原假设,表明色盲和性别之间有非常密切的关系.
22
§5.2正态性检验
用于判断总体是否为正态分布的检验称为正态性 检验。由于正态分布在实际中使用频繁,迫使统 计学家去寻找专门的正态性检验。在几十种正态 性 检 验 方 法 中 , Wilk-Shapiro 的 W 检 验 和 Dagustino的D检验是最好的,它们犯第二类错 误的概率最小。 一、样本(3≤n≤50)场合的 W 检验 设从总体X中抽取了容量为n的样本 现检验如下假设:
(ai , x(i ) ] i 1,2,, n 的相关系数
上式中的系数
a1 , a2 ,, an
具有如下性质
24
n ai a n 1i , i 1,2, , [ ] 2
2 a 0 , a i i 1 i 1 i 1 n n
a1 , a2 ,, an 已制成表格供查用。 对不同的n,系数 a1 , a2 ,, a 利用系数 的性质,可简化为 n
X1 ,, X n
H0 :
X服从正态分布
23
在 3 ≤ n≤50 时, Wilk 与 Shapiro 提出如下的 W 统计量:
W
[ (ai a )( X (i ) X )]
i 1 n n
n
2
2 2 ( a a ) ( X X ) i i i 1 i 1
它可以看成是数对 的平方, 从而0≤W≤1。
四、列联表的独立检验
在有些实际问题中,当我们抽取了一个容量为 n 的 样本后,对样本中每一样品可按不同特性进行分类。 例如在进行失业人员情况调查时,对抽取的每一位失 业人员可按其性别分类,也可按其年龄分类,当然也 可按其它特征分类。 当我们用特征对样品分类时,记这两个特征分别为 X 1 与 X 2 ,不妨设 X 1有 r 个类别,X 2 有 C 个类别, 则可把被调查的 n 个样品按其所属类别进行分类,列成 如下一张 r c 的二维表,这张表也称为(二维)列联 表。 11
W
[ ai ( X ( n 1i ) X (i ) )]
i 1
n [ ] 2
2
(X
i 1
n
i
X)
2
25
可以证明在 H 0 为真时,W的取值应接近于1,因而检 验的拒绝域取为 {W c} .对给定的显著性水平 ,在 正态分布假定下,使 P(W c) 的临界值c可从附表中 查到,从而拒绝域为 {W W1- } 例1 抽查用克矽平治疗的矽肺病患者10人,得到 他们治疗前后的血红蛋白差(单位:克)如下: 2.7 -1.2 -1.0 0 0.7 2.0 3.7 -0.6 0.8 –0.3 现要检验治疗前后血红蛋白差是否服从正态分布 (取 0.05 ) 解: n 10, 0.05,W1-0.05 0.842 ,故拒绝域为
p j P( X 2 B j ) pij , j 1,, c
i 1
13
c
j 1 r
当 X 1 与 X 2 两个特性独立时,应对一切
i, j 有
pij pi p j
因此我们的检验问题为
H 0 : pij pi p j , i, j
H1 :
至少一对( i ,
W { ((r 1)(c 1))}
2 2
17
例4 某地调查了 3000名失业人员,按性别文化程 度分类如下:试在水平上检验失业人员的性别与文 化程度是否有关。 0.05
学历 性别 男
大专以 上
40
中专 技校
138
高 中
620
初中及以下
合计
1043
1841
女
20
72
男 女 合计
正常
色盲 合计
442
38 480
514
6 520
956
44 1000
问色盲与性别是否独立?
20
解:
H 0 : pij pi p j H 1 : pij pi p j
i, j some i, j
再构造一张列联表
男 正常 色盲 合计 458.88 21.12 480 女 497.12 22.88 520 合计 956 44 1000
(ni npi ) npi i 1
2
3.6.2
2 近似服从自由度为 r-k-1 的 分布.
6
在采用 (3.6.2) 式 , 要求各 n i 不能过少 , 通常要 求 ni 5 ,当某些频数小于5时,通常的做法是将临近 的若干组合并.
i
ni
ˆi p