第三章:参数估计、第四章:假设检验
参数估计和假设检验
假设检验
实际中的假设检验问题
假设检验: 事先作出关于总体参数、分布形式、
相互关系等的命题(假设),然后通过样本信息 来判断该命题是否成立(检验) 。
产品自动生产线工作是否正常? 某种新生产方法是否会降低产品成本? 治疗某疾病的新药是否比旧药疗效更高? 厂商声称产品质量符合标准,是否可信?
两个正态总体均值差的检验(t检验) 两个正态总体方差未知但等方差时,比较两正态总体样 本均值的假设检验 函数 ttest2 格式 [h,sig,ci]=ttest2(X,Y) %X,Y为两个正态总体的样本,显 著性水平为0.05 [h,sig,ci]=ttest2(X,Y,alpha) %alpha为显著性水平 [h,sig,ci]=ttest2(X,Y,alpha,tail) %sig为当原假设为真时得 到观察值的概率,当sig为小概率时则对原假设提出质疑 ,ci为真正均值μ的1-alpha置信区间。
例:从某厂生产的滚珠中随机抽取10个,测得滚珠的
直径(单位:mm)如下 15.14 14.81 15.11 15.26 15.08 15.17 15.12 14.95 15.05 14.87 若滚珠直径满服从正态分布N(μ,σ2),其中μ,σ未知。试 求之并计算置信水平为90%的置信区间
x = [15.14 14.81 15.11 15.26 15.08 15.17 15.12 14.95 15.05 14.87]; % 定义样本观测值向量 % 调用normfit函数求正态总体参数的最大似然估计和置信区间 % 返回总体均值的最大似然估计muhat和90%置信区间muci, % 还返回总体标准差的最大似然估计sigmahat和90%置信区间sigmaci [muhat,sigmahat,muci,sigmaci] = normfit(x,0.1)
参数估计假设检验练习题
第三章 假设检验例子例1:某糖厂用自动打包机装糖。
已知每袋糖的重量(单位:千克)服从正态分布()2~,X N μσ。
今随机抽查9袋,称出它们的重量并计算得到*48.5, 2.5x s ==。
取显著性水平0.05α=。
在下列两种情形下分别检验()01:50 :50H H μμ=≠22(1) 4 (2)σσ=未知解:()()2*01220.97512~,48.5, 2.5,9,0.05:50 :50(1) 4 (2)(1) 2.251.962.25 1.96X N x s n H H u uu αμσαμμσσ-=====≠======>糖的重量,现在已知显著性水平,在两种情形下检验:未知解:计算检验统计量的观测值 临界值,因为,所以拒绝原假设即不能认为糖的重量50的平均值是千克,即打包机工作不正常。
()()()()2*0120.97512~,48.5, 2.5,9,0.05:50 :50(2) 1.818 2.306 1.8 2.306X N x s n H H t t n t αμσαμμσ-=====≠===-==<糖的重量,现在已知显著性水平,在两种情形下检验:未知解:计算检验统计量的观测值 临界值,因为,所以不能拒绝原假设,即不能认为打包机工作不正常。
例2:在上题中,试在显著性水平0.1α=下检验()2201: 4 :4H H σσ=>()()()()*2201*22202210.948.5, 2.5,9,0.1: 4 :4112.51813.36212.513.362.x s n H H n s n αασσχσχχ-=====>-==-==<显著性水平,解:计算检验统计量的观测值 临界值,因为,所以不能拒绝原假设,即不能认为打包机工作不正常例3:监测站对某条河流每日的溶解氧(DO )质量浓度记录了30个数据,并由此算得 2.52, 2.05x s ==。
已知这条河流的每日DO 质量浓度服从()2,N μσ,试在显著性水平0.05α=下检验()01: 2.7 : 2.7H H μμ=≠。
参数估计和假设检验
参数估计和假设检验参数估计和假设检验是统计学中常用的两种方法,用于根据样本数据对总体的特征进行推断和判断。
参数估计是通过样本数据估计总体参数值的方法,而假设检验则是基于样本数据对总体参数假设进行判断的方法。
下面将详细介绍这两种方法以及它们的应用。
1.参数估计参数是指总体特征的度量,比如总体均值、总体方差等。
在实际应用中,我们往往无法得到总体数据,只能通过抽样得到样本数据。
参数估计的目标是利用样本数据去估计总体参数的值。
最常用的参数估计方法是点估计和区间估计:-点估计是使用样本统计量来估计总体参数的值,常用的样本统计量有样本均值、样本方差等。
-区间估计是利用样本数据构建一个置信区间,用来估计总体参数的取值范围。
置信区间的计算方法通常是基于样本统计量的分布进行计算。
在进行参数估计时,需要注意以下几个要点:-选择适当的样本容量和抽样方法,确保样本具有代表性,并满足参数估计的要求。
-选择适当的样本统计量进行参数估计,并对其进行合理的解释与限制。
-利用抽样分布特性和统计理论,计算参数估计的标准误差和置信区间,对参数估计结果进行解释和判断。
2.假设检验假设检验是基于样本数据对总体参数假设进行判断的方法。
在实际问题中,我们常常需要根据样本数据来判断一些总体参数是否达到一些要求或存在其中一种关系。
假设检验的基本步骤:-建立原假设(H0)和备择假设(H1)。
原假设通常是对总体参数取值的一种假设,备择假设则是原假设的对立假设。
-选择适当的统计量用来检验假设,并计算样本统计量的检验统计量。
-根据样本数据计算得出的检验统计量,利用抽样分布特性和统计理论计算P值。
-根据P值与事先设置的显著性水平进行比较,如果P值小于显著性水平,则拒绝原假设;反之,接受原假设。
在进行假设检验时,需要注意以下几个要点:-显著性水平的选择:显著性水平(α)是进行假设检验过程中设置的一个临界值,它反映了能够容忍的错误发生的概率。
常用的显著性水平有0.05和0.01-选择适当的统计量与检验方法:根据问题的性质和数据类型选择适当的统计量和检验方法。
实验设计与数据分析
2、标记字母法 此法是先将各处理平均数由大到小 自上而下排列 ;
然后在最大平均数后标记字母a, 并 将 该 平 均数与
以 下 各 平 均 数依次相比,凡 差 异 不 显著标 记 同 一 字 母 ,直到某一个与其差异显著的平均数标记字母
• 在利用字母标记法表示多重比较结果时, 常在三角形法的基础上进行。此法的优点 是占篇幅小,在科技文献中常见。
• 应当注意,无论采用哪种方法表示多重比 较结果,都应注明采用的是哪一种多重比 较法。同时注明显著性水平。
5.4 单因素方差分析
例5-1
将一份金属钨试样分发给7个实验室,各室用相同的重
g
SSB nj (Xj X)2 j1
组内差异则是各组内部观察值的离散程度
g nj
SSW
(Xij Xj)2
j1 i1
深入理解F统计量(3)
g nj
SST
(Xij X)2
j1 i1
总离差
g
SSB nj (Xj X)2
组间方差
j1
g nj
SSW
在方差分析之前,我们可利用Minitab对 数据作方差一致性检验
方差分析时,Minitab能够读取的数据格式与上表给出的格式不 同,我们必须把数据转化为Minitab能够理解的形式
方差一致性检验
Stat→ANOVA→Test for Equal Variance
数据
菜单
方差一致性检验(续)
适用于正态 分布的数据
F=组间方差/组内方差
的检验统计量,在一定的置信水平下,将这个 值和某个临界值作比较,就可以得出接受还是 拒绝零假设的结论。
贾俊平统计学(第六版)思考题答案解析
第一章:1、什么是统计学?统计学是一门收集、分析、表述、解释数据的科学和艺术。
2、描述统计:研究的是数据收集、汇总、处理、图表描述、概括与分析等统计方法。
推断统计:研究的是如何利用样本数据来推断总体特征。
3、统计学据可以分成哪几种类型,个有什么特点?按照计量尺度不同,分为:分类数据、顺序数据、数值型数据。
分类数据:只能归于某一类别的,非数字型数据。
顺序数据:只能归于某一有序类别的,非数字型数据。
数值型数据:按数字尺度测量的观察值,结果表现为数值。
按收集方法不同。
分为:观测数据、和实验数据观测数据:通过调查或观测而收集到的数据;不控制条件;社会经济领域实验数据:在试验中收集到的数据;控制条件;自然科学领域。
按时间不同,分为:截面数据、时间序列数据截面数据:在相同或近似相同的时间点上收集的数据。
时间序列数据:在不同时间收集的数据。
4、举例说明总体、样本、参数、统计量、变量这几个概念.总体:是包含全部研究个体的集合,包括有限总体和无限总体(范围、数目判定)样本:从总体中抽取的一部分元素的集合.参数:用来描述总体特征的概括性数字度量。
(平均数、标准差、比例等)统计量:用来描述样本特征的概括性数字度量。
(平均数、标准差、比例等)变量:是说明样本某种特征的概念,其特点:从一次观察到下一次观察结果会呈现出差别或变化。
(商品销售额、受教育程度、产品质量等级等)(对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。
)5、变量可以分为哪几类?分类变量:说明事物类别;取值是分类数据.顺序变量:说明事物有序类别;取值是顺序数据数值型变量:说明事物数字特征;取值是数值型数据。
变量也可以分为:随机变量和非随机变量;经验变量和理论变量6、举例说明离散型变量和连续型变量。
参数估计与假设检验的关系
1-2
!
参数估计与假设检验的区别
2、区间估计通常求得的是以样本估计值为中心的双侧置 信区间。 假设检验不仅有双侧检验也有单侧检验。 3、区间估计立足于大概率1-α,通常以较大的把握程度( 可信度)1-α去估 计总体参数的置信区间。 假设检验是立 足于小概率α ,通常以很小的显著水平去检验对总体参数 的先验假设是否成立。
双侧检验!
1-7
!
用置信区间进行检验
(例题分析)
H0: = 1000
置信区间为
H1: 1000
= 0.05
n = 49
临界值(s):
拒绝 H0
拒绝 H0
.025
.025
-1.96 0 1.96 Z
x z 2
n
,
x
z
2
n
9911.96
50 ,991 1.96 16
50 16
966.5,1015.5
3. 右侧检验:求出单边置信上限
X z
n
或X
t
S n
4. 若总体的假设值0大于单边置信上限,拒绝H0
1-6
!
用置信区间进行检验
(例题分析)
【例】一种袋装食品每包的标准重量应为
1000克。现从生产的一批产品中随机抽取16 袋,测得其平均重量为991克。已知这种产 品重量服从标准差为50克的正态分布。试确 定这批产品的包装重量是否合格?( = 0.05)
参数估计与假设检验的区别
1、参数估计是根据样本资料估计总体参数的真值,假设检验是根 据样本资料来检验对总体参数的先验假设是否成立。 例如,通过 随机抽取的样本对某地区居民的平均收入进行推断:
参数估计:要求以一定的概率估计总体平均收入 假设检验:要求以一定的概率判断总体平均收入是否达到某
第4章参数估计和假设检验
第4章参数估计和假设检验第四章参数估计与假设检验掌握参数估计和假设检验的基本思想是正确理解和应⽤其他统计推断⽅法的基础,后⾯将要学习的⽅差分析、⾮参数检验、回归分析、时间序列等统计推断⽅法都是在此基础上展开的。
需要特别指出的是,所有的统计推断都要以随机样本为基础。
如果样本是⾮随机的,统计推断⽅法就不适⽤了。
由于相关知识在先修课程中已经学习过,本章主要在回顾相关知识的基础上,补充讲解必要样本容量的计算、p值、参数估计和假设检验⽅法的软件操作和结果分析等内容。
本章的主要内容包括:(1)参数估计的基本思想和软件实现。
(2)简单随机抽样情况下样本容量的计算。
(3)假设检验的基本原理。
(4)假设检验中的p值。
(5)⼏种常⽤假设检验的软件实现。
第⼀节参数估计⼀、参数估计的基本概念参数估计是指利⽤样本信息对总体数字特征作出的估计。
例如,我们可以通过估计⼀部分产品的合格率对整批产品的合格率作出估计,通过调查⼀个样本的⼈⼝数来对全国的⼈⼝数作出估计,等等。
参数估计可以分为点估计和区间估计。
点估计是指根据样本数据给出的总体未知参数的⼀个估计值。
对总体参数进⾏估计的⽅法可以有多种,例如矩估计法、极⼤似然估计法等,得到的估计量(样本统计量)并不是唯⼀的。
例如我们可以使⽤样本均值对总体均值作出估计,也可以使⽤样本中位数对总体均值进⾏估计。
因此,在参数估计中我们需要对估计量的好坏作出评价,这就涉及到估计量的评价准则问题。
常⽤的估计量评价准则包括⽆偏性、有效性、⼀致性等。
⽆偏性是指估计量的数学期望与总体参数的真实值相等;有效性的含义是,在两个⽆偏估计量中⽅差较⼩的估计量较为有效,⽅差越⼩越有效;⼀致性是指随着样本容量的增⼤,估计量的取值应该越来越接近总体参数。
样本的随机性决定了估计结果的随机性。
由于每⼀个点估计值都来⾃于⼀个随机样本,所以总体参数真值刚好等于⼀个具体估计值的可能性极⼩。
区间估计的⽅法则以概率论为基础,在点估计的基础上给出了⼀个置信区间,并给出了这⼀区间包含总体真值的概率,⽐点估计提供了更多的信息。
第三章 4 假设检验的基本原理与步骤A版
假设检验的基本原理和步骤●某一样本均数是否来自于某已知均数的总体?●两个不同样本均数是否来自均数不相等的总体?要回答这类问题:----参数估计----假设检验(hypothesis test)假设检验过去称显著性检验。
它是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。
然后在H0成立的条件下计算检验统计量,最后获得P值来判断。
例1某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。
问从事铅作业工人的血红蛋白是否不同于正常成年男性的均数140g/L?本例:μ=140g L,X=130.83g Lμ?①单纯抽样误差造成的(μ=μ0);造成X≠μ0的情况有二:②抽样误差和本质异造成的(μ≠μ0)。
假设检验的目的就是判断差别是由哪种情况造成的。
男性铅作业工人血红蛋白μ=140g/L一种假设H 0:μ=μ0男性铅作业工人血红蛋白μ≠140g/L另一种假设H 1:μ≠μ0 X=130.83 g L 抽样误差抽样误差总体不同1.建立检验假设,确定检验水准(选用单侧或双侧检验)(1)无效假设又称零假设,记为H0;(2)备择假设又称对立假设,记为H1。
对于检验假设,须注意:①检验假设是针对总体而言,而不是针对样本;②H0和H1是相互联系,对立的假设,后面的结论是根据H0和H1作出的,因此两者不是可有可无,而是缺一不可;③H1的内容直接反映了检验单双侧。
若H1中只是μ>μ0或μ<μ0,则此检验为单侧检验。
它不仅考虑有无差异,而且还考虑差异的方向。
例如表1 样本均数(代表未知总体均数μ)与已知总体均数μ比较的t 检验目的H0H1双侧检验单侧检验是否μ≠μ0是否μ>μ0是否μ<μ0μ=μ0μ=μ0μ=μ0μ≠μ0μ>μ0μ<μ0表2 两样本均数(分别代表未知总体均数μ1与μ2)比较的t 检验目的H0H1双侧检验单侧检验是否μ1≠μ2是否μ1>μ2是否μ1<μ2μ1=μ2μ1=μ2μ1=μ2μ1≠μ2μ1>μ2μ1<μ2④单双侧检验的确定,首先根据专业知识,其次根据所要解决的问题来确定。
第4章 参数估计与假设检验
2 2Leabharlann y 14.36, n2 2000, 2 1.16
, 2 (2 )
2 1
2
2 2 2 未知但 1 2
(2) 2 未知
S S 或 X t S f=n-1 , X t 2 X t 2 2 n n n
X ~ t (n 1) 选取样本函数 t S n P t t P t t 1 2 2 X P t 1 2 S n 得 的置信度为 1 的置信区间为
23.67,62.27
此题因为是大样本,故用两种方法计算结果相同, 而公式**较简便。如果是小样本,只能按小样本的 公式*计算。若按大样本公式计算,结果误差偏大。
(2 ) , 2 未知且
2 1 2
2 1
2
2
若为小样本,取样本函数 t
2 1 2
X Y 1 2
n
2
n
2
n
0 5 1.960 u 0.0 1 2.576 u0.1 1.645 u0.2 2
例2 伤寒论用桂枝39张处方,桂枝用量服从σ=3g的正 态分布,根据样本均数8.14g,显著水平0.05,估计桂枝用 量μ的置信区间 解:μ 的置信度0.95的置信区间为
3 8.14 1.96 =(7.1984,9.0816)g 39
2 x (1 ) 已知 2 e X u ~ N 0,1 2 / n
2
金融统计学课后答案
金融统计学课后答案统计学概述统计学是一门研究收集、分析、解释和呈现数据的学科。
在金融领域,统计学作为一种重要的分析工具,可帮助金融从业人员进行市场研究、风险评估和投资决策。
以下是金融统计学课后练习的答案。
第一章:数据和概率1.数据可以分为定量数据和定性数据。
定量数据是可以以数量或数字表示的数据,例如收入、股价等。
定性数据是指不能以数字来表示的数据,例如性别、产品类别等。
2.描述性统计学是指对数据进行总结和解释的统计方法,例如均值、中位数和标准差等。
推论统计学是通过对样本数据进行分析来对总体进行推断的统计方法,例如假设检验、置信区间等。
3.概率是一种度量事件发生可能性的方法。
概率可以用来预测事件的发生概率,并用于风险管理和投资决策中。
概率的范围是从0到1,表示事件发生的可能性。
概率为0表示事件不可能发生,概率为1表示事件一定会发生。
4.随机变量是一个具有随机性的变量,可以取不同的值。
离散随机变量只能取有限个或可数个值,连续随机变量可以取无限个值。
例如,抛硬币的结果可以表示为离散随机变量,股票价格可以表示为连续随机变量。
5.概率质量函数(Probability Mass Function, PMF)是离散随机变量的概率分布函数,用于描述每个可能值发生的概率。
概率密度函数(Probability Density Function, PDF)是连续随机变量的概率分布函数,描述了随机变量取某个值的概率密度。
6.期望是随机变量取值的加权平均值,表示了随机变量的平均值。
方差衡量随机变量取值的离散程度,是每个取值与均值之间差的平均值。
标准差是方差的平方根。
7.正态分布是一种常见的连续概率分布,具有钟形曲线形状。
正态分布由两个参数完全描述,即均值和标准差。
正态分布的均值决定了钟形曲线的中心位置,标准差决定了曲线的宽度。
许多自然现象和金融数据都近似于正态分布。
8.离散型随机变量的期望由每个可能值的取值及其对应的概率相乘再求和得到;连续型随机变量的期望由每个取值及其对应的概率密度相乘再积分得到。
统计学原理公式
第二章数据描述1、组距=上限—下限2、简单平均数:x=Σx/n3、加权平均数:x=Σxf/Σf4、全距: R=x max-x min5、方差和标准差:方差是将各个变量值和其均值离差平方的平均数。
其计算公式:未分组的计算公式:σ2=Σ(x-x)2/n分组的计算公式:σ2=Σ(x-x)2f/Σf样本标准差则是方差的平方根:未分组的计算公式:s=[Σ(x-x)2/(n-1)]1/2分组的计算公式:s=[Σ(x-x)2f/(Σf-1)] 1/2σ=[Σ(x-x)/n] 1/26、离散系数:总体数据的离散系数:Vσ=σ/x样本数据的离散系数:V s=s/x10、标准分数:标准分数也称标准化值或Z分数,它是变量值与其平均数的离差除以标准差后的值,用以测定某一个数据在该组数据的相对位置。
其计算公式为:Z i=(x i-x)/s标准分数的最大的用途是可以把两组数组中的两个不同均值、不同标准差的数据进行对比,以判断它们在各组中的位置。
第三章参数估计1、统计量的标准误差:(样本误差)(1)在重复抽样时;样本标准误差:σx=σ/n或σx=s/n样本的比例误差可表示为:σp=[π(1-π)/n]1/2或σp=[p(1-p)/n] 1/2(2)不重复抽样时:σ2x=σ2/n×(N-n/N-1)σ2p=p(1-p)/n×(N-n/N-1)2、估计总体均值时样本量的确定,在重复抽样的条件下:n= Z2σ2/E23、估计总体比例时样本量的确定,在重复抽样的条件下:n=Z2×p(1-p)/E24、(1)在大样本情况下,样本均值的抽样分布服从正态分布,因此采用正态分布的检验统计量,当总体方差已知时,总体均值检验统计量为:Z=(x-μ)/( σ/n)(2)当总体方差未知时,可以用样本方差来代替,此时总体均值检验的统计量为:Z=(x-μ)/( s/n)5、小样本的检验:在小样本(n<30)情况下,检验时,首先假定总体均值服从正态分布。
第三章 参数估计
第三章 参数估计重点:1.总体参数与统计量2.样本均值与样本比例及其标准误差难点:1.区间估计2.样本量的确定知识点一:总体分布与总体参数统计分析数据的方法包括:描述统计和推断统计(第一章)推断统计是研究如何利用样本数据来推 断总体特征的统计学方法,包括参数估计和假设检验两大类。
总体分布是总体中所有观测值所形成的分布。
总体参数是对总体特征的某个概括性的度量。
通常有总体平均数( μ)总体方差(σ2 )总体比例( π)知识点二:统计量和抽样分布总体参数是未知的,但可以利用样本信息来推断。
统计量是根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量。
统计量是样本的函数,如样本均值()、样本方差( s2)、样本比例(p)等。
构成统计量的函数中不能包括未知因素。
由于样本是从总体中随机抽取的,样本具有随机性,由样本数据计算出的统计量也就是随机的。
统计量的取值是依据样本而变化的,不同的样本可以计算出不同的统计量值。
[例题·单选题]以下为总体参数的是( )a.样本均值b.样本方差c.样本比例d.总体均值答案:d解析:总体参数是对总体特征的某个概括性的度量。
通常有总体平均数、总体方差、总体比例题·判断题:统计量是样本的函数。
答案:正确解析:统计量是样本的函数,如样本均值()、样本方差()、样本比例(p)等。
构成统计量的函数中不能包括未知因素。
[例题·判断题]在抽样推断中,作为推断对象的总体和作为观察对象的样本都是确定的、唯一的。
答案:错误解析:作为推断对象的总体是唯一的,但作为观察对象的样本不是唯一的,不同的样本可以计算出不同的统计量值。
(一)样本均值的抽样分布设总体共有n个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有n n种抽法,即可以组成n n不同的样本,在不重复抽样时,共有个可能的样本。
每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。
第四章 假设检验
大,就越容易将试验的真实差异错判为试验误差。
显著性检验的两类错误归纳如下:
表4-1 显著性检验的两类错误
客观实际
H0 成立 H0 不成立
检验结果
否定 H0 Ⅰ型错误( )
接受 H0 推断正确(1- )
推断正确(1- ) Ⅱ型错误( )
与0 有差异而因为试验误差大被掩盖了。
为了降低犯两类错误的概率,一般从选取适当的显
著水平 和增加试验重复次数 n 来考虑。因为选取数 值小的显著水平 值可以降低犯Ⅰ类型错误的概率,
但与此同时也增大了犯Ⅱ型错误的概率,所以显著水
平 值的选用要同时考虑到犯两类错误的概率的大小。
对于田间试验,由于试验条件不容易控制
y1 510
y2 500
我们能否根据 y1 y2 10 就判定这两
个水稻品种平均产量不同?结论是,不一定。
因为两个水稻品种平均产量 y1 、y2 都 是从试验种植的10个小区获得,仅是两个品种
有关总体平均数 1, 2 的估计值。由于存在
试验误差 ,样本平均数并不等于总体平均数 , 样本平均数包含总体平均数与试验误差二部分, 即
∣u∣≥2.526的两尾概率,所以称为 u 检验.
三、显著水平与两种类型的错误
(一)显著水平
用来否定或接受无效假设的概率标准叫显著水
平,记作 。 在生物学研究中常取 =0.05,称为 5% 显著水平; 或 =0.01,称为1% 显著水平或极显著水平。
对于上述例子 u的检验来说,若∣u∣<1.96 ,
则说明试验的表面差异属于试验误差的概率p>0.05,
即表面差异属于试验误差的可能性大,不能否
中级统计师考试-3统计方法知识考试重点归纳(私藏)
2014中级统计师考试-统计方法知识考试重点归纳第一章统计和数据●统计是用来处理数据的,是关于数据的一门学问。
1、统计学:是用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法。
2、统计分析数据的方法分为:(1)描述统计(2)推断统计3、描述统计:是研究数据搜集、处理和描述的统计学方法。
4、推断统计:是研究如何利用样本数据来推断总体特征的统计学方法。
5、推断统计包括:(1)参数估计(2)假设检验6、定性变量的特点:只反映现象的属性特点,不能说明具体量的大小和差异。
●定性变量包括分类变量和顺序变量。
●只反映现象分类特征的变量称分类变量。
分类变量没有数值特征,所以不能对其数据进行数学运算。
●如果类别具有一定的顺序,这样的变量称为顺序变量。
顺序变量不仅能用来区分客观现象的不同类别,而且还可以表明现象之间的大小、高低、优劣关系。
7、定量变量的特点:可以用数值表示其观察结果,而且这些数值具有明确的数值含义,不仅能分类而且能测量出来具体大小和差异。
●数值型数据(定量数据)作为统计研究的主要资料,其特征在于它们都是以数值的形式出现的,有些数值型数据只可以计算数据之间的绝对差,而有些数值型数据不仅可以计算数据之间的绝对差,还可以计算数据之间的相对差。
其计量精度远远高于定性数据。
在统计学研究中,数值型数据有着最广泛的用途。
8、数据按获取的方法不同分为:(1)观测数据(2)实验数据9、观测数据:是对客观现象进行实地观测所取得的数据,在数据取得的过程中一般没有人为的控制和条件约束。
10、实验数据:一般是在科学实验环境下取得的数据。
11、统计数据资料的来源:(1)通过直接的调查或实验获得的原始数据,这是统计数据的直接来源;(2)别人调查的间接数据,并将这些数据进行加工和汇总后公布的数据,这是数据的间接来源。
12、数据的直接来源:(1)统计调查(2)实验法●通过统计调查得到的数据,一般称为观测数据。
●运用实验法时,实验组和对照组的产生应当是随机的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 参数估计2.区间估计一般可用在食品药品某些主要指标的含量以及产品的使用寿命等数字特征。
用样本区推断总体的性质。
设总体为X,含未知数θ,12,,......,n X X X 是样本,()()11122212,,....,,,,....,.......n n X X X X X X θθθθ==都是样本的函数(不含任何未知参数)。
对0<α<<1,使得12()1,P θθθα<≤≤=-即未知数θ以大概率100(1α-)%落在区间[]12,θθ内,称(1α-)为置信度(可相信的程度)为[]12,θθ为θ的置信区间。
12,θθ分别为置信上下限。
以上过程称为对θ的区间估计,可分为双侧与单侧区间估计。
一般设总体()2~,,N u σX 单个正态总体的2,u σ作区间估计。
例1:某厂生产一批清漆,为考虑该批清漆的平均干燥时间及离散程度,任取n=9个样本。
测得干燥时间分别为6.0,5.7,5.8,6.5,7.0,6.3,5.6,6.1,5.0小时;设总体X 的干燥时间服从一般正态分布,即()2~,,N u σX(1)若2σ=0.36,求平均干燥时间95%的置信区间; 解:1 总体的方差2σ已知对u 作区间估计,取统计量分布:~(0,1)X uU N σ--=2 对0.05α=查表取/20.025 1.96Z Z α==双侧区间估计,如图使()/21 P U Zαα≤=-3将U-=代入即/2/2/2/2/2()()1()X UP X X P X X u X Xu X Xαααααασ---∧---≤≤=≤≤=-∈4. 由样本值[]0.0251(6.0 5.7...... 5.0) 6.090.6,9, 1.96(6.0 1.96) 5.608,6.392xn Xuσ-∧=+++====∈±=5.可认为该批产品的平均干燥时间为95%的可能性落在区间[]5.608,6.392(2)2u95%σ未知,求的的置信区间。
2221.~(1)T t nσσ-=-未知,用S代替,取统计量的分布/20.0252. 0.05(1)(8) 2.306a n α=-==,双侧区间估计,取 t t如图示使/2/2/2/2/2/2((1))13.((1)(1))((1)(1))1[(1)]P T t n P t n t n P X n u X n u X n αααααααα---∧-≤-=---≤-=--≤≤-=-∈±-代入4.带样本值,x -=6.0[]222122220.0251()11(6.0 5.7..... 5.096)0.33910.574(8) 2.306,96.0 5.558,6.442ni i S x n x n S t n u -=∧=--=+++-⨯=-===⎡⎤∈±=⎢⎥⎣⎦∑ 5.可以认为该批产品当方差未知时,平均干燥时间95%的可能性落在区间[]5.558,6.442内。
(3)求2σ的95%的置信区间。
1.取统计量的分布 22221~(1)n s n χχσ-=-22/20.025221/20.9752221/2/22.0.05,(1)(8) 1.7535(1)(8) 2.18P((1)(1))=1-n n n n αααααχχχχχχχα--=-==-==-≤≤-对双侧取使如图:3.代2221n s χσ-=有[]221/2/2222222/21/222222/21/2221P((1)(1))=(1)(1) P(1-(1)(1)(1)(1),(1)(1)4. 0.33980.3380.33,0.1505,1.21117.535 2.18n n n n s n s n n n s n s n n s n ααααααχχσσαχχσχχσ---∧--≤≤---≤≤=--⎡⎤--∈⎢⎥--⎣⎦==⨯⨯⎡⎤∈=⎢⎥⎣⎦由样本值,5.可以认为该批产品平均干燥时间的方差为95%的可能性落在区间[]0.1505,1.211内例2.单侧区间估计科学上重大发现往往是年轻人作出的,美国科学院统计了15世纪到20世纪12名科学伟人。
(1)哥白尼 1543年 日心学说 40岁 (2)伽利略 1600年 天文学,望远镜 34岁 (3)牛顿 1665年 三大定律,微积分 23岁 (4)富兰克林 1746年 电的本质 40岁 (5)拉瓦锡 1774年 氧气及燃烧本质 31岁 (6)莱尔 1830年 地球的演化过程 33岁 (7)达尔文 1858年 生物进化论 49岁 (8)麦克斯维尔 1864年 光 磁 电场 33岁 (9)居里 1896年 放射性 34岁 (10)普朗克 1911年 量子论 43岁 (11)爱因斯坦 1905年 广义狭义相对论 26岁 (12)薛定谔 1926年 量子论数学基础 39岁求重大发现伟人年龄的上限。
解答:取~(1)T t n -=- 单侧估计 ()0.052222220.05,(1)(11) 1.79591/124034....3935.421/114034...391235.427.23t n t x s αα-=-===+++=⎡⎤=+++-⨯=⎣⎦((1))1(1))1(1)35.427.23/ 1.795939.15P t nP t nu X nααααα--∧-≥--=-≤-=-=+-=+⨯=m或者基于该统计,数学最高奖菲尔兹奖(四年一次)只奖给40岁以下的年轻人。
第四章.假设检验统计判断一般分为两大类:一类是对未知参数做点估计,另一类是对总体的分布和未知参数的某些特性作假设检验。
假设检验首先为提出假设,据假设选取适合的统计量及分布,用样本区推断假设的合理性。
假设检验是概率中的反证法。
1.对参数的假设检验其步骤是先对参数提出假设,如H0:μ=μ0检验总体的均值。
μ0为额定的标准,H。
称其为假设。
及H1μ=μ0,称H1为备择或对立假设。
由检验均值选择统计量(若方差2σ未知)~(1)T t n-=-/2/201,(1),(1)t n t n ααααα<<<-≥-=对取使P=(T )=为显著性水平,双侧检验。
统计推断的基本原理是:小概率事件在一次随机试验中几乎不会发生。
若小概率事件发生,则说明假设不真,则有拒绝域w 。
如/2 (1)t n α≥-T ,在H 。
为真的条件下,由样本值去推断是否在拒绝域内,做出对总体的某些特性是拒绝域或是接受的推断。
例1 某盐业公司用一台包装机包装精装碘盐,额定标准每袋净重u 。
=500g,随机抽取n=9,其净重分别为497、506、518、524、488、511、510、515、512。
对α=0.05,检验包装机工作是否正常,推测(假设每袋净重X~N(u , 215) ,标准差15g σ=由以往经验得到。
解:(1)H O :μ=μ0=500gH 1: μ≠μ0。
(2)由总体标准差,已知选取统计量及其分布。
~N(0,1)T -=称为U 检验法。
(3)对显著性水平/20.0250.05X =X =1.96αα=,查表取/2/2U X U X ααα≥=≥=使P=()=拒绝域()()4 1/9497506....512509H U 1.8 1.96x -=+++===<()由样本值当。
成立时,u=500(5)小概率事件没有发生,样本值不在拒绝域内,接受H 。
,即认为包装机工作正常。
说明:假设检验提出假设时有可能假设错误。
一般可用区间估计作验证。
在本例体中,[]/2(1)509 1.96499.2,518.8u X n α∧-⎡⎤⎡⎤∈-=±=⎢⎥⎢⎥⎣⎦⎣⎦[]500499.2,518.8∈例2:某厂生产某种固体燃料,其燃烧率29(40,)X N σ:,额定标准u 。
=40cm/s 。
现给出一种新生长方法,任取新方法生产的产品n=25根产品,测得41.25/x cm s -=。
样本标准差S=2.0,对0.025α=,检验新方法较原方法生产的固体燃料其燃烧率是否有所提高。
解:(1)H 0 : μ=μ0(反假设,一般否定H 。
比肯定H 。
更具说服力) H 1:u<u 。
(2)总体方差2σ未知,检验总体u,取~t(1)T n -=- (3)对显著性水平0.025α=,取 (1)t n α-=0.025(24) 2.0639t = 单侧检验(检验不等式是单侧检验) 使()(1)P t n αα=-=,拒绝域w,~t(1)(1)T n t n α-=->- 当H 。
成立时,u<u 。
-u>-u 。
,-->则拒绝域w:(1)t n α->-(4)由样本值 41.25/x cm s -=,u 。
=40,n=25,s=23.125T =>2.0639 (5) 样本值在拒域内的小概率事件发生,拒绝H 。
,接受H1,即认为新方法生产的产品燃烧率有显著性提高。
例3:两个正态总体的假设检验假设两个公司生产同类型电子产品,其使用寿命分别为()211~,,N u σX ()222~,,Y N u σ为检验两个公司产品的质量是否一致。
任取n1=9个样本,测得2211532,423x s -==,n2=18个样本,测得2221412,380y s -==;对0.005α=检验:两个公司的生产的同类电子产品的质量是否有显著性差异。
解答:(1) 首先检验正态总体的均值差1. H 。
u1-u2=0 或者 u1=u2 H1u 1u2≠2 在22212σσσ==条件下 取统计量及其分布()12~t(122)X Y U U T n n --⎛⎫--- ⎪=+-其中 ()()22121121122Pn S n S S n n -+-=+-3 对显著性水平0.05,α=查表()/20.025t (122)25 2.0595n n t α+-==使得/2((122))P T t n n αα≥+-=在H 。
成立下u1=u2拒绝域/2t (122)T n n α=≥+-()()2224 .0.4082591423181380 394.279182P S =-+-==+-由样本值 5.样本值不在拒绝域内,小概率事件没有发生。
即可认为两家公司产品的寿命没有显著性差异。
(2)检验产品使用寿命的方差比1 . H 。
2212σσ=H1 2212σσ≠2. 选取统计量及其分布()2121222211,21S F F n n Sσσ=--:3 对显著性水平对显著性水平0.05,α=查表()()()()()()0.025/20.9751/211,218,17 3.0611,218,170.2463F n n F F n n F αα---==--==使得()()1/2/2(0(11,21))((11,21))P F F n n P F n n F ααα-≤≤--+--≤≤+∞=拒绝域 w :()()1/2/20(11,21)(11,21)F F n n F n n F αα-≤≤----≤≤+∞或者 双侧检验4 由样本值不在拒绝域内,接受H 。