统计学复习资料整理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
极差:一组数据得最大值与最小值之差称为极差,也称全距,用R表示。
其计算公式为:R=max(xi)-min(xi)
离散系数:也称为变异系数,它就是一组数据得标准差与其相应得平均数之比。
其计算公式为:V=S/X。
离散系数就是测量数据离散程度得相对统计量,主要就是用于比较不同样本数据得离散程度。
离散系数大,说明数据得离散程度也大;离散系数小,说明数据得离散程度也小。
三大统计分布:卡方分布、T分布、F分布
卡方分布(χ2)
定理:设n个相互独立并且都服从正态N(0,1)分布得随机变量X1、X2,……Xn,记
则随机变量χ2服从自由度为n得χ2分布。
统计变量服从卡方分布,其含义就是:在给定概率α得条件下,满足
或者说表达式得概率为α。
T分布
定理:设随机变量x,y相互独立,X~N(0,1),Y~χ2(n)记。
则随机变量T服从自由度为n得t 分布。
设T~t(n),0<α<1,对于满足下列等式得数t a(n),称为t(n)分布得上侧分位数。
对于较大得n(>45)可以同标准正态分布得上侧分位数u a作为t(n)分布得上侧分位数
F分布
定理:设随机变量x,y相互独立,X~χ2(n1),Y~χ2(n2)记,则随机变量F服从第一自由度为n1,第二自由度为n2得F分布,记作:F~F(n1,n2)
若F~F(n1,n2),易知:,若
则
统计量:描述样本特征得概括性数字度量。
完全由样本决定得量,叫做统计量;或者说不含有其她未知量得样本得函数称为统计量。
统计量可以瞧做就是对样本得一种加工,它吧样本中所包含得关于总体得其一方面得信息集中起来。
最常用得统计量就是样本均值与样本方差S2。
自由度:随机变量所包含得独立变量得个数。
参数估计:就就是用样本统计量去估计总体得参数。
在参数估计中,用来估计总体参数得统计量得名称称为估计量,用符号θ表示。
样本均值、样本比例、样本方差等都可以就是一个估计量。
而根据一个具体得样本计算出来得估计量得数值称为估计值。
参数估计得方法有点估计与区间估计两种。
点估计:就就是用样本统计量θ得某个取值直接作为总体参数θ得估计值。
区间估计:就是在点估计得基础上,给出总体参数估计得一个区间范围,该区间通常由样本统计量加减估计误差得到。
与点估计不同,进行区间估计时,根据样本统计量得抽样分布可以对样本统计量与总体参数得接近程度给出一个概率度量。
样本量:从总体中抽取得一部分元素得集合为样本,构成样本得元素得数目为样本量。
样本量得大小就是选择检验统计量得一个要素。
置信区间:在区间估计中,由样本统计量所构造得总体参数得估计区间称为置信区间。
置信水平:将构造置信区间得步骤重复很多次,置信区间包含总体参数真值得次数所占得比
例称为置信水平。
表示为(1-α)%,α为就是总体参数未在区间内得比例。
也称置信度或置信系数。
假设检验:利用样本信息,对提出得命题进行检验得一套程序与方法。
事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断假设就是否成立;有参数假设检验与非参数假设检验。
采用逻辑上得反证法,依据统计上得小概率原理。
单侧检验:拒绝域在右侧或者在左侧得假设检验,左单侧检验右单侧检验
双侧检验:拒绝域在两侧得假设检验
原假设:提出一个或两个参数就是否等于或大于、小于某个特殊值得命题。
H0:有待检验得假设,又称0假设,收集证据予以反对得假设(总就是有等号)
备择假设:H1:又称研究假设,收集证据予以支持得假设。
与原假设相对立得假设(总就是有不等号)
方差分析:缩写为ANOV A,就就是通过检验各总体得均值就是否相等来判断分类型对数值型变量就是否有显著影响得统计方法。
因子与处理:在方差分析中,所要检验得对象称为因素或因子,就是所研究得分类型变量得另一个名称。
因素得不同表现称为处理或水平。
总平方与:记为SST。
它就是全部观测值xij与总均值x得误差平方与。
组间平方与:记为SSA,它就是各组均值xi与总均值x得误差平方与,反应各样本之间得差异程度,因此又称为因素平方与。
组内平方与:记为SSE,它就是每个水平或组得各样本数据与其组均值得误差平方与,反应了每个样本观测值得离散情况,因此称为组内平方与。
该平方与反应了随机误差得大小。
SST、SSA、SSE之间得关系:
组间方差:SSA得均方,也称为组间均方,记为MSA,其计算公式为:
MSA=组间平方与/自由度=SSA/k-1
组内方差:SSE得均方,也称为组内均方,记为MSE,其计算公式为:
MSE=组内平方与/自由度=SSE/n-k
将上述MSA与MSE进行对比,即得到所需要得检验统计量F。
当H0为真时,二者得比值服从分子自由度为k-1、分母自由度为n-k得F分布。
单因素方差分析:研究一个分类型自变量同数值型因变量之间关系得一种统计方法。
双因素方差分析:研究两个分类型自变量同数值型因变量之间关系得一种统计方法。
当方差分析中涉及两个分类型自变量时,称为双因素方差分析。
无重复双因素分析有重复双因素分析
相关关系:变量之间存在得不确定得数量关系,称为相关关系,一个变量得取值不能由另一个变量唯一确定。
相关系数:就是根据样本数据计算得度量两个变量之间线性关系强度得统计量。
若相关系数就是根据总体全部数据计算得,称为总体相关系数,记为ρ;若使根据眼根数据计算得,则称为样本相关系数,记为r。
样本相关系数得计算公式为:
LSD:最小显著差异法。
存在一定得缺陷。
在都与对照相比时可以使用该法。
就是对检验两个总计均值就是否相等得t检验方法得总体方差估计加以修正(用MSE来代替)而得到
得。
式中,tα/2为t分布得临界值,通过查t
分布表得到,其自由度为(n-k),这里
得k就是因素中水平得个数;MSE为
组内方差;ni与nj分别就是第i个样
本与第j个样本得样本量。
简述评价估计量好坏得标准。
1.无偏性:估计量抽样分布得数学期望等于被估计得总体参数。
设总体参数为θ,所选择得
估计量为θ,如果E(θ)=θ,则称θ为θ得无偏估计量。
2.有效性:对同一总体参数得两个无偏点估计量有更小标准差得估计量更有效。
在无偏估计
得条件下,估计量得方差越小,估计也就越有效。
3.一致性:随着样本容量得增大,估计量得值越来越接近被估计得总体参数。
换而言之,一个
大样本给出得估计量要比一个小样本给出得估计量更接近总体得参数。
怎样理解置信区间?
在区间估计中,又样本统计量所构造得总体参数得估计区间称为置信区间,其中区间得最小值称为置信下线,最大值称为置信上线。
由于统计学家在某种程度就是上确信这个区间会包含真正得样本得总体参数,所以给它取名为置信区间。
什么就是假设检验中得两类错误?两类错误之间存在什么样得数量关系?
一类错误就是原假设H0为真却被我们拒绝了,犯这种错误得概率用α表示,所以也称α错误或弃真错误;另一类错误就是原假设为伪我们却没有拒绝,犯这种错误得概率用β表示,所以也称β错误或者取伪错误。
α与β在数量上就是此消彼长得关系。
简述假设检验得基本步骤。
1.提出假设
2.确定适当得检验统计量
3.规定显著性水平
4.计算检验统计量得值
5.作出统计决策
方差分析包括哪些类型?它们有何区别?
1.单因素方差分析:研究一个分类型自变量最一个数值型因变量得影响。
2.双因素方差分析:究两个分类型自变量同数值型因变量之间关系得一种统计方法。
当方差
分析中涉及两个分类型自变量时,称为双因素方差分析。
无重复双因素分析:两个影响因素相互独立;可重复双因素分析:两个因素有交互作用,结合后产生新得影响。
简述方差分析得基本思想。
方差分析得基本假定:1、每个总体都应服从正态分布2、各个总体得方差必须相同(同质性) 3、观察值就是独立得
方差分析得基本思想与原理:1、判断均值之间就是否有差异时需要借助于方差。
2,。
通过对数据误差来源得分析判断不同总体得均值就是否相等。
3、即:判断均值之间就是否有差异需要进行方差分析。
解释R2得含义与作用。
R2称为多重判定系数,在无重复双因素方差分析中用于关系强度得测量。
行因素所产生得误差平方与记为SSR,列因素所产出得误差平方与记为SSC,这两个平方与加在一起则度量了两个自变量对因变量得联合效应,联合效应与总平方与得比值定义为R2,其平方根R则反映了这两个自变量合起来与因变量之间得关系强度。
即:R2=联合效应/总效应=SSR+SSC/SST 简述相关系数得性质。
1.r得取值范围为1到1,r=1时,完全正线性相关
R=1时,完全负线性相关
R=0时,不存在线性相关关系
0>r>=1,负线性相关
0<r<=1,正线性相关
R越趋近于+—1,线性相关关系越密切
R越趋近于0,线性相关关系越不密切
2.r具有对称性。
x与y之间得相关系数与y与x之间得相关系数相等。
3.r数值大小与x与y得原点及尺度无关。
4.r仅仅就是x与y之间线性关系得一个度量,它不能用于描述非线性关系。
5.r虽然就是两个变量之间线性关系得一个度量,却不一定意味着x与y一定有因果关系。
简述相关系数显著性检验得步骤。
1.提出假设:H0:p=0;H1:P不等于0
2.使用t检验得方法,根据公式计算检验得统计量得出t~t(n2)
3.根据置信度a,查表,确定接受区域与拒绝区域
4.检验t在哪个区域:若t在拒绝域,则拒绝H0;若t在接受域,则不拒绝H0
5.如果求出两变量之间得线性相关系数,并且证明了两者有显著相关性,则考虑用一
简述参数最小二乘估计得基本原理。
未知量得最可能值就是使各项实际观测值与计算值之间差得平方乘以其精确度得数值以后得与为最小。
在回归分析中,F检验与t检验各有什么作用?
F检验(线性关系检验)就是检验自变量x与因变量y之间得线性关系就是否显著,或者说,它们之间能否用一个线性模型y=β1+β2x+ε来表示。
t检验(回归系数检验)就是要检验自变量对因变量得影响就是否显著。
参数估计:
1,样本均值根据1a%这样得概率水平构造了一个置信区间,而总体均值在这个区间里得概率为1a%,即置信水平为1a%,显著性水平为a%。
1,一个总体参数得估计得评估:首先瞧其就是否就是无偏性,即估计量得抽样分布得数学期望与被估计得总体参数一样;其次,对同一总体参数得两个无偏点,以其方差小得更有效;
一致性,即随着样本容量逐渐增大,估计量应该越来越接近被估计得总体参数。
2,关键掌握几个公式(1),总体均值得估计区间
(2),总体方差得估计区间
方差分析:
1,就就是比较组间方差与组内方差,如果相等,则说明组间没有显著性差异,也就就是说不同品种不造成影响。
因为组间方差既包含系统误差也包含随机误差,组内方差只包含随机方差。
2,误差来源也就就是说就是组间得还就是组内得,方差分析就就是对误差来源得分析,判断均值就是否相同。
前提就是三个假定:正态分布,每组得组内方差相同,相互独立
个线性关系式表达两者之间得线性关系
单因素方差分析:
(1),提出假设:H0,H1
(2),计算出每组得平均值X1,计算出总体得平均值X0,计算出总平方与SST,即所有数值得分散情况
(3),计算出组间平方与SSA,即各组均值得分散情况
(4),计算出组内平方与SSE,即各个观察值与该组得均值得平方与之与(所有组)
SST(总误差)=SSA(系统误差与随机误差)+SSE(随机误差)
所以,如果没有显著性差异,则应该就是不存在系统误差,那么就就是说SSA/自由度=SSE/自由度
SST自由度为n1
SSA自由度为k1
SSE自由度为nk
所以现在需要计算得就是SSA/(k1)与SSE/(nk)得值,即MSA/MSE,得到得值遵循F分布,其实也就就是得到一个F值,然后在给定得显著性水平下,根据ki与nk得值在表中查到一个对应得Fa值,比较两者得大小,如果Fa>F,则不接受H0
双因素方差分析:
(1),同单因素一样,首先进行假设,H0,H1;H0,H1(因为就是两个因素,所以要分别得假设,最后得结果也就是分开得,分别得检验)
(2),求出总误差平方与SST,自由度为kr1
行误差平方与SSR,自由度为k1
列误差平法与SSC,自由度为r1
随机误差项平方与SSE,自由度为(k1)(r1)
SST=SSR+SSC+SSE
(3),根据各误差平方与与自由度,求出各均方,MST,MSE,MSR,MSC
下面得步骤与单因素类似,根据行误差均方与随机误差均方得比值MSR/MSE=Fr 根据列误差均方与随机误差均方得比之MSC/MSE=Fc 分别就两种因素中得一种检验,根据自由度,给定得置信度,查出Fa。
分别查找行行与列得,分别比较
回归分析与相关分析得区别
1、相关分析中,变量x变量y 处于平等得地位;
2、回归分析中,变量y 称为因变量,处在被解释得地位,x 称为自变量,用于预测因变量得变化、
3、相关分析主要就是描述两个变量之间线性关系得密切程度;
4、回归分析不仅可以揭示变量x 对变量y 得影响大小,还可以由回归方程进行预测与控制。
回归分析与相关分析得联系
相关分析反映得就是一元回归分析所揭示得两个变量之间线性关系得密切程度;
弃法法则:
1、四舍五入法
2、四舍六入五单双法
•(1)四舍六入
•(2)若舍入得该位数就是5,则分情况:
a、若该位数前为奇数,或该位数后还有不为零得数字,则入;
b、若该位数后数字全为0,且其前为偶数,则舍去。
计算法则:
(1)进行加减法运算结果得有效位数,自左起不超过参加运算中得数值第一个出现得可疑数字位数,如: 1、48+1、23+21、40=24、11=24、1
(2)进行乘除运算,其积商保留得有效数字可比参加运算得有效数字数最少数多一位。
如:
0、032×6、0346=0、032×6、03=0、193088(0、1931072)=0、193=0、19
(3)求平方、立方、开方运算中,其结果得有效数字与原数值得有效数字位数相同。
如1、22=1、44=1、4
(4)在对数与反对数运算中,所确定得对数得小数点后得位数应与真数有效数字位数相同。
(5)统计计算中,平均值得精度通常较个别观测值高。
多于4个观测值得平均数有效数字比个别观测值多保留一位。
在表示测定精度时,标准差取二位有效数,每当观测参数很大(>50)时,才多取一位。