统计学知识点 含计算

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.组数:一般为5-15
2.确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即
组距=( 最大值 - 最小值)÷ 组数 3.统计出各组的频数并整理成频数分布表 下限(lower limit) :一个组的最小值 2. 上限(upper limit) :一个组的最大值 3. 组距(class width) :上限与下限之差
4. 组中值(class midpoint) :下限与上限之间的中点值
封闭式组距数列: a) 组距=上限-下限
b) 组中值=(上限+下限)/2
c) 缺下限开口组组中值=上限-1/2邻组组距 d) 缺上限开口组组中值=下限+1/2邻组组距
样本平均数n
f M
x k
i i
i
∑==
1
总体用µ
总体方差(标准差),记为s2(s);根据样本数据计算的,称为样本方差(标准差),记为s2(s)
方差未分组
1
)
(1
2
2
--=
∑=n x x s n
i i
分组 1
)(1
22
--=
∑=n f x M
s k
i i
i
经验法则表明:
当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内
切比雪夫不等式
1.如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用
2.切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”
3.对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k 个标准差之内。

其中k 是大于1的任意值,但不一定是整数 对于k=2,3,4,该不等式的含义是
1.至少有75%的数据落在平均数加减2个标准差的范围之内
2.至少有89%的数据落在平均数加减3个标准差的范围之内
3.至少有94%的数据落在平均数加减4个标准差的范围之内
离散系数 标准差与其相应的均值之比 计算公式为
x s v s =
统计量
设X1,X2,…,Xn 是从总体X 中抽取的容量为n 的一个样本,如果由此样本构造一个函数T(X1,X2,…,Xn),不依赖于任何未知参数,则称函数T(X1,X2,…,Xn)是一个统计量样本均值、
)1(~--=
n t n
s x t μ
样本比例、样本方差等都是统计量 统计量是样本的一个函数
统计量的分布称为抽样分布。

1.样本统计量的概率分布,是一种理论分布
在重复选取容量为n 的样本时,由该统计量的所有可能取值形成的相对频数分布 2.随机变量是样本统计量 样本均值, 样本比例,样本方差等 3.结果来自容量相同的所有可能样本
4.提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重
要依据 几种常用的抽样分布:(正态分布中的几种统计量的分布)把2χ分布(z ),t 分布,
F 分布,
点估计用样本的估计量的某个取值直接作为总体参数的估计值
例如:用样本均值直接作为总体均值的估计; 区间估计在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到
1. 置信水平 表示为 (1-α) 为是总体参数未在区间内的比例 3.常用的置信水平值有 99%, 95%, 90%相应的 α 为0.01,0.05,0.10
假定条件
总体服从正态分布,且方差(s 2) 已知
如果不是正态分布,可由正态分布来近似 (n 30) 2.使用正态分布统计量 z
假定条件
(小样本)总体服从正态分布,但方差(s 2)未知 (n < 30) 用 t 分布统计量
总体比例p 在1-a 置信水平下的置信区间为
假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。

其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断 假设检验的流程
提出假设 确定适当的检验统计量 规定显著性水平 计算检验统计量的值 作出统计决策 几种常见假设检验
考虑下面三种类型的假设检验: (4.12)
)1,0(~N n
x z σμ
-=
2
αα)(22未知或σσ
α
α
n
s
z x n
z x ±±n
s
2αn s t x 2α±αn p p z p )-1(2α
±
n X Z σμ0-=
(1)(双边检验) (2)(右侧单边检验) (3)
(左侧单边检验)
1、提出检验假设(又称无效假设,符号是H0))和备择假设(符号是H1)。

备择假设与原假设对立的假设
H0:样本与总体或样本与样本间的差异是由抽样误差引起的; H1:样本与总体或样本与样本间存在本质差异;
预先设定的检验水准为0.05;当检验假设为真,但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01。

2、选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如X2值、t 值等。

根据资料的类型和特点,可分别选用Z 检验,T 检验,秩和检验和卡方检验等。

3、根据统计量的大小及其分布确定检验假设成立的可能性P 的大小并判断结果。

若P>α,结论为按α所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P ≤α,结论为按所取α水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。

P 值的大小一般
可通过查阅相应的界值表得到。

1.P 值是一个概率值
2.如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率 左侧检验时,P-值为曲线上方小于等于检验统计量部分的面积 右侧检验时,P-值为曲线上方大于等于检验统计量部分的面积
3.被称为观察到的(或实测的)显著性水平 H0 能被拒绝的最小值
方差分析通过检验各总体均值是否相等来判断分类型自变量对数值型因变量的是否有显著影响用于两个及两个以上样本均数差别的显著性检验。

方差分析的基本假定 1.每个总体都应服从正态分布
对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本 (1)每个总体都服从正态分布 (2)观察值相互独立
(3)各个总体样本方差必须相同 1、建立检验假设; H0:多个样本总体均数相等;
H1:多个样本总体均数不相等或不全等。

检验水准为0.05。

2、计算检验统计量F 值;
3、确定P 值并作出推断结果。

k
k i i i k i n j ij i ===2
11
11k k i i i k i n j ij n n n n n
x n n x x i +++===∑
∑∑
=== 21111式中:)1k i n j ij
i i
=),,2,1(1k i n x x i n j ij
i i ==∑
===k i n j i
ij i 11
2(
)
∑∑==-=k i n
j i ij i x x SSE 112===-k i i
i
k i n j i
x
x i 12
112(
)(
)
∑∑∑===-=-=k i i i k i n j i x x n x x SSA i 12112==k i n j ij
i x 11
2(
)
∑∑==-=k i n j ij i x x SST 112=====k
i n j i ij
k i i i k i n j ij i
i
11
21
2
11
2
()()()∑∑∑∑∑=====-+-=-k i n j i ij k i i i k i n j ij i i x x x x n x x
112
12112
)
,,2,1(1
.k i r x x r
j ij
i ==
∑=)
,,2,1(1
.r j k
x x k i ij
j ==
∑=r
j ij
=1
kr
x x k
i r j ij ∑∑===
11SST 2
()
∑∑==-=k i r
j ij x x SST 11
2SSC ()
∑∑==-=k i r
j j x x SSC 11
2
.=r
j i SSR 12
.()
∑∑==-=k
i r j i x x SSR 112.SSE ()
∑∑==+--=k
i r
j j i ij x x x x SSE 11
2
..
SST = SSA + SSE
SST 的自由度为n-1,其中n 为全部观察值的个数
SSA 的自由度为k-1,其中k 为因素水平(总体)的个数 SSE 的自由度为n-k
组内方差
组间方差
双因素方差分析 分析两个因素(行因素Row 和列因素Column)对试验结果的影响
行平均值 列平均值 总平均值
计算平方和(SS )
SSA
MSA 1
-=
k SSA MSA SSE
MSE k
n SSE MSE -=
),1(k n k F MSE
MSA
--),1(~k n k F MSE MSA F --=
2
组间平方和)
()
(2总平方和组间平方和SST SSA R =
MSR 1-=k SSR MSR MSC 1
-=
r SSC
MSC )1)(1(--=r k SSE MSE MSE MSR ())1)(1(,1~R ---=r k k F MSE MSR F MSE
MSC ())1)(1(,1~C ---=r k r F MSE MSC F 行因素误差平方和S S R 列因素误差平方和S S C 随机误差项平方和S S E 总误差平方和S S T SST = SSR +SSC+SSE
计算均方(MS )§误差平方和除以相应的自由度 §三个平方和的自由度分别是 •总误差平方和SST 的自由度为 kr -1 •行因素平方和SSR 的自由度为 k -1 •列因素平方和SSC 的自由度为 r -1
•误差项平方和SSE 的自由度为 (k -1)×(r -1)
行因素的均方MSR ,列因素的均方MSC ,误差项的均方MSE ,
将统计量的值F 与给定的显著性水平a 的临界值F a 进行比较,作出对原假设H 0的决策 §根据给定的显著性水平a 在F 分布表中查找相应的临界值 F a
§若F R >F a ,拒绝原假设H 0 ,表明均值之间的差异是显著的,即所检验的行因素对观察值有显著影响 §若F C > F a ,拒绝原假设H 0 ,表明均值之间有显著差异,即所检验的列因素对观察值有显著影响
行因素的统计量 列因素的统计量
1.一元线性回归模型描述因变量 y 如何依赖于自变量 x 和误差项e 的方程称为回归模型
2.一元线性回归模型可表示为
y = b 0 + b 1 x + e n y 是 x 的线性函数(部分)加上误差项
n 线性部分反映了由于 x 的变化而引起的 y 的变化 n 误差项 e 是随机变量
l 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响 l 是不能由 x 和 y 之间的线性关系所解释的变异性 n b 0 和 b 1 称为模型的参数
误差平方和
1.总平方和(SST —total sum of squares) n 反映因变量的 n 个观察值与其均值的总误差
2.回归平方和(SSR —sum of squares of regression)n 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和
3.残差平方和(SSE —sum of squares of error)
n 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和 1.总平方和(SST —total sum of squares) n 反映因变量的 n 个观察值与其均值的总误差
2.回归平方和(SSR —sum of squares of regression)n 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和
3.残差平方和(SSE —sum of squares of error)
n 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和
判定系数R 2回归平方和占总误差平方和的比例 2.反映回归直线的拟合程度 3.取值范围在 [ 0 , 1 ] 之间
4. R 2 ®1,说明回归方程拟合的越好;R 2®0,说明回归方程拟合的越差
5.判定系数等于相关系数的平方,即R 2=r 2
====n
i i
n
i i
n
i i
n
i i
12
1
21
2
12
2()
()()()∑∑∑∑====---
=--==
n i i n i i n i i n i i y y
y
y
y y
y y
SST
SSR
R 12
12
12
122ˆˆ1ˆ
1.统计量 P156根据样本量构造出来的一个函数
2.抽样分布 P160
3.点估计 P176
4.区间估计 P176
5.假设检验P值的含义 P214
6.利用P值进行检验单侧检验 P>α不拒绝H0 P<α拒绝H0
双侧检验 P>(α/2)不拒绝H0 P<(α/2)不拒绝H0
7.方差分析基本假设 P268
简答题:
一.点估计
1.就是用样本统计量的某个取值直接作为总体参数的估计值。

2.无法给出估计值接近总体参数程度的信息。

二.统计量:设X1,X2,…Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,…Xn),不依赖于任何未知参数,则称函数T(X1,X2,…Xn)是一个统计量。

三.区间估计
1.是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。

2.根据样本统计量的抽样分布,能够对样本统计量与总体参数的接近程度给出一个概率度量
四.方差分析:方差分析是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。

五.假设检验中P值的含义:当原假设为真时所得到的样本观察结果或更极端结果出现的概率,如果P值小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由就越充分。

六.一元线性回归的基本假设:
1.因变量y与自变量之间具有线性关系。

2.在重复抽样中,自变量x的取值是固定的,即假定x是非随机的。

3.误差项是一个期望值为0的随机变量,即E()=0
4.对于所有的x值,的方差都相同。

5.误差项是一个服从正态分布的随机变量,且独立,即
七.抽样分布
1.画直方图
2.求均值与方差
3.求离散系数
分组
f m m*f 均值x (m-x)^2*f 55 110 77 968 65 455 77 1008 75 675 77 36 85 595 77 448 95
475 77
1620
2310
4080
组距 10 平均数 77 方差 140.6897 标准差 70.34483
离散系数 0.
4.
100克,
1. 求均值和方差
2.
平均重量95%的置信区间
3. 规定重量是否符合标准(假设检验) Ho:u=100;H1≠100. x z =
=(101.4-100)*50^0.5/1.829=5.4125 1α-
=0.95,2z α=0.025z =1.96 双边假设
|z|>|z α| 拒绝Ho. 不符合标准
7.11 某企业生产的袋装食品采用自动打包机包装,每袋标准重量为l00g 。

现从某天生产
的一批产品中按重复抽样随机抽取50包进行检查,测得每包重量(单位:g)如下:
已知食品包重量服从正态分布,要求:
(1)确定该种食品平均重量的
95%的置信区间。

解:大样本,总体方差未知,用z 统计量
x z =
()0,1N 样本均值=101.4,样本标准差s=1.829 置信区间:
22x z x z αα⎛
-+ ⎝
1α-=0.95,
z α=0.025z
=1.96
22x z x z αα⎛
-+ ⎝
=101.4 1.96 1.96⎛-+ ⎝=(100.89,101.91) (2)如果规定食品重量低于l00g 属于不合格,确定该批食品合格率的95%的置信区间。

解:总体比率的估计
大样本,总体方差未知,用z 统计量
z =
()0,1N
样本比率=(50-5)/50=0.9 置信区间:
22p z p z αα⎛ -+ ⎝ 1α-=0.95,z α=0.025z
=1.96
22p z p z αα⎛ -+ ⎝
=
0.9 1.96 1.96⎛ -+ ⎝=(0.8168,0.9832)
上网的那个,225个样本,均值=6.5 S=2.5 n=225(这个没抄全) 1. 以95%的置信水平建立样本区间估计
2. 20岁以下90个人,20岁以下上网比例用户区间
同7.11 第二问
大样本,总体方差已知,用z
统计量z =
p=90/225=0.4
1α-=0.95,z α=0.025z =1.96
置信区间:
22p z p z αα⎛ -+ ⎝
0.4±1.96*{0.4*(1-0.4)/225}^0.5 0.4±0.
(0. 464,0.336)
样本30个,
1.销售价格
2.各地区年均收入
因变量:地区产品销售额
线性回归列出方程,解释费用人均收入对费用的影响
P 357 判定系数
11.9 某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年的有关数据。

通过计算得到下面的有关结果:
方差分析表
参数估计表
要求:
(1)完成上面的方差分析表。

(2)汽车销售量的变差中有多少是由于广告费用的变动引起的?
(3)销售量与广告费用之间的相关系数是多少?
(4)写出估计的回归方程并解释回归系数的实际意义。

(5)检验线性关系的显著性(a=0.05)。

解:(2)R2=0.9756,汽车销售量的变差中有97.56%是由于广告费用的变动引起的。

(3)r=0.9877。

(4)y=363.6891+1.x
回归系数的意义:广告费用每增加一个单位,汽车销量就增加1.42个单位。

(5)回归系数的检验:p=2.17E—09<α,回归系数不等于0,显著。

回归直线的检验:p=2.17E—09<α,回归直线显著。

12.4 一家电器销售公司的管理人员认为,每月的销售额是广告费用的函数,并想通过广告费用对月销售额作出估计。

下面是近8个月的销售额与广告费用数据:
要求:
(1)用电视广告费用作自变量,月销售额作因变量,建立估计的回归方程。

(2)用电视广告费用和报纸广告费用作自变量,月销售额作因变量,建立估计的回归方程。

(3)上述(1)和(2)所建立的估计方程,电视广告费用的系数是否相同?对其回归系数分别进行解释。

(4)根据问题(2)所建立的估计方程,在销售收入的总变差中,被估计的回归方程所解释的比例是多少?
(5)根据问题(2)所建立的估计方程,检验回归系数是否显著(a=0.05)。

解:(1)回归方程为:ˆ88.64+1.6y
x = (2)回归方程为:12ˆ83.23 2.29 1.3y
x x =++ (3)不相同,(1)中表明电视广告费用增加1万元,月销售额增加1.6万元;(2)
SUMMARY OUTPUT
回归统计
Multiple R 0. R Square 0. Adjusted R Square 0. 标准误差 0. 观测值
8
方差分析
df
SS
MS F Significance F 回归分析 2 23.43541 11.7177 28.37777 0.
残差 5 2. 0. 总计
7
25.5
Coefficients 标准误差
t Stat P-value Lower 95% Upper 95%Intercept
83. 1. 52.88248 4.57E-08 79. 87.2758
电视广告费用工:x1 (万元) 2. 0. 7. 0. 1. 3 报纸广告费用x2(万元)
1.
0.
4. 0. 0. 2
中表明,在报纸广告费用不变的情况下,电视广告费用增加1万元,月销售额增加2.29万元。

(4)判定系数R 2= 0.919,调整的2
a R = 0.8866,比例为88.66%。

(5)回归系数的显著性检验:
Coefficients 标准误差 t Stat P-value Lower 95% U pper 95% 下限 95.0% 上限 95.0%
Intercept 83.23009
1. 5
2.88248 4.57E-08 79.18433 87.27585 79.18433 87.27585
电视广告费用工:x1 (万元)
2. 0. 7. 0. 1.
3. 1. 3. 报纸广告费用x2(万元)
1. 0. 4. 0. 0.
2. 0. 2.
假设:H 0:1β=0 H 1:1β≠0 t=
1
1S ββ=2.29
0.304
=7.53 ()0.0255t =2.57,t >()0.0255t ,认为y 与x 1线性关系显著。

(3)回归系数的显著性检验: 假设:H 0:2β=0 H 1:2β≠0 t=
2
2
S ββ=
1.3
0.32
=4.05 ()0.0255t =2.57,t >()0.0255t ,认为y 与x 2线性关系显著。

相关文档
最新文档