统计学辅导
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一讲 导论
统计学是收集、分析、表述和解释数据的科学。
包括数据收集、数据整理、数据分析和解释。
其方法可分为:描述统计和推断统计。
描述统计是研究数据收集、整理和描述的统计学分支。
图、表、频率分布、特征值。
推断统计是研究如何利用样本数据,来推断总体的特值:如均值、方差、偏度、峰度。
变量是研究对象身上的某种标志,变量分为分类型变量和数值型变量。
标志分为:
1)、品质标志,对应分类变量,如性别、学历、民族; 2)、数量标志,对应数值变量,如:身高、体重、收入。
总体:研究对象身上某个标志变量的所有取值构成的集合。
例如:全体学生的性别= {男,女,男, ,……}={1.0.0……},0—1总体。
例如:全体学生的年龄={18,20,19,20,21,……} 正态总体。
从描述的角度看:总体是一个数集,研究对象的某标志值的全体。
从概率统计的角度看:总体是一个具有一定概率分布的随机变量。
随机变量就是总体中研究对象身上的某个标志,它的所有取值就是随机变量的全体取值,就构成了总体。
它的取值具有确定的概率分布。
统计调查方式:
1、 抽样调查:经济性、时效性、适应面广、准确性高
2、 普查:人口、工业、第三产业、农业、经济 目的:掌握社会经济现象的全貌
数据的来源:间接来源:第二手数据直接来源:①询问、调查;②观察与实验 调查设计:
调查方案结构:1、调查目的2、调查对象和调查单位3、调查目的和调查表 4、调查问卷设计5、数据误差
数据误差 1)、抽样误差:用样本推断总体时所产生的随机误差,不可控。
2)、非随机误差:登记性误差,调查过程中人为因素造成的 数据质量要求包括6个方面:
1、 精度
2、准确性
3、关联性
4、及时性
5、一致性
6、最低成本
数据审核就是检查数据中是否有错误。
原始数据:完整性审核,准确性审核 二手数据:适用性、时效性 数据筛选:剔除和选出 数据整理的步骤:
1、排序
2、分组:计算频数、频率,作表(分组数据特点:组内同质性,组间差异性)
3、作频数直方图
分组和编频数分布表的步骤: 1)、确定组数:斯特根公式
2
lg lg 1n
K +
=
2)、确定各组组距
组距 =(最大值-最小值)/组距( 一般宜取5或10的倍数) 确定各组上限,下限;“上限不在组内”,“不重不漏”
注:第一组,最后一组可以是开口组; 组中值=(上限+下限)/2;
开口组的组中值:下限或上限+相邻组的组距的1/2; 频率密度=频率/组距
一、集中趋势度量:测度数据的一般水平的代表值或中心值
1、众数(M 0),中位数(M e ):不受极端值的影响,适用于分布偏斜度较大的数据。
四分位数,百分位数 2、均 值:简单算术平均数 加权平均
数 易受极端值的
影响
调和平均数(加权不加权)H 几何平均数G
(重点题P75例9例10)
调≤几≤算 H ≤G ≤X
1) 左偏:
O e M M X ≤≤
有较小的均值 2)右偏:
X
M M o o ≤≤
有较大的均值 3) 正态分布:
O e M M X ==
二、离散程度的度量(离中趋势)
反映数据远离其中心值的程度。
异众比率=非众数组的频数占总数的比率
异众比率主要用于衡量众数对一组数据的代表程度。
四分位差:极差、平均差、方差、标准差 标准分数:
S
X X Z i i -=
给出一个数在一组数据中的相对位置。
重点:习题4.6,4.7.(P93) 正态分布“3σ”原则
%27.681=⎭⎬⎫⎩⎨⎧<-σμX P %45.952=⎭
⎬⎫⎩⎨⎧<-σμX P
%37.993=⎭⎬⎫⎩⎨⎧<-σμX P %9064.1=⎭⎬⎫⎩⎨⎧<-σμX P %9596.1=⎭⎬⎫⎩⎨⎧<-σμX P %9958.2=⎭
⎬⎫⎩⎨⎧<-σμX P 离散系数(变异系数、标准差系数):
X
S V S =
用于对不同总体或不同两个样本的离散程度进行比较。
重点:比较不同产品的质量的稳定性。
比较一群人的身高差异大,还是体重
差异大。
习题4.8
三、偏度和峰态的度量
“矩”又称为“动差” 以a 为中心的矩定义为:
n
a X W n
i k
i k ∑=-=
1)(
以
X
为中心的 K 阶中心矩(K 阶中心动差)为:
n
X X W n
i k i k ∑=-=
1)(
n
X X
S n
i i
∑=-=1
2
2)
( 为二阶中心动差
偏态系数:
3
1
3
)(1S X X n SK n
i i
∑=-=
SK>0 右偏 SK=0 正态 SK<0 左偏
峰度
4
1
4
)(1S X X n K n
i i ∑=-=
K>3 尖峰 K=3 标准正态 K<3 扁平
分层抽样:层内差异小,层间差异大 整群抽样:群间差异小,群内差异大
1、
X
的抽样分布
)
,
(~2
n
N X σ
μ
μ=)(X E n
X D X
2
2)(σ
σ==
不重复抽样:
1)(2
2--=
=N n
N n X D X
σσ
2、样本比例P 的抽样分布:
)
)
1(,
(~n
N p πππ-
π=)(p E n
p D p
)
1()(2ππσ-==
不重复抽样,修正方差:
1)1()(2---=
=N n
N n
p D p
ππσ
样本比例P 是总体比例π的无偏估计。
样本均值的置信区间:
n
Z X σ
α2
±;
n
S Z X 2α
±;
n
S t X 2α
±
近似:
n
S X 2
±
比率的区间估计:
n
p p Z p )1(2
-±α
样本容量的确定:
Δ允许误差(边际误差,极限误差) 1、估计样本均值:
n
Z σ
α2
=∆
n
S t 2
α=∆
2、比例的样本容量估计
n
p p Z )
1(2-=∆α
重点题:习题7.7;7.14;7.13
第一类错误:
真)拒00(H H P =α 可控制
第二类错误:
假)接受00(H H P =β不易计算 α增大,β缩小,反之亦然,
要想同时缩小α,β,只能增加样本容量。
P 值检验法:P 值是在H 0为真的条件下,检验统计量大于或等于其样本计算值的
概率。
P<α 拒绝H 0 P>α 接受H 0
重点:两个正态总体参数的假设检验, 会看EXCEL 结果,作出检验
例8.11,8.12,8.13.8.14,8.17
研究分类型自变量对数值型因变量的影响
方法:检验自变量各水平的均值是否相等
H 0 :
k μμμ=== 21
通过数据误差来分析,构造检验统计量F
SST :总误差平方和,反映全部观测值的离散状况
SSE :组内误差平方和,同一水平下数据误差,组内误差只包含随机误差
SSA :组间误差平方和,不同水平下,各样本之间的误差,组间误差既包含随机
误差,也包含系统误差。
SST = SSE + SSA 构造检验统计量F :
)
,1(~1k n k F k
n SSE k SSA MSE MSA F ----== n 为
全部观测值的个数,k 为因素水平的个数
αF F F crit => 则拒绝H
认为各因素的各水平的均值不相等,自变量对因变量有影响
一.相关分析:
Y 与x 相关系数
Y
X XY
Y Y X X Y Y X X r σσσ222)()()
)((=
----=∑∑
∑
n
Y Y X X XY
))((2
--=
∑σ
n
X X X 22
)(∑
-=
σ
n
Y Y Y
22)(-=
∑σ
Y 与x 1,x 2,…,x p 的复相关系数Multiple R
二. 回归分析
总体回归模型:
εββ++=x y 10
总体回归方程:
x y E 10)(ββ+=
样本回归方程:
x y 1
0ˆˆˆββ+= 最小二乘法:
),(,),,(),,(2211n n y x y x y x
使
2102
)ˆˆ()ˆ(i y i i x y y
y ββ--=-∑∑最小
1
ˆβ的经济含义:
当自变量 X 增加一个单位,因变量Y 增加1
ˆβ个单位,Y 对X 的边际效益。
1、 拟合优度检验 总变差平方和
2
)
(∑-=y y SST i
回归平方和
2
)ˆ(∑-=y y SSR i
Y 的总变差中由于x 与y 之间的线性关系引起的y 的变化部分
残差平方和
2)ˆ(∑-=i i y y SSE
除了x 对y 的线性影响之外的其他因素对y 的变差的作用
SSE SSR SST +=
判定系数:
∑∑--=
=22
2
)()ˆ(y y y y SST
SSR
R i
i
0≤R 2≤1,R 2表明回归平方和占总平方和的比例,R 2越接近于1,表明回归平方和占总平
方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度越好。
R 2表示用x 的变化来解释y 值变差部分的比例。
2、估计标准误差
MSE n
SSE
n y y s i i y ==--=
∑2
)
ˆ(2
它是对个观察值在直线周围分散程度的一个度量。
它是对误差项ε的标准差σ的度量,从而也是在排除x 对y 的影响后,y 随机波动大小的一个估计量。
它反映了用样本回归方程预测因变量Y 时,预测误差的大小,s y 越小回归方程对各观察点的代表性就越好。
s y 从另一个角度说明了回归直线的拟合优度。
3、回归分析的显著性检验 ⑴线性关系检验:
H 0 :β1= 0
(H 0 :β1= β2=…= βp =0 )
)
1,(~1
//----=p n p F p n SSE p
SSR F F > F α
拒绝H 0 ,表明Y 与X 的线性关系显著。
⑵回归系数检验:
H 0 :βi = 0
)
1(~ˆˆˆ
ˆ
--=
-=
p n t s s t i
i
i i
i βββββ
2αt t > 拒绝H 0
认为y 与x i 有线性关系 通常 22
≈αt
一元回归中,F 检验与T 检验等价。
一元回归系数的置信区间:
12
ˆ1ˆβ
αβs t ±
02
ˆ0ˆβ
αβs t ±
三.检验多重共线性的方法
1.模型中个对自变量之间显著相关
2.F 检验与t 检验不一致; F 检验显著(拒绝H 0),但t 检验不显著(不拒绝H 0) 3.回归系数的正负号与预期的相反 四、回归预测
E (y 0)的置信区间:
∑=--+±n
i i y x x x x n
s t y
12
2
00)()(1
ˆ2α
y 0 的预测区间:
∑=--+
+±n i i
y x x x x n
s t y
1
2
2
00)()
(1
1ˆ2α
影响预测区间宽度的因素:
1、样本容量
2、置信度
3、自变量差异程度
4、因变量的差异程度
特别:当n 较大,
X
X -0较小或
X
X =0时
近以为
y s y 2ˆ0± 置信度95% 五.残差分析
1、标准化残差都在-2和+2之间,可以认为 ε 服从正态分布。
2、当一个Y 的观察值所对应的标准化残差小于-2或大于+2时,就可以将其视为异常值。
3、如果自变量存在一个极端值,该观测值称为高杠杆率点,也称为一个有影响的观测值。
观测值的杠杆率通过自变量的值与其平均值的距离的远近来确定。
一元回归中,第i 个观测值的杠杆率点计算公式:
∑--+
=2
2
)
()(1x x
x x n
h i
i i
一元回归中,如果一个观测值的杠杆率h i >6/n ,就可以将该观测值识别为高杠杆率点。
多元回归中,如果一个观测值的杠杆率h i >3(p+1)/n ,就可以将该观测值识别为高杠杆率点。
重点题:习题10 ② ③ ⑤ ⑥ ⑦ 习题 11 ③
第12讲 时间序列分析
时间序列的构成要素:
趋势(T )季节性(S) 周期性(C) 随机性(I) 乘法模型:Y = T S C I
T 总量指标;S 、C 、I 百分比 1、增长率分析
n Y Y Y ,,,10 观察值或发展水平
0Y 基期, n Y 报告期
发展速度:环比 1-i i
Y Y
定基 0
Y Y i
增长速度(增长率) 环比 11
-=-i i i Y Y G 定基 10
-=Y Y G i i 平均增长率:
110
11201-=-⋅⋅=-n n n n n Y Y Y Y Y Y Y Y G 例4.9,4.10
n
n n G Y G G G Y Y )1()1()1)(1(0210+=+++=
年度化增长率:先求出月或季增长率,然后再将其m 次方,m=4或m=12
重点题 :例12.3
增长1%的绝对值=前期水平/100
2、时间序列预测
⑴平稳序列:基本上不存在趋势
①移动平均法:将最近K 期数据的平均值作为下期预测
k Y Y Y Y F t
t k t k t t ++++=-----+1)2()1(1
②指数平滑法:修匀、熨平数列的随机波动
)()1()1()1()1(111
22341
231
21
1t t t t t
t t F Y F F F Y F Y Y Y F Y Y F Y F Y F -+=-+=-+-+=-+===++ααααααααα或
其中
10<<α 平滑系数α的选取原则:
[1].时间序列波动大则选用较大平滑系数
α
[2].时间序列波动小则选用较小平滑系数α
[3].选用几个平滑系数α,以预测误差最小为好 ⑵有趋势序列分析和预测
由最小二乘法、三和法求出趋势方程
⑶季节性分析
① 季节指数(比率)
=同月(季)平均/总月(季)平均×100%
②全年四季度的季节指数之和为400%
全年12月的月(季)节指数之和为1200%
第13讲 指数
指数是一种对比性分析指标
广义指标:两个数的比值形成的相对数
侠义指标:多个项目变动的综合对比数
几种主要类型:
数量指标、质量指标 个体指标、综合指标
简单指数(算术平均)、加权指数
时间指数、区域指数
1、加权综合指数
拉氏指数 ∑∑=0001
q p q p I p ∑∑=0
01
0q p q p I q (在实际中常用) 帕氏指数
∑∑=1011q p q p I p
(在实际中常用)
∑∑=01
11q p q p I q
杨格指数: ∑∑=n n p q p q p I 01
如:股票价格指数,便于观察现象的长期发展
加权综合指数确定权数应考虑以下几点:
1).指数中的分子分母的权数必须是同一时期的,基期或报告期或某一固定时期的。
2).计算数量指数时,以质量指标为权数;
计算质量指数时,以数量指标为权数;
3). 也可以采取比重形式,如某类商品销售额占总销售额的比重。
2.加权平均指数
拉氏
∑∑=0
00
001q p q p p p I p ∑∑=0
00
001q p q p q q I q
派氏
∑∑=1101111q p p p q
p I p
∑∑=1
10
11
11q p q q q p I q 我国居民消费价格指数: ∑
∑=w w
p p I p 01 重点题:习题13.1,13.2,13.3
3.总量指数: 个体总量指数:0
011q p q p I v =
综合总量指数:001
1q p q p I v ∑∑=
4.指标体系:
销售额=销售量×价格
总生产费用=产量×单位成本
指标体系相对关系:
∑∑∑∑∑∑⋅=0010101100
11q p q p q p q p q p q
p 指标体系绝对关系: ∑∑∑∑∑∑-+-=-)()(001010110011q p q p q p q p q p q p 总量绝对变化量
∑∑-0011q p q p
由价格变化引起的总量的变化
∑∑-101
1q p q p 由数量变化引起的总量的变化 ∑∑-0010q p q p
重点题:习题13.4⑴⑵;13.6
5.我国居民消费价格指数的编制
6.居民消费价格指数的应用:
1)通货膨胀率=(报告期居民消费价格指数-基期居民消费价格指数)/ 基期居民消费价格
指数ⅹ100%
2)货币购买力指数=(1/居民消费价格指数)ⅹ100%
表示现在的1元只值原来的多少钱
3)实际工资=名义工资/居民消费价格指数
表示现在挣的钱相当与过去的多少钱
4)不变价GDP=现价GDP/居民消费价格指数
消除了价格变动的影响。
7.多指标综合评价指数
∑∑∑∑∑========
n i i i n i i i n i i n i i
i n i i f z w w z w w z I 11
11
1 其中 .
1,101
=≤≤∑=n i i i w w 指标无量纲化处理方法:
(1) 统计标准化 s
x x z i i -=
(2)极值标准化 )min()max()min(i i i i i x x x x z --=
(3)定基与环比转换 %1000
⨯=x x z i i %1001
⨯=-i i i x x z %100⨯=标准值
i i x z 权数的确定:
一是主观构权法
二是客观构权法。