统计学课件笔记整理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章统计与数据
描述统计(Descriptive Statistics):用表格、图形和数字来概括、显示数据特征的统计方法
推断统计(Inferential Statistics):从总体中抽取样本,并利用样本数据来推断总体特征的统计方法。
参数(parameter):描述总体数量特征的概念常用希腊字母。
统计量(statistic):描述样本数量特征的概念,常用英文字母表示
定序数据也可以有负数,但是不可以计算算术平均值
根据较高层次的计量尺度可以获得较低层次的计量尺度。
定距数据:出生年月
也称间隔尺度,例如年份、摄氏温度,数据表现为“数值”,可以进行加减运算,“0”是只是尺度上的一个点,不代表“不存在”
定比数据:体重
也称比率尺度,例如体重、身高、华氏温度,数据表现为“数值”,可以进行加减、乘除运算,“0”表示“没有”或“不存在”,
变量是用来描述现象某种令人感兴趣的特征的概念。
横截面、时间序列和面板数据
区分数据是时点数还是时期数的方法之一看其加总后的结果是否有意义。
若有意义则该指标必定是时期数。
反之,则必定是时点数。
小结:
统计学是一门收集、分析、展示和解释数据的科学
描述统计和推断统计
总体和样本,参数和统计量
分类数据、顺序数据、间距数据和比率数据
定性数据和定量数据
横截面数据、时间序列数据、面板数据
统计指标的概念和表现形式
第二章数据的搜集
抽样单位的名单称为抽样框(Sampling Frame)。
抽样框应尽可能与目标总体相一致。
例如名单抽样框、区域抽样框、时间表抽样框。
简单随机抽样也称纯随机抽样。
直接从总体单位中抽选样本单位,每个个体被选入样本的概率都相等。
可分为有放回和无放回两种方式。
通常有抽签法和随机数法两种抽选方法。
重复抽样的计算公式比不重复抽样简单,但误差也比不重复抽样略大
系统抽样(也称等距抽样):将总体N个单位按某种顺序排列,按规则确定一个随机起点,再每隔一定间隔逐个抽取样本单位的抽样方法。
主要适用场合: 总体内的样本单位,对有兴趣的指标而言是随机的或按大小排列的
总体内单位数过多,而抽取的样本又较多时
总体内的单位数不能确定时(例如抽取学号最后一位为8的学生进行调查)分层抽样也称分类抽样或类型抽样。
即先将总体所有单位按某种标志划分为若干层,然后从各层中随机抽取一定数目的单位构成样本,根据各层样本汇总对总体指标作出估计的一种抽样方式。
总体方差等于层间方差和层内方差的加权和,而抽样误差只受层内方差的影响。
因此分层时应使层间方差尽可能大(从而层内方差小)。
整群抽样:先将总体分为R个群(即次级单位或子总体),每个群包含若干总体单位。
按某种方式从中随机抽取r个群,然后对抽中的群的所有单位都进行调查的抽样方式。
总体方差等于群内方差和群间方差的加权和,而抽样误差只受群间方差的影响。
因此分群时应使群间方差小。
各种抽样方式的特点要记下来呢
多阶段抽样,先从总体中随机地抽取若干初级单位,再从初级单位中抽取若干二级单位,……如此下去直至抽取所要调查的基本单位的抽样方法。
方便抽样,纯粹以方便基本着眼的抽样方法,事先不预定样本,碰到即问或被调查者主动回答问题。
也译为便利抽样、偶遇抽样。
判断抽样,调查者根据主观经验和判断从总体中选取有代表性的单位构成样本。
配额抽样,是非随机抽样方法中最常用的一种抽样方法。
分为两个步骤:1.根据研究人员认为较重要的一些变量把总体单位分类,指定每一类中的定额;
2.然后在每一类中使用方便抽样或判断抽样的方法抽选指定数量的样本单位。
雪球抽样,也译为滚雪球抽样。
其原理是先找到最初的样本单位,然后根据他们提供的信息去获得新的样本单位;这种过程不断继续,直到完成规定的样本容量为止。
封闭型问题答案的设计方法主要有:两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法等。
答案要穷尽。
答案要互斥。
小结:
对使用者来说,数据的来源包括一手数据和二手数据。
实际中常用的统计调查方式主要有抽样调查、普查和统计报表。
常用的概率抽样方法包括:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样等。
常用的非概率抽样方法有:方便抽样、判断抽样、配额抽样和雪球抽样。
抽样调查中的误差包括抽样误差和非抽样误差两部分。
非抽样误差主要包括抽样框误差、无回答误差和计量误差。
数据收集方法主要包括访问调查、邮寄调查、电话调查、电脑辅助调查、座谈会、个别深访、直接观察等。
调查方案设计的好坏直接影响到调查数据的质量。
问卷设计是科学与艺术的结合。
第三章数据的描述
单变量值分组:将一个变量值作为一组,适合于离散变量,适合于变量值较少的情况。
对不等距分组:纵轴必须表示为频数密度。
等距分组可以是频数
频数密度=频数/组距(面积之和=总频数)
列联表一般根据两个定性变量进行编制,如果是定量变量则需要先对单个变量进行分组。
直方图与条形图的异同:
都是用来反映数据的分布状况,适用于不同类型的数据。
条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。
直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。
应该是不能够用于分类数据的
直方图的各矩形通常是连续排列,条形图则是分开排列。
折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。
茎叶图:
绘制统计图时的注意事项:长宽比例要适当,其长宽比例大致为10:7。
一般情况下,纵轴数据下端应从“0”开始。
数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。
统计表的注意事项:表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。
对于没有数字、缺某项或免填的表格单元,应使用特定符号标出。
离散系数是标准差与其相应的均值之比,表示为百分数。
计算均值时,根据原始数据和分组资料计算的结果一般不会完全相等,根据分组数据只能得到近似结果。
只有各组数据在组内呈对称或均匀分布时,根据分组资料的计算结果才会与原始数据的计算结果一致。
算术平均数 :易受极端值影响(使用了全部数据),数学性质优良,主要用于数值型数据,数据对称分布或接近对称分布时应用
中位数: 不受极端值影响,数据分布偏斜程度较大时应用;主要用于顺序数据
众数: 不受极端值影响,不具有惟一性,数据分布偏斜程度较大时应用;主要用于分类数据
时间序列中每一个观测值称为发展水平。
将不同时期的发展水平加以平均得到的平均数称为平均发展水平。
对于时期序列、时点序列和相对数序列、平均数序列,平均发展水平的计算方法有所不同。
(1) 时期序列: (2)“连续”时点序列: 按时期序列的公式计算。
发展速度-100%等于增长速度。
n
a n a a a a n i i n ∑==+++=1
21.......
小结:
统计数据的分组和频数分布;列联表
条形图、圆形图、直方图、线图,茎叶图的绘制和应用
统计表的构成一般要由表头、行标题、列标题、数据资料组成
绘制统计图表的注意事项
集中趋势是一组数据向其中心值靠拢的倾向和程度。
常用测度指标有:算术平均数、众数、中位数、分位数等。
平均发展水平和平均发展速度的计算
离中趋势反映的是一组数据中各观测值之间的差异或离散程度。
常用测度指标包括极差,四分位距,方差和标准差,离散系数等
数据分布的偏态与峰度的含义
箱线图的绘制和含义
Z分数的计算和含义
第四章参数估计与假设检验
用来推断总体参数的统计量称为估计量(estimator), 其取值称为估计值(estimate) 。
同一个参数可以有多个不同的估计量。
参数是唯一的,但估计量(统计量)是随机变量,取值是不确定的。
点估计: 用估计量的数值作为总体参数的估计值。
一个总体参数的估计量
可以有多个。
有效性指随着样本容量的增大,估计量越来越接近被估计的总体参数。
抽样分布是区间估计的理论基础
从总体中抽取一个样本量为n的随机样本,我们可以计算出统计量的一个值。
如果从总体中重复抽取样本量为n的样本,就可以得到统计量的多个值。
统计量的抽样分布就是这一统计量所有可能值的概率分布。
抽样分布一般利用概率统计的理论推导得出,在应用中也是不能直接观测的。
其形状和参数可能完全不同于总体或样本数据的分布。
样本均值的方差等于总体方差的1/n
简单随机抽样、重复抽样时,样本均值抽样分布的标准差等于
指标在统计上称为标准误。
简单随机抽样、不重复抽样时,样本均值抽样分布的方差略小于重复抽样的方差,等于 这一系数称为有限总体校正系数。
当抽样比(n/N )<0.05时可以忽略有限总体校正系数。
抽样平均误差:样本均值的标准差,也就是前面说的标准误。
它反映样本均值(或比例)与总体均值(比例)的平均差异程度。
必要样本量受以下几个因素的影响:
1、总体标准差。
总体的变异程度越大,必要样本量也就越大。
2、最大允许误差。
最大允许误差越大,需要的样本量越小。
3、置信度1-α。
要求的置信度越高,需要的样本量越大。
4、抽样方式 。
其它条件相同,在重复抽样、不重复抽样;简单随机抽样与分层抽样等不同抽样方式下要求的必要样本容量也不同。
不重复抽样时的必要样本量: 比重复抽样时的必要样本量要小。
式中n0是重复抽样时的必要样本容量。
根据决策规则得出拒绝或不能拒绝零假设的结论。
注意“不能拒绝零假设”不同于“接受零假设”。
零假设和备择假设:把研究者要证明的假设作为备择假设;检验一种声明是否正确,一般将所作出的声明作为原假设。
12--∙N n N n σ1--N n N N n n n 001+=
理解假设检验的小概率原则
掌握确定零假设的方法
掌握一个总体均值和比例的检验方法
掌握两个总体均值的检验方法(独立样本和匹配样本)
理解假设检验中p值及计算方法
了解用SPSS Statistics进行假设检验的操作方法,熟悉SPSS的输出结果。
第五章方差分析
方差分析(Analysis of variance,ANOVA)的主要目的是通过对方差的比较来检验多个均值之间差异的显著性。
可以看作t检验的扩展,只比较两个均值时与t检验等价。
方差分析的基本假设:
(1)在各个总体中因变量都服从正态分布;
(2)在各个总体中因变量的方差都相等;
(3)各个观测值之间是相互独立的。
三个平方和的自由度分别是
SST 的自由度为n-1,n 为全部观察值的个数
SSA 的自由度为r-1,其中r 为因素水平的个数
SSE 的自由度为n-r
如果因素A 的不同水平对结果没有影响,那么在组间方差中只包含有随机误差,两个方差的比值会接近1
如果不同水平对结果有影响,组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1
计算各组数据的标准差,如果最大值与最小值的比例小于2:1,则可认为是同方差的。
如果是比较方差则是4:1
在方差分析中,当零假设被拒绝时我们可以确定至少有两个总体的均值有显著差异。
但要进一步检验哪些均值之间有显著差异还需要采用多重比较的方法进行分析。
这在方差分析中称为事后检验(Post Hoc test)。
包括0的是差异不显著
第六章 非参数检验
非参数检验的特点:
(1)非参数检验不需要严格假设条件,因而比参数检验有更广泛的适用面。
(2)非参数检验几乎可以处理包括定类数据和定序数据在内的所有类型的数据,而参数检验通常只能用于定量数据的分析。
(3)在参数检验和非参数检验都可以使用的情况下,非参数检验的功效(power )要低于参数检验方法。
以下情况应该首选非参数检验:
(1)参数检验中的假设条件不满足,从而无法应用。
例如总体分布为偏态或分布形式未知,且样本为小样本时。
(2)检验中涉及的数据为定类或定序数据。
(3
)所涉及的问题中并不包含参数,如判断某样本是否为随机样本,判断某样本是否∑=-=r i i x x m SSA 12)(∑∑
==-=r i m j i ij x x SSE 112
)(
来自正态分布等。
(4)对各种资料的初步分析。
用于单个样本的2
χ拟合优度检验、K-S 拟合优度检验、中位数的符号检验
用于两个匹配样本的Wilcoxon 符号秩检验
用于两个独立样本的Wlicoxon 秩和检验
用于多个独立样本的Kruskal-Wallis 检验。
结果分析例子:
结论:计算出的卡方统计量的值为11.250,自由度为2,相应的p 值(渐近显著性)为0.004,小于a=0.05。
所以检验的结论是拒绝总体中消费者对3种材料的偏好程度无差异的零假设。
大样本、每个单元中的期望频数大于等于5时可以使用卡方分布。
小样本时应该按照精确方法计算得到的p 值得出结论。
K-S 检验通过对两个分布差异的分析确定能否认为样本的观察值来自所设定的理论分布总体。
K-S 的结果分析:
在K-S 检验中如果使用的是小样本,则根据渐进分布计算p 值的误差会增大。
这时应该通过相应的设定要求软件输出精确检验的p 值,根据精确检验的p 值得出检验结论。
不知道6.3要不要考 分布右偏的时候不适合用t 检验
小结:
非参数检验是与总体分布无关的检验,检验中不需要对总体分布的具体形式作出严格假设,或者只需要很弱的假设。
2χ检验和K-S 检验都可以帮助我们检验能否认为样本数据来自某种概率分布。
前者一般用于定性数据,后者用于定量数据。
符号检验和Wilcoxon 符号秩检验都可以用于单样本中位数检验和两个匹配样本的检验,与正态分布时单样本的t 检验和匹配样本的t 检验相对应。
()22
11ˆˆn n i i i i i Y Y ε==-=∑∑
Wlicoxon 秩和检验可以用来检验两个独立样本的中位数的差异,与正态分布时独立样本的t 检验相对应。
Kruskal-Wallis 检验是与单因素方差分析相对应的非参数检验方法,可以用来检验多个总体中位数的差异。
小样本时,按照渐进方法的计算结果误差会比较大。
这时应该使用精确检验的方法计算p 值。
在一些非参数检验中需要有一些关于总体分布的假设,如连续对称分布等,在使用中要注意判断。
第七章 相关与回归
相关分析与回归分析的区别
样本相关系数的定义公式是:
样本相关系数r 受到抽样波动的影响,是一个随机变量。
相关系数非常高的样本也有可能来自无相关关系的总体。
为了排除这种情况,需要对相关系数进行假设检验。
相关关系≠因果关系!
样本相关系数r 受到抽样波动的影响,是一个随机变量。
相关系数非常高的样本也有可能来自无相关关系的总体。
为了排除这种情况,需要对相关系数进行假设检验。
相关系数高也不能说显著相关
注意自由度是n-2
在满足一系列假设条件的情况下,最小二乘估计量是方差最小线性无偏估计量。
需要的基本假设条件包括:
1、 2、对于所有的x , 的方差 相等 3、 与X 之间不相关
4、 之间不相关
5、 服从正态分布
注意1
ˆβ的符号与相关系数r 是一致的。
最小二乘估计量是Y 的线性函数。
写方程注意还有下标t ,以及上标的^
最小二乘估计量是无偏估计量,它的期望值等于总体的真实值;
()0
i E ε=i εi εi εi εˆ0.56580.7246t t Y X =+∑∑∑-⋅---=22)()())((y y x x y y x x r
最小二乘估计量在所有线性无偏估计量中具有最小方差。
估计标准误: 自由度是n-p-1
估计标准误反映了用估计的回归方程拟合因变量Y 时平均误差的大小。
各观测数据越靠近回归直线,估计标准误就越小,回归直线对各观测数据的代表性就越好。
也可以衡量拟合度
与R 2不同的是,估计标准误是一个有单位的绝对数。
回归分析中的显著性检验包括两方面的内容:
一是对单个自变量回归系数的显著性检验( t 检验);
二是对整个回归方程(所有自变量回归系数)显著性的整体检验( F 检验)。
在一元线性回归模型中,由于只有一个解释变量X ,因此,对β1=0的t 检验与对整个方程的F 检验是等价的。
为什么要检验回归系数是否等于0??如果总体中的回归系数等于零,说明相应的自变量对y 缺乏解释能力,在这种情况下我们可能需要中回归方程中去掉这个自变量。
我们也可以对常数项进行t 检验,但大部分情况下我们并不关心常数项的检验结果。
通常情况下即使常数项在模型中不显著,我们也会在模型中保留常数项,去掉常数项可能会对模型带来不利影响。
整个方程的的显著性检验, 注意这里F 检验是右侧检验!
在多元回归中除了要求一元回归中的基本假设条件外,还需要假设自变量之间不存在完全的多重共线性,否则无法估计回归模型。
完全的多重共线性:一个自变量可以表示为其他自变量和常数项的线性函数,例如x1 = 2x2 +x3 +5。
在多元回归中对回归系数的解释有所不同。
例如变量x1的回归系数应解释为:当x2 , x3,…, xp 不变时, x1每变动一个单位因变量y 的平均变动量。
R 2的正的平方根称为复相关系数,它度量了因变量同p 个自变量的相关程度。
在多元回归中,比较自变量个数不同的方程的拟合效果时多使用修正的判定系数,n-1和n-p-1实际分别是总离差平方和与残差 平方和的自由度。
MSE p n SSE p n y y p n e s i i i y =--=---=--=∑∑11)ˆ(122ˆ)1,(~1//----=p n p F p n SSE p SSR F ()
2211ˆˆn n i i i i i Y Y ε==-=∑∑
在多元回归中,预先选定的自变量不一定都对Y有显著的影响。
有一些统计方法可以帮助我们从众多可能的自变量中筛选出重要的自变量。
SPSS软件提供了多种筛选自变量的方法:
“向前引入法(Forward)”
“向后剔除法(Backward)”
“逐步引入—剔除法(Stepwise)”
在对实际的客观现象进行定量分析时,选择回归方程的具体形式应遵循以下原则:
方程形式应与有关实质性科学的基本理论相一致。
例如,采用幂函数的形式,能够较好地表现生产函数;采用多项式方程能够较好地反映总成本与总产量之间的关系等等。
方程有较高的拟合程度。
方程的数学形式要尽可能简单。
异方差问题(违背同方差假设)
序列相关问题(违背序列不相关假设)
多重共线性问题(违背解释变量不相关假设)
当回归模型随机误差项et的方差不为常数时,即为异方差(Heteroscedasticity)现象:
当异方差出现时,回归模型的估计量不再具有最小方差的性质,因此不再保持有效性;同时,我们此前介绍的t检验也失效,无法对回归系数的显著性进行检验。
违背回归模型统计假设的后果和补救方法还没看,不知道要不要考
小结:
相关分析研究变量之间相关的方向和相关的程度。
相关系数及其检验。
散点图。
回归分析则是研究变量之间相互关系的具体形式,包括线性回归分析(具体包括一元线性回归方程和多元线性回归方程)和非线性回归分析。
最小二乘估计;回归方程的拟合优度;回归分析中的t检验和F 检验。
多元回归的特殊问题:修正的R2;F检验;逐步回归。
非线性回归:变量代换的几种情况
异方差、自相关、多重共线性的概念和后果。
在相关与回归分析中,SPSS主要有以下几个方面的应用:绘制散点图;计
算相关系数;对一元或多元线性回归模型进行估计和检验;统计预测。
第八章时间序列分析
“季节变动”也用来指周期小于一年的规则变动,例如24小时内的交通流量。
循环变动与季节变动也不同,它的波动时间较长,变动的周期长短不一,变动的规则性和稳定性较差。
在加法模型中,四种成分之间是相互独立的。
某种成分的变动并不影响其他成分的变动。
各个成分都用绝对量表示,并且具有相同的量纲。
乘法模型中一般而言,长期趋势成分用绝对量表示,具有和时间序列本身相同的量纲,其它成分则用相对量表示。
中心化移动平均,如果N 为偶数,须将移动平均数再进行一次两项移动平均,以调整趋势值的位置,使趋势值能对准某一时期)。
相当于对原序列进行一次N+1 项移动平均,首末两个数据的权重为0.5,中间数据权重为1。
(例如第1、2、3、4期的平均值与第2、3、4、5的平均值再平均,然后对准第3期)
由于区分长期趋势和循环变动比较困难,在应用中有时对二者不做区分,而是把两项合在一起称为“趋势循环”成分(trend-cycle)
测定季节变动,一般需要先从原时间序列中剔除可能存在的长期趋势
月(或季)的指数之和等于1200%(或400%)。
季节指数离100%越远,季节变动程度越大,数据越远离其趋势值。
将原序列实际数值除以季节指数可以消除季节变动的影响。
此数列通常被称为“季节调整后的序列”, 它便于较为准确地分析长期趋势和循环变动。
要注意看清是除以还是乘以,趋势值乘以季节指数等于预测值
时间序列循环变动分析计算步骤:
1、如果有季节成分,计算季节指数,得到季节调整后的数据(TCI);
2、根据趋势方程从季节调整后的数据中消除长期趋势得到序列CI ;(趋势方程也可根据未进行季节调整的序列估计.)
3、对消去季节成分和趋势值的序列CI 进行移动平均以消除不规则波动 ,得到循环变动成分C 。
衡量预测误差大小的常用指标主要有:
1、平均绝对误差(Mean Absolute Error)
2、均方误差(Mean Squared Error)
3、均方根误差(Root Mean Squared Error)
4、平均绝对百分误差(Mean Absolute Percentage Error ),用来衡量相对误差的大小。
指数平滑预测的基本原理是:用时间序列过去取值的加权平均作为未来的预测值,离当前时刻越近的取值,其权重越大。
注意有^和没有的区别
如果原序列有增长趋势,平滑序列将系统的低于实际值
1112211ˆ)1()1()1()1(ˆ)1(ˆY Y Y Y Y Y Y Y t t t t t t t t αααααααααα-+-++-+-+=-+=---+ ∑=-=n i t t Y Y n MSE 1
2)ˆ(1∑=-=n i t t Y Y n MAE 1|ˆ|1∑=-=n i t t Y Y n RMSE 12)ˆ(1%100ˆ1⨯-=∑t t t Y Y Y n MAPE。