统计学 复习资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学复习资料
第一章数据系统
一、数据类型
1、定性数据
2、定量数据
定量数据(scale):可以得到具体数值,一般还有测量单位。
定距变量:如温度、年龄……
定比变量:如收入……
定距数据(Scale):通常指诸如身高、体重、血压等的连续型数据,也包括诸如人数、商品件数等离散型数据。
定序数据(ordinal):是具有内在固定大小或高低顺序的数值或字符,如文化程度、职称,等。
定类数据(nominal):没有内在固定大小或高低顺序,一般以数值或字符表示的分类数据,如性别、民族,等。
二、数据来源
1、野外调查
2、定位或半定位观测
3、室内实验
4、判图
5、统计资料和文献
二、数据的整理
1、检查资料、统计分组与图表绘制
确保资料的可靠性、完整性和准确性
统计分组是按照一定标志和要求,把数据分成不同的组,为后续的统计研究打下基础。
统计分组可分为:按质量标志分组和按数量标志分组。
按质量标志分组,多用于人文-经济地理领域,其组数取决于社会经济现象的基本类型和其在研究中的意义,而且不分组距。如:在人口地理研究中,将人口按性别、民族、职业进行分组。
按数量标志分组,是先依其变量类型不同,分为离散型变量和连续型变量,然后再根据其特征的不同进行分组。
离散型变量可采用单项式(每个变量为一组)和组距式(整个变量分成几个区间,每个区间为一组)处理。
连续型变量只能采取组距式分组。又可分为等距和不等距分组两种。
组距分组:
第一步,求变量的全距RR=Xmax-Xmin
第二步,确定组数nn=1+3.32lgN(N为样本总量)
第三步,计算组距:h=R/n
第四步,确定每组的上、下限
2、数据的合并与分割
3、数据的函数变换
4、数据的其他变换
数据的函数变换
是将原始数据的每一个数值通过特定的运算方式变换成新的数值。在原有数据基本上,计算产生一些含有更丰富信息的新数据。使数据更直观、更有效。
常见的数据变换有:对数或多项式变换;时间序列的平稳化处理;利用区间变换压缩数据取值X围和标准化处理等。
包括算术表达式、条件表达式和函数三大部分。
第二节数据的分布特征
数据经过整理后,得出了频数分布的大致情况。但为了确切地表示地理数据的分布性质和在数量上的特征,需要进一步定量计算其特征值。
在数据的分布性质中,最重要的两个性质是集中性和分散性。
反映数据集中性的特征值有:平均值(均数)、中位数、众数等。
反映数据分散性的特征值有:绝对离差度(离差、离差平方和、标准差、方差等)和相对离差度(变异系数)
1、平均数(均数,Mean )
可代表数据的一般水平,并可作为对比分析的指标。主要包括算术平均数和几何平均数。
(1)简单算术平均数:
(2)加权算术平均数:
3)几何平均数
一般用来分析和研究国民经济、企业生产或人口等方面的平均发展速度和平均增长速度
2、中位数(Median )
也称中央值,它是数据按大小排序后位居中间的那个数值。
当一个数据变量值分布很偏时,以中位数表示集中趋势比算术平均数更合理。如收入、分数的分布。 对于未分组的数据:
3、众数(Mode )
是数据中出现频数最多的那个数。 对于未分组的数据,可以根据每一个数据出现的频数大小直接确定众数。 n
x x x X n +++=- 2
1∑=-+++=n i i n n w x w x w x w X 1221
1 n n x x X 0=-∑
=-=n n i x n X 1ln 1ln n f n f f n x x x X ⨯⨯⨯=- 2121)。(,n ,x )(x n 不包含基年为间隔年数为最后时期的数据数据或基年为基数0
对于分组数据,按以下公式计算众数:
三、数据的分布形态
1、偏度(Skewness):反映频数分布偏态方向和程度的测度
偏度值大于0,表示正偏差值大,称为右偏或正偏;偏度值小于0,表示负偏差值大,为负偏或左偏。
(2)峰度(Kurtosis):指频数分布曲线高峰的形态,即反映分布曲线的尖峭程度的测度。当β=0 时,表示分布的峰度是正态分布的峰度;当β>0 时,表示分布曲线的高峰是尖顶高峰;当β<0 时,表示分布曲线的高峰是平顶高峰。
右面为箱图,图中方箱为四分位数,中心粗线为中位数,两端线为最大值与最小值,之外的圆圈代表可疑的离群值。
•交叉列联表的卡方(X2)检验
•在列联表确定的情况下,卡方统计量观测值的大小仅取决于观测频数与期望频数的总差值。当总差值越大时,卡方值也就越大,实际分布与期望分布的差距越大,表明行列变量之间越相关。反之,当总差值越小时,卡方值也就越小,实际分布与期望分布越接近,表明行列变量之间越独立。
卡方检验结果:P=0<α(0.05),则拒绝0假设,说明变量之间存在着显著联系,即强相关性。
第二章时间序列分析
数据的时间序列分析:事物存在于空间和时间之中,对事物的空间分布和时间序列的描述和测度,是分析问题或现象研究结果的基础。
时间序列分析(Time Series Analysis)是研究事物发展变化规律的一种量化分析方法。
一、数据空间分布类型
1、点状分布
2、线状分布
3、面状分布:包括离散型区域、连续型区域两种。
离散型区域是一种不连续的面状分布,两个相邻区域之间为不同的质量或性质差异的数据系统。
数据的时间序列分析
时间序列分析(Time Series Analysis )是研究事物发展变化规律的一种量化分析方法。 是一些有着严格先后顺序的数据,它们之间存在着某种前后相承的关系,而非互相独立。 数据的时间序列分析
2、时间序列分析方法
(1)时域分析:认为时间序列是过去值和一些相关变量的函数,即当前的表现是由过去的状态和一些外部因素决定的,通过过去和当前的序列数据可以预知未来的表现。
(2)频域分析:认为时间序列是由若干个具有不同周期的正弦波成分叠加而成,通过复杂的数学工具,对其周期成分进行识别和分解,可以认识时间序列的特性,掌握其变化规律。 时间序列——时域分析方法
简单回归分析法:一种基于因果关系的分析方法,适合序列间的结构分析和较长期数列数据的预测。
趋势外推法:对序列的长期趋势利用曲线进行拟合的分析方法,适用于精度要求不很高的中长期趋势预测。
自回归(Autoregression )方法:引入了被解释就量某些阶数的滞后变量,适用于简单回归分析中残差项存在一阶自相关情况的序列。
自回归移动平均(ARMA )模型,也称B-J 方法:认为时间序列是若干白噪声序列的某种组合(MA 模型),可以由其自身的某些滞后序列进行解释(AR 模型)。常用于随机性波动较频繁序列的短期预测。
时间序列的水平分析
主要指标——发展水平、平均发展水平、增减量、平均增减量 基期、报告期(末期) 序时平均数:不同时间上的指标数值的平均数。
时期数列: 时点数列:
增减量:报告期与基期水平之差。
平均增减量
4、时间序列的速度分析
发展速度:报告期水平与基期水平之比 n x x x x n ++=-21间隔点数列,2221
111232121∑
-=---+++++=n i i n n n f f x x f x x f x x x 连续点数列时,21n
x x x x n ++=-为逐期增减量,1--t t x x 为累计增减量,0x x t -为平均增减量,0t x x t -