统计学 复习资料

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计学复习资料

第一章数据系统

一、数据类型

1、定性数据

2、定量数据

定量数据(scale):可以得到具体数值,一般还有测量单位。

定距变量:如温度、年龄……

定比变量:如收入……

定距数据(Scale):通常指诸如身高、体重、血压等的连续型数据,也包括诸如人数、商品件数等离散型数据。

定序数据(ordinal):是具有内在固定大小或高低顺序的数值或字符,如文化程度、职称,等。

定类数据(nominal):没有内在固定大小或高低顺序,一般以数值或字符表示的分类数据,如性别、民族,等。

二、数据来源

1、野外调查

2、定位或半定位观测

3、室内实验

4、判图

5、统计资料和文献

二、数据的整理

1、检查资料、统计分组与图表绘制

确保资料的可靠性、完整性和准确性

统计分组是按照一定标志和要求,把数据分成不同的组,为后续的统计研究打下基础。

统计分组可分为:按质量标志分组和按数量标志分组。

按质量标志分组,多用于人文-经济地理领域,其组数取决于社会经济现象的基本类型和其在研究中的意义,而且不分组距。如:在人口地理研究中,将人口按性别、民族、职业进行分组。

按数量标志分组,是先依其变量类型不同,分为离散型变量和连续型变量,然后再根据其特征的不同进行分组。

离散型变量可采用单项式(每个变量为一组)和组距式(整个变量分成几个区间,每个区间为一组)处理。

连续型变量只能采取组距式分组。又可分为等距和不等距分组两种。

组距分组:

第一步,求变量的全距RR=Xmax-Xmin

第二步,确定组数nn=1+3.32lgN(N为样本总量)

第三步,计算组距:h=R/n

第四步,确定每组的上、下限

2、数据的合并与分割

3、数据的函数变换

4、数据的其他变换

数据的函数变换

是将原始数据的每一个数值通过特定的运算方式变换成新的数值。在原有数据基本上,计算产生一些含有更丰富信息的新数据。使数据更直观、更有效。

常见的数据变换有:对数或多项式变换;时间序列的平稳化处理;利用区间变换压缩数据取值X围和标准化处理等。

包括算术表达式、条件表达式和函数三大部分。

第二节数据的分布特征

数据经过整理后,得出了频数分布的大致情况。但为了确切地表示地理数据的分布性质和在数量上的特征,需要进一步定量计算其特征值。

在数据的分布性质中,最重要的两个性质是集中性和分散性。

反映数据集中性的特征值有:平均值(均数)、中位数、众数等。

反映数据分散性的特征值有:绝对离差度(离差、离差平方和、标准差、方差等)和相对离差度(变异系数)

1、平均数(均数,Mean )

可代表数据的一般水平,并可作为对比分析的指标。主要包括算术平均数和几何平均数。

(1)简单算术平均数:

(2)加权算术平均数:

3)几何平均数

一般用来分析和研究国民经济、企业生产或人口等方面的平均发展速度和平均增长速度

2、中位数(Median )

也称中央值,它是数据按大小排序后位居中间的那个数值。

当一个数据变量值分布很偏时,以中位数表示集中趋势比算术平均数更合理。如收入、分数的分布。 对于未分组的数据:

3、众数(Mode )

是数据中出现频数最多的那个数。 对于未分组的数据,可以根据每一个数据出现的频数大小直接确定众数。 n

x x x X n +++=- 2

1∑=-+++=n i i n n w x w x w x w X 1221

1 n n x x X 0=-∑

=-=n n i x n X 1ln 1ln n f n f f n x x x X ⨯⨯⨯=- 2121)。(,n ,x )(x n 不包含基年为间隔年数为最后时期的数据数据或基年为基数0

对于分组数据,按以下公式计算众数:

三、数据的分布形态

1、偏度(Skewness):反映频数分布偏态方向和程度的测度

偏度值大于0,表示正偏差值大,称为右偏或正偏;偏度值小于0,表示负偏差值大,为负偏或左偏。

(2)峰度(Kurtosis):指频数分布曲线高峰的形态,即反映分布曲线的尖峭程度的测度。当β=0 时,表示分布的峰度是正态分布的峰度;当β>0 时,表示分布曲线的高峰是尖顶高峰;当β<0 时,表示分布曲线的高峰是平顶高峰。

右面为箱图,图中方箱为四分位数,中心粗线为中位数,两端线为最大值与最小值,之外的圆圈代表可疑的离群值。

•交叉列联表的卡方(X2)检验

•在列联表确定的情况下,卡方统计量观测值的大小仅取决于观测频数与期望频数的总差值。当总差值越大时,卡方值也就越大,实际分布与期望分布的差距越大,表明行列变量之间越相关。反之,当总差值越小时,卡方值也就越小,实际分布与期望分布越接近,表明行列变量之间越独立。

卡方检验结果:P=0<α(0.05),则拒绝0假设,说明变量之间存在着显著联系,即强相关性。

第二章时间序列分析

数据的时间序列分析:事物存在于空间和时间之中,对事物的空间分布和时间序列的描述和测度,是分析问题或现象研究结果的基础。

时间序列分析(Time Series Analysis)是研究事物发展变化规律的一种量化分析方法。

一、数据空间分布类型

1、点状分布

2、线状分布

3、面状分布:包括离散型区域、连续型区域两种。

离散型区域是一种不连续的面状分布,两个相邻区域之间为不同的质量或性质差异的数据系统。

数据的时间序列分析

时间序列分析(Time Series Analysis )是研究事物发展变化规律的一种量化分析方法。 是一些有着严格先后顺序的数据,它们之间存在着某种前后相承的关系,而非互相独立。 数据的时间序列分析

2、时间序列分析方法

(1)时域分析:认为时间序列是过去值和一些相关变量的函数,即当前的表现是由过去的状态和一些外部因素决定的,通过过去和当前的序列数据可以预知未来的表现。

(2)频域分析:认为时间序列是由若干个具有不同周期的正弦波成分叠加而成,通过复杂的数学工具,对其周期成分进行识别和分解,可以认识时间序列的特性,掌握其变化规律。 时间序列——时域分析方法

简单回归分析法:一种基于因果关系的分析方法,适合序列间的结构分析和较长期数列数据的预测。

趋势外推法:对序列的长期趋势利用曲线进行拟合的分析方法,适用于精度要求不很高的中长期趋势预测。

自回归(Autoregression )方法:引入了被解释就量某些阶数的滞后变量,适用于简单回归分析中残差项存在一阶自相关情况的序列。

自回归移动平均(ARMA )模型,也称B-J 方法:认为时间序列是若干白噪声序列的某种组合(MA 模型),可以由其自身的某些滞后序列进行解释(AR 模型)。常用于随机性波动较频繁序列的短期预测。

时间序列的水平分析

主要指标——发展水平、平均发展水平、增减量、平均增减量 基期、报告期(末期) 序时平均数:不同时间上的指标数值的平均数。

时期数列: 时点数列:

增减量:报告期与基期水平之差。

平均增减量

4、时间序列的速度分析

发展速度:报告期水平与基期水平之比 n x x x x n ++=-21间隔点数列,2221

111232121∑

-=---+++++=n i i n n n f f x x f x x f x x x 连续点数列时,21n

x x x x n ++=-为逐期增减量,1--t t x x 为累计增减量,0x x t -为平均增减量,0t x x t -

相关文档
最新文档