第1章统计学基础知识

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3
Βιβλιοθήκη Baidu
数据的特征数可分为4大类,即描述集中位 置的特征数、分散程度的特征数、分布状 况的特征数和两变量线性相关的特征数。 主要介绍10个特征数,分别是算术平均数、 几何平均数、中位数、极差、方差、标准 差、偏度、峰度、协方差和相关系数。 在介绍特征数之前,先给出求和算子和画 图的概念。 本章所说的一组数据如果不作特别说明, 则既可以指一个总体,也可以指一个样本。
i 1 i 1 j 1

(5) 两组观测值相应求和的双重累加和等于 它们各自双重累加和的和。
( x
i 1 j 1
T
T
ij
yij ) xij yij
i 1 j 1 i 1 j 1
10
T
T
T
T
累计求和算子的运算规则
(6)
两组不同单下标观测值积的双重累 计求和等于它们各自累计求和的乘积。
34
检查对方差概念的理解。(1)对于生产线
上的产品来说,希望产品的物理量参数, 如重量、长度等指标的方差大,还是方 差小? (2)仪仗队人员身高值,和某个班 级中学生的身高值数据,哪个方差大? 求方差的EViews操作:EViews计算的是 样本方差,打开数据组窗口,点击View 键,选Descriptive Statistics/ histogram and Stats功能。计算结果中Std. Dev.(标 准差)的平方就是方差的值。
度的定义是
1 N xi 3 S ( ) N i 1
若分布是以μ对称的,则偏度为零。

xi 服从正态分布或t分布(对称分布, 大小相互抵消),S=0;若分布是右偏 倚的(均值较小),偏度S>0;若分布是 左偏倚的(均值较大),则偏度S<0。
38
样本偏度:对于单峰分布数据,样本
组窗口,点击View键,选Descriptive Statistics/histogram and Stats功能。 计算结果中的mean就是算术平均数的 值。
23
算术平均数的性质
观测值的和等于其平均数与观测值 n 个数的乘积, xi nx 。 i 1 (2) 一组观测值与其算术平均数离差和 等于零,即 ( x x ) 0 。 (3) 一组观测值与某一定值 A的离差平 n 2 ( x A ) 方和 i 的值以 A x 时为最 i 1 小。
14
15
16





注意: (1) 频数、频率直方图展示的分布特征是一样的, 只不过前者纵轴表示频数,后者纵轴表示频率。 (2) 当观测值正巧等于组边界值时,注意不要在相 邻两组重复记录。记录组频数的规则是组下限值 包括在本组内,组上限值不包括在本组内。 (3) 同样一组数据由于分组数不同,所画频数(频 率)直方图的特征会不一样。实际中应该选择一个 最合适的分组数,以便充分展示数据的分布特征。 一般分组数在5-15之间。 (4) 画直方图的EViews步骤是,打开单数据组窗 口,点击View/descriptive Statistics & Tests/Histogram and Stats功能。
17
3、折线图
折线图:把观测点按序号或时间顺序用直 线连接起来的图形。 对于截面数据,横轴表示观测值的序号, 纵轴表示观测值。对于时间序列数据,横 轴表示时间,纵轴表示观测值。时间序列 折线图也称时间序列图。 在Eviews中画一组数据的折线图,点 Quick-Graph,输入要显示折线图的变量名, 选择折线图即可。或在命令窗口plot

x1 x2 ... xN 1 N xi N N i 1
21
算术平均数:一组数据,如果是样本,
{x1,x2,…,xn} ,容量为n,则算术平均 数定义为:
x1 x2 ... xn 1 n x xi n n i 1
22
算术平均数的EViews操作:打开数据
本)的数量特征的数值称作特征数。平 均数、中位数、方差等都是一组数据 的特征数。 累计求和算子:对于T个观测值 {x1,x2,…,xT},累计求和可以简化地表 示为: T
x1 x2 ... xT xi
i 1
8
累计求和算子的运算规则

(1) 观测值倍数的累加和等于观测值累加和 T 的倍数。 T
9
T
累计求和算子的运算规则

(4) 用双下标表示的T×T个观测值的累加和 可以用双重累加和符号表示为:
T T T
( x11 x12 ... x1T ) ( x21 x22 ... x2T ) ... ( xT 1 xT 2 ... xTT ) ( xi1 xi 2 ... xiT ) xij
6
比如某银行分理处共有20486个活期存
款储户。如果要研究这20486个储户在 某个时点的存款额,那么这20486个存 款额就是一个总体,存款额的总体容 量是20486,而每一个存款额是一个个 体。比如从中随机抽取20个存款额数 据,则这20个存款额数据构成一个随 机样本。样本容量是20。
7
特征数:用于描述一组数据(总体或样
29
对于分组数据,中位数的计算

一共20名婴儿,中位数应在第10名婴儿的位置, 前两组的累积频数为5,而第3组频数为8,确定 中位数在第3组内的第5名婴儿处,这时中位数= 3000+300×5÷8=3187.5。
30
8、极差
前面介绍了描述集中位置的3个特征数,
下面介绍描述分散程度的特征数,包括 极差(全距),方差,标准差等。 设有两组数据{8, 9, 10,11, 12}和{6,8, 10,12,14}。两组数据算术平均数相等, 但分布情况却有差异。对于一组数据只 用描述集中位置的特征数进行研究是不 够的,还应引入表示分散程度的特征数。
kx k x
i 1 i i 1
i

(2) 两组观测值相应求和(或差)的累加和等 于它们分别求累加和后再相加(或相减)。
(x y ) x y
i 1 i i i 1 i i 1 T T T i

(3) T个常数k求和等于该常数k与T的乘积。
k kT
i 1
.......... .n为奇数 x( n 1) / 2 .......... M d xn / 2 x( n / 2) 1 ......... n为偶数 2
28
例3:假设5名同学的成绩分别为87、
90、92、95、98,则中位数为第3个 成绩,即92;若又加入一名同学,其 成绩为100,则中位数为第3和第4个的 成绩的平均值,即(92+95)/2。
35
10、标准差
由方差的定义可以发现,方差值的测量
单位是原数据测量单位的平方。比如, 一组数据的测量单位是厘米,其方差的 单位是(厘米)2,人们当然希望测量单位 能恢复为厘米。方差由每个离差平方计 算而成,当然可以通过求算术根把运算 还原,于是引出标准差概念。标准差也 分总体标准差和样本标准差两种。
第1章 统计学基础知识
计量经济学
1
本章内容
第1 节
数据的特征数 第2节 总体特征数的点估计与区间估计 第3节 相关分析
2
第1节 数据的特征数



1、基本概念与累计求和算子的运算规则 2、直方图 3、折线图 4、散点图 5、算术平均数 6、几何平均数 7、中位数 8、极差 9、方差 10、标准差 11、偏度 12、峰度 13、协方差
36
总体标准差:

2
1 N 2 ( x ) i N i 1
样本标准差:
n 1 2 s s2 ( x x ) i n 1 i 1
标准差考察的也是一组数据的平均离
散程度,而且测量单位与观测值的测 量单位相同。
37
11、偏度
总体偏度:对于单峰分布数据,总体偏

4
1、基本概念与累计求和算子运算规则
总体:研究对象的全体称为总体。常
用{x1,x2,…,xN}、{y1,y2,…,yN}等表示。 个体:组成总体的每个基本单位称为 个体。常用xi或yi等表示。
5
总体容量:总体中所含个体的个数。
总体{x1,x2,…,xN}中的N表示总体容量。 样本:总体中抽出若干个体组成的集 体称为样本。常用{x1,x2,…,xn} 、 {y1,y2,…,yn}等表示。 样本容量:样本中所含个体的个数称 样本容量,样本{x1,x2,…,xn}中的下标n 表示样本容量。

1 ( xi )2 N i 1
2

总体方差定义的是一组数据对其均值的平均 离差平方和。方差考察的是一组数据的平均 离散程度。由于方差的计算公式中用到了每 一个观测值,从而克服了极差的缺点。
33
样本方差:对于不分组数据
{x1,x2,…,xn} ,样本方差是
n 1 2 2 s ( xi x ) n 1 i 1

18
4、散点图
散点图:用两个变量的成对观测值画
出的观测点图。 通过散点图可以分析两个变量之间是 否存在某种关系。如果存在关系,那 么这种关系是线性的,还是非线性的, 也可以通过散点图进行初步观察。
19
20
5、算术平均数
平均数、中位数都是描述一组数据集中位 置的特征数。 对于不分组数据,均值和算术平均数分别 定义如下: 均值:一组数据,如果是总体,用 {x1,x2,…,xN}表示,容量为N,则均值μ定 义为:
12
例1:20个新生儿体重值(克)数据见表。画20 个新生儿体重值的频数(频率)直方图。
13

首先把这20个新生儿体重值按从小到大顺 序排列,知最小值是2440克,最大值是 3860克。把观测值的取值范围分成5组, 如2400-2700、2700-3000、3000- 3300、 3300-3600、3600-3900。记录 这20个观测值分别落在这5个组内的频数 (个数),结果分别是2, 3, 8, 5, 2。用每组 频数除以总数20,得组频率值分别是0.10、 0.15、0.40、0.25、0.10。用上面的结果 制成频数(频率)分布表。
26
7、中位数
算术平均数虽然对一组数据有代表性,
但当数据分布不对称时,算术平均数 的代表性很差。在数据分布不对称时, 使用中位数评价一组数据的特征更好 些。
27
中位数定义(不分组数据情形):一组n
个观测值,按数值大小排列如下, {x1,x2,…,xn} ,处于中央位置的观测值 称作中位数。用Md表示。
25
例2:中国2001至2004年每年人口增长率如 下表,求该期平均增长率。
年度 2000 2001 2002 2003 2004 人口增长率 —— 1.00695 1.00645 1.00601 1.00587
r k r1r2 rk 4 1.006951.006451.00601 1.00587 1.00632
x y x y
i 1 j 1 i j i 1 i j 1
T
T
T
T
j
11
2、直方图
直方图分频数直方图和频率直方图两
类。 直方图用横轴表示观测值,并把横轴 分成若干个区间(每个区间的宽度称作 组距);用纵轴表示落在相应区间内的 观测值频数(个数)或频率,并用矩形 (长条形)表示组频数或组频率的图形。
(1)
n i 1 i
24
6、几何平均数
当数据是以环比形式给出时,用算术
平均值求平均数是不合理的。应该用 几何平均数求该组数据的平均比值和 平均增长率。 几何平均数定义:一组环比数据 {r1,r2,…,rk},个数(或称容量)为k,则 几何平均数 r k r1r2 rk 。对于环比数 据,几何平均数具有代表性。
31
极差定义:设一组数据为{x1,x2,…,xn}

则极差R=xmax-xmin。 其中xmax、xmin分别表示该组数据中的 极大值和极小值。极差也称全距,表 示一组数据的最大取值范围。
32
9、方差
方差分总体方差和样本方差。 总体方差:对于不分组数据{x1,x2,…,xN},总 体方差: N
相关文档
最新文档