数据的特征数
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1-2)
其中 x 表示算术平均数,xi 表示观测值,n 表示样本容量。关于总体均值或数学期望的 概率定义见附录 B。
2440 2620 ... 3860 = 3149(克) 20 算术平均数的 EViews 操作:打开数据组窗口。点击 View 键,选 Descriptive Statistics/ histogram and Stats 功能。计算结果中的 mean 就是算术平均数的值。
x x 2 ... x N 1 = 1 = N N
xi
i 1
N
(1-1)
其中表示均值,xi 表示观测值,N 表示总体容量。 算术平均数:一组数据,如果是样本,{ x1, x2 , …, xn },容量为 n,则算术平均数 x 定 义为
x1 x 2 ... x n 1 n x= = xi n i 1 n
图 1-1 新生儿体重值的频数分布直方图
图 1-2
新生儿体重值的频率分布直方图
注意: (1)频数、频率直方图所展示的数据分布特征是一样的,只不过前者的纵轴表示的是 频数,后者纵轴表示的是频率。 (2)当观测值正巧等于组边界值时,注意不要在相邻两组中重复记录频数。以表 1-2 为例,记录组频数的规则是组下限值包括在本组内,组上限值不包括在本组内。比如 观测值 2700 克正巧落在组边界值上。观测值 2700 克应该记录在第 2 组,而不是第 1 组中。观测值 3000 克也正巧落在组边界值上。观测值 3000 克应该记录在第 3 组,而 不是第 2 组中。 (3)同样一组数据由于分组数不同,所画频数(频率)直方图的特征会不一样。实际 中应该选择一个最合适的分组数,以便充分展示数据的分布特征。一般分组数在 515 之间。
累计求和算子定义:对于 T 个观测值,{x1, x2, …, xT},累计求和可以简化地 表示为 x1 + x2 + …+ xT =
xt 。其中 () 称作累计求和算子,用大写希腊
t 1
T
字母表示。的上、下标 t=1 和 T 表示 xt 从 x1 累加至 xT。 累计求和算子的运算规则如下: (1)观测值倍数的累加和等于观测值累加和的倍数。
x=
1.3 算术平均数 算术平均数是一个常用概念。算术平均数的性质如下。 (1)观测值的和等于其平均数与观测值个数的乘积。 x i = n x 。
i 1 n
x 对一组数据有代表性。若不考虑 xt 的差异。用 x 代替全部 xt,则总和与 xt 的累计 和相等。所以人们常用算术平均数描述数据。如平均年龄,平均工资,平均得分等。
1.2.2 折线图 折线图:把观测点按序号或时间顺序用直线连接起来的图形。 对于截面数据,横轴表示观测值的序号,纵轴表示观测值。对于时间序列数据,横轴 表示时间,纵轴表示观测值。时间序列折线图也称时间序列图。 图 1-3 给出的是 2005 年 7 月 22 日至 2007 年 4 月 30 日 433 天的美元兑人民币元汇率 值时间序列图。 通过这张图可以清晰地看到在该期间人民币一直处于升值的大趋势中。
kxt = k xt
t 1 t 1
T
T
Fra Baidu bibliotek
其中 k 是常数,xt 是观测值。 (2)两组观测值相应求和(或差)的累加和等于它们分别求累加和后再相加 (或相减) 。
( xt y t ) = xt y t
t 1
T
T
T
t 1
t 1
(3)T 个常数 k 求和等于该常数 k 与 T 的乘积。 k = kT。其中 k 是常数。
t 1
T
(4)用双下标表示的 TT 个观测值的累加和可以用双重累加和符号表示为 (x11 + x12 + …+ x1T) + (x21 + x22 + …+ x2T) +… + (xT1 + xT2 + …+ xTT) = ( xi1 + xi 2 + …+ xiT) =
i 1 i 1 T T
1.2.3 散点图 散点图:用两个变量的成对观测值画出的观测点图。 通过散点图可以分析两个变量之间是否存在某种关系。如果存在关系,那么这种关系 是线性的,还是非线性的。 图 1-4 给出的是 2002 年中国各地区城镇居民家庭人均消费性支出(Y2002,元) 与可支配收入(X2002,元)数据散点图。右上方 4 个观测点分别代表北京、上海、 浙江省和广东省。通过散点图可以清楚地看到经济相对发达地区的城镇居民家庭人均 支出、可支配收入额都很高;经济相对欠发达地区,如甘肃、宁夏、青海、内蒙古等 城镇居民家庭人均支出、可支配收入额都相对较低。
1.2.1 直方图 例 1-1:首先把这 20 个新生儿体重值按从小到大顺序排列如下: 2440,2620,2700,2880,2900,3000,3020,3040,3080,3100,3180,3200, 3200,3300,3420,3440,3500,3500,3600,3860。 知最小值是 2440 克, 最大值是 3860 克。 把观测值的取值范围按 24002700, 27003000,30003300,33003600,36003900 分成 5 组。记录这 20 个观测值 分别落在这 5 个组内的频数(个数) 。结果分别是 2,3,8,5,2。用总观测值个 数 20 除每个组频数,得组频率值分别是 0.10,0.15,0.40,0.25,0.10。用上面的 结果制成频数(频率)分布表(见表 1-2) 。
第 1 章 数据的特征数 1.1 累计求和算子的运算规则 总体:研究对象的全体称为总体。常用{x1, x2, …, xN}或{y1, y2, …, yN}等表示。 个体:组成总体的每个基本单位称为个体。常用 xi, 或 yi 等表示。 总体容量:总体中所含个体的个数。总体{x1, x2, …, xN}中的 N 表示总体容量。 样本: 总体中抽出若干个体而组成的集体称为样本。 常用{x1, x2, …, xn}或{y1, y2, …, yn} 等表示。 样本容量:样本中所含个体的个数称作样本容量,样本{x1, x2, …, xn}中的下标 n 表示 样本容量。 比如某银行分理处共有 20 486 个活期存款储户。如果要研究这 20 486 个储户在某个 时点的存款额, 那么这 20 486 个存款额就是一个总体, 存款额的总体容量是 20 486, 而每一个存款额是一个个体。 比如从中随机抽取 20 个存款额数据, 则这 20 个存款额 数据构成一个随机样本。样本容量是 20。 特征数:用于描述一组数据(总体或样本)特征的数值称作特征数。 本章介绍的平均数、中位数、方差、相关系数等都是一组数据的特征数。
第一章 数据的特征数
第 1 章 数据的特征数 本章以及第 2、3 章的内容来自推断统计学。 在本书中经济观测值对应的变量称为经济变量, 或简称为变量, 通常是当作随机 变量处理的。 但现实中经济变量能否满足随机变量的定义要求, 是我们在实际研究中 始终应关注的问题。 这一章把数据的特征数分为 4 大类, 即描述集中位置的特征数、 分散程度的特征 数、分布状况的特征数和两变量线性相关的特征数。本章共介绍 10 个特征数,分别 是算术平均数、几何平均数、中位数、极差、方差、标准差、偏度、峰度、协方差和 相关系数。在介绍特征数之前,先给出求和算子和画图的概念。 注意:本章所说的一组数据如果不作特别说明,则既可以指一个总体,也可以指 一个样本。
表 1-2 20 个新生儿体重值分组数据频数(频率)分布表 频数 2 3 8 5 2 20 频率 0.10 0.15 0.40 0.25 0.10 1.00 组中值(克) 2550 2850 3150 3450 3750
体重值(克) 2400—2700 以下 2700—3000 以下 3000—3300 以下 3300—3600 以下 3600—3900 以下 合计
0.12 0.1 0.08 0.06 0.04 0.02 0 -20
0.12
0.12
0.1
0.1
0.08 0.06 0.04 0.02 0 -20
0.08 0.06 0.04 0.02 0 -20
-10
0
10
20
-10
0
10
20
-10
0
10
20
(4)很多专用软件都有画直方图的功能,非常方便。画直方图的 EViews 步骤是,打 开单数据组窗口,点击 View/descriptive Statistics & Tests/Histogram and Stats 功能。
xij
j 1
T
(5)两组观测值相应求和的双重累加和等于它们各自双重累加和的和。
( xij y ij ) = xij + y ij
i 1 j 1 i 1 j 1 i 1 j 1
T
T
T
T
T
T
(6) 两组不同单下标观测值积的双重累计求和等于它们各自累计求和的乘积。
xi y j = ( xi ) ( y j )
i 1 j 1 i 1 j 1
T
T
T
T
1.2.1 直方图 直方图分频数直方图和频率直方图两类。直方图用横轴表示观测值,并把横轴分 成若干个区间(每个区间的宽度称作组距) ;用纵轴表示落在相应区间内的观测值 频数(个数)或频率,并用矩形(长条形)表示组频数或组频率的图形。 例 1-1: 20 个新生儿体重值 (克) 数据见表 1-1。 画 20 个新生儿体重值的频数 (频 率)直方图。
例 1-1:
表 1-2
20 个新生儿体重值分组数据频数(频率)分布表 频数 2 3 8 5 2 20 频率 0.10 0.15 0.40 0.25 0.10 1.00 组中值(克) 2550 2850 3150 3450 3750
体重值(克) 2400—2700 以下 2700—3000 以下 3000—3300 以下 3300—3600 以下 3600—3900 以下 合计
820 ra te 810 800 790 780 770 3000 3100 3200 3300
图 1-3
2005 年 7 月 22 日至 2007 年 4 月 30 日 433 天的人民币元兑美元汇率值时间序列图
画折线图的 EViews 步骤是,打开数据组窗口,点击 View/Graph 功能。在随后打开的 Graph Options(画图选择)窗口中的 Specific(图类设定)选项框中选 Line & Symbol (折线图) ,点击确定键。
表 1-1 序号 1 2 3 4 5 6 7 8 9 10 新生儿体重值 xi 数据 体重值 2440 2620 2700 2880 2900 3000 3020 3040 3080 3100 序号 11 12 13 14 15 16 17 18 19 20 单位:克 体重值 3180 3200 3200 3300 3420 3440 3500 3500 3600 3860
i 1 n
1.4 几何平均数 当数据是以环比形式给出时, 用算术平均值求平均数是不合理的。 应该用几何平均数 求该组数据的平均比值和平均增长率。 几何平均数定义:一组环比数据{r1, r2, …, rk},个数(或称容量)为 k,则几何平均 数
12000 Y 2002 10000
8000
6000 X 2002 4000 6000 8000 10000 12000 14000
图 1-4
2002 年中国城镇居民家庭人均支出(y2002)与可支配收入(x2002)散点图
1.3 算术平均数 下面介绍的平均数,中位数等都是描述一组数据集中位置的特征数。 对于不分组数据,均值和算术平均数分别定义如下。 均值:一组数据,如果是总体,用{ x1, x2 , …, xN }表示,容量为 N,则均值定义为
(2)一组观测值与其算术平均数的离差之和等于零,即
( xi x ) = 0。
i 1
n
证明:利用累计求和算子的运算规则(2) 、 (3)和式(1-3)结果,
( xi x ) = xi - x = xi - n x = 0
i 1 i 1 i 1 i 1
n
n
n
n
此性质以后常常用到。 (3)一组观测值与某一定值 A 的离差平方和 ( x i A) 的值以 A = x 时为最小。