单变量的统计描述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4、定比变量 定比变量是将两类相关的数加以对比,形成的相对数,用以反映现象的构 成、比重、密度和速度等数量关系。例如将家庭人口数与家庭总支出对 比计算家庭人均支出水平。
二、单变量的统计描述方法
基本描述
集中趋势 离散趋势
定类层次
次数、比例、比率、 表格、图示
众数
次数、比例、比率、
定序层次
表格、图示、累计次 数、累计百分比
农民 工人 干部
0
乙校学生的父亲职业 f
100 200 300 400
(二)集中趋势测量法
(1)集中趋势测量法 (measures of central tendency): 就是找出一个数值来代表变量的资料分布,以反映资料的 集结情况。该方法的意义,就是根据该代表值(或称典型 值)来估计或预测每个研究对象的数值。
中位数
异众比率 四分位差
定距层次
次数、比例、比率、 表格、图示、累计次 数、累计百分比、分 组
均值
标准差
(一)分布 统计表 统计图
1、 分布 统计学里的分布是指一个概念或变量,它的各种情况出现的次数或频数,
也称频次分布。如住房产别包括12种情况,按被访人的回答,可以得到12对数 据:(x1,n1),(x2,n2)…(x12,n12).
4、分组步骤 第一,搜集数据; 第二,在数据中找出最大值L, 最小值S及极差值R; 第三,把数据分组,如K组; 第四,计算组距h; 第五,计算组中值 。
3、统计图
定类变量:圆瓣图;条形图 定序变量:条形图 定距变量:直方图;折线图
甲校学生的父亲职业
农民 52%
干部 20%
工人 28%
干部 工人 农民
(3)虽然均值对资料的信息利用充分,但对 严重偏态的分布,会失去它应有的代表性。
(4)对于对称的图形,三者位置重叠,当图 形正偏或负偏时,均值变化最快,中位值 次之,众数不变。
(二)离散趋势测量法
(1) 离散趋势测量法(measurements of dispersion),是要求出一个值来表示个案与个案 之间的差异情况。
(2)试比较以下两个班次考试成绩: 甲:100, 90, 80, 70, 60, 50, 40 乙:85, 80, 75, 70, 65, 60, 55 如果仅用集中趋势测量法来测量两个班的成
括号中的第一项表示变量的可能选项,第二项表示所对应的频次。 需要注 意的是: (1) 变量取值必须完备,只有这样才能使被访者一一无遗地进行归类。 (2) 变量取值必须互斥,这样才能使每一个观察值归入一类,且仅仅归入一类。
2、统计表 用表格形式来表示变量的分布。统计表必须具备的内容有:表号(统计表x,
2、等距分组与非等距分组 一般情况下采用等距分组,但研究一些特殊问题,如贫困问题,需要对低收 入分得细一些。
3、组限(class limits)就是每组的范围,包括上限和下限。对于离散型变量一 般采取相邻组限不重叠的原则,而对于连续型变量,可能出现相邻组限重叠 的情况,这时采取的原则就是“上组限不在内”原则。
收入的十等份 使用面积(平 居住面积(平 月租金(元) 家庭月平均收
分组
方米)
方米)
入(元)
1

28.49
19.34
17.68
472.00
2
33.65
23.04
26.28
726.83
3
36.38
23.71
22.90
867.42
4
32.45
22.02
24.57
1003.86
5
36.17
24.29
24.21
x),表头(包括标题、时间、地点),标识行(产别、频数、频率), 主体行(第一 项位置,按列填写变量的不同选项;第二项位置,按列填写变量取值相应的频 次和百分比等等)。要写明统计的总数。表尾需要写清资料来源。
定类变量的统计表
表1、天津市居民住房的产别分布(1997)
产别
次数
百分比
1、直管公产
431
计算时要用到全 只需中间数据 部数据
可最快求出
受极端值的影响 对极端值不敏感 有时对个别值的 变动也很敏感
分组变化时影响 分组变化时有影 分组变化时影响
不大

较大
众值、中位值和均值的比较
(1)三者设计的目的是相同的,都是希望一 个数值来描述整体特征,以便简化资料。
(2)众值仅使用了资料中最大频次这一信息, 因此,资料中信息的使用是不完善的。
550 68
12.4 100.0 12.4
二级 90
482 158 16.3 87.6 28.7
三级 106
392
264
19.3 71.3 48.0
四级 193
286
457
35.1 52.0 83.1
五级 93
93
550 16.9 16.9 100.0
总数 550
100.0
定距变量统计表
表3、天津市不同收入组居民的住房与收入现状(1997)
(2)运用该方法要舍去 变量的某些信息,但由于所根据的 数值最有代表性,所产生的误差最小。
(3)有三种方法供选择集中值:一是根据频次,哪个变量值 具有的频次最多,就选择哪个变量值。二是根据居中。三 是根据平均。
表4、各种集中趋势量度的比较
均值
中位数
众数
适用于定距数据 适用于定序数据 适用于定类数据
1154.36
6
38.90
26.92
26.96
1306.41
7
40.08
26.64
29.95
1481.37
8
42.25
26.97
3.64
1673.79
9
43.58
26.80
29.13
1995.30
10
58.70
34.66
30.42
2955.38
定距变量制表需要考虑的问题
1、组数 组数太少会掩盖变量变动时频次的变化,组数太多,会使每组内频次过少, 看不出明显的规律。一般根据理论和经验进行分组。
43.1
2、单位产
169
16.9
3、自有资产
137
13.7
4、房改购全部产权
187
18.7
5、房改购部分产权
52
5.2
6、合作产权
2
0.2
7、军产
10
1.0
8、宗教产
10
1.0
12、其他产
2
0.2
Total
1000
100.0
定序变量统计表
表2 某企业员工的教育水平
教育 f
cf
cf
%
C%
C%
一级 68
一、变量的层次
1、定类变量 定类变量是变量层次最低的,它的取值只有类别属性之分,而无大小程度之 分.如民族,婚姻等.
2、定序变量 定序变量的层次高于定类变量.它的取值除了有类别属性之外,还有等级次 序的差别.常见的如受教育程度,满意度,社会经济地位等.
3、定距变量 定距变量的层次又高于定序变量.定距变量的取值,除了具有次序属性外,取 值之间的距离可以度量.如家庭住房面积,家庭人口数等.
相关文档
最新文档