单变量的统计描述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

4、定比变量定比变量是将两类相关的数加以对比，形成的相对数，用以反映现象的构成、比重、密度和速度等数量关系。例如将家庭人口数与家庭总支出对比计算家庭人均支出水平。
二、单变量的统计描述方法
基本描述
集中趋势离散趋势
定类层次
次数、比例、比率、表格、图示
众数
次数、比例、比率、
定序层次
表格、图示、累计次数、累计百分比
农民工人干部
0
乙校学生的父亲职业 f
100 200 300 400
（二）集中趋势测量法
（1）集中趋势测量法 (measures of central tendency)：就是找出一个数值来代表变量的资料分布，以反映资料的集结情况。该方法的意义，就是根据该代表值(或称典型值)来估计或预测每个研究对象的数值。
中位数
异众比率四分位差
定距层次
次数、比例、比率、表格、图示、累计次数、累计百分比、分组
均值
标准差
（一）分布统计表统计图
1、分布统计学里的分布是指一个概念或变量，它的各种情况出现的次数或频数，
也称频次分布。如住房产别包括12种情况，按被访人的回答，可以得到12对数据：(x1，n1)，(x2，n2)…(x12，n12).
4、分组步骤第一，搜集数据; 第二，在数据中找出最大值L，最小值S及极差值R; 第三，把数据分组，如K组; 第四，计算组距h; 第五，计算组中值。
3、统计图
定类变量:圆瓣图;条形图定序变量:条形图定距变量:直方图;折线图
甲校学生的父亲职业
农民 52%
干部 20%
工人 28%
干部工人农民
（３）虽然均值对资料的信息利用充分，但对严重偏态的分布，会失去它应有的代表性。
（４）对于对称的图形，三者位置重叠，当图形正偏或负偏时，均值变化最快，中位值次之，众数不变。
（二）离散趋势测量法
（１）离散趋势测量法（measurements of dispersion），是要求出一个值来表示个案与个案之间的差异情况。
（２）试比较以下两个班次考试成绩：甲：100， 90， 80， 70， 60， 50， 40 乙：85， 80， 75， 70， 65， 60， 55 如果仅用集中趋势测量法来测量两个班的成
括号中的第一项表示变量的可能选项，第二项表示所对应的频次。需要注意的是： (1) 变量取值必须完备，只有这样才能使被访者一一无遗地进行归类。 (2) 变量取值必须互斥，这样才能使每一个观察值归入一类，且仅仅归入一类。
2、统计表用表格形式来表示变量的分布。统计表必须具备的内容有：表号(统计表x，
2、等距分组与非等距分组一般情况下采用等距分组，但研究一些特殊问题，如贫困问题，需要对低收入分得细一些。
3、组限（class limits）就是每组的范围，包括上限和下限。对于离散型变量一般采取相邻组限不重叠的原则，而对于连续型变量，可能出现相邻组限重叠的情况，这时采取的原则就是“上组限不在内”原则。
收入的十等份使用面积（平居住面积（平月租金（元）家庭月平均收
分组
方米）
方米）
入（元）
1

28.49
19.34
17.68
472.00
2
33.65
23.04
26.28
726.83
3
36.38
23.71
22.90
867.42
4
32.45
22.02
24.57
1003.86
5
36.17
24.29
24.21
x)，表头(包括标题、时间、地点)，标识行(产别、频数、频率)，主体行(第一项位置，按列填写变量的不同选项；第二项位置，按列填写变量取值相应的频次和百分比等等)。要写明统计的总数。表尾需要写清资料来源。
定类变量的统计表
表1、天津市居民住房的产别分布(1997)
产别
次数
百分比
1、直管公产
431
计算时要用到全只需中间数据部数据
可最快求出
受极端值的影响对极端值不敏感有时对个别值的变动也很敏感
分组变化时影响分组变化时有影分组变化时影响
不大
响
较大
众值、中位值和均值的比较
（１）三者设计的目的是相同的，都是希望一个数值来描述整体特征，以便简化资料。
（２）众值仅使用了资料中最大频次这一信息，因此，资料中信息的使用是不完善的。
550 68
12.4 100.0 12.4
二级 90
482 158 16.3 87.6 28.7
三级 106
392
264
19.3 71.3 48.0
四级 193
286
457
35.1 52.0 83.1
五级 93
93
550 16.9 16.9 100.0
总数 550
100.0
定距变量统计表
表3、天津市不同收入组居民的住房与收入现状(1997)
（2）运用该方法要舍去变量的某些信息，但由于所根据的数值最有代表性，所产生的误差最小。
（3）有三种方法供选择集中值:一是根据频次，哪个变量值具有的频次最多，就选择哪个变量值。二是根据居中。三是根据平均。
表4、各种集中趋势量度的比较
均值
中位数
众数
适用于定距数据适用于定序数据适用于定类数据
1154.36
6
38.90
26.92
26.96
1306.41
7
40.08
26.64
29.95
1481.37
8
42.25
26.97
3.64
1673.79
9
43.58
26.80
29.13
1995.30
10
58.70
34.66
30.42
2955.38
定距变量制表需要考虑的问题
1、组数组数太少会掩盖变量变动时频次的变化，组数太多，会使每组内频次过少，看不出明显的规律。一般根据理论和经验进行分组。
43.1
2、单位产
169
16.9
3、自有资产
137
13.7
4、房改购全部产权
187
18.7
5、房改购部分产权
52
5.2
6、合作产权
2
0.2
7、军产
10
1.0
8、宗教产
10
1.0
12、其他产
2
0.2
Total
1000
100.0
定序变量统计表
表2 某企业员工的教育水平
教育 f
cf
cf
%
C%
C%
一级 68
一、变量的层次
1、定类变量定类变量是变量层次最低的,它的取值只有类别属性之分,而无大小程度之分.如民族,婚姻等.
2、定序变量定序变量的层次高于定类变量.它的取值除了有类别属性之外,还有等级次序的差别.常见的如受教育程度,满意度,社会经济地位等.
3、定距变量定距变量的层次又高于定序变量.定距变量的取值,除了具有次序属性外,取值之间的距离可以度量.如家庭住房面积,家庭人口数等.