资料统计分析——单变量描述统计解析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
练习:计算下表中位数
29
(三)平均数(mean)
1、原始资料求均值
X x n
【例6】某班10名学生年龄 分别为20、21、19、19、 20、20、21、22、18、 20岁,求他们的平均年 龄。
解:根据平均数的计算 公式有:
X= X 200 20岁 N 10
2、单值分组资料求平均数
某个变项值重复出现多次,可以先统计每个值(x) 的次数(f),再求次数与相应变量值的乘积(fx),
项目八:调查资料的统计与分析
任务一 单变量描述统计 任务二 单变量推论统计 任务三 双变量相关关系分析
任务一 单变量描述统计
数据的简化
集中趋势
众值
中位数
均值
离散程度
异众比率 四分位差
方差与标准差
一、频数分布与频率分布
(一)频数分布 所谓频数分布(frequency distribution),就是指
利用各乘积之和求出均值。(f也称为权数,f/n称为
权重)
公式:
X fx
n
【例7】调查某年120名学 生的年龄,结果如下表,求 平均年龄。
年龄 人数
17
20
18
25
19
35
20
20
21
20
n
120
解:根据公式得
X= X xf nn
17 20 21 20 120
=18.9岁
3、组距分组资料求均值
510
181
1500-1699
40
550
40
总数
550
从分布来看,众数是具有明显集中趋势点的数 值,一组数据分布的最高峰点所对应的数值及 为众数。
(二)中位数(Median)
把一组数据按顺序排列,处于中间位置的那个数
值就是中位值。
Md
50%
50%
主要应用于定序变量,也可用于定距变量,但不 可用于定类变量。
求下表所示数据的的平均数
间距
148―152 152―156 156―160 160―164 164―168 168―172 172―176 176―180 180―184 184―188 188―192 192―196
二、集中趋势分析
集中趋势测量:用某一个典型的变量值或特 征值来代表全体变量的问题,这个典型的变 量值或特征值就称作集中值或集中趋势。
★ 众值(Mode)——定类层次 ★ 中位值(Median)——定序层次 ★ 均值(Mean)——定距层次
(一)众数(mode)
1、出现频次最多的变量值; 2、众数的不唯一性;
众数、中位数和平均数的比较2
平均数比中位数利用了更多的数据信息,对总 体的描述更全面和准确。
平均数很容易受到极端值变化的影响,而中位 值不会受到这种影响。
对于抽样调查来说,平均数是一种比中位数更 为稳定的量度,它随样本的变化比较小。
众数、中位数和均值的关系
均值 中位数 众数 均值 = 中位数 = 众数
一组数据中取不同值的个案的次数分布情况,它一般 以频数分布表的形式表达。 频数分布表的作用有两方面,一是简化资料,即将调 查所得到的一长串原始数据,以一个十分简洁的统计 表反映出来。二是从频数分布表中,可以更清楚的了 解调查数据的众多信息。
(二)频率分布
所谓频率分布(percentages distribution),就是 指一组数据中不同取值的频数相对于总数的比率分布 情况,这种比率在社会调查中经常是以百分比的形式 来表达。
1.原始资料求中位数
将各个个案由低至高排列起来,居序列中央位置 的个案值就是中位数。 Md位置= n 1 2
中位数=中间位置的值 注意:先找位置,再找中位数
①个案数为奇数
【例3】:甲地的5户人家的人数为:2,4,3,6, 8,求中位值。
n+1 5+1 解:Md的位置= 2 = 2=3
Md=4
众数 中位数 均值
左偏分布
对称分布
右偏分布
练习:
求下表(单项数列)所示数据的算术平均数。
表X-X 某样本家庭人口数分布表
人口数(X)
2 3 4 5 6 7 8
合计
户数(f)
5 8 16 10 6 4 1
50
频率(P)
0.10 0.16 0.32 0.20 0.12 0.08 0.02
1.00
4.4
排序2,3,4,6,8
②个案数为偶数
【例4】:乙地的6户人家的人数为:2,4,3,6, 8,5求中位值。
解:Md的位置=n+2 1=
6+=13.5 2
45
Md= 2 =4.5
排序2,3,4, 5, 6,8
2.单值分组资料(非连续取值)求中位数
先计算累计频数,然后求中间位置,中间位置最先落 入的累计频数所对于的标志值即为中位数。
【例5】根据下表求中位值。
成 频 累计频次
绩次
cf
甲 85
85
乙 195 280
丙 210 490
丁 10
500
N 500
解:Md位置
=
n+1 2
= 500+1 2
=250.5
中位值Md=乙
练习1:计算表9-7的中位数
3、组距分组(连续取值)资料求中位数
先找出中位数所在组,利用公式
374.25
练习:计算下表中位数
原始数据:4、5、7、8、19(无众值) 原始数据:4、5、7、5、5、16(一个众值) 原始数据:4、4、5、7、7、9(两个众值)
3、主要应用于定类变量,当然也可以应用于定序 和定距变量
1.单值分组资料(非连续取值)求众数
2.组距分组(连续取值)资料求众数
先找出众数组,代入公式 组距分组资料众数求值公式:
例8
先求出组中值
组中值=(上限+下限)
/2
计算组中值的和
计算分组数据的均值
X fxm 159 9.4
n 17
组中值
众数、中位数和平均数的比较1
数据类型和所适用的集中趋势测量值
数据类型 定类
定序
定距
众值▲ 众值
众值
测度值
―― 中位值▲ 中位值
――
――
均值▲
注:▲ 表示该数据类型最适合用的测度值
解: 找出众数组为222.5—227.5 代入组距分组资料众数求值公式:
练习:求下表众数
表X-X 某人群月收入频数分布表
收入(元)
f
cf ↓
cf ↑
500-699
10
10
550
700-899
65
75
540
900-1099
126
211
475
Байду номын сангаас
1100-1299
158
369
339
1300-1499
141
频率分布表除了频数分布表的优点之外,还有一个重 要的优点就是十分方便地用于不同总体或不同类别之 间的比较。
频数分布表和频率分布表实例
注意的是,对于一项有一定规模的调查样 本来说,一般不宜对如年龄、收入、时间 等定比变量做频数分布表或频率分布表。 因为,此时类别很多,而每一类别中个案 数不多,所得结果繁杂不适用。