社会统计学 第二章 单变量
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
f
10 65
Cf↑
10 75
Cf↓
550 540
126 158 141 40 550
211 369 510 550
475 339 181 40
总数
19
从分布来看,众数是具有明显集中趋势点 的数值,一组数据分布的最高峰点所对应 的数值及为众数。
20
二 中位值(Me)
1.把一组数据按顺序排列,处于中间位置的 那个数值就是中位值。
10.9% 第一季度 9.4%
销售额
第二季度
25.0% 64.1% 第三季度 第四季度
用每个圆瓣代表现象的某
一种情况,其大小代表变 量取值在总体中所占的百 分比。圆瓣图多用于定类 变量。
(二)条形图(Bar graphs) 条形图用长条的高度表示资料类别的次数或百分数。长条一般为等宽,其 宽度没有意义;长条之间通常留有空隙间隔。条形图多用于定序变量。
X 200 X= 20岁 N 10
34
(1)加权平均数
某个变项值重复出现多次,可以先统计每个 值(x)的次数(f),再求次数与相应变量 值的乘积(fx),利用各乘积之和求出均值。 (f也称为权数,f/n称为权重) 公式:
fx X n
35
未分组数据加权平均数
解:根据公式得
【例6】调查某年120名学 生的年龄,结果如下表, 求平均年龄。 年龄 人数 17 20 18 25 19 35 20 20 21 20 N 120
50 - 30 299 .5 100 349 .5 40
31
三 均值
1、均值的定义:总体各单位取值之和除以 总体单位数目。 2、仅适用于定距变量,不适用于定类和定 序;
32
(一)未分组数据
(1)简单原始资料求均值
x X n
33
解:根据平均数的计算 公式有:
【例】某班10名学生年龄 分别为20、21、19、19、 20、20、21、22、18、 20岁,求他们的平均年 龄。
分组名词
标示上限 标示下限
收入 500-999 1000-1999 2000及以上 f 30 20 10
真实下限=标示下限-0.5 真实上限=标示上限+0.5 组中点为真实上限与真实下限的平均数。 2000及以上的组中点是多少?
第二节 图示法
(一)圆瓣图(Pie graphs) 圆瓣图是将资料展示在 一个圆形平面上,通常用 整个圆形代表现象总体,
分组注意事项: 1.组数:分成多少组合适?
调查总数N
50-100 100-250 250以上
分组数K
6-10 7-12 10-20
2.等距还是非等距问题:100元对于月工资 1000元与10000元的感觉? 3.如何决定分点的精度:一般分组点比原 统计资料的精度要高一位。 思考:如何给身高表分组?
f P n
2.比率:把计算比例时所用的基数变大, 最常用的就是百分率(%)。
二 定序层次
1.累加次数与累加百分率 将各级次数或百分率逐级相加起来,可分 为向上累加与向下累加。
向上累计频数分布(cf↑)是先列出各级别,然后由标志 值低的组向标志值高的组依次累计频数,代表某级水平水 平或以下的总数。 向下累计频数分布(cf↓)是先列出各级别,然后由标志 值高的组向标志值低的组依次累计频数,代表某及水平或 以上的总数。
数据类型和所适用的集中趋势测量值 数据类型 测度值 定类 众值▲ ―― ―― 定序 众值 中位值▲ ―― 定距 众值 中位值 均值▲
注:▲ 表示该数据类型最适合用的测度值
38
众数、中位数和平均值的比较
众数是一组数据中出现次数最多的数值。但在社会调 查中众数的代表性较小; 计算平均数时用到数据中所有的数值,而求中位数时 只用到数值的相对位置,平均数比中位数利用了更多 的有关数据的信息; 平均数容易受到极端值的影响,而中位数则不会受这 种影响。当样本中数据值的分布是高度倾斜的,中位 数一般比平均数更适合一些。
【例3】根据下表求中位值。
解:Md位置
=
成 绩 甲 乙 丙 丁 N
频 累计频次 次 cf 85 500 195 415 210 220 10 10 500 500
N+ 1 2
500+ 1 = 2
=250.5
中位值Md=乙
25
(二)分组数据求中位值
根据统计表中的累积百分比,找出含有 50%的区间 找出含有50%区间的上界值U,下界值L, 上界累计百分数U%,下界累计百分数L% 以及组距等信息 根据线段对应成比例的原理,计算出累计 百分比为50%的变量值
170 181 185 168 174 187 167 174 169 165 167 172 174 173 155 179 164 158 165 162
157 175 182 168 176 161 171 163 176 159
171 178 172 169 158 163 166 168 160 178 170 164 160 170 166 178 171 167 162 169 165 171 165 168 176 174 163 177 164 170 161 179 177 162 149 169 166 153 177 164
收入 (元 ) 职工数 Cf 100-200 10 10 200-300 20 30 300-400 40 70 400-500 30 100 合计 N 100
N -cf 2 Md=L+
解:Md位置=50; 从累积频数cf栏找到中位数位 置所在组为“300-400” 引入公式: w f
一
众数(Mo)
出现频次最多的变量值; 众数的不唯一性; 主要应用于定类变量,当然也可以应用于定 序和定距变量 4、5、7、8、19 4、5、7、5、5、16 4、4、5、7、7、9
例1:定序数据
18
例2 分组数据
收入(元)
500-699 700-899
900-1099 1100-1299 1300-1499 1500-1699
老中青人数分布图 25
人数(个)
20 15 系列1 10 5 0 老年 中年 年龄类别 青年
三.直方图(Histograms)
直方图是用矩形的面积来表示数列各组的频数或频率。 矩形的宽度表示各组组距,矩形的长度标示次数或百 分率。
四.曲线图
当变量数列中的组数愈加增多,变量值也非常多时, 折线图会逐步过渡到平滑曲线。频数分布曲线图实质 上是对应于连续变量的频数分布的函数关系图。
X xf X= n n 1720 2120 120
=18.9岁
36
(二)分组资料求均值:
根据组中值求均值
先求出组中值 组中值=(上限+下限)/2 计算组中值的和 计算分组数据的均值
fx X n
组中值
m
159 9.4 17
37
众值、中位数和均值的比较
五.常见曲线图
1.峰状曲线:根据曲线的峰顶数目,可以分为单 峰、双峰和多峰曲线。 2.对称与不对称曲线:把曲线从中央分割,两边 资料分布完全相同则为对称,否则为不对称。
第四章 数据分配特征的描述
朱火云 2017-10-13
第一节 集中趋势测量法
集中趋势测量,就是以一个数值来代表变 量的资料分布,反映的是变量值向中心值 聚集的程度,也就是说以这一个数值(或 称典型值)来估计或预测每一个研究对象 的数值时发生的错误总数在理论上是最小 的。
Md
50% 50%
2.主要应用于定序变量,也可用于定距变量, 但不可用于定类变量。
21
(一)根据原始资料求中位数
Md位置=
n 1 2
中位数=中间位置的值。将各个个案由低至高 排列起来,居序列中央位置的个案值就是中 位值。
22
(1)个案数为奇数
【例1】:甲地的5户人家的人数为:2,4,3,6, 8,求中位值。
1 = 5+1 =3 解:Md的位置= N+ 2 2
中位值Md=4
排序2,3,4,6,8
23
(2)个案数为偶数
【例2】:乙地的6户人家的人数为:2,4,3,6,8, 5求中位值。 解:Md的位置=
N+ 1 2
6 + 1 = =3.5 2
Md =
45 =4.5 2
排序2,3,4,
5, 6,8
24
(3)频数分布表
50 40 30 20 10 0
15 156 6- 1 16 64 4- 17 172 2- 1 18 80 0- 18 188 8- 19 6 14 8-
系列1
五.常见曲线:
1.U形曲线:中间小,两头大
3.J形曲线:正J分布,反J分布
2.倒U形曲线:中间
大,两头小
4.逻辑斯蒂曲线:变量值分布的次数随变 量值增大 而增多或相反,但有上限。
首先Biblioteka Baidu各组的次数累加起来
求中位数的位置: Md位置=n/2 =212/2=106 第106个位置在 25-35之间
28
分组变量看作是一组连续的数值
10 25 12
?
106
35
94
124
30
29
n cf 2 Md L f
w
【例】: 根据下表数据求中位值。
第二章
简化一个变量的分布
1
第一节 统计分布
一.定类层次之次数分布 分布指变量的各种情况出现的频次,又称频次分布。 其作用在于表明各种情况的相对重要程度。 最基本的用于简化资料的方法。 例如:
家庭类别(变量) 直系家庭 核心家庭 联合家庭 频次(个) 5 20 0
1.比例:将每类的次数(f)除以总数 (n),用以比较不同的样本。
——
——
三 定距层次
1.分组数据:简化并使定距变量有序
100名男性青年的身高表
单位:厘米
166 181 173 171 168 164 178 167 156 194 169 175 183 168 165 180 170 172 167 175
173 169 174 172 171 169 173 184 173 169
39
对随机抽样调查来说,平均数比中位数更稳定,它随样本 的变化比较小;
平均数比中位数更容易进行算术运算。
但两种情况不宜用均值:
(1)分组数据的极端组没有组限。 (2)个别数值非常特殊。
如100,200,400,500,600, 均值为360,中位数为400 100,200,400,500,1000, 均值为440,中位数为400 100,200,400,500,3000 均值为840,中位数为400
26
n cf 2 Md L f
w
L:中位数组的真实 下限 f:中位数组的频数 w:中位数组的组距 (U-L) cf:低于中位数组真 实下限的累加次数 n:全部个案数 Md位置=n/2 (上下 各50%的位置)
27
例:分组数据:
42
练习题3:某年级学生身高如下,求中位数
43
练习题4:求下表平均数
间距
148―152 152―156 156―160 160―164 164―168 168―172 172―176 176―180 180―184 184―188 188―192 192―196
合计
频数(f)
1 2 5 10 19 25 17 12 5 3 0 1
40
练习题1:城镇自杀率的分组次数分布
自杀率 3-5 6-8 9-11 次数 12 35 81 真实组限 组中值 向下累积次数
12-14
15-17 18-20
52
30 7
21-23 24-26
合计
9 3
229
41
练习题2:求中位数
求54,65,78,66,43这些数字的中位数。
求34,45,26,70,43,38 这些数字的中 位数。
100
44
第四节 离散趋势测量法
离散趋势测量(Measures of dispersion)就是用 一个值表示数据之间的差异情况。 离散趋势测量法和集中趋势测量法具有互补作用。在 进行统计分析时,既要测量变量的集中趋势,也要测 量离散趋势。
集中趋势求出的是一个最能代表变量所有资料的值, 但是集中趋势值代表性的高低还要看各个个案之间的 差异情况。
组距 148~156 156~162 162~168 168~174 174~180 合计
f 3 9 25 34 20 91 f 20 34 25 9 3 91
cf↑ 3 12 37 71 91 —— cf↑
cf↓ 91 88 79 54 20 —— cf↓
组距 174-180 168-174 162~168 156-162 148-156 合计