第四讲 单变量的描述统计(2)-集中趋势分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Md
50% 50%
2、主要应用于定序变量,也可用于定距 、主要应用于定序变量, 变量,但不可用于定类变量。 变量,但不可用于定类变量。
厦门大学社会学系 11
(1)未分组数据求中位数: )未分组数据求中位数: Md位置 位置= n + 1 位置 2 (2)中位数 中间位置的值 )中位数=中间位置的值 注意:先找位置, 注意:先找位置,再找中位数 将各个个案由低至高排列起来, 将各个个案由低至高排列起来,居序列中央位 由低至高排列起来 置的个案值就是中位值。 置的个案值就是中位值。
中位值( ★ 中位值(Median)——定序层次 定序层次 均值( ★ 均值(Mean) ——定距层次 定距层次
厦门大学社会学系
5
一、众数(mode) 众数( ) 1、出现频次最多的变量值; 、出现频次最多的变量值; 2、众数的不唯一性; 、众数的不唯一性; 3、主要应用于定类变量,当然也可以 、主要应用于定类变量, 应用于定序和定距变量
厦门大学社会学系 12
)、个案数为奇数 (1)、个案数为奇数 )、
户人家的人数为: , , , 【例1】:甲地的 户人家的人数为:2,4,3, 】 甲地的5户人家的人数为 6,8,求中位值。 , ,求中位值。 解:Md的位置=
N+1 2
=
5+1 2
=3
中位值Md=4
排序2, , , , 排序 ,3,4,6,8
数据类型和所适用的集中趋势测量值 数据类型 测度值 定类 众值▲ 众值▲ ―― ―― 定序 众值 中位值▲ 中位值▲ ―― 定距 众值 中位值 均值▲ 均值▲
注:▲ 表示该数据类型最适合用的测度值
厦门大学社会学系 27
众数、 众数、中位数和平均值的比较
众数是一组数据中出现次数最多的数值 众数是一组数据中出现次数最多的数值。 但在社会调查中众数的代表性较小
厦门大学社会学系
5, 6,8 ,
14
(3)频数分布表 )
【例3】根据下表求中位值。
解:Md位置 =
成 绩 甲 乙 丙 丁 N
频 累计频次 次 cf 85 500 195 415 210 220 10 10 500 500
N+1 2
500+1 = 2
=250.5
中位值Md=乙
厦门大学社会学系
15
2、分组数据: 、分组数据:
厦门大学社会学系
3
单变量描述统计
在统计分析中, 在统计分析中,是否可以找出一个有代表性的数值来说 明变量的分布,反映资料的集中或差异情况? 明变量的分布,反映资料的集中或差异情况? 集中趋势测量,就是以一个数值来代表变量的资料分布, 集中趋势测量,就是以一个数值来代表变量的资料分布, 反映的是变量值向中心值聚集的程度, 反映的是变量值向中心值聚集的程度,也就是说以这一 个数值(或称典型值) 个数值(或称典型值)来估计或预测每一个研究对象的 数值时发生的错误总数在理论上是最小的。 数值时发生的错误总数在理论上是最小的。 离散趋势测量( 离散趋势测量(Measures of dispersion)就是用一 ) 个值表示数据之间的差异情况。 个值表示数据之间的差异情况。 离散趋势测量法和集中趋势测量法具有互补作用。 离散趋势测量法和集中趋势测量法具有互补作用。在进 行统计分析时,既要测量变量的集中趋势, 行统计分析时,既要测量变量的集中趋势,也要测量离 散趋势。 散趋势。
211 369 510 550
475 339 181 40
总数
9
从分布来看, 从分布来看,众数是具有明显集中趋势点 的数值, 的数值,一组数据分布的最高峰点所对应 的数值及为众数。
厦门大学社会学系
10
二、中位值(Median) 中位值( )
1、把一组数据按顺序排列,处于中间位 、把一组数据按顺序排列,处于中间位 按顺序排列 的那个数值就是中位值。 置的那个数值就是中位值。
∑ fx X=
n
厦门大学社会学系
24
未分组数据加权平均数
【例6】调查某年 】调查某年120名学 名学 生的年龄,结果如下表, 生的年龄,结果如下表, 求平均年龄。 求平均年龄。
年龄 17 18 19 20 21 N 人数 20 25 35 20 20 120
解:根据公式得
∑ X = ∑ xf X= n n 17 × 20 + L + 21× 20 = 120
厦门大学社会学系
28
中位数和平均数的比较
计算平均数时用到数据中所有的数值, 计算平均数时用到数据中所有的数值,而求中位数时 值用到数值的相对位置, 值用到数值的相对位置,平均数比中位数利用了更多 的有关数据的信息 平均数容易受到极端值的影响,而中位数则不会受这 平均数容易受到极端值的影响, 种影响。当样本中数据值的分布是高度倾斜的, 种影响。当样本中数据值的分布是高度倾斜的,中位 数一般比平均数更适合一些 如100,200,400,500,600, , , , , , 均值为360,中位数为 均值为 ,中位数为400 100,200,400,500,1000, , , , , , 均值为440,中位数为 均值为 ,中位数为400
厦门大学社会学系
21
1、未分组数据 、 (1)简单原始资料求均值 )
X =
∑x
n
厦门大学社会学系 22
均值的计算——未分组数据
【例5】某班10名学生年龄 分别为20、21、19、19、 20、20、21、22、18、 20岁,求他们的平均年 龄。 解:根据平均数的计算 公式有:
X 200 X= = = 20岁 N 10
厦门大学社会学系 29
对随机抽样调查来说, 对随机抽样调查来说,平均数比中位数 更稳定, 更稳定,它随样本的变化比较小 平均数比中位数更容易进行算术运算。 平均数比中位数更容易进行算术运算。
厦门大学社会学系
30
众数、中位数、均值比较 众数、中位数、均值比较2 但两种情况不宜用均值: 但两种情况不宜用均值: (1)分组数据的极端组没有组限。 (1)分组数据的极端组没有组限。 分组数据的极端组没有组限 (2)个别数值非常特殊。 (2)个别数值非常特殊。 个别数值非常特殊
厦门大学社会学系
31
=18.9岁
厦门大学社会学系
25
2、分组资料求均值:根据组中值求均值 、分组资料求均值:
先求出组中值 组中值=(上限+下限 下限) 组中值 (上限 下限) /2 计算组中值的和 计算分组数据的均值
∑fx X=
159 = = 9.4 n 17
m
26
厦门大学社会学系
众值、中位数和均值的比较 众值、中位数和均值的比较1
厦门大学社会学系
7
例1:非连续取值 :
厦门大学社会学系
8
例2 分组数据
收入(元 收入 元)
500-699 700-899 900-1099 1100-1299 1300-1499 1500-1699
f
10 65
Cf↑
10 75
Cf↓
550 540
126 158 141 40 550
厦门大学社会学系
厦门大学社会学系
6
众数的特点: 众数的特点:不唯一性
原始数据: 、 、 、 、 无众值) 原始数据:4、5、7、8、19(无众值) 原始数据: 、 、 、 、 、 一个众值) 原始数据:4、5、7、5、5、16(一个众值) 原始数据: 、 、 、 、 、 两个众值) 原始数据:4、4、5、7、7、9(两个众值)
N-cf ↑ 2 Md=L+ n w
50−30 = 300+ ×100 40
厦门大学社会学系
=350
19
注意: 注意:
分组数据spss统计时的中位数表示的只是 统计时的中位数表示的只是 分组数据 中位数的位置
厦门大学社会学系
20
三、均值
1、均值的定义:总体各单位取值之和除 、均值的定义: 以总体单位数目。 以总体单位数目。 2、仅适用于定距变量,不适用于定类和 、仅适用于定距变量, 定序; 定序;
∑
厦门大学社会学系
23
)、加权平均数 (2)、加权平均数 )、 某个变项值重复出现多次, 某个变项值重复出现多次,可以先统计每 个值( )的次数( ), ),再求次数与相 个值(x)的次数(f),再求次数与相 应变量值的乘积( ), ),利用各乘积之 应变量值的乘积(fx),利用各乘积之 和求出均值。( 也称为权重) 。(f也称为权重 和求出均值。( 也称为权重) 公式:
厦门大学社会学系
4
集中趋势测量/分析 集中趋势测量 分析
集中趋势测量: 集中趋势测量:用某一个典型的变量值或特征值 来代表全体变量的问题, 来代表全体变量的问题,这个典型的变量值或 特征值就称作集中值或集中趋势。 特征值就称作集中值或集中趋势。 众值( ★ 众值(Mode) ——定类层次 定类层次
厦门大学社会学系 13
(2)个案数为偶数 )
户人家的人数为: , , , , 【例2】:乙地的 户人家的人数为:2,4,3,6, 】 乙地的6户人家的人数为 8,5求中位值。 求中位值。 , 求中位值 解:Md的位置=
N+1 2
=
6+1 =3.5 2
2
Md= 4 + 5 =4.5
排序2, , , 排序 ,3,4,
第四讲:单变量描述统计( ) 第四讲:单变量描述统计(2)
集中趋势测量 & 离散趋势测量
厦门大学社会学系
1
知识点: 知识点: 两个维度——七个统计量数 两个维度 七个统计量数
数据的简化
集中趋势 离散程度
众众 均众
中 ห้องสมุดไป่ตู้中
异 众异异
方 四 方方方四
四 四中四
厦门大学社会学系
2
学习要求
1、集中趋势各测量法的计算方法; 、集中趋势各测量法的计算方法; 2、集中趋势各测量法的特点和应用; 、集中趋势各测量法的特点和应用; 3、离散程度各测量法的计算方法; 、离散程度各测量法的计算方法; 4、离散程度各测量法的特点与应用; 、离散程度各测量法的特点与应用;
厦门大学社会学系
16
例:分组数据: 分组数据:
首先将各组的次数累加起来 求中位数的位置: 求中位数的位置: Md位置 位置=n/2 =212/2=106 第106个位置在 25-35之间 个位置在 之间
厦门大学社会学系
17
分组变量看作是一组连续的数值
10 25 94 12 ? 106 35 124
30
厦门大学社会学系
18
【例4】: 】 根据下表数据求中位值。 根据下表数据求中位值。
收入(元 ) 职工数 Cf 收入 元 - 100-200 10 10 - 200-300 20 30 - 300-400 40 70 - 400-500 30 100 合计 N 100
位置= ; 解:Md位置=50; 位置 从累积频数cf栏找到中位数位 从累积频数 栏找到中位数位 置所在组为“ 置所在组为“300-400” - 引入公式: 引入公式:
n − cf 2 Md = L + w f
L:中位数组的下限 : f:中位数组的频数 : w:中位数组的组距 : (U-L) ) cf:低于中位数组下 : 限的累加次数 n:全部个案数 : Md位置 位置=n/2 (上 位置 下各50%的位置) 的位置) 下各 的位置