社会统计学,卢淑华(第4版),第2章.pptx
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三、四分位数(quartile)
概念:数据排序后处在25%,50%和75%位置 上的数。 25% Q1 Q2=Me 25% Q2 25% 25% Q3
(一)定序 表2.7 ① 找Q1、 Q2、 Q3所在组 Q1所在组:向上累计次数首次超过Σf/4的组; Q2所在组:向上累计次数首次超过Σf/2的组; Q3所在组:向上累计次数首次超过3Σf/4的组; ② Q1 = Q1所在组标志值; Q2 = Q2所在组标志值; Q 3= Q3所在组标志值;
(三) 定距变量
统计分组的步骤(等距、重合、组距式分组)
第四:计数。
以0.03作为组距的分组情况。 1.265-1.295;1.295-1.325,…… 1.255-1.285;1.285-1.315,…… 1.245-1.275;1.275-1.305,……
(三) 定距变量
表2.11 100名儿童身高统计分组表
(二)定距数据
1、未分组资料(spss版本)
Q1位置=(n+1)/4; Q2位置=(n+1)/2; Q3位置=3(n+1)/4 表2.10 Q1位置=(n+1)/4=25.25; Q2位置=(n+1)/2=50.5; Q3位置=3(n+1)/4=75.75
Q1=x(25)+0.25× [x(26)-x(25)]=1.37+0.25 ×[1.37-1.37]=1.37 Q2=x(50)+0.5× [x(51)-x(50)]=1.4+0. 5 ×[1.41-1.4]=1.405 Q3=x(75)+0.75× [x(76)-x(75)]=1.44+0.75 ×[1.44-1.44]=1.44
Excel 操作 :quartile
向上累计
人数 1 5 12 34 58 82 92 频率 1 5 12 34 58 82 92
中位数组 前一组所 对应向上 累计次数 首次大于 50 首次大于 50%
中位 数组
∑f
1.475~1.505
1.505~1.535 1.535~1.565 合计
1.49
1.52 1.55 —
6
1 1 100
第2章 单变量描述统计分析
第1节 统计分组
按品质标志分组
统计分组
单项式分组 按数量标志分组 等距、不等距
组距式分组 重合、不重合
一、分布(distribution)
• 变量各种可能取值及其出现的次数或频 次,又称频次分布。
频数、频次、次数(frequency)
二、统计表
表2.5 家庭结构的频次分布
数据描述的数值方法
数据描述的数值方法 集中趋势
均 值
离散程度
极差 四分位距
分布的形状
偏 态
中位数 众 数
方差和标准差 离散系数
峰 度
第 2节
第 3节
第二节:集中趋势的测量 一、众数(Mode) 概念 :出现次数最多的标志值 计算 (一)定类数据 表2.5 P24
表2.5 家庭结构的频次分布 家庭结构 核心家庭 直系家庭 频次 1050 720 百分比(%) 49.30 33.80
x(1)
9.20
x(2)
9.22
x(3)
9.25
x(4)
9.30
x(5)
9.65
表2.10
xN xN Me
( 2 ) ( 2 1)
2 2 1.4 1.41 1.405 2
x(50) x(51)
2.分组资料
(1)单项式分组 表2.18 ①向上累计次数首次超过N/2的组即为中位数 组; ②该组的标志值即为中位数
按年龄和分人口数 (2012年,0.83%人口抽样调查)
120
40
80
1.265~1.295
1.295~1.325
1.325~1.355
1.355~1.385
1.385~1.415
1.415~1.445
100名儿童身高向上累计直方图
1.445~1.475 1.475~1.505 1.505~1.535 1.535~1.565
1
1 100
99
100 —
99
100 —
2
1 —
2
1 —
向上累计:由低到高,上限以下 向下累计:由高到低,下限以上
思考:360体 您本次开机共用时1分10秒,击败了全国12% 的电脑……
关于统计分组的个人认识
原则:统计分组没有对错,只有好坏。
开口组实际中应用更广。
极端值,extreme value 判断依据:发生概率非常小,后果很严重 911事件 2004印度洋海啸 飞机失事、英法核潜艇相撞、美、俄卫星相撞 ,股灾,亚洲金融危机
2008年
分年龄别的死亡率
10.0
20.0
30.0
40.0
50.0
60.0
0.0
19 78 19 80 19 82 19 84 19 86 19 88 19 90 19 92 19 94 19 96 19 98 20 00 20 02
第一产业
三次产业构成比
第二产业 第三产业
20 04 20 06 20 08 20 10 20 12
Mo=“不爱看”
Mo=“一般”
(三)定距
1.未分组资料 表2.10 Mo=1.38,1.39,1.40,1. 41,1.42,1.43,1.44
2.单项式 表2.14 3.组距式 表2.11 Mo=1,2 Mo=1.40,1.43
二、中位数Median
(一)定序 表2.7 ①找中位数组:向上累计次数首次超过N/2的 组即为中位数组; ②该组的标志值即为中位数值
6
1 1 100
98
99 100 —
98
99 100 —
f
Me L 1.385 1.405
2
sm 1 fm
L=1.385
i
U=1.415
fm=24 Sm-1=34 i=0.03
50 34 24
0.03
北京
辽宁 天津
西 藏
上海
河南
图1 我国分地区人口年龄中位数(2000年)
多选项二分法
a 样本1 样本2 样本3 1 0 1 b 1 0 0 c 1 1 0 d 0 1 1 e 1 1 1
样本4
样本5 合计
1
1 4
1
1 3
0
0 2
0
0 2
1
1 5
多选项分类法
• P26 例2 • P27 例3
3、加权平均法
P28 例4
(二)定序变量
表2-7 单位对武打片的反映统计 喜爱程度 很反感 不爱看 一般 爱看 非常爱看 总数 频次 3 10 10 9 7 39 百分比(%) 7.69 25.64 25.64 23.08 17.95 100.00
饼图(Pie)
250, 12% 110, 5% 1050, 49% 核心家庭 直系家庭 联合家庭 其他
720, 34%
图2.1 家庭结构分布图
条形图 bar
90-94 75-79 60-64 45-49 30-34 15-19 0-4 0 20000 40000 60000 80000 100000 120000
(三) 定距变量
统计分组的步骤(等距、重合、组距式分组)
经验公式 k=1+lgn/lg2 第一:确定组数。 k =1+lg100/lg2=7.64
第二:确定组距。 组距 =(最大值-最小值)/组数 =(1.56-1.27)/10=0.029
原则:以5或10的倍数作为组距。本例选择:0.03 第三:确定组限。 要求:第一组下限要小于所有数据的最小值,最后一组上限要 大于所有数据的最大值 原则:以5或10的倍数作为组限。
向上 累计
下限公式
上限公式 C B A
中位数组 前一组
Me=L+a
Me=U-b D E
中位数组
Sm
∑f 2
Sm-1
下 限 公 式 推 导
x
a L Me
b U
中位 数组 次数 中位 数组 上限 中位 数组 下限
表2.11 100名儿童身高统计分组表 身高 1.265~1.295 1.295~1.325 1.325~1.355 1.355~1.385 1.385~1.415 1.415~1.445 1.445~1.475 组中值 人数 1.28 1.31 1.34 1.37 1.40 1.43 1.46 1 4 7 22 24 24 10 频率 1 4 7 22 24 24 10
ቤተ መጻሕፍቲ ባይዱ
身高
1.265~1.295
组中值 人数
1.28 1
频率
1
向上累计 人数 1 频率 1
向下累计 人数 100 频率 100
1.295~1.325
1.325~1.355 1.355~1.385 1.385~1.415
1.31
1.34 1.37 1.40
4
7 22 24
4
7 22 24
5
12 34 58
5
12 34 58
99
95 88 66
99
95 88 66
1.415~1.445
1.445~1.475 1.475~1.505
1.43
1.46 1.49
24
10 6
24
10 6
82
92 98
82
92 98
42
18 8
42
18 8
1.505~1.535
1.535~1.565 合计
1.52
1.55 —
1
1 100
Me=“一般”
(二)定距
1.未分组资料 表2.10
方法:中位数位置=(N+1)/2
x N 1 ( ) 2 Me x N x N ( 2 ) ( 2 1) 2
N为奇数(odd)
N为偶数(even)
概念解释:次序统计量 (order statistics)
x1 9.22 x2 9.65 x3 9.20 x4 9.25 x5 9.30
0
120
40
80
1.265~1.295
1.295~1.325
1.325~1.355
1.355~1.385
1.385~1.415
100名儿童身高向下累计直方图
1.415~1.445 1.445~1.475 1.475~1.505 1.505~1.535 1.535~1.565
0
父亲身高(800名)
(二)定距数据
1、未分组资料(excel版本)
Q1位置=(n+3)/4; Q2位置=(n+1)/2; Q3位置=(3n+1)/4 表2.10 Q1位置=(n+3)/4=25.75; Q2位置=(n+1)/2=50.5; Q3位置=(3n+1)/4=75.25
Q1=x(25)+0.75× [x(26)-x(25)]=1.37+0.75 ×[1.37-1.37]=1.37 Q2=x(50)+0.5× [x(51)-x(50)]=1.4+0. 5 ×[1.41-1.4]=1.405 Q3=x(75)+0.25× [x(76)-x(75)]=1.44+0.25 ×[1.44-1.44]=1.44
母亲身高(800名)
父亲体重(800名)
母亲体重(800名)
100
150
200
250
300
350
50
0
0岁 1-4岁 5-9岁
1992年
10-14岁 15-19岁 20-24岁 25-29岁 30-34岁 35-39岁 40-44岁 45-49岁 50-54岁 55-59岁 60-64岁 65-69岁 70-74岁 75-79岁 80-84岁 85-89岁 90及以上
Me=“乙”
(三)组距式分组
• ①首先确定中位数组;②使用公式 • 下限公式: f S m 1 Me L 2 i fm
• 上限公式:
Me U
f
2
S m1 fm
i
公式中各字母含义
• • • • U:中位数组的上限; L:中位数组的下限; fm:中位数组的频数; Sm-1:向上累计时中位数组前一组的累计频数, 即中位数前一组所对应的向上累计频数; • Sm+1:向下累计时中位数组后一组的累计频数 即中位数后一组所对应的向下累计频数; • i:中位数组的组距。
家庭结构 核心家庭
直系家庭 联合家庭
频次 1050
720 110
百分比(%) 49.30
33.80 5.16
其他
总数
250
2130
11.74
100.00
多选项二分法
a 样本1 样本2 样本3 样本4 样本5 √ × √ √ √ b √ × × √ √ c √ √ × × × d × √ √ × × e √ √ √ √ √
Q1=“不爱看”
Q1所在 组
Q2=“一般”
Q3=“爱看”
喜爱程度
Q2所在 组
Q3所在 组
频次
百分比
向上累 计
>9.75
很反感
不爱看 一般 爱看 非常爱看 总数
3
10 10 9 7 39
7.69
25.64 25.64 23.08 17.95 100.00
3
13 23 32 39
>19.5
>29.25
联合家庭
其他 总数
110
250 2130
5.16
11.74 100.00
Mo=“核心家庭”
(二)定序 表2.7 P29
表2-7 单位对武打片的反映统计 喜爱程度 频次 百分比 3 7.69 很反感 10 25.64 不爱看 10 25.64 一般 9 23.08 爱看 7 17.95 非常爱看 39 100.00 总数