社会统计学(二章)1节
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
组距分组(要点)
1. 2. 3. 4. 5. 6. 将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 必须遵循“不重不漏”的原则 上组限不在内的统计规定 可采用等距分组,也可采用不等距 分组
组距分组(步骤)
1. 确定组数:组数的确定应以能够显示数据的分布特征 和规律为目的。在实际分组时,可以按 Sturges 提出 的经验公式来确定组数K
2. 不等距分组
– – –
• • • •
•
117 122 108 118 110 118 112 127 137 124
122 125 131 108 118 112 134 135 114 121
124 129 139 107 117 130 125 117 122 133 126 122 123 126 133 134 127 123 127 123 119 113 120 123
分组数 6—10 7—12 10—20
• 等距分组和异距分组 • 开口组和闭口组 • 上限、下限、组距
下 限 上 限 组 中 值 2 • (闭口组)
邻组组距 组 中 值 下 限 (缺上限的开口组) 2
邻组组距 组 中 值 上 限 (缺下限的开口组) 2
不等距分组表
某地区人口统计
பைடு நூலகம்
年龄
频数 (人)
1 2 1 2 1 1 1 3 3
零件数 (个)
119 120 121 122 123 124 125 126 127
频数 (人)
1 2 1 4 4 3 2 2 3
零件数 (个)
128 129 130 131 133 134 135 137 139
频数 (人)
2 1 1 1 2 2 1 1 2
深圳、成都、沈阳、西安、杭州八市)
3、定距和定比单变量统计表
定距和定比变量的两种类型:
• 离散型变量——取值为有限个或列为有限个,如子女数 • 连续型变量——取值为有限或无限区间内的任意实数,即变量的取值
连续,如身高
若变量为离散型变量,且取值相对较少,可以按照定类或定序统计表方 式统计频次或百分比。统计表中变量取值,按取值大小排序,不要任意 打乱。 若变量为连续型变量,则需要将变量值分为若干个区间或组,统计每一 个组内或区间内的频次或百分比。 • 数据分组时需要考虑的几个问题: A 组数 B 组距 C 组限
lg( n) K 1 lg( 2)
2. 确定各组的组距:组距(Class Width)是一个组的上限 与下限之差,可根据全部数据的最大值和最小值及 所分的组数来确定,即 组距=( 最大值 - 最小值)÷ 组数 3. 根据分组整理成频数分布表
• 定距变量的分组: 调查总数 50—100 100—250 250以上
(二)定序变量 定序变量统计表内容、制作方法与定类变量相同,所不同的是,由于 定序变量的取值有大小次序之分,因此在统计表制作时,应保留其 变化趋势,不要任意打乱。
XX单位对武打片的偏好统计
喜爱程度 非常爱看 爱看 一般 不爱看 很反感
频次 7 9 10 10 3
百分比 17.9 23.1 25.6 25.6 7.7
总数
39
99.9%
2、定序单变量统计表
表2:微博用户的教育程度统计 (N=4306)
受教育程度
频数
百分比
17 0.4 初中及以下 237 5.5 高中、职高、技校 866 20.1 大专 2752 63.9 大学本科 434 10.1 研究生及以上 4306 100 总计 SSI在线样本库,调查地包括北京、上海、广州、 (资料来源:
n1 n2 n3 n4
第一节 分布 统计图 统计表
一、统计表(Statistical tables) 统计表就是用表格形式来表示所研究变量的分布 (一) 定类变量
例:某校学生的父亲职业(XX地,2003,7) 职业 农民 工人 干部 总数 频次(n) 110 概率(p) 0.200 0.276 0.524 1.000 百分比(%)
107.5
112.5 117.5 122.5 127.5 132.5 137.5
3
5 8 14 10 6 4 50
6
10 16 28 20 12 8 100
6
16 32 60 80 92 100
频数分布表的编制(实例)
【例 2.3】某生产 车 间 50 名 工 人 日 加工零件数如下 (单位:个)。 试采用单变量值 对数据进行分组 。
性别 男 女
频次 n1 n2
收入(元)
频次
0—1000 2000—3000 3000以上
n1 n2 n3
(二)变量取值必须互斥
居民个人收入(元) 频次
家庭人口数 1 —2 3 —4 5 —6 6以上
频次 n1 n2 n3 n4
0—800 800—1600 1600—2400 2400以上
“上组界不包含在内” 组距式分类
表尾
SPSS统计包对多选项问题的处理方法
• 1.多选项二分法 对每一个问题进行分别统计,做出不同的统计表。 • 2.多选项分类法 由于各项取值分散在不同变量中,因此把取值相同的频次累计起来。作为该取 值的总人次,把不同变量总取值相加,得出被选中的总人次。然后用每个变 量总取值/被选中的总人次,进行比较。 3. 加权平均法 通过被访人对全部可供选择的答案,按重要性进行打分,一般采取5等分,然 后按重要性的顺序赋予不同权数,计算各项回答的平均得分后,进行比较, 平均分高的,表示重要性要高些。
**地区残疾人月收入统计表 ( N=1000)
收入组
1000元以下 1000-2000 2000-3000
组中值
500
百分比
20.2 45.1 22.8
1500 2500
3000-4000
4000元以上
3500
4500
7.6
4.3
分组统计表例表 例:某车间50名工人日加工零件数
117 122 124 129 139 107 117 130 122 125 110 118 123 126 133 134 127 123 118 112 108 131 125 117 122 133 126 122 118 108 112 134 127 123 119 113 120 123 118 112 137 114 120 128 124 115 139 128 124 121
分组方法
分组方法
单变量值分组
组距分组
等距分组
异距分组
3、确定组限:一个组的最小值叫下限,最大值叫上限 4、分组原则:不重复、不遗漏,组上限不在内 5、中心值计算
各组中心值bi计算公式
第i组上限值+第i组下限值 bi 2
缺上限开口组组中值bi=下限+邻组组距/2
缺下限开口组组中值bi=上限-邻组组距/2
分组步骤:
1、确定组数:K=1+3.322lg50≈7 2、计算组距: h=(L-S)/K=(139-107)/7=4.6 ≈5
3、确定组限,编制频数分布表
表1:工人日加工零件频数分布表
组号 日加工零件 数 中心值 频数 频率(%) 累计百分比% cf
1
2 3 4 5 6 7 合计
105-110
110-115 115-120 120-125 125-130 130-135 135-140
如何制作分组统计表
1、确定组数:一般调查总数N与分组数有如下经验关系 调查总数N 斯特格斯(Sturges)经验 公式确定组数: 50~100 100~250 250以上 分组数K 6~10 7~12 10~20
K=1+3.322lgN
2、确定组距:分为等距分组与非等距分组,一般来说为等距分组
等距分组组距计算公式:组距(h)=(最大值-最小值)/组数
20.0 27.6 52.4
• 如果将调查结果按被访对象归类,列出数据: ( X1 ,n1 )(X2,n2)„„
每对数据用括号括起,表示数据是共存的,其中括号第一项表示变量X的 一种可能取值,第二项表示该种取值对应的频次。所谓分布,其实质就是 这些对数的集合。 频次分布 概率分布 百分比分布
• 变量取值需要注意的问题: • (1)变量取值必须完备
20.0
152
228 490
27.6
52.4
100%
应用——如何制作不同类型的单变量统计表?
1、定类单变量统计表
表号 表1:微博用户的性别统计表 (N=4306) 表头
性别 男 女 总计
频次 2747 1559 4306
百分比 63.8 36.2 100
标识行 主体行
(资料来源:SSI在线样本库,调查地包括北京、 上海、广州、深圳、成都、沈阳、西安、杭州 八市)
人数
1岁以下
135
1-3
302
3-7
475
7-18
968
18以上
2560
返回
等距分组与不等距分组 (在表现频数分布上的差异)
1. 等距分组
– – 各组频数的分布不受组距大小的影响 可直接根据绝对频数来观察频数分布的特征和 规律 各组频数的分布受组距大小不同的影响 各组绝对频数的多少不能反映频数分布的实际 状况 需要用频数密度(频数密度=频数/组距)反映 频数分布的实际状况
120 128 124 115 139 128
单变量值分组(要点)
• 1. • 2. • 3. 将一个变量值作为一组 适合于离散变量 适合于变量值较少的情况
单变量值分组表(实例)
表2-4 某车间50名工人日加工零件数分组表
零件数 (个)
107 108 110 112 113 114 115 117 118
单变量统计描述分析
学习要点和难点
分布 统计图 统计表
离散趋势 测量法
集中趋势测量法
第一节 分布 统计图 统计表
一、分布(Distributions) 分布(频次分布): 社会统计学中的分布指的是一个概念或变量,它的各个情 况出现的次数或频次,因此也成为。
例:某校学生的父亲职业 职业 农民 工人 干部 频次(n) 110 152 228 概率(p) 0.200 0.276 0.524 百分比(%)