社会统计学复习整理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
社会统计学复习整理
一、变量的测量层次
二、判断变量层次的技巧
1.首先所有的变量都是定类变量。
2.其次看变量的取值能否比较大小,不能这个变量只能是定类变量。
3.最后如果这个变量能够比较大小,那么就看变量取值加减乘除是否有意义,如果有意义就是定距变量,如果没有意义就只能是定序变量。
三、变量层次的比较
定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量同
时具有低层次变量的功能。
第二节简化一个变项的分布
一、定类变量
1.统计表:用表格的形式来表示变量频次(或频率)分布的一种工具。
2.统计表必备的内容:
(1)表号、标题
(2)标识行:变量名、对应数据说明(频次、频率)
(3)主题行:变量取值的统计数据
(4)表尾:如果是引用必须说明资料来源
二、定序变量
1.适合定序变量的简化资料的方法
(1)累加次数:把次数逐渐相加起来,分为向上累加次数(cf↑)和向下累加次数(cf↓)。
(2)累加频率:把各级的百分率逐渐相加。也分为向下累加百分率和向下累加百分率。
2.cf↑的计算方法就是按照变量取值的等级从低往高逐层相加。
3.cf↓计算方法就是按照变量取值的等级从高往低逐层相加。
➢cf↑表示低于某个等级的频数有多少
➢cf↓表示高于某个等级的频数有多少
三、定距变量
1.定距变量的简化工具是:分组、直方图和折线图。
2.连续型定距变量的分组统计
(1)组数:分组的数量,一般5到7组合适,分为等距分组和非等距分组。
(2)组限:包括上限(up)和下限(low)
(3)标识下限和标识上限,例500—699
(4)真实下限:标识下限—0.5;真实上限:标识上限+0.5.
(5)组距:真实上限与真实下限之差。
(6)组中值:真实上限与真实下限的平均值。
第三节集中趋势测量法
1.集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数值
来代表变项的资料分布,以反映资料的集结情况。
2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数
值。
一、定类变量
1. 众值(Mode )Mo :用具有频数最多的变量的取值来表示变量的集中值。
2. 众值的特征:
(1):众值理论上可以用于定类、定序和定距三个层次的变量来描述集中趋势,但是由于众指不精确,一般只用于定类层次的变量。 (2):众值最好找,是最容易求出的值,但它精确度也是最差的。
二、定序变量
1.中位值(Md )。
2.分组数据求中位值公式:Md=L+(n/2- cf ↑/n)(U-L) L :中位值的真实下界值 U :中位值的真实上界值 n :中位值组的频数
cf ↑:低于中位值所在组的累加(向上)频次 N :调查总数 Md 位值:N/2 二、 定距变量
1. 均值(Mean ):将变量的各个数值相加起来,除以总个数,求取一个平均
值的数值,一般用¯x 来表示。 2. 均值的特征:
● 仅适合定距层次的变量
● 它最灵敏,预测的精确度最高
● 对资料所提供的信息运用得最充分 3. 均值的求法
(一) 原始数据求均值:X=∑X 1/N
(X 表示变量x 的均值;∑X1表示变量观察值的总和。)
(二) 根据频次分布求均值:¯x=
∑n1X 1∑n2
(¯x 表示变量X 的均值;∑n1X 1表示变量的每一个取值和该变量频数相乘的和;∑n2表示把变量的每个取值下的频次都加
起来,即调查总数N)
(三) 分组数据求均值:¯x= ∑n1b1∑n1
(n 1表示每组次数,b 表示每组的组中值,∑n1表示个案数目)
第四节 离散趋势测量法
● 离散趋势测量法:是求出一个值来表示个案与个案之间的差异情况。 ● 离散趋势或离散特征可以告诉我们估计值误差的大小。 一、 定类变量(异众比率V )
V 就是非众值的次数与全部个案数目的比率。
V=
N−fmo
N
(N-全部个案数目;fmo -众值的次数) V 值越小,众值代表性越好。
二、 定序变量
1. 极差(R )—观察的最大值与最小值之差。
2. 四分互差:将数值排序,分为四个等分,第一个四分位置的值与第三个
四分位置的值的差异。
四分位差Q =Q 75-Q 25
(一) 未分组数据:2 2 3 4 6 9 10 10 11 13 15
Md 的位置=N+1/2=11+1/2=6
Q25的位置=N+1/4=11+1/4=3(第三位数)
Q75的位置=34
(N+1)=34
(11+1)=9(第九位数)
所以,四分位差Q= Q75-Q25=11-3=8 (二) 分组数据
1. 中位值公式=Md=L+(N
2- cf ↑)/n(U-L) 2. Q25=L+(N
4- cf ↑)/n(U-L)
L :四分之一位值组的真实下界值 U :四分之一位值组的真实上界值 n :四分之一位值组的频数
cf ↑:低于四分之一位值组的向上累加频次 N :调查总数 Q25位置=N/4;
3. Q75=L+(3N
4- cf ↑)/n(U-L) L :四分之三位值组的真实下界值 U :四分之三位值组的真实上界值 n :四分之三位值组的频数
cf ↑:低于四分之三位值组的向上累加频次 N :调查总数 Q75位置=3N/4;
三、 定距变量
(一) 标准差σ与方差σ²
σ=1
N √N ∑Xi −(∑Xi)² (δ即对均值的偏差平方均值的平方根)σ²=
(Xi−