社会统计学(第4章 数据的统计量描述)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三、分布形状的描述指标
1.偏度: 1.偏度:描述分布的不对称性 偏度
• 正态分布是对称的偏度为0 正态分布是对称的偏度为0 • 具有显著正偏度值的分布有很长的右尾 • 具有显著负偏度值的分布有很长的左尾
2.峰度: 2.峰度:描述中心点周围观测值的扩展性 峰度
• 正态分布的峰度为0 正态分布的峰度为0 • 具有显著正峰度值集聚得比正态分布多且尾部较长 • 具有显著负峰度值集聚得比正态分布少且尾部较短
二、集中性的描述指标
2.中位数 2.中位数 定义:是一个变量分布的中间点, 1)定义:是一个变量分布的中间点,就是一半观测值 比它小,一半观测值比它大的那个数值。 比它小,一半观测值比它大的那个数值。 方法: 2)方法: 把所有观测值排顺序,由小到大。 把所有观测值排顺序,由小到大。 若观测值个数n为奇数,中位数M 若观测值个数n为奇数,中位数M就是排序后观测值 最中间的一个,即数到(n+1)/2个位置。 (n+1)/2个位置 最中间的一个,即数到(n+1)/2个位置。 若观察值个数n为偶数, 若观察值个数n为偶数,中位数就是排序后最中间 的两个观察值的平均。 的两个观察值的平均。
一、离散性的描述指标
2.四分位数:(百分位数,25%、50%、75%) 四分位数:(百分位数,25%、50%、75%) :(百分位数 定义:把观察值数目分隔成四等份的三个观测值。 1)定义:把观察值数目分隔成四等份的三个观测值。 2)计算:年龄:18 22 25 30 32 33 39 40 43 45 55 计算:年龄: 将观测值从小到大排序,找出中位数; 将观测值从小到大排序,找出中位数; 四分位数是中位数左边所有数字的中位数; 第1四分位数是中位数左边所有数字的中位数; 四分位数即是全体数字的中位数; 第2四分位数即是全体数字的中位数; 四分位数是中位数右边所有数字的中位数; 第3四分位数是中位数右边所有数字的中位数; 3)意义:比较精确反映数据分布的离散程度。 意义:比较精确反映数据分布的离散程度。 四分位数间距= 四分位数四分位数间距=第3四分位数-第1四分位数
S = S2 =
( X − X )2 ∑ N
标准差解决了方差单位不明,与观测值单位一致。 标准差解决了方差单位不明,与观测值单位一致。 标准差用于描述观测值与均值的离散程度。 标准差用于描述观测值与均值的离散程度。 标准差越大观测值越分散,越小观测值越集中。 标准差越大观测值越分散,越小观测值越集中。 标准差可以作为单位用于描述个体的偏离程度。 标准差可以作为单位用于描述个体的偏离程度。
代表值常常位于数据分布的中部 包括众数、中位数、 包括众数、中位数、均值
二、集中性的描述指标
1.众数 1.众数 定义: 1)定义:变量的观察值中出现次数最多的数值 特点: 2)特点:
一般用来描述分类变量; 一般用来描述分类变量; 有两个值出现最多时,叫做二众数分布; 有两个值出现最多时,叫做二众数分布; 从图表中很容易找到众数; 从图表中很容易找到众数; 众数不能显示比其他数值出现次数多的程度; 众数不能显示比其他数值出现次数多的程度;
三、集中性描述指标的比较
3.研究目的不同 3.研究目的不同 描述目的: 描述目的: • 初级测量:众数 初级测量: • 精确测量:中位数、均值 精确测量:中位数、 研究对象: 研究对象: • 高度偏斜分布:中位数 高度偏斜分布: • 近似对称分布:均值 近似对称分布: 从样本推论总体: 从样本推论总体:均值
地区 a a a a a a a b b b b b b b c c c c c c c d d d d d d d
年龄 6 6 6 6 6 6 6 5 5 6 6 6 7 7 3 3 4 6 8 9 9 3 3 3 6 9 9 9
Sa=0.00; Sb=0.82; Sc=2.71; Sc=3.00
全距 四分位数 方差 标准差
二、离散性的描述指标
1.全距: 全距: 定义:一个分布中最大值和最小值之间的差距。 1)定义:一个分布中最大值和最小值之间的差距。 2)计算:全距=(最大值)-(最小值) 计算:全距= 最大值) 最小值) 3)意义: 意义: 反映数据间最大变异程度。 反映数据间最大变异程度。 计算简单,只取决于最大值和最小值。 计算简单,只取决于最大值和最小值。 只能粗略描述数据分布的离散程度。 只能粗略描述数据分布的离散程度。
二、集中性的描述指标
五孩子家庭:17岁 14岁 12岁 五孩子家庭:17岁、14岁、12岁、9岁、5岁 六孩子家庭:17岁 14岁 12岁 六孩子家庭:17岁、14岁、12岁、9岁、5岁、5岁 3)特点: 特点: 优点: 优点:中位数很好的代表了一组观察值的中点只需 很少量的计算,对极端值不敏感。 很少量的计算,对极端值不敏感。 缺点:除了中间值,中位数并未利用其他观测值, 缺点:除了中间值,中位数并未利用其他观测值, 对极端值不敏感。 对极端值不敏感。
wk.baidu.com
第三节 离散性的描述
一、数据分布的离散性 二、离散性的描述指标 三、离散性描述指标的比较
一、数据分布的离散性
地区 年龄
a a a a a a a b b b b b b b 6 6 6 6 6 6 6 5 5 6 6 6 7 7
一、数据分布的离散性
数据存在不同程度的离散性(变异性) 数据存在不同程度的离散性(变异性) 数据需要从集中性和离散性两个方面描述 数据离散程度的描述指标: 数据离散程度的描述指标:
二、集中性的描述指标
3.平均值(均值) 3.平均值(均值) 平均值 定义: 1)定义:是把一个变量的所有观测值相加之和 再除以观测值数目得到的数值。 再除以观测值数目得到的数值。 计算: 2)计算: n个观测值的和 1 1 X= = (X1 +K+X n) =
n
n
一杠; 西格玛, X X bar 或者 X一杠;∑西格玛,累加符号 特点: 3)特点: 大体位于观察值中部, 大体位于观察值中部,用于度量重心的平衡点 对变量的每一个观察值都加以利用的优点 有计算麻烦, 有计算麻烦,对个别极端值敏感的缺点
二、集中性指标的操作
二、离散性的描述指标
3.方差 3.方差 1)平均离均差 离均差: 离均差:观测值与其相对应均值的距离 离均差绝对值之和: 离均差绝对值之和:Σ
X −X
Σ X −X
X −X
平均离均差: 平均离均差:所有观测值离差绝对值之和 除以观测值个数,反映平均的离散程度。 除以观测值个数,反映平均的离散程度。 N 考虑所有观测值与个数的对离散程度的影响 离均差绝对值求和不易计算
第四章 数据的统计量描述
第一节 第二节 第三节 第四节 频数与形状的描述 集中性的描述 离散性的描述 统计量描述的SPSS SPSS操作 统计量描述的SPSS操作
第一节 频数与形状的描述
一、统计量描述的概述 二、频数分布的描述指标 三、分布形状的描述指标
一、统计分析的概述
样本描述性统计分析
单变量分布描述 • 统计量描述:用数值指标描述数据特征 统计量描述:
二、离散性的描述指标
5.分析下列4 5.分析下列4组数据的离散性 分析下列 6]、 a[6 6 6 6 6 6 6]、b[5 5 6 6 6 7 7 ] 9]、 c[3 3 4 6 8 9 9]、d[3 3 3 6 9 9 9 ]
全距=? 全距=? 四分位数=? 四分位数=? 平均离均差= 平均离均差=? 方差=? 方差=? 标准差=? 标准差=?
频数分布描述 分布形状描述 集中性描述:描述数据分布的中心位置 集中性描述: 离散性描述: 离散性描述:描述数据分布的分散程度
• 统计图表描述:用图或表描述数据特征 统计图表描述: 双变量关系描述:统计量、统计图、 双变量关系描述:统计量、统计图、统计表
总体推断性统计分析
二、频数分布的描述
频数分布:描述某个变量不同取值的调查对象数量。 频数分布:描述某个变量不同取值的调查对象数量。 描述指标:频数、百分比、有效百分比、 描述指标:频数、百分比、有效百分比、累计百分比
474 0 13.49 12.00 12
频 率 100
50
0 8 年 12 年 14 年 15 年 16 年 17 年 18 年 19 年 20 年 21 年
三、集中性描述指标的比较
分布中心重合:均值=中位数= 分布中心重合:均值=中位数=众数 分布中心不重合 • 分布顶点到尾部依次众数-中位数-均值 分布顶点到尾部依次众数-中位数• 众数位于顶点,中位数居中,均值近于尾部 众数位于顶点,中位数居中,
SS Σ(X − X ) 2 S = = N N
2
方差可以描述数值偏离平均值的程度。 方差可以描述数值偏离平均值的程度。 平方处理解决了绝对值的问题。 平方处理解决了绝对值的问题。 平方处理后对偏离均值的程度更加敏感。 平方处理后对偏离均值的程度更加敏感。
二、离散性的描述指标
4.标准差: 4.标准差:将方差开平方得到的数值 标准差
∑ Xi n i =1
n
二、集中性的描述指标
4.计算步骤 4.计算步骤 1)将数字从高到低排列 2)众数:频数最大的数值 众数: 3)中位数:最居中的数值 中位数: 4)平均值:求出观测值的 平均值: 总和, 总和,将总和除以观测值 的个数 编号 身高 编号 身高 10 169 1 157 11 169 2 163 12 169 3 163 13 169 4 163 14 175 5 163 15 175 6 163 16 175 7 169 17 175 8 169 18 175 9 169 19 181
第二节 集中性的描述指标
一、数据分布的集中性 二、集中性的描述指标 三、集中性描述指标的比较
一、数据分布的集中性
大学生毕业生的平均初始收入是多少? 大学生毕业生的平均初始收入是多少? 某地区的居民平均年收入是多少? 某地区的居民平均年收入是多少? 集中性测量: 集中性测量:一种将群体描述为一个整体的有 用方法是找到一个单独的数字, 用方法是找到一个单独的数字,能够平均地或 者典型的代表一个数据集。 者典型的代表一个数据集。
标准差小于全距 观测对象较多时,全距为标准差的6倍左右 倍左右。 观测对象较多时,全距为标准差的 倍左右。
第四节 统计量描述的SPSS 统计量描述的SPSS操作 SPSS操作
一、频数与形状描述的操作
1.分析 描述统计 频率 分析—描述统计 分析 描述统计—频率
选择变量进入分析 排列格式
2.分析 描述统计 频率 分析—描述统计 频率— 分析 描述统计—频率 统计量—分布 分布—偏度与峰度 统计量 分布 偏度与峰度
身高
7
6
统计量
5
身高 N 均值 中值 众数
有效 缺失
19 0 169.00 169.00 169
频 率
4
3
2
1
0 157 163 169 175 181
身高
三、集中性描述指标的比较
2.数据的分布形状 2.数据的分布形状
中心不重合
200
教育水平( 教育水平 ( 年 )
统计量
150
教育水平(年) N 有效 缺失 均值 中值 众数
三、离散性描述指标的比较
全距(四分位数) 全距(四分位数)
粗略、快捷,不稳定, 粗略、快捷,不稳定,不能用于有样本推论总体 用于定序、定距、 用于定序、定距、定比变量
标准差(方差) 标准差(方差)
精准、相对稳定, 精准、相对稳定,可以用于由样本推论总体 用于定距、 用于定距、定比变量
全距与标准差的关系
二、离散性的描述指标
( X − X )2 离均差的平方和(SS): 2)离均差的平方和(SS):∑
数值离平均值越远,观测个数越多, 数值离平均值越远,观测个数越多,平方和越大 是用离差平方和除以观测值个数N 3)方差S2 :是用离差平方和除以观测值个数N,得到 方差S 的离均差平方的平均值,一般称为方差。 的离均差平方的平均值,一般称为方差。
三、集中性描述指标的比较
1.描述不同测量等级的变量 1.描述不同测量等级的变量
定类、定序、定距、 众 数:定类、定序、定距、定比变量的描述 中位数:定序、定距、 中位数:定序、定距、定比变量的描述 平均数:定距、 平均数:定距、定比变量的描述
三、集中性描述指标的比较
2.数据的分布形状 2.数据的分布形状 中心重合