第四章 连续变量的描述统计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
按纯收入分组(元)
农村居民家庭纯收入数据的直方图
数据分布的形状测度-峰度
数据分布扁平程度的测度;
计算公式:
x x f
n 4 i 1 i
i
f
i 1 i
n
4
峰度系数=3扁平程度适中; 峰度系数<3为扁平分布; 峰度系数>3为尖峰分布。
4.5 连续变量的统计描述实例操作
偏态
峰度
左偏分布
扁平分布 与标准正态 分布比较!
右偏分布
尖峰分布
数据分布的形状测度-偏态
数据分布偏斜程度的测度;
计算公式:
x x f
n 3 i 1 i
i
f
i 1 i
n
3
偏态系数=0为对称分布; 偏态系数>0为右偏分布; 偏态系数<0为左偏分布。
算例
【例】已知2007年我国农村居民家庭按纯收入分组的有关数据 如下表。试计算偏态系数。
R = max(xi) - min(xi)
离中趋势测度-方差
离散程度最常用的测度值;
反映了各变量值与均值的平均差异;
计算公式:
2
( x x)
i 1 i
n
2
n
离中趋势测度-四分位差
离中趋势的测度值之一;
排序后处于75%和25%位置上的值的差QU- QL :
25% QL
3
12.0893
1689.25 0.956 1766.7339
结论:偏态系数为正值,说明农村居民家庭纯收入的分布为右 偏分布。
户 数 比 重 (%)
25 20 15 10 5
结论:说明农村居民家庭 纯收入的分布为右偏分布 ,即收入较少的家庭占据 多数,而收入较高的家庭 则占少数。
←
500 1000 1500 2000 2500 3000 3500 4000 4500 5000 →
计算过程
农村居民家庭纯收入数据偏态及峰度计算表
按纯收入分组 (百元) 5以下 5—10 10—15 15—20 20—25 25—30 30—35 35—40 40—45 45—50 50以上 合计 组中值 xi 2.5 7.5 12.5 17.5 22.5 27.5 32.5 37.5 42.5 47.5 52.5 — 户数比重(%) fi 2.28 12.45 20.35 19.52 14.93 10.35 6.56 4.13 2.68 1.81 4.94 100 (xi- x ) fi3 -154.64 -336.46 -144.87 -11.84 0.18 23.16 89.02 171.43 250.72 320.74 1481.81 1689.25 (xi- x ) fi4 2927.15 4686.51 1293.53 46.52 0.20 140.60 985.49 2755.00 5282.94 8361.98 46041.33 72521.25
集中趋势的测度值之一;
排序后处于中间位置上的值:
50% Me
50%
集中趋势测度-众数
集中趋势的测度值之一;
出现次数最多的变量值;
数据类型与集中趋势测度值
数据类型和所适用的集中趋势测度值 数据类型 定类数据 ※众数 定序数据 ※中位数 四分位数 众数 — — — 定距数据 ※均值 众数 中位数 四分位数 — — 定比数据 ※均值 调和平均数 几何平均数 中位数 四分位数 众数
2007年农村居民家庭纯收入数据
按纯收入分组(元) 500以下 500~1000 1000~1500 1500~2000 2000~2500 2500~3000 3000~3500 3500~4000 4000~4500 4500~5000 5000以上 户数比重(%) 2.28 12.45 20.35 19.52 14.93 10.35 6.56 4.13 2.68 1.81 4.94
计算结果
根据上表数据计算得:
x xi .
i 1 n
fi
f
i 1
n
21.429
i
xi .
i 1
n
fi
f
i 1
nБайду номын сангаас
12.089
i
将计算结果代入公式得:
x x
n i 1 i
3
fi
f
i 1 i
n
x 21.429
i 1 i
11
3
fi
Part 2:第四章 连续变量的描述统计
1.连续变量的统计描述概述 2. 集中趋势的描述指标 3.离散趋势的描述指标 4.实例操作
学习要求
学习要求
掌握SPSS软件中 用于连续变量统 计描述的 Explore、 Frequencies、 Descriptive过 程
理解连续变量的 均值、方差等统 计描述指标
适 用 的 测 度 值
— — — — —
4.3 离中趋势的描述指标
数据分布的另一个重要特征;
离中趋势的各测度值是对数据离散程度所作的描述;
反映各变量值远离其中心值的程度从另一个侧面,从令一侧面说 明了集中趋势测度值的代表程度;
离中趋势测度-极差
离散程度的测度值之一;
一组数据的最大值与最小值之差,计算公式为:
25% QM
25% QU
25%
数据类型与离中趋势测度值
数据类型和所适用的离散程度测度值 数据类型 定类数据 — 适 用 的 测 度 值 — — — — 定序数据 ※四分位差 — — — — 定距数据或定比数据 ※方差或标准差 ※离散系数(比较时用) 平均差 极差 四分位差
4.4 数据分布的形状测度
【例】:某班30名学生《统计学》期末考试成绩如下,试对该考试进行统 计描述分析。 117 122 124 129 107 117 130 122 110 118 123 126 127 123 118 112 100 125 117 122 126 122 118 108 112 127 123 119 113 120
4.1 连续变量的统计描述概述
统计描述的工具
统计描述指标 统计图 统计表
数据分布的特征
集中趋势
(位置)
离中趋势 (分散程度)
偏态和峰度 (形状)
连续变量统计描述的常用指标
统计描述指标
集中趋势
离散趋势
均值
众数
中位数
极差
四分位差
方差
4.2 集中趋势的描述指标
一组数据向其中心值靠拢的倾向和程度;
测度集中趋势就是寻找数据一般水平的代表值或中心值;
集中趋势测度-均值
集中趋势的测度值之一; 最常用的测度值; 一组数据的均衡点所在; 设一组数据为:x1 ,x2 ,… ,xn ,简单算术平均数的计算公式为:
x x xn x 1 2 n
x
i 1
n
i
n
集中趋势测度-中位数