统计描述之二

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中位数
--中位数的计算 2.频数分布表法:先编制频数分布表,计算公式:
M 所在组段的下限 M所在组段的组距
M
L
M

i f
M M
n ( fL ) 2
M所在组段的频数 为M所在组前一组的累计频数
百分位数
数据从小到大 排列;在百分尺度下,所占百分比对 应的值。记为Px
100% 80% 60% 40% 20% 0% 0
四分位间距 (Inter-quartile)
常用于描述偏态频数分布以及分布的一端或两端
无确切数值资料的离散程度。
方差 (Variance)
甲组: 26 28 30 32 34 36 38 40 42 44 46 48 50 乙组: 26 33 34 35 36 37 38 49 40 41 42 43 50
ID 2025655 2025653 2025830 2025677 2025647 2025848 2019915 2025861 2024601 2000386 2002396 2002486 2002366 性别 男 女 男 男 男 女 女 男 男 男 男 男 男 年龄 23 22 25 24 27 21 27 24 25 26 29 30 29 文化程度 中学 小学 大学 中学 大学 小学 中学 大学 中学 小学 小学 大学 中学 训练方式 方法A 方法A 方法A 方法B 方法A 方法B 方法B 方法A 方法B 方法A 方法A 方法B 方法A 运动成绩 优 优 良 良 良 良 优 及格 良 及格 及格 优 良
统计描述的结果表述举例3
统计描述的结果表述举例3
统计描述的结果表述举例3
思考?
以下哪个指标用于描述数值变量的集中趋势?哪个 指标用于描述数值变量的离散趋势?以下几个指标 如何配套使用以对数值变量进行统计描述?
• 平均数、中位数 • 标准差、四分位间距
小结
• 1.极差较粗,适合于任何分布
• 2.变异系数主要用于单位不同或均数相差悬殊 • 3.平均指标和变异指标分别反映资料的不同特征 • 4.常配套使用:正态分布:均数、标准差; 偏态分布:中位数、四分位间距 • 5. 中位数和四分位间距又被称Robust statistics, 因为他们受极值或异常值影响很小 • 6. 当变量出现偏态分布,可将变量进行数学转化 为正态分布变量,再描述
表 2. 某学院大学一年级学生跳远成绩(m) 班级 一班 二班 合计 调查人数 37 37 74 跳远成绩 2.63±0.25 2.79(0.46) -
统计描述的结果表述举例2
表 2. 某学院大学一年级学生跳远成绩(m) 班级 一班 二班 合计 调查人数 37 37 74 跳远成绩 2.63±0.25 2.79(2.56,3.02) -
P100(max) P75 P50(中位数) P25 P0(min)
百分位数
--百分位数的应用范围及条件 百分位数常用于描述偏态分布资料在某百分位置上 的水平和分布特征。
多个百分位数结合起来使用,可以全面描述总体或
样本的分布特征,包括位置大小和变异度。
数值变量统计描述的SPSS操作
百分位数的计算: 分析-----描述统计----频率
(Quartile)、 方差 (Variance)、标准差 (Standard
deviation)、变异系数 (Coefficient of variation)

算术平均数
中位数
--中位数 (Median) 定义:把n个变量值从小到大排列,位于中间位置 的变量值称为中位数。
中位数用M表示。
中位数
S CV 100% X
变异系数 (Coefficient of variation)
1.比较度量衡单位不同的资料的变异度
例 : 某 地 20 岁 男 子 100 人 , 其 身 高 均 数 为 166.06cm , 标 准 差 为 4.95cm ; 其 体 重 均 数 为 53.72kg,标准差为4.96kg,试比较其变异度。
极差? 变异度一样么?
方差
克服极差的缺点,应考虑每个变量值的离散程度。
方差
总体方差(σ2): 考虑每个变量值与总体均数之差 ,即离均差 (X-µ)。计算公式为:

2


2
方差
样本方差s2:用样本均数作为总体均数μ的估计值, 用 ( X X ) 代替 ( X ) ,用样本例数n代替N。这
绝对数:通过调查或实验得到的原始数据。
但绝对数通常不具有可比性: 如一、二大班学生人数不同时,比较两班统 计学的及格人数没有意义 , 因此需要在绝对数的 基础上计算相对数。
分类变量资料的统计描述指标
相对数:两个有联系的指标之比 , 常用的相对数 有:构成比、相对比、率(区别是分子、分母)
分类变量资料的统计描述指标
0.3
甲组: 26 28 30 32 34 36 38 40 42 44 46 48 50 乙组: 26 33 34 35 36 37 38 49 40 41 42 43 50
极差? 变异度一样么?
?
数值变量统计描述的SPSS操作
分析-----描述统计----描述
数值变量统计描述的SPSS操作
要分析该学校中学生肺活量情况,用哪几个指标进行统计描述为好? 为什么?
分类变量资料的统计描述
分类变量资料的统计描述
一、分类变量资料的数据整理 二、常用相对数指标 三、应用注意事项
一、分类变量资料的数据整理
一、分类变量资料的数据整理
分类变量资料:按某种属性分类,然后清点每类的数 据(以下是:运动成绩资料)
身高
CV
4.95 100% 2.98% 166.06
体重
4.96 CV 100% 9.23% 53.72
变异系数 (Coefficient of variation)
2.比较均数相差悬殊的资料的变异度
身高均数 组1 96.1
标准差 3.1
变异系数 3.2
组2
170.2
5.0
统计资料的描述之二
2
数值变量的频数分布类型
对称分布:各组段的频数以中间组段为中心,左右 两侧基本对称。
分 布 类 型
偏态分布:各组段的频数不以中间组段为中心,而 是一侧偏多或偏少。分为正偏态和负偏态,前者偏 向数值小一侧,后者偏向数值大一侧。
数值变量的频数分布的特征
集中趋势 (Central tendency):频数表中频数分布 表现为频数向某一位置集中的趋势。
数值变量统计描述的SPSS操作
数值变量统计描述的SPSS操作
分析-----描述统计----探索
数值变量统计描述的SPSS操作
数值变量统计描述的SPSS操作
数值变量统计描述的SPSS操作
数值变量统计描述的SPSS操作
数值变量统计描述的SPSS操作
数值变量统计描述的SPSS操作
统计描述的结果表述举例1
练习一
在某学校做中学生肺活量抽样调查中发现,随机所抽取的400个学生的 肺活量频数分布表如表一所示:
表一. 学校一抽取的 400 名中学生肺活量(ml)频数分布 分组组段 (ml) <2400 2400~ 2600~ 2800~ 3000~ 3200~ 3400~ 3600~ 3800~ >4000 合计 25 32 41 40 57 62 45 38 35 25 118 6.3 8.0 10.2 10.0 14.3 15.5 11.2 9.5 8.8 6.2 100.00 6.3 14.3 24.5 34.5 48.8 64.3 75.5 85.0 93.8 100.00 频数 频率(%) 累计频率(%)
离散趋势 (Tendency of dispersion):频数虽然 向某一位置集中,但频数分布表现为各组段都有频 数分布,而不是所有频数分布在集中位置的趋势。
?
描述集中趋势指标:算术平均数(Average)、几何 均数(Geometric mean)、 中位数 (Median)及百分 位数(Percentile)。 描述离散趋势指标:全距 (Range)、四分位间距
四分位间距 (Inter-quartile)
四分位数间距用Q表示,是上四分位数(P75, 第75 百分位数)与下四分位数( P25, 第25百分位数)之 差。数值越大,变异度越大,反之,变异度越小。
由于四分位数间距不受两端个别极大值或极小值的 影响,因而四分位数间距较全距稳定,但仍未考虑 全部观察值的变异度。
分类变量资料的统计描述指标

相对比(ratio) :两个有联系的指标之比。

计算公式:甲指标/乙指标
例:男女性别比

构成比 ( proportion) :也叫构成指标,表示 某一事物或现象内部各组成部分的比重或分布。

计算公式:某一组成部分的观察单位数/同一事
物各组成部分的观察单位总数100%
分类变量资料的统计描述指标

构成比特点 : (1)总和等于100%或1;
(2)每一组成部分的构成比不能同时都增大或 减小。
数值变量统计描述的SPSS操作
数值变量统计描述的SPSS操作
?
描述数值变量资料离散趋势的指标
全距 (Range)
全距又称为极差,用R表示。是反映变量值变异范 围的指标,为变量的最大值与最小值之差。全距大 ,说明变异大。
用全距表示变异,简单明了。但是它只考虑了最大 值和最小值两个数据,易受极值影响,不稳定。因 此较少使用该指标表示变异程度。
标准差 (Standard diviation)
将方差开方,恢复成原度量单位,得总体标准差σ 和样本标准差S 。
标准差大,表示观察值的变异度大;反之,标准 差小,表示观察值的变异度小 。
变异系数 (Coefficient of variation)
常用于比较度量单位不同或均数相差悬殊的两组 (或多组)资料的变异度。其公式为:
2
2
就是:
S2
2 ( X X )
n 1
方差
• 数理统计证明,n代替N后,计算出的样本方差对
总体方差的估计偏小。对于样本资料,对离均差 平方和取平均时分母用n-1代替n。
分母为n-1,称为自由度(能自由取值的变量的 个数)。
方差
方差的意义:反映资料的变异度大小,方差大,说 明数据的变异度大,即数据较为离散。 优点:计算方差时应用每一个观察值的信息,比极 差和四分位间距稳定。缺点:计算方差时结果单位 为原单位的平方,这样不便于理解和应用。
一、分类变量资料的数据整理
分类变量资料:按某种属性分类,然后清点每类的数 据(以下是:13名运动员的运动成绩资料)
ID 2025655 2025653 2025830 2025677 2025647 2025848 2019915 2025861 2024601 2001767 2002396 2002486 2002366 性别 1 0 1 1 1 0 0 1 1 1 1 1 1 年龄 23 22 25 24 27 21 27 24 25 26 29 30 29 文化程度 2 1 3 2 3 1 2 3 2 1 1 3 2 训练方式 1 1 1 2 1 2 2 1 2 1 1 2 1 运动成绩 3 3 2 2 2 2 3 1 2 1 1 3 2
一、分类变量资料的数据整理
按年龄(2岁一组)与运动成绩整理
年龄 2123252729合计 优 1 1 0 1 1 4 良 1 1 2 1 1 6 及格 0 1 1 0 1 3 总计 2 3 3 2 3 13
一、分类变量资料的数据整理
wk.baidu.com
计算机录入与整理
分类变量资料的 统计描述指标
分类变量资料的统计描述指标
要分析该学校中学生肺活量情况,用哪几个指标进行统计描述为好? 为什么?
练习二
在某学校做中学生肺活量抽样调查中发现,随机所抽取的400个学生肺 活量的频数分布表如表二所示:
表二. 学校一抽取的 400 名中学生肺活量(ml)频数分布 分组组段 (ml) <2400 2400~ 2600~ 2800~ 3000~ 3200~ 3400~ 3600~ 3800~ >4000 合计 45 58 71 62 60 34 25 18 15 12 118 11.3 14.5 17.7 15.5 15.0 8.5 6.3 4.5 3.7 3.0 100.00 11.3 25.8 43.5 59.0 74.0 82.5 88.8 93.3 97.0 100.00 频数 频率(%) 累计频率(%)
相关文档
最新文档