第四章 统计数据的描述
统计学 第4章 综合指标和数据分布特征的描述
G 0.95 0.92 0.90 0.85 0.80
5
0.5349 88.24%
5
例2 加权几何平均数
投资银行某笔投资的年利率是按复利计算的,25年的 年利率分配是:有1年为3%,有4年为5%,有8年为8%, 有10年为10%,有2年为15%,求平均年利率。 年本利率(%) X 年数 f
三、调和平均数 (一)基本公式
例4-1-7:某蔬菜批发市场三种蔬菜的日成交 数据如表,计算三种蔬菜该日的平均批发价格
某日三种蔬菜的批发成交数据 蔬菜 名称
批发价格 (元)
成交额(元) 成交量(公斤)
xi
1.20 0.50 0.80 —
mi
18000 12500 6400 36900
Fi
甲 乙 丙 合计
平均完成计划程度
m 1,100 110% 1 1,000 m X
2.由相对数计算平均数时加权平均数法的应用:
例
某公司有四个工厂,已知其计划完成程度(%)及计划产值资料如下: 工厂 计划完成程度(%) X 90 100 计划产值 (万元) F 100 200
甲 乙
丙
丁 合计
平均完成计划程度
5000-6000
6000以上
200
180
解: 众数组为第四组
1 d M 0 = XL+ 1 2
= 4000 +
950 320 1000 (950 320) (950 200)
•加权算术平均数: •证明:
(X X ) f
0
Xf f Xf Xf 0 ( X X ) f Xf X f Xf f
统计学第4章数据特征的描述
极差计算简单,但容易受到极端值的影响,不能全面 反映数据的离散程度。
四分位差
定义
四分位差是第三四分位数与第 一四分位数之差,用于反映中
间50%数据的离散程度。
计算方法
四分位差 = 第三四分位数 第一四分位数
优缺点
四分位差能够避免极端值的影 响,更稳健地反映数据的离散
程度,但计算相对复杂。
方差与标准差
统计学第4章数据特征 的描述
https://
REPORTING
• 数据特征描述概述 • 集中趋势的度量 • 离散程度的度量 • 偏态与峰态的度量 • 数据特征描述在统计分析中的应用 • 数据特征描述的注意事项
目录
PART 01
数据特征描述概述
REPORTING
WENKU DESIGN
数据特征描述在推断性统计中的应用
参数估计 假设检验 方差分析 相关与回归分析
基于样本数据特征,对总体参数进行估计,如点估计和区间估 计。
通过比较样本数据与理论分布或两组样本数据之间的差异,对 总体分布或总体参数进行假设检验。
研究不同因素对总体变异的影响程度,通过比较不同组间的差 异,分析因素对总体变异的贡献。
定义
方差是每个数据与全体数据平均数之方根,用于衡量数据的波动大小。
计算方法
方差 = Σ(xi - x̄)² / n,标准差 = √方差
优缺点
方差和标准差能够全面反映数据的离散程度,且计算相对简单,但容易受到极端值的影响。同时,方差 和标准差都是基于均值的度量,对于非对称分布的数据可能不够准确。
适用范围
适用于数值型数据,且数据之间可能 存在极端异常值的情况。
特点
中位数不受极端值影响,对于存在极 端异常值的数据集,中位数能够更好 地反映数据的集中趋势。
spss第四章描述统计简介PPT课件
当n 为奇数时:正中间位置号码=(n+1)/2 样本中位数=X(n+1)/2
当n为偶数时:正中间位置号码=(n+1)/2是小数,处于n/2与(n/2)+1之间。 样本中位数=(Xn/2+X(n/2)+1)/2 如5位同学的学习成绩:3,3,3,4,5。中间位置是第三位,中位数:3。 如果六位同学: 3,3,4,5,5,5。中间位置是3与4位中间的位置,中位数为: (4+5)/2=4.5
第四章 描述统计量简介
2024/10/23
第三章 样本数据特征的初步分析
1
调查杭州市居民收入情况,得到
调查顾客对产品的满意第度情四况章, 获得100个样本数据,能分
样本100统个计样本量数描据,述根据这些数据,
析出哪些信息?
你最想得到哪些信息?
调查大学生群体中对手机品牌的偏 好程度,你如何描述调查结果?
• 选择Percentile Values 栏中的 选项,输出所选变量的百分值
• Dispersion(离差)栏,用于
指定输出反映变量离散程度的 统计量
• Central Tendency (集中趋势)
栏,用于指定输出反映变量集 中趋势的统计量
• Distribution (分布特征)栏,
用于指定输出描述分布形状和
如果样本容量为n,那么,某个样本值出现 的频率=该样本值出现的频次/n
2024/10/23
第三章 样本数据特征的初步分析
9
分类数据或顺序数据描述频次与 频率的图形方法
统计学原理第4章:数据特征的描述
第四章 数据特征的描述
某公司400名职工平均工资计算表 单位:元
按月工资 组中值 职工
分组
x
人数
f
x f
比重(%)
f
f
①
②
③ ④=②×③ ⑤=③÷ 400
1100以下 1000
60
60000
15
1100-1300 1200 100 120000
25
1300-1500 1400 140 196000
35
分组
职工 人数
f
x f
①
1100以下 1100-1300 1300-1500 1500-1700 1700以上
②
1000 1200 1400 1600 1800
③ ④=②×③
60
60000
100 120000
140 196000
60
96000
40
72000
人数为权数
x x f f
544000 400
算术平均数、调和平均数、中位数、众数、几何平均数
3. 各种平均数的Excel操作
24/77
1. 集中趋势的含义
第四章 数据特征的描述
集中趋势是一组数据向其中心值靠
拢的倾向和程度
测度集中趋势就是寻找数据一般水
平的代表值或中心值
中心值 即:平均水平
▲
25/77
2. 集中趋势的度量方法
第四章 数据特征的描述
第四章 数据特征的描述
《统计学原理》(第3版)
第四章 数据特征的描述
学习目标
第一节 总量与相对量的测度 第二节 集中趋势的测度 第三节 离散程度的测度
2/77
第一节 总量与相对量的测度
社会统计学(第4章 数据的统计量描述)
三、离散性描述指标的比较
全距(四分位数) 全距(四分位数)
粗略、快捷,不稳定, 粗略、快捷,不稳定,不能用于有样本推论总体 用于定序、定距、 用于定序、定距、定比变量
标准差(方差) 标准差(方差)
精准、相对稳定, 精准、相对稳定,可以用于由样本推论总体 用于定距、 用于定距、定比变量
全距与标准差的关系
SS Σ(X − X ) 2 S = = N N
2
方差可以描述数值偏离平均值的程度。 方差可以描述数值偏离平均值的程度。 平方处理解决了绝对值的问题。 平方处理解决了绝对值的问题。 平方处理后对偏离均值的程度更加敏感。 平方处理后对偏离均值的程度更加敏感。
二、离散性的描述指标
4.标准差: 4.标准差:将方差开平方得到的数值 标准差
二、离散性的描述指标
5.分析下列4 5.分析下列4组数据的离散性 分析下列 6]、 a[6 6 6 6 6 6 6]、b[5 5 6 6 6 7 7 ] 9]、 c[3 3 4 6 8 9 9]、d[3 3 3 6 9 9 9 ]
全距=? 全距=? 四分位数=? 四分位数=? 平均离均差= 平均离均差=? 方差=? 方差=? 标准差=? 标准差=?
三、集中性描述指标的比较
1.描述不同测量等级的变量 1.描述不同测量等级的变量
定类、定序、定距、 众 数:定类、定序、定距、定比变量的描述 中位数:定序、定距、 中位数:定序、定距、定比变量的描述 平均数:定距、 平均数:定距、定比变量的描述
三、集中性描述指标的比较
2.数据的分布形状 2.数据的分布形状 中心重合
第二节 集中性的描述指标
一、数据分布的集中性 二、集中性的描述指标 三、集中性描述指标的比较
一、数据分布的集中性
《医学统计学》第四章定性资料的统计描述
1、不要把构成比与率相混淆。即分析时不能以构成 比代率;这是常见的错误。
某文章作者根据上述资料认为,沙眼在20~组的患病率最高,以后随年 龄增大而减少。该作者把构成比当作率进行分析,犯了以比代率的错误。
2、使用相对数时分母不宜过小。分母过小时相对数 不稳定。
3、注意资料的可比性;
不同时期、不同地区、不同条件下的资料比较时应注意具有 可比性。
12965.2
46.3
否
265
660291.4
40.1
说明该地市区非吸烟女性饮酒者的肺癌发病率是
非吸烟女性不饮酒者的1.15倍。
3.比数比
比数比( Odds ratio ,OR) : 常用于流行病学
中病例-对照研究资料,表示病例组和对照组中的 暴露比例与非暴露比例的比值之比,是反映疾病 与暴露之间关联强度的指标。其计算公式为
一般的,两个地方的出生率、死亡率、发病率、不同级别 医院某病的治愈率等不能直接比较。
无可比性的实例:
由表2-7可见,无论有无腋下淋巴结转移,省医院的5年生存 率均高于市医院,但从总生存率看,省医院的5年生存率低于市 医院。这不符合常理。因此,省医院与市医院的总生存率就不能 直接比较(标准化后再比)。
感谢聆听
率
某事物或现象发生的实 际数 某事物或现象发生的所 有可能数
比例基数
公式中的“比例基数”通常依据习惯而定。
需要注意的是,率在更多情况下是一个具有时间 概念的指标,即用于说明在某一段时间内某现象 发生的强度或频率,如出生率、死亡率、发病率 、患病率等,这些指标通常是指在1年时间内发 生的频率。
例4-1 某单位在2009年有3128名职工,该单位 每年对职工进行体检,在这一年新发生高血压 病人12例,则
《统计学:思想、方法与应用》第4章 定量数据的描述方法
19:11
2
4.1 展示数据的分布
表4.1 安然公司1997-2001年股票价格变化的数据(单位:元)
一月
1998 0.78 1999 4.28
二月
0.62 4.34
三月
-0.69 2.44 -1.22 4.5
四月
-0.88 -0.28 0.47 4.56
五月
0.12 2.22
六月 七月 八月
0.75 0.81 -1.75 -0.5 2.06 -0.88 8
19:11
27
4.1.5 累积频数分布
除了对数据的分布形态有所了解,有时候我 们希望了解股价变化值低于0元的月份数量,累积 频数分布或累积频数折线图可以帮助我们获得这 样的信息。
股价变化值(元) -20~-10 频数 6 累积频数 6 由此得到
-10~0
0~10 10~20 20~30
19:11
1. 直方图:主要用于表示分组数据分布的一 种图形。 2. 用矩形的宽度和高度来表示频数分布 3. 在直角坐标中,用横轴表示数据分组,纵 轴表示频数或频率,各组与相应的频数就 形成了一个矩形,即直方图
本质上是用矩形的面积来
Excel
表示频数分布
19:11
19
4.1.2 分组数据看分布—直方图
(直方图与条形图的区别)
变量值变动区间的长度相等
异距分组 变量值变动区间的长度不完全相等
19:11
7
相关概念 组限
组距 组中值 指每组两端表示各组界限的变量值, 各组的最小值为下限,最大值为上限 每组变量值变动区间的长度,为上下 限之差
每组变量取值范围的中点数值
组中值=
19:11
Chap04_数据的描述性分析
i 1
n
1 xi
加权调和平均数
xH m1 m2 ...... mn m m1 m2 ...... n x1 x2 xn
m
i 1 n
n
i
mi i 1 x i
调和平均数是算术平均数的变形
xH
m
i 1 n
n
i
mi i 1 xi
x
i 1 n
n
相对指标应用的原则
1、可比性原则 (1)正确选择对比基数 (2)保持对比指标的可比性 2、相对指标与总量指标结合运用原则 3、多种相对指标结合运用原则
集中趋势
集中趋势(Central Tendency)反映 的是一组数据向某一中心值靠拢的倾向, 在中心附近的数据数目较多,而远离中心 的较少。对集中趋势进行描述就是寻找数 据一般水平的中心值或代表值。
例题
峰度
峰度(Kurtosis)是分布集中趋势高峰的形状。在 变量数列的分布特征中,常常以正态分布为标准, 观察变量数列分布曲线顶峰的尖平程度,统计上称 之为峰度。
v4
4
3
x
n i 1
i
x fi
4
i 1
n
3
fi 4
正态分布的峰度系数为0,当>0时为尖峰分布, 当<0时为平顶分布。 例题
例题
离散系数 离散程度的绝对指标 对应的平均指标
V
x
100%
是非标志的平均数和方差
π是一个比率,它表示具有某种特征的个体的 数量占总体中个体总数的比重,即总体成数。 是非标志的平均数为:
x
定量分析方法(4-5)
例1.一组数据:4.9,6.3,7.7,8.9,10.3,11.7。求 。
解:由于
所以 ,即数据不偏倚。
例2.求前面CCER成绩分布的 。
解: ,即左偏倚。
四、车贝雪夫(Chebyshev)定理
Chebyshev定理表明,数据如何集中在均值周围变化。
例:一个投资者选择购买两种股票A和B,过去几个月两种股票的变化情况如下:
A:平均股价50,标准差10
B:平均股价12,标准差4
按绝对指标,股票A比股票B的变动性更大一些。但按相对指标比较:
可见,股票A的稳定性比股票B大,因而投资股票A比投资股票B的风险小。
三、偏度系数(Coefficient of Skewness)
即第三个四分位值与第一个四分位值之间的距离,表明位于中间的占总观测值数量一半的那部分观测值的差距。
注:四分位差避开了异端数值的影响,但仅反映了中间那部分数据的离散程度,而忽略了数据的两端各1/4的数据。
3、平均偏差(Average Deviation)
即数据中各个数值相对于均值的距离的平均数。
其中, 。
设从总体中抽取样本容量为 的一个样本,即:
则样本均值为: ( )
例:美国有关大学的学费(千美元):10.3,4.9,8.9,11.7,6.3,7.7
则 (千美元)
注:平均值受个别异常值影响较大,因而通常采用修正的平均值(Trimmed Mean),即两个极端去掉一定比例的数据,然后再求平均值。如5%的修正均值,10%的修正均值等。
注2.分位数类似于中位数,避开了异常值的影响。
注3.还可以定义 分位数( th Percentile)(如十分位数、百分位数),即 的数值小于第一分位值。
4第四章 描述统计分析
第 四 章 描 述 统 计 分 析
第一节 第二节 第三节 第四节 第五节
频数分析 描述分析 探索分析 P-P图 SPSS表格处理:三线表的制作
第二节 描述分析
描述统计分析(Descriptives)过程是对变量进行 描述统计分析,包括计算集中趋势、离散趋势、分 布等统计指标,而且可将原始数据转换成标准Z分 值并存入数据集中。 所谓Z分值是指某原始数值比其均值高或低多少个 标准差,高时为正值,低时为负值,相等时为零。
spss230201684第四章描述统计分析第一章spss230简介与基本操作第二章数据编辑与整理第三章数据转换第四章描述统计分析第五章交叉表分析第六章比较平均值第七章方差分析第八章相关分析第九章回归分析第十章信度和效度分析第十一章非参数检验第十二章多选变量分析第十三章spss应用案例问卷调查分析第十四章spss应用案例测验质量分析第十五章探索性因子分析及案例应用第十六章基本统计图表的制作第十七章spss应用分析归纳小结从第四章开始讲解分析菜单命令下的数据分析方法点击分析菜单命令下拉子菜单
案例:【例4-4】试对某一次测验的测验分数对 该测验分数进行正态分布图形描述。 第1 步:打开分析数据。打开“测验数据文件 .sav”文件。 第2 步:启动分析过程。点击【分析】【描述统 计】【P-P图】】菜单,打开对话框。
第 3 步:设置分析变量。从左边的变量列表,通过单击向 右按钮可选择“总分”变量进入 “变量”(Variables) 列表框中。当然,可以同时选择多个变量,本例中仅选择 一个。
第 四 章 描 述 统 计 分 析
从第四章开始讲解【分析】菜单命令下的数 据分析方法,点击【分析】菜单命令下拉子 菜单。 包括:【报告】,【描述统计】,【定制表 】,【比较平均值】,【一般线性模型】, 【广义线性模型】,【混合模型】,【相关 】,【回归】,【对数线性】,【神经网络 】,【分类】,【降维】,【标度】,【非 参数检验】,【时间序列预测】,【生存分 析】,【多重响应】,【缺失值分析】,【 多重插补】,【复杂抽样】,【质量控制】 ,【ROC曲线图】,【时间和空间建模】。
医学统计人卫6版 第四章 定性数据的统计描述
.
一、定性数据的统计描述
➢定性数据的特点:将观察结果先按 分析要求,分类汇总观察单位数, 再用统计表列出。
➢常用相对比、构成比、率来描述计 数资料,这些指标统称为相对数。
.
二、常用相对数:
1.率(rate): 表示某现象发生的频率和强度, 常以百分率(%)、千分率(‰)、万分率 (/万)、十万分率(/10万)等表示。
合计 16709 715 0
90 12.59
53.86 4.28
.
五、应用相对数时应注意的问题
1.根据要说明的问题,选择合适的相对数,不能 以构成比代替率;
2.计算时分母不宜过小,分母过小时相对数不稳 定。在观察例数较少时,应直接用绝对数表示, 以免引起误解。
3.对观察单位数不等的几个率,பைடு நூலகம்能直接相加求 其平均率即合计率(总率)不等于各分率(组 率)之和。
➢ 基本思想:采用统一的标准(人口构成、年龄 构成等)以消除混杂因素的影响。
例题1.2
.
标准化率的计算:直接法
已知某一影响因素标准构成的每层例数Ni或 已知标准构成的构成比时,选用该法。 标准构成可选:
另选一有代表性、较稳定、数量较大的 构成为标准;
取各层合计为标准; 在各组中任选一组作为标准构成。 P30例4-5;例4-6
4.资料的对比应注意可比性: 1)“同质”事物比较相对数才有意义; 2)其它影响因素在各组的内部构成是否相同,
若不同,应先进行标准化后再作比较。 5.率或比的比较,亦应考虑存在抽样误差,对于
样本之间的差异应作显著性检验。
.
.
小结
发病率、死亡率、病死率 率的标准化
.
计算公式为: 比 A B
《统计学》第四章
•各个变量值与算术平均数的离差平方总和为最小 证 明 : 值。 设 x 为 不 等 于 x 的 任 意 值 , c = x − x
0 0
Σ ( x − x )2 = 最 小 值
x 0 = x − c , 则 以 x 0为 中 心 的 离 差 总 和 为 : Σ ( x − x0 )2 = Σ
[x − ( x − c ) ]
3、调和算术平均数:调和平均数是常 用的另一种平均指标,它是根据标志 值的倒数计算的,又称为倒数平均数。
m1 + m2 + ⋅⋅⋅ + mn H = m1 m2 = mn x1 + x2 + ⋅⋅⋅ + xn
∑m ∑
i =1 i =1 n mi xi
n
i
例、假定有A 例、假定有A、B两家公司员工的月工资资 料如下表所示:要求计算平均工资。
60 70 20 150
50 40 25 115
工资总额 平均工资 = ,但职工人数(分母)未知。 职工人数 各组工资总额 m 各组职工人数 = ,f = 各组工资水平 x H A公司 =
∑m ∑
i =1 i =1 3 mi xi
3
i
48000 + 70000 + 32000 = 48000 + 70000 + 32000 800 1000 1600
250
3.13
42 50 × 5 + 150 × 42 + 52.50 16 + 150 × 13 250 × 350 = + 200—300 16 5 + 42 + 16 + 132504 20.00 16900 = 300—400 13 16.25 350 80 =400以上 (百吨) 211 . 26 4 5.00 450 合计 80 100.00 —
统计学习题 第四章数据分布特征的描述习题答案
统计学习题第四章_数据分布特征的描述习题答案第四章数据分布特征的描述习题一、填空题1、数据分布集中趋势的测度值(指标)主要有众数、中位数和均值。
其中众数和中位数用于测度品质数据集中趋势的分布特征,均值用于测度数值型数据集中趋势的分布特征。
2、标准差是反映数据离散程度的最主要指标(测度值)。
3、几何平均数是计算平均比率和平均速度的比较适用的一种方法。
4、当两组数据的平均数不等时,要比较其数据的差异程度大小,需要计算标准系数。
5、在测定数据分布特征时,如果X?Me?M0,则认为数据呈对称分布。
6、当一组工人的月平均工资悬殊较大时,用他们工资的众数(中位数)比其算术平均数更能代表全部工人工资的总体水平。
二、选择题单选题:1、反映的时间状况不同,总量指标可分为((2))(1)总量指标和时点总量指标(2)时点总量指标和时期总量指标(3)时期总量指标和时间指标(4)实物量指标和价值量指标2、某厂1999年完成产值200万元,2000年计划增长10%,实际完成了231万元,超额完成((2))(1)5.5% (2)5% (3)115.5% (4)15.5%3、在同一变量数列中,当标志值(变量值)比较大的次数较多时,计算出来的平均数((2))(1)接近标志值小的一方(2)接近标志值大的一方(3)接近次数少的一方(4)接近哪一方无法判断4、在计算平均数时,权数的意义和作用是不变的,而权数的具体表现((1))(1)可变的(2)总是各组单位数(2)总是各组标志总量(4)总是各组标志值5、1998年某厂甲车间工人的月平均工资为520元,乙车间工人的月平均工资为540元,1999年各车间的工资水平不变,但甲车间的工人占全部工人的比重由原来的40%提高到了60%,则1999年两车间工人的总平均工资比1998年((3))(1)提高(2)不变(3)降低(4)不能做结论6、在变异指标(离散程度测度值)中,其数值越小,则((2))(1)说明变量值越分散,平均数代表性越低(2)说明变量值越集中,平均数代表性越高(3)说明变量值越分散,平均数代表性越高(4)说明变量值越集中,平均数代表性越低7、有甲、乙两数列,已知甲数列:XX乙甲?70,?甲?7.07;乙数列: ?7,?乙?3.41根据( (4))(1)甲数列的平均数代表性大(2)乙数列的平均数代表性大(3)两数列的平均数代表性相同(4)不能直接判别三、多选题:1、某企业计划2000年成本降低率为8%,实际降低了10%。
第四章 定量资料的统计描述(终板).
二、频数表的用途
1、揭示资料的分布特征和分布类型; 2、便于进一步计算指标和统计分析; 3、便于发现特大或特小的可疑值; 4、据此绘制频数分布图。
频数分布的特征
1、集中趋势:观察值向某一数值集中的 倾向(用平均数指标说明);
2、离散趋势:观察值大小不等的倾向 (用变异指标说明)。
频数分布的类型
19695258999509901962582580505252595099019619625825805052525二选定适当的百分界值三决定正常参考值范围的单侧或双四选择正常参考值范围的估计方法一选择样本含量足够大的正常人25975059959599频数累计频数累计频率1260317208400766863613116014661341548194815119182128908231622895802723498323123598743523699163923810000合计238上表为某市238名健康人发汞含量求该市健康人发汞含量95正常值范围
第一节 频数表与频数图
• 一、定义: • 相同观察结果出现的次数称为频数(frequ
ency)。 • 将所有观察结果的频数按一定顺序排列在
一起,表达变量取值及其不同取值频数分 布情况的统计表称为频数分布表,简称频 数表(frequency table)。
二、频数分布表的编制
原始资料分组
按数量分组
n
n
• 故5个人抗体的平均滴度是1/70。
加权法:若相同观察值较多或资料已编制成频数
表则可利用加权法计算,其公式为:
G lg 1( f1 lg x1 f2 lg x2 ... fn lg xn ) lg 1( f lg X )
f1 f2 ... fn
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
400以下 400~500 500~600 600~700 700~800 800以上
合计
22 50 66 76 56 30
300
350 450 550 650 750 850
-
7 700 22 500 36 300 49 400 42 000 25 500
183 400
M 0 600 1 00 33.33 (公斤) (7 6- 6 6)+( 7 6- 5 6)
合计 甲城市 户数 (户) 24 108 93 45 30 300 累计频数 24 132 225 270 300 — STAT
解:中位数的位置为 300/2=150 从累计频数看, 中位数在“一般”这 一组别中。因此
Me=一般
数值型未分组数据的中位数
(9个数据的算例)
STAT
• 【例】:9个家庭的人均月收入数据
分类数据的众数(例题分析)
STAT
某城市居民关注广告类型的频数分布
广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 合计
人数 (人)
112 51 9 16 10 2 200
比例 0.560 0.255 0.045 0.080 0.050 0.010 1
频率(%) 56.0 25.5 4.5 8.0 5.0 1.0 100
(10个数据的算例)
• • • • 【例】:10个家庭的人均月收入数据 原始数据: 1500 750 780 660 1080 排 序: 660 750 780 850 960 位 置: 1 2 3 4 5 850 1080 6
STAT
960 2000 1250 1630 1250 1500 1630 2000 7 8 9 10
位置
n 1 2
10 1 2
5.5
中位数
960 1080 2
1020
中位数(位置的确定)
STAT
未分组数值型数据: 中位数位置
n1 2 n 2
顺序数据: 中位数位置
未分组数据的中位数
(计算公式)
STAT
x n 1 2 Me 1 xn xn 1 2 2 2
当n为奇数时
当n为偶数时
单选题
STAT
• 有下列资料:75、78、80、82、87、90 ;其中位数是( )。 • • ①80 ②81 ③82 ④85
四分位数(quartile)
STAT
• 1. 集中趋势的测度值之一
• 2. 排序后处于25%和75%位置上的值
25%
QL
25%
25%
QM
25%
QU
户数 (户)
24 108 93 45 30 300
累计频数
24 132 225 270 300 —
QU = 一般
四分位数(位置的确定)
STAT
未分组数据:
n 1 Q L 位置 4 Q 位置 3( n 1) U 4
数值型未分组数据的四分位数 (9个数据的算例)
STAT
• • • • 【例】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 排 序: 750 780 850 960 位 置: 1 2 3 4 850 1080 5 960 2000 1250 1630 1250 1500 1630 2000 6 7 8 9
QL 位置 QL 9 1 4 2.5 QU 位置 815 QU 4 2
f
频 数
f
f-1 f-1
f+1
f+1
M0 L
f - f 1 ( f - f 1 ) ( f - f 1 )
d
M0 U
f - f 1 ( f - f 1 ) ( f - f 1 )
d
例4.7 计算300名工人的月糖果产量的众数
员工人数 产量(公斤) (人) f 组中值 x 总产量(千 STAT 克) xf
原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排序: 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9
位置 n1 2 91 2 5
中位数 1080
数值型未分组数据的中位数
3(9 1) 7.5
780 850 2
1500 1630
1565
数值型未分组数据的四分位数 (10个数据的算例)
STAT
【例】:10个家庭的人均月收入数据 原始数据: 1500 750 780 660 1080 850 960 2000 1250 1630 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10
解:这里的数据为 顺序数据。变量为 “回答类别”
甲城市中对住 房表示不满意的户 数 最 多 , 为 108 户 ,因此众数为“不 满意”这一类别, 即
Mo=不满意
合计
300
100.0
例4.7 计算300名工人的月糖果产量的众数
STAT
员工人数 产量(公斤) (人) f
组中值 x
总产量(千 克) xf
峰 态
3.1 集中趋势的测度
STAT
集中趋势(central tendency)
1. 测度集中趋势就是寻找数据水平的代表值或中心值
2. 不同类型的数据用不同的集中趋势测度值
3. 低层次数据的测度值适用于高层次的测量数据,但高层次 数据的测度值并不适用于低层次的测量数据 4. 测度值的选用取决于所掌握的数据的类型
185
合计
—
120
22200
简单算术平均数
STAT
设一组数据为:x1 ,x2 ,… ,xn(xN)
x1 x 2 x N N
总体均值
x
i 1
N
i
N
样本均值
x
x1 x 2 x n n
x
i 1
n
i
n
加权算术平均数
STAT
设各组的组中值为:M1 ,M2 ,… ,Mk 相应的频数为: f1 , f2 ,… ,fk 总体加权均值
400以下 400~500 500~600 600~700 700~800 800以上
合计
22 50 66 76 56 30
300
350 450 550 650 750 850
-
7 700 22 500 36 300 49 400 42 000 25 500
183 400
组距分组数据众数
STAT
频 数
76- 66
单选题
STAT
• 有下列资料: 产量(件) 10 11 12 13 人数(人) 5 10 20 8 • 众数是( )。 • ①12件 ②20人 ③14人 件
14 5
15 2
④12.5
单选题
• 某大学经济管理学院有1200名学生,法 STAT 学院有800名学生,医学院有320名学生 ,理学院有200名学生。在上面的描述中 ,众数是( ) • A、1200 • B、经济管理学院 • C、200 • D、理学院
STAT
M i fi
580 1395 2640 4725 3700 3315 2050 1720 900 1175
组中值(Mi)
145 155 165 175 185 195 205 215 225 235
频数(fi)
4 9 16 27 20 17 10 8 4 5
x
M
i 1
k
i
fi
n 22200 120
STAT
众数(mode)
1. 集中趋势的测度值之一 2. 出现次数最多的变量值 3. 不受极端值的影响 4. 可能没有众数或有几个众数
STAT
5. 主要用于分类数据,也可用于顺序数据和 数值型数据
众数
STAT
原始数据:
原始数据:
10
6 25
5
5
9
9 28
12
8 36 5
6
5
8
原始数据:
28
42
42
3.1 集中趋势测度
STAT
数据类型和所适用的集中趋势测度值
数据类 型 适 用 的 测 度 值 分类数据 众数 — 顺序数据 众数 四分位数 间隔数据 众数 四分位数 比率数据 众数 四分位数
—
— — —
中位数
— — —
中位数
中位数
算术平均数 算术平均数 — — 调和平均数 几何平均数
请问某城市居民关注广告类型的代表 值是什么?
STAT
中位数和分位数
中位数(median)
STAT
1. 集中趋势的测度值之一 2. 排序后处于中间位置上的值
50%
Me 3. 不受极端值的影响
50%
4. 主要用于顺序数据,也可用数值型数据,但不能用于分 类数据
顺序数据的中位数
甲城市家庭对住房状况评价的频数 分布 回答类别 非常不满 意 不满意 一般 满意 非常满意
某城市居民关注广告类型的频数分布 广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 合计 人数 (人) 112 51 9 16 10 2 200 比例 0.560 0.255 0.045 0.080 0.050 0.010 1 频率(%) 56.0 25.5 4.5 8.0 5.0 1.0 100