第四章统计数据的描述

合集下载

统计学第4章数据特征的描述

统计学第4章数据特征的描述
优缺点
极差计算简单,但容易受到极端值的影响,不能全面 反映数据的离散程度。
四分位差
定义
四分位差是第三四分位数与第 一四分位数之差,用于反映中
间50%数据的离散程度。
计算方法
四分位差 = 第三四分位数 第一四分位数
优缺点
四分位差能够避免极端值的影 响,更稳健地反映数据的离散
程度,但计算相对复杂。
方差与标准差
统计学第4章数据特征 的描述
https://
REPORTING
• 数据特征描述概述 • 集中趋势的度量 • 离散程度的度量 • 偏态与峰态的度量 • 数据特征描述在统计分析中的应用 • 数据特征描述的注意事项
目录
PART 01
数据特征描述概述
REPORTING
WENKU DESIGN
数据特征描述在推断性统计中的应用
参数估计 假设检验 方差分析 相关与回归分析
基于样本数据特征,对总体参数进行估计,如点估计和区间估 计。
通过比较样本数据与理论分布或两组样本数据之间的差异,对 总体分布或总体参数进行假设检验。
研究不同因素对总体变异的影响程度,通过比较不同组间的差 异,分析因素对总体变异的贡献。
定义
方差是每个数据与全体数据平均数之方根,用于衡量数据的波动大小。
计算方法
方差 = Σ(xi - x̄)² / n,标准差 = √方差
优缺点
方差和标准差能够全面反映数据的离散程度,且计算相对简单,但容易受到极端值的影响。同时,方差 和标准差都是基于均值的度量,对于非对称分布的数据可能不够准确。
适用范围
适用于数值型数据,且数据之间可能 存在极端异常值的情况。
特点
中位数不受极端值影响,对于存在极 端异常值的数据集,中位数能够更好 地反映数据的集中趋势。

第四章 定性数据的统计描述

第四章  定性数据的统计描述

第四章定性数据的统计描述前面一直在讲定量资料定性数据也叫计数资料,变量的观测值是定性的,表现为互不相容的类别或属性。

“数一数”“无单位”,包括“二分类”“多分类”,如定性数据的统计描述用什么指标?例:甲、乙两学院流感,甲学院流感发病60人甲学生2000人乙学院流感发病30人乙学生1000人甲学院流感发病率=乙学院流感发病率=∴60 30是绝对数(调查或实验研究中清点计数资料所得的数据叫),绝对数可以反映基本信息,但定性数据不能用绝对数直接比较,要用相对数才能描述定性数据的特征。

例:国家钢材产量世界第一,棉花产量世界第二,但人均拥有量?内蒙古牛羊产量全国第一,但人均占有量全国占第17位,最多河南、山东SARS非典,北京今天新增病例10例,内蒙古新增2例,是否北京严重?错,要比相对数,北京人口,内蒙人口,看率P28例:某病A法治疗100人,75人有效;B法治疗150人,100人有效相对数:是两个有关的绝对数之比,也可以是两个有关联统计指标之比。

相对数的性质取决于其分子、分母的意义,不同类型的相对数具有不同的性质常用相对数指标有率、构成比、相对比一率(强度相对数)表示在一定空间或时间范围内某现象的发生数与可能发生的总数之比,说明某现象出现的强度或频率,所以又叫强度相对数(甲乙两学院哪个更严重?发病率高?)。

通常以百分率、千分率万分率十万分率等表示。

如医学上常用的率:患病率、发病率、感染率、病死率、治愈率、出生率、死亡率等。

通常总体率用表示,样本率用P表示注意:率在更多情况下是一个有时间概念的指标,用于说明在一段时间内某现象发生的强度或频率。

如:××年(2010年)某病发病率,死亡率等。

例4-1二构成比(结构相对数)表示某事物内部各组成部分在整体中所占的比重,常以百分数表示。

全体中各构成比之和应为100%例:全班同学有100人,其中女同学占60%,男同学占40%,60%、40%就是构成比(也就是过去说的百分比)例4-2构成比之和为100%,某一构成部分的增减会影响其他构成部分相应的减少或增加(而率不影响)构成比不能用来描述疾病致死的严重程度,与率不同。

spss第四章描述统计简介PPT课件

spss第四章描述统计简介PPT课件
定义:设,对样本数据集合中的所有数据的排序结果为X1≤X2≤…≤Xn,n为样本容 量,则上述排序的序列中,处于“正中间位置”上的数据,称为样本中位数。
当n 为奇数时:正中间位置号码=(n+1)/2 样本中位数=X(n+1)/2
当n为偶数时:正中间位置号码=(n+1)/2是小数,处于n/2与(n/2)+1之间。 样本中位数=(Xn/2+X(n/2)+1)/2 如5位同学的学习成绩:3,3,3,4,5。中间位置是第三位,中位数:3。 如果六位同学: 3,3,4,5,5,5。中间位置是3与4位中间的位置,中位数为: (4+5)/2=4.5
第四章 描述统计量简介
2024/10/23
第三章 样本数据特征的初步分析
1
调查杭州市居民收入情况,得到
调查顾客对产品的满意第度情四况章, 获得100个样本数据,能分
样本100统个计样本量数描据,述根据这些数据,
析出哪些信息?
你最想得到哪些信息?
调查大学生群体中对手机品牌的偏 好程度,你如何描述调查结果?
• 选择Percentile Values 栏中的 选项,输出所选变量的百分值
• Dispersion(离差)栏,用于
指定输出反映变量离散程度的 统计量
• Central Tendency (集中趋势)
栏,用于指定输出反映变量集 中趋势的统计量
• Distribution (分布特征)栏,
用于指定输出描述分布形状和
如果样本容量为n,那么,某个样本值出现 的频率=该样本值出现的频次/n
2024/10/23
第三章 样本数据特征的初步分析
9
分类数据或顺序数据描述频次与 频率的图形方法

统计学原理第4章:数据特征的描述

统计学原理第4章:数据特征的描述

第四章 数据特征的描述
某公司400名职工平均工资计算表 单位:元
按月工资 组中值 职工
分组
x
人数
f
x f
比重(%)
f
f


③ ④=②×③ ⑤=③÷ 400
1100以下 1000
60
60000
15
1100-1300 1200 100 120000
25
1300-1500 1400 140 196000
35
分组
职工 人数
f
x f

1100以下 1100-1300 1300-1500 1500-1700 1700以上

1000 1200 1400 1600 1800
③ ④=②×③
60
60000
100 120000
140 196000
60
96000
40
72000
人数为权数
x x f f
544000 400
算术平均数、调和平均数、中位数、众数、几何平均数
3. 各种平均数的Excel操作
24/77
1. 集中趋势的含义
第四章 数据特征的描述
集中趋势是一组数据向其中心值靠
拢的倾向和程度
测度集中趋势就是寻找数据一般水
平的代表值或中心值
中心值 即:平均水平

25/77
2. 集中趋势的度量方法
第四章 数据特征的描述
第四章 数据特征的描述
《统计学原理》(第3版)
第四章 数据特征的描述
学习目标
第一节 总量与相对量的测度 第二节 集中趋势的测度 第三节 离散程度的测度
2/77
第一节 总量与相对量的测度

社会统计学(第4章 数据的统计量描述)

社会统计学(第4章 数据的统计量描述)

三、离散性描述指标的比较
全距(四分位数) 全距(四分位数)
粗略、快捷,不稳定, 粗略、快捷,不稳定,不能用于有样本推论总体 用于定序、定距、 用于定序、定距、定比变量
标准差(方差) 标准差(方差)
精准、相对稳定, 精准、相对稳定,可以用于由样本推论总体 用于定距、 用于定距、定比变量
全距与标准差的关系
SS Σ(X − X ) 2 S = = N N
2
方差可以描述数值偏离平均值的程度。 方差可以描述数值偏离平均值的程度。 平方处理解决了绝对值的问题。 平方处理解决了绝对值的问题。 平方处理后对偏离均值的程度更加敏感。 平方处理后对偏离均值的程度更加敏感。
二、离散性的描述指标
4.标准差: 4.标准差:将方差开平方得到的数值 标准差
二、离散性的描述指标
5.分析下列4 5.分析下列4组数据的离散性 分析下列 6]、 a[6 6 6 6 6 6 6]、b[5 5 6 6 6 7 7 ] 9]、 c[3 3 4 6 8 9 9]、d[3 3 3 6 9 9 9 ]
全距=? 全距=? 四分位数=? 四分位数=? 平均离均差= 平均离均差=? 方差=? 方差=? 标准差=? 标准差=?
三、集中性描述指标的比较
1.描述不同测量等级的变量 1.描述不同测量等级的变量
定类、定序、定距、 众 数:定类、定序、定距、定比变量的描述 中位数:定序、定距、 中位数:定序、定距、定比变量的描述 平均数:定距、 平均数:定距、定比变量的描述
三、集中性描述指标的比较
2.数据的分布形状 2.数据的分布形状 中心重合
第二节 集中性的描述指标
一、数据分布的集中性 二、集中性的描述指标 三、集中性描述指标的比较
一、数据分布的集中性

《医学统计学》第四章定性资料的统计描述

《医学统计学》第四章定性资料的统计描述

1、不要把构成比与率相混淆。即分析时不能以构成 比代率;这是常见的错误。
某文章作者根据上述资料认为,沙眼在20~组的患病率最高,以后随年 龄增大而减少。该作者把构成比当作率进行分析,犯了以比代率的错误。
2、使用相对数时分母不宜过小。分母过小时相对数 不稳定。
3、注意资料的可比性;
不同时期、不同地区、不同条件下的资料比较时应注意具有 可比性。
12965.2
46.3

265
660291.4
40.1
说明该地市区非吸烟女性饮酒者的肺癌发病率是
非吸烟女性不饮酒者的1.15倍。
3.比数比
比数比( Odds ratio ,OR) : 常用于流行病学
中病例-对照研究资料,表示病例组和对照组中的 暴露比例与非暴露比例的比值之比,是反映疾病 与暴露之间关联强度的指标。其计算公式为
一般的,两个地方的出生率、死亡率、发病率、不同级别 医院某病的治愈率等不能直接比较。
无可比性的实例:
由表2-7可见,无论有无腋下淋巴结转移,省医院的5年生存 率均高于市医院,但从总生存率看,省医院的5年生存率低于市 医院。这不符合常理。因此,省医院与市医院的总生存率就不能 直接比较(标准化后再比)。
感谢聆听

某事物或现象发生的实 际数 某事物或现象发生的所 有可能数
比例基数
公式中的“比例基数”通常依据习惯而定。
需要注意的是,率在更多情况下是一个具有时间 概念的指标,即用于说明在某一段时间内某现象 发生的强度或频率,如出生率、死亡率、发病率 、患病率等,这些指标通常是指在1年时间内发 生的频率。
例4-1 某单位在2009年有3128名职工,该单位 每年对职工进行体检,在这一年新发生高血压 病人12例,则

统计学(第4章)

统计学(第4章)

连续变动结果的总量指标,时期指标是
一个流量。
时间维度上
时期指标的三个特点 具有可加性
时期指标可以累计
时期指标数值大小与时期长短有直接关系
时期指标的数值一般为连续登记
2019/6/15
第四章 描述统计
5
统计学
2、时点指标
时点指标又叫存量指标,是指反映社 会经济现象在某一时点上的总量指标,
四 季度
1 500
计划完成百分数=
1400+1420+1470+1500 5000
=115.8%
注:2010年第一季度前的四个季度的累计量已达5000,说明五年计 划提前三个季度完成。
2019/6/15
第四章 描述统计
33
统计学
(2)累计法
如何确定提前 完成时间?
计算公式:
计划完成相对指标 长期计划期间实际累计完成数 长期计划规定的累计数
时点指标是一个存量。
时间维度上
时点指标的三个特点
不具可加性
不同时点指标数值是不能累加
时点指标数值大小与时点间隔长短无直 接关系
时点指标一般为间断统计
2019/6/15
第四章 描述统计
6
统计学
三、总量指标的计量单位
1、实物量单位(包括度量衡单位) 2、价值量单位 3、劳动量单位(工时和工日)
5 000 1 250 1 340 1 280
102.4
52.4
4 000 1 000 1 030 1 215
121.5
56.1
2 000 500 600 400
80.0
50.0
11 000 2 750 2 970 2 895 105.33

统计学课后习题答案

统计学课后习题答案

第四章 统计描述【4.1】某企业生产铝合金钢,计划年产量40万吨,实际年产量45万吨;计划降低成本5%,实际降低成本8%;计划劳动生产率提高8%,实际提高10%。

试分别计算产量、成本、劳动生产率的计划完成程度。

【解】产量的计划完成程度=%5.112100%4045100%=⨯=⨯计划产量实际产量即产量超额完成12.5%。

成本的计划完成程=84%.96100%5%-18%-1100%-1-1≈⨯=⨯计划降低百分比实际降低百分比即成本超额完成3.16%。

劳动生产率计划完=85%.101100%8%110%1100%11≈⨯++=⨯++计划提高百分比实际提高百分比即劳动生产率超额完成1.85%。

【4.2】某煤矿可采储量为200亿吨,计划在1991~1995年五年中开采全部储量的0.1%,在五年中,该矿实际开采原煤情况如下(单位:万吨)试计算该煤矿原煤开采量五年计划完成程度及提前完成任务的时间。

【解】本题采用累计法:(1)该煤矿原煤开采量五年计划完成=100%⨯数计划期间计划规定累计数计划期间实际完成累计 =75%.12610210253574=⨯⨯ 即:该煤矿原煤开采量的五年计划超额完成26.75%。

(2)将1991年的实际开采量一直加到1995年上半年的实际开采量,结果为2000万吨,此时恰好等于五年的计划开采量,所以可知,提前半年完成计划。

【4.3】我国1991年和1994年工业总产值资料如下表:要求:(1)计算我国1991年和1994年轻工业总产值占工业总产值的比重,填入表中; (2)1991年、1994年轻工业与重工业之间是什么比例(用系数表示)? (3)假如工业总产值1994年计划比1991年增长45%,实际比计划多增长百分之几? 【解】(1)(2)是比例相对数;1991年轻工业与重工业之间的比例=96.01.144479.13800≈;1994年轻工业与重工业之间的比例=73.04.296826.21670≈(3)%37.251%)451(2824851353≈-+即,94年实际比计划增长25.37%。

Chap04_数据的描述性分析

Chap04_数据的描述性分析


i 1
n
1 xi
加权调和平均数
xH m1 m2 ...... mn m m1 m2 ...... n x1 x2 xn
m
i 1 n
n
i
mi i 1 x i
调和平均数是算术平均数的变形
xH
m
i 1 n
n
i
mi i 1 xi

x
i 1 n
n

相对指标应用的原则
1、可比性原则 (1)正确选择对比基数 (2)保持对比指标的可比性 2、相对指标与总量指标结合运用原则 3、多种相对指标结合运用原则

集中趋势
集中趋势(Central Tendency)反映 的是一组数据向某一中心值靠拢的倾向, 在中心附近的数据数目较多,而远离中心 的较少。对集中趋势进行描述就是寻找数 据一般水平的中心值或代表值。
例题
峰度
峰度(Kurtosis)是分布集中趋势高峰的形状。在 变量数列的分布特征中,常常以正态分布为标准, 观察变量数列分布曲线顶峰的尖平程度,统计上称 之为峰度。

v4

4
3
x
n i 1
i
x fi

4

i 1
n
3
fi 4
正态分布的峰度系数为0,当>0时为尖峰分布, 当<0时为平顶分布。 例题
例题
离散系数 离散程度的绝对指标 对应的平均指标
V

x
100%
是非标志的平均数和方差
π是一个比率,它表示具有某种特征的个体的 数量占总体中个体总数的比重,即总体成数。 是非标志的平均数为:

x

定量分析方法(4-5)

定量分析方法(4-5)
这样,对于同一标准差,绝对偏态越大,则偏度越大;而对于同一偏态绝对数,标准差越小,说明偏度越大。
例1.一组数据:4.9,6.3,7.7,8.9,10.3,11.7。求 。
解:由于
所以 ,即数据不偏倚。
例2.求前面CCER成绩分布的 。
解: ,即左偏倚。
四、车贝雪夫(Chebyshev)定理
Chebyshev定理表明,数据如何集中在均值周围变化。
例:一个投资者选择购买两种股票A和B,过去几个月两种股票的变化情况如下:
A:平均股价50,标准差10
B:平均股价12,标准差4
按绝对指标,股票A比股票B的变动性更大一些。但按相对指标比较:
可见,股票A的稳定性比股票B大,因而投资股票A比投资股票B的风险小。
三、偏度系数(Coefficient of Skewness)
即第三个四分位值与第一个四分位值之间的距离,表明位于中间的占总观测值数量一半的那部分观测值的差距。
注:四分位差避开了异端数值的影响,但仅反映了中间那部分数据的离散程度,而忽略了数据的两端各1/4的数据。
3、平均偏差(Average Deviation)
即数据中各个数值相对于均值的距离的平均数。
其中, 。
设从总体中抽取样本容量为 的一个样本,即:
则样本均值为: ( )
例:美国有关大学的学费(千美元):10.3,4.9,8.9,11.7,6.3,7.7
则 (千美元)
注:平均值受个别异常值影响较大,因而通常采用修正的平均值(Trimmed Mean),即两个极端去掉一定比例的数据,然后再求平均值。如5%的修正均值,10%的修正均值等。
注2.分位数类似于中位数,避开了异常值的影响。
注3.还可以定义 分位数( th Percentile)(如十分位数、百分位数),即 的数值小于第一分位值。

医学统计人卫6版 第四章 定性数据的统计描述

医学统计人卫6版 第四章 定性数据的统计描述
第四章 定性数据的统计描述
.
一、定性数据的统计描述
➢定性数据的特点:将观察结果先按 分析要求,分类汇总观察单位数, 再用统计表列出。
➢常用相对比、构成比、率来描述计 数资料,这些指标统称为相对数。
.
二、常用相对数:
1.率(rate): 表示某现象发生的频率和强度, 常以百分率(%)、千分率(‰)、万分率 (/万)、十万分率(/10万)等表示。
合计 16709 715 0
90 12.59
53.86 4.28
.
五、应用相对数时应注意的问题
1.根据要说明的问题,选择合适的相对数,不能 以构成比代替率;
2.计算时分母不宜过小,分母过小时相对数不稳 定。在观察例数较少时,应直接用绝对数表示, 以免引起误解。
3.对观察单位数不等的几个率,பைடு நூலகம்能直接相加求 其平均率即合计率(总率)不等于各分率(组 率)之和。
➢ 基本思想:采用统一的标准(人口构成、年龄 构成等)以消除混杂因素的影响。
例题1.2
.
标准化率的计算:直接法
已知某一影响因素标准构成的每层例数Ni或 已知标准构成的构成比时,选用该法。 标准构成可选:
另选一有代表性、较稳定、数量较大的 构成为标准;
取各层合计为标准; 在各组中任选一组作为标准构成。 P30例4-5;例4-6
4.资料的对比应注意可比性: 1)“同质”事物比较相对数才有意义; 2)其它影响因素在各组的内部构成是否相同,
若不同,应先进行标准化后再作比较。 5.率或比的比较,亦应考虑存在抽样误差,对于
样本之间的差异应作显著性检验。
.
.
小结
发病率、死亡率、病死率 率的标准化
.
计算公式为: 比 A B

《统计学》第四章

《统计学》第四章

•各个变量值与算术平均数的离差平方总和为最小 证 明 : 值。 设 x 为 不 等 于 x 的 任 意 值 , c = x − x
0 0
Σ ( x − x )2 = 最 小 值
x 0 = x − c , 则 以 x 0为 中 心 的 离 差 总 和 为 : Σ ( x − x0 )2 = Σ
[x − ( x − c ) ]
3、调和算术平均数:调和平均数是常 用的另一种平均指标,它是根据标志 值的倒数计算的,又称为倒数平均数。
m1 + m2 + ⋅⋅⋅ + mn H = m1 m2 = mn x1 + x2 + ⋅⋅⋅ + xn
∑m ∑
i =1 i =1 n mi xi
n
i
例、假定有A 例、假定有A、B两家公司员工的月工资资 料如下表所示:要求计算平均工资。
60 70 20 150
50 40 25 115
工资总额 平均工资 = ,但职工人数(分母)未知。 职工人数 各组工资总额 m 各组职工人数 = ,f = 各组工资水平 x H A公司 =
∑m ∑
i =1 i =1 3 mi xi
3
i
48000 + 70000 + 32000 = 48000 + 70000 + 32000 800 1000 1600
250
3.13
42 50 × 5 + 150 × 42 + 52.50 16 + 150 × 13 250 × 350 = + 200—300 16 5 + 42 + 16 + 132504 20.00 16900 = 300—400 13 16.25 350 80 =400以上 (百吨) 211 . 26 4 5.00 450 合计 80 100.00 —
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 统计数据的描述
第一节 分布集中趋势的描述
一、众数(mode) • 一组数据中出现次数最多的变量值 • 适合于数据量较多时使用 • 不受极端值的影响 • 一组数据可能没有众数或有几个众数
众数
(不惟一性)
无众数 原始数据: 10 5 9 12 6 8
一个众数 原始数据:
659855
多于一个众数 原始数据: 25 28 28 36 42 42
分组数据:
QL位置

n 4
QU位置

3n 4
四分位数的求法
(9个数据的算例)
• 【例】:9个家庭的人均月收入数据
• 原始数据: 1500 750 780 1080 850 960 2000 1250 1630
• 排 序: 750 780 850 960 1080 1250 1500
统计函数—QUARTILE
四、均值(mean) (一)均值的概念 • 集中趋势的最常用测度值 • 一组数据的均衡点所在(重心) • 易受极端值的影响
(二)均值的算法
1、简单均值(simple mean)
设一组数据为: x1 ,x2 ,… ,xn
总体均值
n


x1 x2 xN

xi
i 1
N
N
样本均值
n
x
x1 x2 xn

xi
i 1
n
n
2、加权均值(weighted mean)
设一组数据为: 相应的频数为:
x1 ,x2 ,… ,xn f1 , f2 ,… ,fk
总体均值
K

x1 f1 x2 f2 xK fK f1 f2 fK
中位数的求法
(9个数据的算例)
• 【例】 9个家庭的人均月收入数据
• 原始数据: 1500 750 780 1080 850 960 2000 1250 1630
• 排 序: 750 780 850 960 1080 1250 1500 1630 2000
• 位 置:
9
1 2 3 4 5 6 7 8
x x(n 1) x(n 2 ) x(n n )
n 2 n
n 表示观察值的个数;α表示切尾系数,0 1
2
切尾均值
(例题分析)

【例】某次比赛共有11名评委,对某位歌手的给分
分x1 别, 是x:2 , x3 , x 4 , x5 , x6 , x7 , x8 , x9 , x10 , x11
第二节 分布离散程度的测度
一、极差 二、内距 三、方差和标准差 四、离散系数
一、极差(range) • 一组数据的最大值与最小值之差 • 离散程度的最简单测度值 • 极差越大,说明离散程度越大 • 易受极端值影响 • 未考虑数据的分布 7 8 9 10 7 8 9 10
计算公式为
R = max(xi) - min(xi)
去掉一个最高分和一个最低分,取1/11
x x x 1/11
111 /111
111 /112
x 11111/11
11 2111/11
x(2) x(3) x(10) 11 2
9.2 9.22 9.3 9.26 9
s i1 n 1
• 单变量分组的样本方差和标准差
k
(xi x)2 fi
s2 i1 n 1
k
(xi x)2 fi
s i1 n 1
注:在分 组数据里
n=∑fi
注解:样本方差自由度(degree of freedom)
1. 一组数据中可以自由取值的数据的个数
当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其
i 1
2. 各变量值与均值的离差平方和最小
n
(xi x)2 min
i 1
五、几何平均数(geometric mean)
• 1. n 个变量值乘积的 n 次方根
• 2. 适用于对比率数据的平均
• 3. 主要用于计算平均增长率
• 4. 计算公式为
n
G m n x1 x 2 x n n xi
1、样本方差的计算公式
未分组数据:
n
(xi x)2
s 2 i1 n 1
组距分组数据:
注意:
样本方差用自 由度n-1去除!
2、样本标准差的计算公式
未分组数据:
n
(xi x)2
s i1 n 1
组距分组数据:
k
(M i x)2 fi
s 2 i1 n 1
k
(M i x)2 fi
20
1000~1200
1100
35
1200~1400
1300
15
1400 以上
1500
10
k
x

xi fi
i1 k
fi
104000 1040 100
i1
k
s2

( xi
i 1 k
x)2 fi 1
fi

(500 1040 )2 5 (700
1040 )2 15 (1500 100 1
1.总体方差的计算公式
未分组数据:
2.总体标准差的计算公式
未分组数据:
N
(xi )2
2 i1
N
组距分组数据:
N
(xi )2
i1
N
组距分组数据:
K
(M i )2 fi
2 i1
N
K
(M i )2 fi
i1
N
(三)样本方差和标准差的计算公式
i 1
5. 可看作是均值的一种变形
n
lg G m

1 (lg n
x1 lg
x2
lg xn )
lg
i 1
n
xi
几何平均数的求法
(例题分析)
• 【例】一位投资者购持有一种股票,在2000年、 2001年、2002年和2003年收益率分别为4.5%、 2.1%、25.5%、1.9%。计算该投资者在这四年内 的平均收益率
i 1 K
fi
i 1
组距式分组
k
x
M1 f1 M 2 f2 M k fk f1 f2 fk

Mi fi
i 1 n
fi
i 1
加权均值计算表
零件数 80-90 90-100 100-110 110-120 120-130 合计
工人数 3 7
13 5 2
1040 )2 10
69090 .91
i 1
S=262.85
四、离散系数(coefficient of variation) 1. 标准差与其相应的均值之比 2. 对数据相对离散程度的测度 3. 消除了数据水平高低和计量单位的影响 4. 用于对不同组别数据离散程度的比较 5. 计算公式为
众数、中位数和均值的关系
均值 中位数 众数 均值 = 中位数 = 众数
众数 中位数 均值
左偏分布
对称分布
右偏分布
众数、中位数、均值的特点和应 用
1. 众数
– 不受极端值影响 – 具有不惟一性 – 数据分布偏斜程度较大时应用
2. 中位数
– 不受极端值影响 – 数据分布偏斜程度较大时应用
3. 均值
– 易受极端值影响 – 数学性质优良 – 数据对称分布或接近对称分布时应用
二、内距(Inter-Quartile Range,IQR) 1.也称四分位差 2.上四分位数与下四分位数之差
内 距= QU – QL
3. 反映了中间50%数据的离散程度 4. 不受极端值的影响 5. 可用于衡量中位数的代表性
三、方差与标准差(Variance and Standard deviation)
30
组中值 85 95
105 115 125 —
Mifi 255 665 1365 575 250 3110
加权均值 (例题分析)
k
xi fi
x
i 1 k
fi
i 1
3110 103.6( 7 件) 30
(三)均值的数学性质
1. 各变量值与均值的离差之和等于零
n
(xi x) 0
2
2
中 位 数 960 1080 1020 2
三、四分位数(quartile) (一)四分位数的概念 1.将一组数据(排序后)四等分的数据
25% 25% 25% 25%
QL
QM
QU
2.不受极端值的影响
(二)四分位数的位置
原始数据:
QL 位置

n 1 4
QU 位置

3(n 1) 4
位置 n1 91 5
2
2
中位数 1080
中位数的求法
(10个数据的算例)
• 【例】:10个家庭的人均月收入数据
• 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000
• 位 置: 1 2 3 4 5 6 7 8 9
10
位 置 n 1 10 1 5.5
(一)方差与标准差的概念 1. 离散程度的测度值之一
x = 8.3
2. 最常用的测度值 3. 反映了数据的分布
4 6 8 10 12
4. 反映了各变量值与均值的平均差异
5. 根据总体数据计算的,称为总体方差或标准 差;根据样本数据计算的,称为样本方差或 标准差
相关文档
最新文档