第三章资料的测度与描述-统计学
《统计学》-单薇主编-第3章 数据特征的度量
统计学
STATISTICS
3.1.1 均值
(mean)
1. 集中程度的最常用测度值 2. 一组数据的均衡点所在 3. 易受极端值的影响
4. 用于数值型数据,不能用于分类数据和顺 序数据
2 -5
统计学
STATISTICS
简单均值
(simple mean)
设一组数据为: x1 ,x2 ,… ,xn
总体均值
4. 各变量值与中位数的离差绝对值之和最小,即
n
xi Me min
2 - 16
i1
统计学
STATISTICS
中位数
(位置的确定)
未分组数据: 中位数位 n置 1 2
分组数据: 中位数位置n 2
2 - 17
统计学
STATISTICS
数值型数据的中位数
(5个数据算例)
【例】 5个工人日产量
原始数据: 3 8 5 4 9 排 序: 3 4 5 8 9
G 41.0 5 % 4 1.0 1 % 2 1.2 5 % 5 1.0 9 % 1 1 8 .07 % 87
2 - 15
统计学
STATISTICS
3.1.4 中位数
(median)
1. 排序后处于中间位置上的值
50%
Me
2. 不受极端值的影响
50%
3. 主要用于顺序数据,也可用数值型数据,但不能 用于分类数据
中位数是将统计分布从中间分成面积(即数
据个数)相等的两部分,与中位数性质相 似的还有四分位数(quartile)、十分位数 (decile)、和百分位数(percentile)。 显然,四分位数就是将数据分布4等分的三 个数值,其中中间的四分位数就是中位数。 十分位数和百分位数分别是将数据分布10 等分和100等分的数值。
统计学测量数据分布的测度描述
统计学测量数据分布的测度描述包括以下几种常见的描述方法:
1.平均数:也称为均值,是指一组数据中所有数值的总和除以数
据个数的结果。
平均数可以用来描述一组数据的集中趋势。
2.中位数:也称为中值,是指一组数据中所有数值按大小排序后,
位于中间的那个数值,如果数据个数为偶数,则中位数为中间两个数的平均数。
中位数可以用来描述一组数据的集中趋势。
3.众数:也称为模数,是指一组数据中出现次数最多的数值。
众
数可以用来描述一组数据的集中趋势,特别是对于呈现多峰分布的数据。
4.极差:是指一组数据中最大值与最小值的差值。
极差可以用来
描述一组数据的离散程度。
5.方差:是指一组数据中每个数值与平均数的差的平方和除以数
据个数的结果。
方差可以用来描述一组数据的离散程度。
6.标准差:是指方差的正平方根。
标准差可以用来描述一组数据
的离散程度,同时也可以用来进行数据的比较。
7.百分位数:是指一组数据中某个百分比的数值。
例如,50%的百
分位数就是中位数。
百分位数可以用来描述一组数据的分布情况,比如数据的偏态和尾重程度。
这些测度描述可以帮助我们更好地理解和分析一组数据的特征和分布情况。
(精选)统计学第三章习题
第三章数据分布特征的描述一、单选题1. 如果所掌握到的只是各单位的标志值(变量值),这时计算算术平均数()。
A 应用简单算术平均数B应用加权算术平均数C用哪一种方法无法判断D这种资料不能计算算术平均数2. 加权算术平均数受什么因素的影响()。
A 只受各组变量值大小的影响B只受各组次数多少的影响C同时受以上两种因素的影响D无法做出判断3. 权数本身对加权算术平均数的影响决定于()。
A 权数所在组标志值的大小B权数绝对数值的大小C各组单位数占总体单位数比重的大小D总体单位数的多少4. 标志值的次数多少,对于算术平均数的影响有权衡轻重的作用。
若把标志值的次数都缩小为原来的十分之一,则算术平均数的值为()。
A 也缩小为原来的十分之一B保持不变C扩大为原来的十倍D无法判断5. 如果被平均的每一个标志值都增加5个单位,则算术平均数的数值()。
A 也增加5个单位B只有简单算术平均数是增加5个单位C减少5个单位D保持不变6. 设某企业在基期老职工占60%,而在报告期准备招收一批青年工人,估计新职工所占的比重将比原来增加20%。
假定老职工和新职工的工资水平不变,则全厂职工的总平均工资将如何变化()。
A 提高B降低C不变D无法判断7. 设有8个工人生产某种产品,他们的日产量(件)按顺序排列是:4、6、6、8、9、12、14、15,则日产量的中位数是()。
A 4.5B 8和9 C 8.5 D没有中位数8. 在下列哪种情况下, 算术平均数、众数和中位数三者相等()。
A 只有钟形分布B只有U形分布C钟形分布或U形分布D只有对称的钟形分布9. 当变量右偏分布时,有()。
A Mo<Me<XB Mo>Me>XC Mo≤Me≤XD Mo≥Me≥X10.A 各组工资水平的变动B各组人数的增加C各组人数结构的变动D职工收入的下降11. 总体的离散程度越大,说明()。
A 平均数的数值越大B平均数的代表性越大C平均数的数值越小D平均数的代表性越小12. 平均差的基本含义可表述为()。
统计学 第三章数据的特征值
一是各个变量值之间有差异; 二是各个变量值的权数有差异。 • 简单算术平均数是加权算术平均数在权数相等时的特例。
2021/7/3
14
算术平均数的性质 p75-76
• 1.各变量值与其算术平均数的离差之和
等于零,即
根据未分组数据计算四分位数时先对数据进行排序然后再确定四分位数所在的位置当四分位数的位置不在某一个具体数值时可根据四分位数的位置按比例分摊四分位数所在位置两侧变量值之差的数值
第三章 数据分布特征的描述
• 第一节 集中趋势——数值平均数 • 第二节 集中趋势——位置平均数 • 第三节 离中趋势的测度 • 第四节 偏度与峰度的 测度
时间:1999 2000 2001 2002 tn 产量:环y比0 发展速y度1 y1/yy20 y2/y1 yy33/y2 yn/yynn-1
定基发展速度 y1/y0 y2/y0 y3/y0 yn/y0
注意:环比发展速度的连乘积=相应的定基发展速度
增长速度= 发展速度-1
环比增长速度=环比发展速度-1 定基增长速度=定基发展速度-1
某年级83名女生身高资料
身高 人数
(CM) (人) 152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4
2021/7/3
身高 人数
(CM) (人) 164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1 总计 83
n Yn 1 Y0
(i 1,2,, n)
2021/7/3
孙允午-统计学第三章
城镇电脑拥有量每百户47.2台。
农村网民对互联网各项功能应用 看网络新闻和使用搜索引擎的比例分别比城镇网民低了15和13个百分点;
但在网络音乐、游戏、影视等娱乐功能上,城乡应用程度相当。
资料来源:2007-9-9《解放日报》
M
e
f
L
2
s
m 1
f
i
3-9
m
中位数的特点
将总体次数一分为二 不受极端数值影响
四分位数
将一次数分布顺序排列并四等分,就形成 3 个 分割点。每一分割点的变量值记为M1、M2、M3 ,分别称其为第一、第二、第三个四分位数。 M1
M2 M3
Me 四分位数的确定
M M M
的位次 1
2
一 算术平均数
X
x
i 1 n
设一组数据为x1,x2,…,xn,则
x
x
1
x
2 n
x
n
i
n
(3 - 2)
设原始数据被分成k组,各组组中值为xi,各组 变量值出现的频数为fi,Σ fi=n,则
x
x f
1 k
x f x f f f f
1
1
2
2
k
k
∑ x f
i 1
例子
• 一定总体范围内粮食总产量 • 工农业总产值 • 企业单位数
分类
变量总值 按反映总体的内容分 单位总数 时期数 按反映的时间状态分 时点数 实物量 按计量单位分 价值量
指某变量观 察值之和 观察值的个数 表示一段时 期累积的总 量
统计学-数据的描述性分析
92801.20 10
80 70 1.43 7
计算结果表明,第二次考试成绩更好些.
② 对称分布中的 3 法则
4、如要分别反映甲、乙、丙三个班的考试情况,你会 选择用哪些指标来衡量?
5、如要比较甲、乙、丙三个班的考试情况的优劣,你 又会选择什么样的指标来衡量? 6、甲乙丙三个班的考试成绩分别服从对称分布、左 偏分布、右偏分布中的哪种分布?为什么?
由组距数列确定中位数
n
先计算各组的累计次数,再按公式
i
1
fi
xnfn
fi
i1
fi
xi
例3.1.1 一位投资者持有一种股票,2019,2019,2019,2000年 收益率分别为4.5% ,2.0% ,3.5% ,5.4% .计算该投资者在这四 年内的平均收益率.
例3.1.2 某企业四个车间流水作业生产某产品, 一车间产 品合格率99%,二车间为95%,三车间为92%,四车间为90%,
适用范围
众数主要用于分类数据,也可用于顺序数据和数值型数据, 对于未分组数据和单项式分组数据,众数位置确定之后便 找到了众数.
例:分类数据的众数
例:顺序数据的众数
②.中位数(Median)
中位数是一组数据按一定顺序排列后,处于中间位置 上的变量
负偏 注: (1)中位数总是介于众数和平均数之间.
注:(1)
(2) 数值平均数主要适用于定量数据,而不适用于定性数据. (3) 简单数值平均数适用于未分组的资料,加权数值平均数 适用于分组的资料.
3.1.2 位置平均数
①.众数(Mode)
一组数据中出现次数最多的变量值.
主要特点: ●不受极端值的影响. ●有的数据无众数或有多个众数.
《统计学基础》(第7版)第3章 ——数据的概括性测度(J7)
90
× 30 − 1 = 26.1
100
因此,第90个百分位数在第27个值(92)和第28个值(96)之间0.1
的位置上,因此5% = 92 + 0.1 × 96 − 92 = 92.4。
90% 位置 =
统计学基础(第7版)—贾俊平
4-8
第3章
数据的概括性度量
3.1 集中趋势的度量
众数
众数——一组数据中出现次
−1
30 − 1
2
=
2023/4/3
σ=1 − ҧ 2
=
−1
统计学基础(第7版)—贾俊平
3585
= 11.1185
30 − 1
4 - 15
第3章
数据的概括性度量
3.2 离散程度的度量
离散系数——例题分析
离散系数——标准差与其相应的
【 例3-11】 沿用例2-13。计算各月份空气质量指数(AQI)的
=
=
= 9.4
30
统计学基础(第7版)—贾俊平
4 - 13
第3章
数据的概括性度量
3.2 离散程度的度量
方差和标准差
方差——各变量
值与均值的平均
差异
标准差——上四
分位数与下四分
位数之差
原始数据
分组数据
样本方差为 2
样本方差为 2
σ
=1 − ҧ
2
=
−1
样本标准差s
度量偏度与峰度的统计量
各统计量的的特点及应用场合
用Excel计算描述统计量
2023/4/3
统计学基础(第7版)—贾俊平
4-2
第3章
《统计学》第三章--统计指标
常住单位是在一国经济领土上具有经济利益中
心的机构单位。
机构单位是国民经济统计的基本经济单位,它 是能以自己的名义拥有资产、发生负债、从事经济 活动并与其它实体进行交易的经济实体。
“非常住单位”——也称为“国外” 。
经济领土是由一国政府控制的地理领土组成。 我国的经济领土—— 包括我国大陆的领地、领海、领空和位于国际水 域而我国具有捕捞和海底开采管辖权的大陆架、我 国住外使馆、领馆用地, 不包括位于我国领土范围内的外国使馆、领馆用 地及国际组织用地。
保险密度=保费/人口数 金融相关度(率)=金融资产总量/GNP
每万人口医院病床数
年份
每万人口医院病床数(张/万人)
2001 2002 2003 2004 2007
23.9 23.2 23.4 24.0 26.3
强度相对数的特点
相对数是惟一有单位(且为复名数)的相对数 (有的也用无名数形式);
分子分母一般可以互换,故有正指标与逆指标之 分。
4.40 31.20 27.90 63.10
66.40
10.60
7.90 28.10 26.80 61.20
65.10
33.80 29.50 65.50
69.60
2.60 14.50
1.60 10.20
23.20 28.40
20.60 29.80
74.30 57.10
77.80 60.00
2.比例相对数——比例(结构性的比例)
•货币化程度=用货币支付的商品和劳务总量 / 全部商品和劳务总量
国家和地区
中国 日本 韩国
新加坡
美国 俄罗斯联邦
按三次产业分就业人员构成
第一产业
第二产业
《管理统计学》焦建玲 第03章 描述性统计分析
第三章 描述性统计分析
3.1 统计数据整理与显示
频数分布
【例3-1】以下是一个班级60名学生数学期末考试成绩,请编制 组距式变量数列。 90 78 81 64 83 75 78 79 81 82 91 93 95 94 84 64 61 87 70 60 20 65 77 73 78 92 88 73 86 73 64 76 71 67 63 69 70 89 90 83 74 79 76 99 75 38 55 82 93 98 85 78 89 66 71 84 70 68 72 80
第三章 描述性统计分析
3.1 统计数据整理与显示
统计分组
统计分组是根据统计研究的任务的要求和现象总体的内 在特点,按照一定的标志,将统计总体区分为不同类型或 不同性质的若干组成部分。这些组成部分中的每一个部分 就叫做一个分组,通过分组把总体内部不同性质的单位分 开,把性质相同的单位归并在一个组内,说明总体内部各 组之间的相互关系及其特征。
下限公式: 上限公式:
Me L
fi 2 Sm1 h fm
Me U
fi 2 Sm1 h fm
第三章 描述性统计分析
3.1 统计数据整理与显示
【例3-2】某高校随机抽取300名学生的身高样本资料,
并根据研究需求对样本进行分组,数据如表3-4所示,试
计算该校学生身高的中位数。
表3-4 某高校学生身高样本数据
第三章 描述性统计分析
3.1 统计数据整理与显示
频数分布
组限的具体形式有间断组限和重合组限,开口组限和闭口组限。 例如:企业职工按年龄分组,其 组限可表示为:30岁以下,30~39 岁,40~49岁,50~59岁,60岁以 上。
间断组限是每一组的组限与邻组的组限都是间断设置的。
统计学(第3章)
4、定比尺度(比率尺度 ratio scale)
是对事物之间比值的一种测度,可用
于参数与非参数统计推断。 特征:
除区分事物的类别、进行排序、比较大 小,而且还可以进行加减乘除运算。 具有绝对零点,即“0”表示“没有” 或“不存在”。 所有统计量都可以对其进行分析。与定 距尺度的唯一区别是有绝对固定的零点。
第三章 统计数据的整理 10
3、观察数据和实验数据
观察数据:通过调查或观测而得 到的数据。 实验数据:通过控制实验对象而 收集的数据。
第三章 统计数据的整理
11
4、直接数据和间接数据
直接数据:即原始数据。
间接数据:已加工整理过的数据。
第三章 统计数据的整理
12
第二节 统计整理的含义和步骤
当异距分组时,各组的次数还受 到组距不同的影响。为消除异距 分组的这种影响,须计算频率密 度(或次数密度),计算公式: 频数密度 = 频数/组距 频率密度 = 频率/组距
第三章 统计数据的整理
36
二、分布数列的编制
将原始资料按其数值大小重新排列 2. 确定全距 3. 确定组距和组数 4. 确定组限 5. 编制变量数列 示例3-5
第三章 统计数据的整理
某地人口
21
(三)按分组标志的不同性质分
品质分组(属性分组):是将总体按
品质(或属性)标志进行分组。如企 业按经济成份、企业规模,职工按性 别、文化程度分组等。 数量分组(变量分组):是将总体按 数量标志进行分组,如企业按职工人 数、劳动生产率分组,职工按工龄、 工资分组等。
第三章 统计数据的整理 31
4、开口组的组距与组中值
统计学第3、4章知识点与习题(含答案)
第三章数据资料的统计描述:统计表和统计图第一节定性资料的统计描述知识点:1、统计分组就是根据统计研究的需要,将统计总体按照一定的标志区分为若干组成部分的一种统计方法。
2、定性数据的频数、频率、百分数、累计频数、累积频率的概念及计算。
3、定性数据频数分布表示方法主要有条形图、扇形图。
第二节定量数据的统计描述知识点:1、定量数据频数分布表的编制:(1)整理原始资料;(2)确定变量数列的形式;(3)编制组距式变量数列。
应注意的问题:确定组距,确定组限。
考查的区间式分组数据按“上组限不在组内”的原则确定。
2、定量数据的频数、频率、百分数、累积频数、累计频率的概念及计算。
3、定量数据频数分布表示方法主要有直方图、折线图和曲线图三种。
第三节探索性数据分析——茎叶图知识点:1、基本茎叶图的理解及编制第四节相关表与相关图知识点:1、相关表,反映定性变量与定量变量之间的相关关系。
2、散点图,反映两个定量变量之间的相关关系。
根据散点图判断两个变量的相关关系。
第四章数据资料的统计描述:数值计算第一节集中趋势知识点:关于单值式分组和区间式分组数据的1、平均数的计算,包括算术平均数,几何平均数,调和平均数2、众数的计算3、中位数、四分位数的计算4、(补充知识点)平均数、众数、中位数三者之间的关系5、百分位数的计算6、截尾均值的计算第二节离散测度知识点:1、极差的计算2、关于单值式分组和区间式分组数据的四分位数差的计算3、关于单值式分组和区间式分组数据的方差、标准差的计算4、变异系数的计算5、(补充知识点)偏度、峰度的含义及计算第三节协方差与相关系数知识点:1、样本协方差的含义及计算2、相关系数的含义及计算第四节相对位置测度与奇异点知识点:1、数据的标准化处理2、奇异点的诊断:利用契比雪夫定理和经验规则第五节探索性分析——5点描述与箱线图知识点:1、5点描述法的理解2、箱线图的理解与运用第三章习题:一、填空题1、在对数据资料进行统计描述时,______反映了各个组中每一项目出现的次数,______反映了各个组中项目发生的比例。
统计学导论曾五一第三章数据分布特征的描述
统计学导论曾五⼀第三章数据分布特征的描述第三章数据分布特征的描述第⼀节统计变量集中趋势的测定⼀测定集中趋势的指标及其作⽤集中趋势(Central tendency)较⼤和较⼩的观测值出现的频率⽐较低,⼤多数观测值密集分布在中⼼附近,使得全部数据呈现出向中⼼聚集或靠拢的态势。
测度集中趋势的指标有两⼤类:数值平均数——是根据全部数据计算得到的代表值,主要有算术平均数、调和平均数及⼏何平均数;位置代表值——根据数据所处位置直接观察或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数。
1.反映变量分布的集中趋势和⼀般⽔平。
如⽤平均⼯资了解职⼯⼯资分布的中⼼,反映职⼯⼯资的⼀般⽔平。
2.可⽤来⽐较同⼀现象在不同空间或不同阶段的发展⽔平。
不受总体规模⼤⼩的影响;在⼀定程度上使偶然因素的影响相互抵消。
3.可⽤来分析现象之间的依存关系。
如研究劳动者的⽂化程度与收⼊的关系。
4.平均指标也是统计推断中的⼀个重要统计量,是进⾏统计推断的基础。
⼆数值平均数(⼀)算术平均数(均值)⼀组数据的总和除以这组数据的项数所得的结果;最常⽤的数值平均数。
1.简单算术平均数把每项数据直接加总后除以它们的项数。
通常⽤于对未分组的数据计算算术平均数。
计算公式:2.加权算术平均数加权算术平均数的计算公式:加权—为了体现各变量值轻重不同的影响作⽤,对各个变量值赋予不尽相同的权数(fi )。
权数(fi ,也称权重)权数——指在计算总体平均数或综合⽔平的过程中对各个数据起着权衡轻重作⽤的变量。
可以是绝对数形式,也可以是⽐重形式(如频率)来表⽰。
事实上⽐重权数更能够直接表明权数的权衡轻重作⽤的实质。
当权数完全相等(f1 =f2 =…= fn)时,加权算术平均数就成了简单算术平均数。
3.由组距数列计算算术平均数各组变量值⽤组中值来代表。
假定条件是各组内数据呈均匀分布或对称分布。
计算结果是近似值。
4.对相对数求算术平均数由于各个相对数的对⽐基础不同,采⽤简单算术平均通常不合理,需要加权。
管理统计学 第2版 第三章 数据特征的描述与分析
某工厂有五条相同的流水线,生产同一产品且生产速度相同,各流水线的合 格率分别为 95%、92%、90%、85%、80%,那么该工厂产品的平均合格率 是多少?如果某流水生产线有前后衔接的五道工序,各工序产品的合格率分 别为95%、92%、90%、85%、80%,那么产品的平均合格率又是多少?
x x1 x2 xn 95% 92% 90% 85% 80% 88.40%
X F2 2
X N FN
9 (105.3%)3 (104.5%)2 (102.1%)4
103.90%
投资者平均股票的平均收益率为103.90%-1=3.90%
3.1 集中趋势的测度与应用
中位数
中位数是位置平均数,若将变量值按大小顺序排 列,处于中点位置的变量值即为中位数。
中位数不受极端数值的影响,在由个别极端数值 存在的数列种,中位数的代表性比算术平均数的 代表性强。
为:
X
K
Xi
Fi
K
593 .10(元)
i 1Leabharlann Fii 1算术平均数
3.1 集中趋势的测度与应用
算术平均数的性质 (1)各变量值与其均值的离差之和等于零,即:
未分组资料: 分组资料:
N
(X i - X ) 0
i 1
N
(X i - X )Fi 0
i 1
(2)各变量值与其均值的离差平方和最小,即:
中位数的计算一般分两步,首先确定中位数位置, 然后找出中位数位置对应的变量值。
3.1 集中趋势的测度与应用
中位数
未分组资料计算中位数 (1)中位数的位次= N 1 2
式中,N为变量值的项数。
(2)若用Me表示中位数则有:
Me
统计学(复习)
第1章统计和统计数据1统计学的定义:是收集、处理、分析、解释数据并从数据中得出结论的科学描述统计与推断统计的含义、容、目的。
描述统计: 是研究数据收集,处理和描述的统计学方法.其容包括如何取得研究所需要的数据,如何用图表形式对数据进展处理和展示,如何通过对数据的综合,概括与分析,得出所关心的数据特征.推断统计: 是研究如何利用样本数据来推断总体特征的统计学方法,容包括两大类:参数估计: 是利用样本信息推断所关心的总体特征.假设体验:是利用样本信息判断对总体的某个假设是否成立.2、变量与数据:不同数据类型的含义,会判断已有数据的类型.变量:它们的特点是从一次观察到下一次观察会出现不同结果.Ex: 企业销售额, 上涨股票的家数, 生活费支出,投掷一枚骰子观察其出现的点数数据: 把观察到的结果记录下来.总体:包含所研究的全部个体(数据)的集合样本: 从总体中抽取的一局部元素的集合样本量: 构成样本的元素的数目定量变量或数值变量:定量变量的观察结果称为定量数据或数值型数据.可以用阿拉伯数据来记录其观察结果.如“企业销售额〞、“上涨股票的家数〞、“生活费支出〞、“投掷一枚骰子出现的点数〞定性变量:分类变量和顺序变量统称为定性变量分类变量:表现为不同的类别.如“性别〞、“企业所属的行业〞、“学生所在的学院〞等.分类变量的观察结果就是分类数据顺序变量或有序分类变量:具有一定顺序的类别变量. 如考试成绩按等级,一个人对事物的态度.顺序变量的观察结果就是顺序数据或有序分类数据离散型变量: 只能取有限个值得随机变量连续型变量:可以取一个或多个区间中任何值得随机变量3、获得数据的概率抽样方法有哪些?根据一个的概率来抽取样本单位,也称随机抽样-简单随机抽样:从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有一样的时机(概率)被抽中. 抽取元素的具体方法有重复抽样是抽取一个个体记录下数据后,再把这个个体放回到原来的总体中参加下一次抽选。
统计学第三章 数据分布特征的描述.ppt
600 —700 700 以上 合计
职工人数(人)
f
f/∑f
50 16.7
70 23.3
120 40.0
60 20.0
300 100.0
要求:根据资料计算全部职工的平均工资。
统计学课程建设小组
三峡大学
经济与管理学院
例3权数的选择
当分组的标志为相对数或平均数时,经常会遇到 选择哪一个条件为权数的问题。如下例:
女性为63319万人) (三)比较相对指标
甲总体某指标值 比较相对指标=—————————×100%
乙总体同类指标值
统计学课程建设小组
三峡大学
经济与管理学院
(四)强度相对指标
某一总量指标数值
强度相对指标=—————————————
另一有联系而性质不同的总量指标数值
如:2005年一季度城镇居民人均可支配收入为 2938元
___ x1 x2 ... xn x
Xn
n
(2)加权算术平均数
它适合于计算分组数列的平均数。
其计算公式为:
___
X
x1 f1 x2 f2 ... xn fn f1 f2 ... fn
xf
f
xf f
统计学课程建设小组
三峡大学
统计学第三章 数据分布特征的 描述
三峡大学
经济与管理学院
第一节 总量指标 一、总量指标的概念、作用
(一)概念 又称绝对数。它是表明一定时间、地点和
条件下某种社会经济现象总体规模或水平的统 计指标。 (二)作用
1.是反映总体基本状况,社会经济活动绝对 效果的统计指标;
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3-37
圖37 峰度不同的次數分配
3-38
3-4 平均數與標準差的應用
• 一、謝比雪夫定理(Chebyshev’s Theorem)
• 任何一組資料中,會落在平均數左右各k個 標準差之範圍內的觀測值至少佔有
1 1 2 100%,k > k
1。
3-39
表3-21 在區間內至少佔有 1 ( k, + k )內 (1 2 )100%
i 1
f。 i
k
3-7
二、中位數(median):通常以Me(或)表示。
• A. 未分組資料
其步驟如下:
• 1. 由小到大順序排列,X(1) X(2) … X(n)。
n X n , 不為整數 2 1 2 X X n n 1 n 2 2 , 為整數 2 2
3-11
• • • • •
四、眾數(mode):通常以M0表示。 (三) 眾數的求法 A. 未分組資料 B. 已分組資料 普通求眾數的方法大致有:
3-12
• 1. 視察法
• 2. King’s插補法(W.I. King’s method)
• 3. Czuber’s比例法(Czuber’s proportional method) • 4. Perason’s經驗法(K. Pearson’s method)
统计学
3-1
第三章
■ 3-1 ■ 3-2 ■ 3-3 ■ 3-4 ■ 3-5 ■ 3-6 ■ 3-7
資料的測度與描述
集中趨勢量數 離勢量數 形狀 平均數與標準差的應用 枝葉圖及箱形圖 電腦範例 流程圖
3-2
透過各種蒐集方法的資料經過整理後,還 需進一步描述一群數量資料的特性,其方 法大致有:
1. 2. 3. 集中趨勢量數(measured of central tendency)。 離勢量數(measured of dispersion)。 形狀(shape)。
n 1
= Βιβλιοθήκη 2 n X i X i i 1 i 1
n n
2
n ( n 1)
標準差就是變異數的平方根,通常 以(或S)表示。
3-22
母體標準差 =
i 1
(X i ) N
N
2
=
2
N
X i N
2
2
i 1
N
0
樣本標準差 S =
i 1
(X i X ) n 1
3-9
• • • •
A. 未分組資料 B. 已分組資料 Me、Qj、Dj及Pj之關係 1. 表3-13
名 稱 中位數 四分位數 十分位數 百分位數 分割點 1個 3個 9個 99個 分位數值 Me Q1,Q2,Q3 D1, …, D9 P1, …, P99
3-10
• 2. (1) Me = Q2 = D5 = P50 (2) Q1 = P25,Q3 = P75 (3) D1 = P10 ; D2 = P20 ‥〃 D9 = P90
k
k
1
(,+)
至少0
2
2.5 3
( 2, + 2 )
至少75%
( 2.5, + 2.5) 至少84% ( 3 , + 3 ) 至少88.9%
3-40
• 二、經驗法則(empirical rule) • 設資料近似單峰對稱分配,則 • 1. 在平均數左右1個標準差之範圍內的觀 測值約佔68%。 • 2. 在平均數左右2個標準差之範圍內的觀 測值約佔95%。 • 3. 在平均數左右3個標準差之範圍內的觀 測值約佔99.7 %。 • 將謝比雪夫定理,經驗法則與實際結果整 理如下表:
• 相對離勢量數中最常用的變異係數 (coefficient of variation,C.V.)是指標準 差與平均數的比值,
3-30
即 C.V. =
S
100%……母體資料
= X 100%……樣本資料
相對離勢量數的主要功用: 1.比較幾組資料單位不同的差異情形。 2.比較幾組資料單位相同,但平均數相差懸殊之差 異情形。
次數fi
f1 f2
組中點mi
m1 m2
fimi
f1m1 f2m2
Lk~Uk
合 計
fk
mk
k
fkmk
i 1
i 1
k
fi
fimi
3-6
• (1) 母體平均數: =
i 1
fimi N
k
k
,N =
i 1
f。 i
k
• (2) 樣本平均數:
X
=
i 1
fimi n
,n =
3-28
B.
已分組資料
2=
k
(mi ) fi
2
=
i 1
k
2 mi
fi
i 1
N
2
mi fi i 1
k 2
N
S2=
i 1
(m i X ) f i
2
k
n 1
=
i 1
mi fi
2
k
n
n 1
3-29
• (二) 相對離勢量數(measure of relative disperson)
其中N表全部資料的個數,a表落在( - , + )之間的個數,b表落在 ( - 2, + 2 )之間的個數,c表落在( - 3, + 3 )之間的個數。
3-3
3-1 集中趨勢量數
用來描述該組資料的中心位置所在或集中的程度,謂之集 中趨勢量勢,又稱中心位置量數(measure of central location)。 一、平均數(mean)
(一)算術平均數 • A. 未分組資料: • 1. • 2. 母體資料:母體平均數 樣本資料:樣本平均數 X 、Y 等。
3-4
(二)加權算術平均數:
• 母體加權算術平均數
w
N = w1 X 1 w N X =
i 1
wi X wi
N
N
i
w1 w 2 w N
i 1
樣本加權算術平均數
X w=
i 1
wi X wi
n
n
i
i 1
3-5
• B. 已分組資料:
組界
L1~U1 L2~U2
N
總變異數
=
2
N 1 1 N 1 ( 1 )
2
2
N
+
N 22 2 N 2 ( 1 )
2
2
N
3-26
(4)推廣至k組母體、樣本資料,求合併後之平均數、變異數。
總母體平均數 =
N11 N k k N
k
,N = N1 + …… + Nk
2
總母體變異數 2 =
3-33
圖36 資料的分配形狀
3-34
偏態係數的計算方法有很多,一般較常用者有二種: 1.Bowley公式:Bowley偏態係數,其公式如下:
SKB =
(Q 3 M e ) ( M (Q 3 M e ) ( M
e e
Q1 ) Q1 )
=
(Q 3 M e ) ( M Q 3 Q1
• 當次數分配為單峰對稱時,則 X = Me = M0
• 當次數分配為單峰微偏時,則 3( X Me)或M0 - 3( X Me)
X
M0
3-13
圖33 單峰對稱分配
3-14
圖34 單峰微偏分配
3-15
• ※五、全距中點(midrange)與中樞紐 (midhinge) • (一) 全距中點(midrange) • (二) 中樞紐(midhinge) • 六、截尾平均數與溫塞平均數 • 1. 截尾平均數 • 2. 溫塞平均數
i 1
N
2
(X
i 1
N
i
A)
2
N
N
3-24
• (3) 若甲、乙二組母體資料的變異數、平均 數及大小如下表,則合併後之平均數、變 異數為何?
• 表3-16
組 別 甲 乙 大 小 N1 N2 平均數 變異數
1
2
1 2
2 2
3-25
則 總平均數 = N 1 1 N 2 2 ,N = N + N 1 2
3-41
表3-22
( k )內 ( , + ) ( 2, + 2) 謝比雪夫定理 經驗法則
a N b N
k
實際結果 100 % 100 %
1 2
至少為0 至少為75%
約68 % 約95 %
3
( 3, + 3)
至少為88.9 %
約99.7 %
c N
100 %
4 10
5 10
10 10
15 10
16 10
10 10
10 10
12 0
3-18
• 二、種類
• 離勢量數:(一) 絕對離勢量數(measure of absolute dispersion)
絕對離勢量數:全距、 相對離勢量數:變異係 四分位差、變異數、標 數 準差。
3-19
• • • •
1. 全距(range,R) 2. 四分位差(quartile deviation,Q.D.) 3. 平均偏差(average deviation,A.D.) 4. 變異數與標準差(variance and standard deviation)