《应用统计学》第3章:统计数据的描述度量

合集下载

《统计学》-单薇主编-第3章 数据特征的度量

《统计学》-单薇主编-第3章 数据特征的度量

统计学
STATISTICS
3.1.1 均值
(mean)
1. 集中程度的最常用测度值 2. 一组数据的均衡点所在 3. 易受极端值的影响
4. 用于数值型数据,不能用于分类数据和顺 序数据
2 -5
统计学
STATISTICS
简单均值
(simple mean)
设一组数据为: x1 ,x2 ,… ,xn
总体均值
4. 各变量值与中位数的离差绝对值之和最小,即
n
xi Me min
2 - 16
i1
统计学
STATISTICS
中位数
(位置的确定)
未分组数据: 中位数位 n置 1 2
分组数据: 中位数位置n 2
2 - 17
统计学
STATISTICS
数值型数据的中位数
(5个数据算例)
【例】 5个工人日产量
原始数据: 3 8 5 4 9 排 序: 3 4 5 8 9
G 41.0 5 % 4 1.0 1 % 2 1.2 5 % 5 1.0 9 % 1 1 8 .07 % 87
2 - 15
统计学
STATISTICS
3.1.4 中位数
(median)
1. 排序后处于中间位置上的值
50%
Me
2. 不受极端值的影响
50%
3. 主要用于顺序数据,也可用数值型数据,但不能 用于分类数据
中位数是将统计分布从中间分成面积(即数
据个数)相等的两部分,与中位数性质相 似的还有四分位数(quartile)、十分位数 (decile)、和百分位数(percentile)。 显然,四分位数就是将数据分布4等分的三 个数值,其中中间的四分位数就是中位数。 十分位数和百分位数分别是将数据分布10 等分和100等分的数值。

研究生统计学讲义第2讲第3章定量资料的统计描述

研究生统计学讲义第2讲第3章定量资料的统计描述
左边μ=100,σ=10,X<90 右边μ=0,σ=1,u<-1.0,注 意刻度不同
现在我们把 X 转换为标准正态变量,因为μ=100, σ=10,所以
u X 90 100 1.0
10
因此90分能够用平均值下的1个标准差表示,见图 右图
P (X < 90)=P ( u <-1.0 )
附表3从u=0.00到u=4.99以增量0.01编成标准正态分布 的CDF表,沿着表的左边按所给u的一个小数找到u ,再从表的顶端找到u的第二位小数,在表内主要部
x2=78.6g/L时,u2 = (78.6-73.8)/3.9=1.23
2.查标准正态曲线下面积表(附表3):u= -0.46时 ,在表的左侧找到-0.4,在表的上方找到0.06,二者相 交处为0.3228,标准正态曲线下,横轴上u值小于- 0.46的面积为Ф(-0.46)= P(U<-0.46)=32.28%,即标 准正态变量u值小于-0.46的概率为32.28%;同样查 得u=1.23时,标准正态曲线下,横轴上u值小于1.23的 面积为Ф(1.23) =P(U<1.23)= 0.8907,即u值小于1.23的 概率为89.07% 。
图3.16左边μ=100,σ=10,X≥125 右边μ=0,σ=1, u≥2.5,注意刻度不同
只有0.62%的得分将是125或更高.
补例2 假设女高血压患者舒张压大约集中在100mmHg
,标准差是16mmHg ,血压是正态分布.求:
1.P (X<90) 2.P (X>124) 3.P (96<X<104) 4.求
2.中位数M (Median)
中位数M是排序观察值的中间值.当一组数据按照 从小到大的顺序排列起来时,值的深度d=(n+1)/2, 是它相对于极端值(末端)所在的位置.它不是由全 部观察值综合计算出来的,而是由居中位置的观察值 所决定,因此它不受个别特小或特大的观察值的影响 ,应用范围较广。

统计学第3章数据分布特征描述

统计学第3章数据分布特征描述
2.比较同一现象在不同空间或不同阶段的发 展水平,反映现象变化特征、趋势和规律性。 能消除总体规模差异造成的不利影响; 在一定程度上减弱偶然因素的影响。
3.分析现象之间的依存关系。 如研究劳动者文化程度与收入的关系。
4.(数值)平均指标是推断统计中的重要 统计量,是进行统计推断的基础。
几种常见的位置特征数
N
MH

N

i 1
1
1 xi
wi

wi
i 1
N

i 1
1 xi
wi
N
wi
i 1
MH

1 N1

N N1


i1 xi i1 xi
N
k0:几何平均数 加权
N
M G i 1w i x 1 w 1x2 w 2 xN w N
简单
M G N x 1x 2 x N
fi
i1
i 1(xifi)254 674 58 012 1110 % 01.7 1%
n(xifi) i1 xi
1 2% 6 56 1 4% 0 75 1 4% 2 80 10350
(四)几何平均数(Geometric mean)
简单几何平均数— n个变量值连乘积的n次方根。
n(xi x)2 min
i1
性质(3)证明:
(三)调和平均数(Harmonic mean)
调和平均数,也称倒数平均数。 各变量值倒数(1/xi)的算术平均数的倒数。 计算公式为:
n
xHx11m1x12m12... x1nmn
m1m2... mn
m1m2 ... mn
与单项式分组资料一样,采用加权算术平均数计算。

应用统计学(第三章 数据的描述性分析)

应用统计学(第三章 数据的描述性分析)

累积频率 Cumulative P
0.02 0.09 0.28 0.63
0.84 0.95 1.00
a.自然值进行分组,最大值17,最小值11 b.数据主要集中在14,向两侧分布逐渐减少
(3)计量数据
100例健康男子血清总胆固醇(mol/L)测定结果
4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37 5.39 6.30 5.21 7.22 5.54 3.93 5.21 6.51 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.49 5.30 4.97 3.18 3.97 5.16 5.10 5.85 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90
15
21
0.21
0.84
16
11
0.11
0.95
17
5
0.05
1.00
表 2-2 100只梅花鸡每月产蛋数次数分布表
每月产蛋数
11 12 13 14 15 16 17

第3章统计数据的描述度量

第3章统计数据的描述度量
算术平均数的主要局限:易受极值影响
16
使用 Excel 函数求算术平均数
利用 Excel“公式”-“其它函数”-“统计”中的
AVERAGE 函数可以方便地计算出一组或多组数据的
算术平均数。
x

1 n
n
xi
i 1
语法规则:
格式:AVERAGE(<区域或数组1>,<区域或数组2>,…)
例:利用某汽车公司各销售点的销售数据,求平均销 售量。
k

X = wi Xi
i1
14
(2)加权算术平均数
X
Xi fi fi
wi X i
15
统计推断和统计分析几乎都离不开算术平均数: 用它作为一组资料集中趋势的测度量, 它是一组
数据的重心, 是数据规律性的反映 它又是对所提供信息运用最充分的指标, 最灵敏,
最适合代数方法处理, 具有优良的数学性质.
25% 25% 25% 25%
QL
QM
QU
上四分位数又称75百分位数(75 pecentile,有75 %的观测值小于它),下四分位数为25百分位数 (25 pecentile,有25%的观测值小于它)。
k百分位数(k-pecentile)意味着有k%的观测值 小于它。如果令a=k%,则k百分位数也称为a分 位数(a-quantile)。
1. 集中趋势的测度值之一 2. 不受极端值的影响 3. 可用于定序数据,也可用于数值型数据,
但不能用于定类数据
44
四分位数位置的确定
未分组数据:
下四分位数(QL)位置 = 上四分位数(QU)位置 =
第3章 统计数据的描述度量
1

应用统计学学习指南

应用统计学学习指南

《应用统计学》学习指南一、教学目标和要求统计思维是现代人必须具备的素质之一。

正如英国学者威尔斯(H.G.Wells)所说:统计思维,如同读写能力一样,总有一天会成为讲求效率的公民所必须的本领。

国家教育部也一直将《统计学》列为经济和管理类大学本科教育的核心基础课程。

本课程主要讲授应用于社会经济领域的基本统计理论和方法。

内容包括:统计学的分科及性质;统计资料的搜集与整理;综合指标、动态指标、统计指数、回归分析等描述统计;抽样设计、样本分布、参数估计、假设检验、方差分析等推断统计。

通过学习本课程,学生应理解和掌握统计基本知识和技能,能独立开展统计调查、分析统计数据和解释统计结论。

本课程教学进程中,要求学生查找统计年鉴、统计公报的近期数据并加以分析和解释。

随堂增设口试环节(课堂发言),训练学生概括能力、表达能力及说服能力。

布置课外作业,要求学生主动采集现实社会经济生活中的统计数据,并以学会的统计方法深入分析。

二、教材和参考书教材:《应用统计学》,施金龙等,南京大学出版社,2016。

参考书:《统计学》,徐国祥,上海人民出版社,2007;《统计学基本概论和方法》,吴喜之,高等教育出版社,2000;《统计学的世界》,戴维·S·穆尔,中信出版社,2003;《Business Statistics》,David M. Levine,中国人民大学出版社,2010。

(注:(1)48学时课程,安排8学时Excel实验;40及以下学时课程,不安排8学时Excel 实验。

实验可集中于学院实验中心完成,也可作为课外作业由学生自行完成。

(2)教材各章章末单选题、计算题为课外作业必做题。

(3)授课教师可适当缩略(或扩充)各章计算题的范围。

以下各章计算题的缩略范围,供教师和学生参考:3.1、3.5、3.8;4.1、4.6、4.7、4.8、4.12(增加:计算算术平均数);5.1、5.4、5.6;6.1、6.2、6.5、6.6、6.7、6.8;7.1、7.2、7.3、7.5、7.6、7.7;8.1、8.4;9.1、9.3、9.4、9.5、9.6;10.1、10.2;12.2、12.6、12.7。

统计学知识点汇总

统计学知识点汇总

统计学知识点汇总第一章:统计学是收集、处理、分析、解析数据并从数据中得出结论的科学。

分类:描述统计、推断统计。

描述统计是研究数据收集、处理和描述的统计学方法. 推断统计是研究如何利用样本数据来推断总体特征的统计学方法(内容包括参数估计和假设检验)。

变量:每次观察都会得到不同结果的某种特征。

分类变量:又称无序分类变量,观测结果表现为某种类别的变量。

顺序变量:又称有序分类变量,观测结果表现为某种有序类别的变量。

数值变量:又称定量变量,观测结果表现为数字的变量.数据:1、分类数据2、顺序数据3、数值型数据总体:包含所研究的全部个体(数据)的集合。

样本:从总体中抽取的一部分元素的集合.样本量:构成样本元素的数目。

抽样方法:1、简单随机抽样2、分层抽样3、系统抽样4、整群抽样简单随机抽样:从含有N个元素的总体中,抽取n个元素组成一个样本,使得总体中的每一个元素都有相同的机会(概率)被抽中。

分层抽样:也称分类抽样,在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本。

软件应用:用Excel抽取简单随机样本。

第二章:一、定性数据的图示:1、条形图2、帕累托图3、饼图4、环形图条形图:是用宽度相同的条形来表示数据多少的图形,用于观察不同类别的多少或分布状况。

帕累托图:是按各类别出现的频数多少排序后绘制的条形图。

通过对条形的排序,容易看出哪类频数出现的多,哪类出现的少。

饼图:主要用于表示一个样本(或总体)中各类别的频数占全部频数的比例。

用图表展示定量数据:生成定量数据的频数分布表时,需要先将原始数据按照某种标准分成不同的组别,然后统计出各组别的数据频数即可。

一组数据所分的组数K应不少于5组且不多于15组。

组距=(最大值-最小值)/组数组数=全距 /组距每组组距均相等称为等距数列,反之则为异距数列在比较等距数列与异距数列的次数分布时常用:次数密度=本组次数/本组组距2.组中值 class midpoint组中值=(本组上限+本组下限)/2或组中值=(本组假定上限+本组假定下限)/2二、定量数据的图示:1、分组数据看分布:直方图2、未分组数据看分布:茎叶图和箱线图、垂线图和误差图最小值 25%四分位数中位数 75%四分位数最大值箱线图的示意图: Array3、两个变量间的关系:散点图是用二维坐标展示两个变量之间关系的一种图形。

《统计学》第三章--统计指标

《统计学》第三章--统计指标

常住单位是在一国经济领土上具有经济利益中
心的机构单位。
机构单位是国民经济统计的基本经济单位,它 是能以自己的名义拥有资产、发生负债、从事经济 活动并与其它实体进行交易的经济实体。
“非常住单位”——也称为“国外” 。
经济领土是由一国政府控制的地理领土组成。 我国的经济领土—— 包括我国大陆的领地、领海、领空和位于国际水 域而我国具有捕捞和海底开采管辖权的大陆架、我 国住外使馆、领馆用地, 不包括位于我国领土范围内的外国使馆、领馆用 地及国际组织用地。
保险密度=保费/人口数 金融相关度(率)=金融资产总量/GNP
每万人口医院病床数
年份
每万人口医院病床数(张/万人)
2001 2002 2003 2004 2007
23.9 23.2 23.4 24.0 26.3
强度相对数的特点
相对数是惟一有单位(且为复名数)的相对数 (有的也用无名数形式);
分子分母一般可以互换,故有正指标与逆指标之 分。
4.40 31.20 27.90 63.10
66.40
10.60
7.90 28.10 26.80 61.20
65.10
33.80 29.50 65.50
69.60
2.60 14.50
1.60 10.20
23.20 28.40
20.60 29.80
74.30 57.10
77.80 60.00
2.比例相对数——比例(结构性的比例)
•货币化程度=用货币支付的商品和劳务总量 / 全部商品和劳务总量
国家和地区
中国 日本 韩国
新加坡
美国 俄罗斯联邦
按三次产业分就业人员构成
第一产业
第二产业

《管理统计学》焦建玲 第03章 描述性统计分析

《管理统计学》焦建玲 第03章 描述性统计分析

第三章 描述性统计分析
3.1 统计数据整理与显示
频数分布
【例3-1】以下是一个班级60名学生数学期末考试成绩,请编制 组距式变量数列。 90 78 81 64 83 75 78 79 81 82 91 93 95 94 84 64 61 87 70 60 20 65 77 73 78 92 88 73 86 73 64 76 71 67 63 69 70 89 90 83 74 79 76 99 75 38 55 82 93 98 85 78 89 66 71 84 70 68 72 80
第三章 描述性统计分析
3.1 统计数据整理与显示
统计分组
统计分组是根据统计研究的任务的要求和现象总体的内 在特点,按照一定的标志,将统计总体区分为不同类型或 不同性质的若干组成部分。这些组成部分中的每一个部分 就叫做一个分组,通过分组把总体内部不同性质的单位分 开,把性质相同的单位归并在一个组内,说明总体内部各 组之间的相互关系及其特征。
下限公式: 上限公式:
Me L
fi 2 Sm1 h fm
Me U
fi 2 Sm1 h fm
第三章 描述性统计分析
3.1 统计数据整理与显示
【例3-2】某高校随机抽取300名学生的身高样本资料,
并根据研究需求对样本进行分组,数据如表3-4所示,试
计算该校学生身高的中位数。
表3-4 某高校学生身高样本数据
第三章 描述性统计分析
3.1 统计数据整理与显示
频数分布
组限的具体形式有间断组限和重合组限,开口组限和闭口组限。 例如:企业职工按年龄分组,其 组限可表示为:30岁以下,30~39 岁,40~49岁,50~59岁,60岁以 上。
间断组限是每一组的组限与邻组的组限都是间断设置的。

应用统计学统计描述优秀课件

应用统计学统计描述优秀课件

Frequencies 过程 (2) 频数表
分析结果
Frequency:频数 Percent:百分比 =当前频数/总数(包括缺失值) Valid Percent:有效百分比 =当前频数/有效总数(不包括缺失值) Cumulative Percent:累积百分比 =累积频数/有效总数(不包括缺失值)
Frequencies 过程
Descriptives 过程
Explore 过程
Ratio
过程
Frequencies 过程
❖ Frequencies:产生原始数据的频数表,并能计算各种 百分数,并可绘制频数图,如连续型变量的直方图,或分 类变量的饼图或条图。下面以demo.sav为例,对人群的年 龄数据(age)进行描述。
Frequencies 过程
❖ 通过大纲视图可以快速定位各项结果 例如:点击大纲视图上的Histogram,则可快速定位至 age的频数直方图
Frequencies 过程 (1) 统计量
分析结果
❖ 人群年龄无缺失值,四分位数为33岁、41岁、51岁,即 人群中有1/4小于33岁,1/2小于41岁,1/4大于51岁。另外, 90%的人在24~64岁之间。
Explore 过程
❖ 缺失值的设置,一般默认即可
Explore 过程
分析结果
(1) 缺失值报告
本例无缺失值,有效人数女性3179人,男性3221人
Case Processing Summary
Cases
Valid
M issing
Tot al
Gende Nr Percent N Percent N Percent
Explore 过程 要进行分析的应变量:age

应用统计学

应用统计学

第一章绪论1.某班5名同学的某门课的成绩分别为60、70、75、80、85,这5个数是( D )A.标志B.变量C.指标D.变量值2.统计学研究对象的最基本特征是( D )A.总体性B.具体性C.社会性D.数量性3.调查某校学生的学习、生活情况,学生“一天中用于学习的时间”是( A )A.变量B.标志C.变异D.指标4.统计对总体数量的认识是( C )A.以上都对B.从定量到定性C.从单位到总体D.从总体到单位5.下列指标中不属于数量指标的有( C )A.固定资产净值B.国内生产总值C.劳动生产率D.国民生产总值6.下列标志中属于数量标志的有( B )A.性别B.出勤人数C.文化程度D.产品等级7.在下列叙述中,属于推断统计的描述是(B )A.反映大学生统计学成绩的条形图B.从一果园中抽取36个桔子的样本,用该样本的平均重量估计果园中桔子的平均重量C.一个饼图描述了某医院治疗过的癌症类型,其中2%是肾癌,19%是乳腺癌D.一个大型城市在元月份的平均汽油价格8.统计推断分为两大类,参数估计与( B )A.方差分析B.假设检验C.抽样调查D.参数估计9.由反映总体各单位数量特征的标志值汇总得出的指标是( B )。

A.平均指标B.总体标志总量C.总体单位总量D.相对指标10.有三个企业的年利润额分别是5000万元、8000万元和3900万元,则这句话中有(A)个变量?A.1B.0C.3D.211.研究如何对现象的数量特征进行计量、观察、概括和表述的理论和方法属于( D )A.推断统计学B.应用统计学C.数理统计学D.描述统计学12.社会经济统计的研究对象是(B )。

A.抽象的数量关系B.社会经济现象的规律性C.社会经济现象的数量方面D.社会经济统计认识过程的规律和方法13.以产品的等级来衡量某种产品的质量好坏,则该产品等级是( C )。

A.数量指标B数量标志C.品质标志D.质量指标14.在全国人口普查中(A )。

应用统计学--第3章 数据的概括性度量

应用统计学--第3章 数据的概括性度量

计算饮料品牌的众数?
Mo=可口可乐
甲城市家庭对住房状况评价的频数分布 回答类别 非常不满意 不满意 一般 满意 非常满意 甲城市 户数 (户) 24 108 93 45 30 百分比 (%) 8 36 31 15 10
计算回答类别的众数?
Mo=不满意
合计
14
300
100.0
数值型分组数据
某制鞋厂要了解消费者最需要哪种型号的男皮鞋,调 查了某百货商场某季度男皮鞋的销售情况,得到资料 如表:
28
户数 (户)
24 108 93 45 30 300
累计频数
24 132 225 270 300 —


【例】:9个家庭的人均月收入数据(4种方法计算)
原始数据: 排 序:
1500 750 780 1080 850 960 2000 1250 1630 750 780 850 960 1080 1250 1500 1630 2000

3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量

掌握集中趋势统计量的计算


掌握离散程度统计量的计算
掌握偏态与峰态统计量计算


掌握各统计量的特点及应用场合
用Excel计算描述统计量
精心挑选的平均数—— 我们为什么老是拖后腿
精心挑选的平均数—— 我们为什么老是拖后腿
x
N
i
35

例:某售货小组有5名售货员,某天的销售额分别 为960元、1680元、1530元、1350元、2040元, 则平均每个售货员日销售额为:
5 960 1680 1530 1350 2040 5 1512 (元)

应用统计硕士(MAS)考试过关必做习题集(含名校考研真题详解)统计学(第3章 数据的概括性度量)【圣

应用统计硕士(MAS)考试过关必做习题集(含名校考研真题详解)统计学(第3章 数据的概括性度量)【圣
4.经验法则表明,当一组数据呈对称分布时,平均加减 1 个标准差范围之内大约有( ) 的数据。[山东大学 2016 研] A.68% B.95% C.99% D.100% 【答案】A 【解析】当一组数据对称分布时,经验法则表明:①约有 68%的数据在平均数±1 个标准差 的范围之内;②约有 95%的数据在平均数±2 个标准差的范围之内;③约有 99%的数据在
6.以下反映集中趋势的测度指标中,不受极端值影响的是( )。[中央财经大学 2014 研] A.均值 B.中位数 C.众数 D.中位数和众数 【答案】D 【解析】中位数是一组数据中间位置上的代表值,众数是一组数据分布的峰值,二者均不受 极端值的影响。均值是所有数据的加和然后除以样本量,受极端值的影响。
8.移动公司在对人们更换手机的频率的调查中发现,有 40%的人每半年更换一次新手机, 20%的人每 1 年更换一次,30%的人每 2 年更换一次,10%的人每 3 年更换一次,那么人 们更换新手机时长的中位数为( )年。[中山大学 2013 研] A.0.5 B.1 C.1.5 D.2 【答案】B 【解析】中位数是指一组数据排序后处于中间位置上的变量值。本题,按人们更换新手机时 长进行排序后,很容易得出位于中间位置上,即 50%的位置上的变量值为 1,因此,人们 更换新手机时长的中位数为 1 年。
B.
3
C.10010% 110 20% 120 70%
100 /10% 110 / 20% 120 / 70%
D.
10 20 70
【答案】C
1 / 56
圣才电子书 十万种考研考证电子书、题库视频学习平台

【解析】第一、二、三批产品所占的比重分别为 10%、20%和 30%,根据加权平均法计算 公式可知 C 项正确。

应用统计学概念整理

应用统计学概念整理

应用统计学概念整理第一章:导论1.只能归类于某一类别的非数字型数据称为分类数据2.只能归于某一有序类别的非数字型数据称为顺序数据3.按数字尺度测量的观测值称为数值型数据4.包含所研究的全部个体的集合称为总体5.从总体中抽取的一部分的元素的集合称为样本6.用来描述总体特征的的概括性数字度量称为参数7.用来描述样本特征的概括性数字度量称为统计量8.说明事物类别的一个名称称为分类变量9.说明事物有序类别的一个名称称为顺序变量10.说明事物数字特征的一个名称称为数值型变量11.只能取可数值的变量称为离散型变量12.可以在一个或多个区间中取任何值的变量称为连续型变量第二章:数据收集1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法,称为抽样调查.2.为特定目的而专门组织的全面调查称为普查3.按照国家有关法律规定,自上而下地统一布置,自下而上地逐级提供基本数据的调查方式称为统计报表第三章:数据的图表展示1.落在某一特定类别或组中的数据个数,称为频数2.把各个类别及其落在其中的相应频数全部列出,并用表格形式表示出来,称为频数分布3.一个样本或总体中各个部分的数据与全部数据之比,称为比例4.将比例乘以100得到的数值,称为百分比或百分数,用%表示5.样本或总体中各不同类别数值之间的比值,称为比率6.分类数据的图示:条形图,pareto图,对比条形图,饼图7.将各有序类别或组的频数逐级累加起来得到的频数称为累计频数8.将各有序类别或组的百分比逐级累加起来称为累计频率9.顺序数据的图示:累计频数分布图,环形图10.根据统计研究的需要,将原始数据按照某种标准划分成不同的组别称为数据分组11.分组后的数据称为分组数据12.把变量值作为一组称为单变量值分组13.将全部变量值一次划分为若干个区间,并将这一区间的变量值作为一组,称为组距分组14.在组距分组中,一个组的最小值称为下限,最大值称为上限15.一个组的上限与下限的差称为组距16.各组组距相等的组距分组称为等距分组17.各组组距不相等的组距分组称为不等距分组18.每一组的下限和上限之间的重点值称为组中值19. 用矩形的宽度和高度即面积来表示频数分布的图形称为直方图20. 由茎和叶两部分组成的,反应原始数据分布的图形称为茎叶图21. 由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的,反应原始数据分布的图形,称为箱线图第四章:数据的概括性度量1.一组数据向其中心值靠拢的倾向和程度称为集中趋势 2.测度集中趋势就是寻找数据水平的代表值或中心值 3.不同类型的数据用不同的集中趋势测度值 4.低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据 5.层次由低到高:分类—顺序-数值型 6.一组数据中出现频数最多的变量值,称为众数 7.一组数据排序后处于中间位置上的变量值称为中位数 8.一组数据排序后处于中间位置上的变量值,称为中位数 9.一组数据排序后处于25%和75%位置上的值称为四分位数 10.一组数据相加后除以数据的个数而得到的结果,称为平均数 11.N 个变量值乘积的n 次平方根,称为几何平均数 12.数据分布的另一个重要特征 13.离中趋势反映各变量值远离其中心值的程度(离散程度) 14.从另一个侧面说明了集中趋势测度值的代表程度 15.不同类型的数据有不同的离散程度测度值 16.非众数组的频数占总频数的比率,称为异众比率 17.上四分位数与下四分位数之差,称为四分位差,也称为内距或四分间距 18.一组数据的最大值与最小值只差称为极差,用R 表示 19.各变量值与其平均数离差绝对值的平均数,称为平均差,叶也称为平均绝对离差 20.各变量值与其平均数离差平方的平均数称为方差 21.方差的平方根称为标准差 22. 变量值与其平均数的离差除以标准差后的值,称为标准分数,也成为标准化值或z 分数 数据类型品质数据汇总表条形图饼图环形图数值型数据原始数据茎叶图箱线图分组数据直方图折线图时序数据线图多元数据散点图气泡图雷达图23.对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。

应用统计学 01-4描述性统计

应用统计学 01-4描述性统计
s i 1 n 1
分组数据
离散程度的度量
异众比率 四分位差 方差和标准差 离散系数
标准差与其相应的均值之 比。
vs

s x
对数据相对离散程度的测度
消除了数据水平高低和计量单位 的影响。
离散程度的度量
异众比率
四分位差
方差和标准差
离散系数
x1 536.25 s1 309.19
集中趋势的度量
众数(Mode) 中位数(Median) 四分位数(Quartile) 平均数(Mean)
排序后处于前四分之一和 后四分之一位置上的值
不受极端值的影响
主要用于顺序数据,也可用数 值型数据,但不能用于分类数 据。
集中趋势的度量
众数(Mode) 中位数(Median) 四分位数(Quartile) 平均数(Mean)
也称为均值,是集中趋势 最常用的测度值
易受极端值的影响
根据总体数据计算的,称为平 均数,记为μ;根据样本数据 计算的,称为样本平均数。
有简单平均数和加权平均数之分
集中趋势的度量
众数(Mode) 中位数(Median) 四分位数(Quartile) 平均数(Mean)
简单平均数
n
x

x1 x2
x2
v11<v2 ,说1明70 产品销售额的8.1离22Fra bibliotek012.5
3
390
18.0
散4 程度小于430销售利润的离22.散0 程
5
480
26.5
度6 。
650
40.0
7
950
64.0
8
1000
69.0
离散程度的度量

3-应用统计学-概略度量

3-应用统计学-概略度量

3 - 11
应用经济 统计学
简单算术平均数
(算例) 算例)
10
i
原始数据: 原始数据:
N
5
9
13
6
8
X1 + X 2 + X3 + X 4 + X5 + X6 = X= 6 N 10 + 5 + 9 +13 + 6 + 8 = 6 = 8.5
i=1
∑X
3 - 12
应用经济 统计学
加权算术平均数
(算例) 算例)
3 - 34
应用经济 统计学
分组数据的中位数
(算例) 算例)
表3-4 某车间50名工人日加工零件数分组表 某车间50名工人日加工零件数分组表
按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计 频数( 频数(人) 3 5 8 14 10 6 4 50 累积频数 3 8 16 30 40 46 50 —
单位净利润 (元) -300~ -100 -100~ 100 100~ 300 300~500 合计 原肉牛 频数(头) 频率(%) 36 6 12 2 185 31 367 61 600 100 小型肉牛 频数(头) 频率(%) 8 1 15 2 427 57 300 40 750 100
若从利润多少及其风险大小两方面考虑,你会倾向饲 若从利润多少及其风险大小两方面考虑, 养哪种肉牛?为什么? 养哪种肉牛?为什么?
【例3.1】根据上一章例中的数据,计算50 名工人日加工零件数的均值 根据上一章例中的数据,计算50
按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

21
个数据的算例) 数值型未分组数据的四分位数 (7个数据的算例 个数据的算例
原始数据: 原始数据 排 序: 位 置: 23 21 21 23 1 2 30 25 3 32 28 25 26 26 28 30 32 4 5 6 7
N+ 7+1 7+1 = =2 QL位置 = 1 4 4 3(N+1) 3(N+1) 3(7+1) 3(7+ = =6 QU位置 = 4 4
2
1.算术平均数 算术平均数
(1)基本公式: )基本公式:
总体单位标志总量 算术平均数 = 总体单位总数
3
(2)算术平均数的计算 = ∑ xi n i =1
n —总体单位总数;xi —第 i 个单位的标志值。 (2)加权算术平均数 加权算术平均数
f i — 各比率出现的频数
6
例:某公司原料成本随时间增长的情况如下表
成本 年增长率(%) 1992 200 1993 228 14 1994 239.4 5 1995 244.2 2
求原料成本的平均年增长率。 解一: xG = 3 1.14 × 1.05 × 1.02 = 1.0688 解一 解二: 解二 xG = 3 244.2 / 200 = 1.0688 年平均增长率 = 1.0688 - 1 = 6.88%
解:众数组是“15-25”的组,则
1 M0 = L + ×d 1 + 2
20 6 = 15 + × 10 = 22.37 (20 6) + (20 15)
16
算术平均数、 算术平均数、中位数和众数间的关系
f
1.频数分布呈完全对 称的单峰分布,算术 平均数、中位数和众 数三者相同。 2.频数分布为右偏态 时, 众数小于中位数,算术平 均数大于中位数。 3.频数分布为左偏态时, 众数大于中位数,算术平 均数小于中位数。
9
(1) 使用 Excel 的统计函数返回未分组数据的中位数 的统计函数返回未分组数据的中位数
可以使用 Excel 统计函数中的 MEDIAN 函数返回 未分组数据的中位数。 格式:MEDIAN(<区域或数组1>,<区域或数组 2>,…) 功能:返回所有参数中数据的中位数。
10
(2)分组数据中位数的确定 分组数据中位数的确定
23
数值型分组数据的四分位数
N SL × iL 下四分位数: 下四分位数 QL = LL + 4 fL
3N SU ×iU 上四分位数: U U 上四分位数 Q = L + 4 fU
24
数值型分组数据的四分位数
【例】根据表中的数据,计算50名工人日加工零件数的四 根据表中的数据,计算50名工人日加工零件数的四 分位数
29
【案例】道格拉斯公司应如何选择供应商 案例】
道森公司和克拉克公司是道格拉斯公司的两家供货 商。两家供货商都表示大约需要10个工作日交付定 货。下表是两家供应商定货交付时间的历史数据。 今后道格拉斯公司应选择哪家供应商供货?
道森公司: 道森公司 : 交货天数 9 10 11 次数 2 6 2 克拉克公司: 克拉克公司 : 交货天数 7 8 9 10 11 12 13 次数 1 2 3 4 3 2 1
某车间50名工人日加工零件数分组表 表 某车间 名工人日加工零件数分组表 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计 频数( 频数(人) 3 5 8 14 10 6 4 50 累积频数 3 8 16 30 40 46 50 —
在数据量很大的时候,可以使用Excel统计函数中的 QUARTILE函数返回四分位数,语法规则如下: 格式:QUARTILE (数据集, 第nthquart分位数) 功能:返回不同nthquart的四分位数。
如果nthquart等于 0 1 2 3 4 函数QUARTILE的返回值 最小值 第一四分位数(第25 个百分点值) 中位数(第 50个百分点值) 第三四分位数(第 75 个百分点值) 最大值
第3章 统计数据的描述度量 章
本章主要介绍以下 3类综合统计指标: 度量中心(集中)趋势的平均指标 度量离散程度(变异性)的指标 度量偏斜程度的指标 度量两种数值变量关系的指标
1
§3.1 度量集中趋势的指标
常用的这类指标有以下五种:算术平均数、中位 数、众数、四分位数、几何平均数、五数汇总和 箱线图。
26
6.五数汇总和箱线图 五数汇总和箱线图
五数汇总包括最小值、第一分位数、中位数、第 三分位数和最大值这样五个数据,即
X小 最 Q 1
M e
Q 3
X大 最
箱线图(亦称箱须图)提供了基于五数汇总的几何图形
数据集 ? ? ?
1
X
最 小
Q
1
M
e
Q
X
3
最 大
30
35
40 ?
45
50

27
箱线图和四种不同类型分布图的联系
7
(3)使用 Excel 求几何平均数 )
可以使用 Excel 统计函数中的 GEOMEAN 函数返 回几何平均数。 语法规则: 格式:GEOMEAN(<区域或数组1>,<区域或数组 2>,…) 功能:返回所有参数中数据的几何平均数。
8
3.中位数 中位数
将总体各单位标志值按由小到大的顺序排列后 处于中间位置的标志值称为中位数 中位数,记为Me 。 中位数 中位数是一种位置平均数,不受极端数据的影 响。当统计资料中含有异常的或极端的数据时, 中位数比算术平均数更具有代表性。 比如有 5 笔付款:9元,10元,10元,11元, 60元 付款的均值为 20 元,显然这并不是一个很好 的代表值,而中位数 Me = 10 元则更能代表平 均每笔的付款数。
1 M0 = L + ×d 1 + 2
其中: L — 众数组的下限 1— 众数组与前一组的频数之差 2 — 众数组与后一组的频数之差 d — 众数组的组距 1
2 d L 众数
15
例:计算下表数据的众数
分组 0-5 5-15 15-25 25-35 35-45 >45 各组频数 2 6 20 15 8 4
QL位置=50/4=12.5 位置= =
50 8 QL =115+ 4 ×5 =117.81(个) 8
QU位置=3×50/4=37.5 位置= × =
3×50 30 4 ×5 =128.75(个) Q =125 + U 10
25
使用Excel统计函数中的 统计函数中的QUARTILE函数 使用 统计函数中的 函数
12
4.众数 众数
——是总体中出现次数最多的标志值,记为M 0。 众数明确反映了数据分布的集中趋势,也是一种 位置平均数,不受极端数据的影响。但并非所有 数据集合都有众数,也可能存在多个众数。 在某些情况下,众数是一个较好的代表值。 例如在服装行业中,生产商、批发商和零售商在 进行生产和存货决策时,更感兴趣的是最普遍的 尺寸而不是平均尺寸。 又如,当要了解大多数家庭的收入状况时,也要 用到众数。
QL= 23
QU = 30
22
数值型未分组数据的四分位数(6个数据的算例 数值型未分组数据的四分位数 个数据的算例) 个数据的算例
原始数据: 原始数据 23 21 30 28 25 26 21 23 25 26 28 30 排 序: 1 2 3 4 5 6 位 置:
N+ 6+1 6+1 = = 1.75 QL位置 = 1 4 4 3(N+1) 3(N+1) 3(6+1) 3(6+ = = 5.25 QU位置 = 4 4 QL= 21+0.75(23-21) 21+0.75(23= 22. 5 QU = 28+0.25(30-28) 28+0.25(30= 28.5
∑ xi f i x= ∑ fi
xi —第 i 组的代表值(组中值或该组变量值); f i —第 i 组的频数。
4
使用 Excel 函数求加权算术平均数
利用 Excel“数学和三角函数”中的 SUMPRODUCT 函数可以方便地计算出分组数据 的加权算术平均数。 语法规则: 语法规则: 格式:SUMPRODUCT(<区域1>,<区域2>,…) 功能:返回两个或多个区域中对应元素乘积之和。 例:利用比特啤酒公司各销售点分组频数分布数据, 求各销售点的平均销售量。
5
2.几何平均数 几何平均数
当统计资料是各时期的发展速度等前后期的两两 比环数据,要求每时期的平均发展速度时,就需 要使用几何平均数。 几何平均数是 n 个数连乘积的 n 次方根。 (1) 简单几何平均数 )
xG = n x1 x2 xn
(2) 加权几何平均数 )
∑ f x f1 x f 2 x f n xG = 1 2 n
71.5 55 ∑ f / 2 S m 1 Me = L + × d = 100 + × 50 = 119.64(万元) fm 42
众数组为“100~150”的组,
M0 = L + 1 42 35 × d = 100 + × 50 = 115.22 (万元) 1 + 2 (42 35) + (42 26)
a)钟形分布
b)左偏分布
c)右偏分布
d)矩形分布
28
§3.2 度量离散程度的指标
要分析总体的分布规律,仅了解中心趋势指标是不够 的,还需要了解数据的离散程度或差异状况。几个总 体可以有相同的均值,但取值情况却可以相差很大。
频 数
x
相关文档
最新文档