第四章 统计数据描述性统计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n
( x i x )2
s 2 i 1 n 1
未分组数据
k
( M i x )2 f i
s 2 i 1 n 1
分组数据
离散趋势的度量
第四章 数据描述性统计
1.异众比率 2.四分位差 3.方差和标准差 4.变异系数
EXCEL
=STDEV ( )
(4) 标准差(Standard Deviation)
v1
x1 s1
0.71
结论:计算结果表明, v1<v2 ,说明产
品销售额的离散程度小于销售利润的离 散程度。
偏度与峰度的度量
第四章 数据描述性统计
集中趋势的度量 离散趋势的度量 偏态与峰态的度量
偏度与峰度的度量
第四章 数据描述性统计
1.偏态及其测度 2.峰度及其测度
数据分布偏斜程度的测度
SK n xi x 3 (n 1)(n 2)s 3
各变量值与其平均数离差绝对值的平均数
n
xi x
M d i 1 n
未分组数据
k
Mi x fi
M d i 1
n
分组数据
离散趋势的度量
第四章 数据描述性统计
1.异众比率 2.四分位差 3.方差和标准差 4.变异系数
EXCEL
=VAR ( )
(3) 方差(Variance)
一组数与其算术平均数的离差平方和
排序后处于中间位置上的值
EXCEL
=MEDIAN( )
集中趋势的度量
第四章 数据描述性统计
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 4.平均数(Mean)
排序后处于前四分之一和后四分之一位置上的值
主要用于顺序数据,也可用于数值型数 据,但不能用于分类数据
不受极端值的影响
排序后处于中间位置上的值
计算过程
确定位置:
位置
n
2
1
确定数值:
Me
x
n 1 2
1 2
x
n 2
x
n 2
1
Βιβλιοθήκη Baidu
n为奇数 n为偶数
集中趋势的度量
第四章 数据描述性统计
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 4.平均数(Mean)
EXCEL
集中趋势的度量
第四章 数据描述性统计
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 4.平均数(Mean)
也称为均值,是集中趋势最常用的测度值
根据总体数据计算的,称为平均数,记
为 ;根据样本数据计算的,称为样本
平均数,记为 x
有简单平均数和加权平均数之分 易受极端值的影响
集中趋势的度量
第四章 数据描述性统计
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 4.平均数(Mean)
排序后处于前四分之一和后四分之一位置上的值
方法四: Excel给出的四分位数位置的 确定方法
QL位置
n
3 4
QU位置
3n 1
4
EXCEL
=Quartile ( )
分布形状 偏态系数 峰态系数
如果位置不是整数,则按比例分摊 位置两侧数值的差值
集中趋势的度量
第四章 数据描述性统计
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 4.平均数(Mean)
排序后处于前四分之一和后四分之一位置上的值
方法四: Excel给出的四分位数位置的 确定方法
EXCEL
=MEDIAN( )
几何平均数
n
Gm n x1 x2 xn n
xi
i 1
适用于对比率数据的平均
主要用于计算平均增长率
集中趋势的度量
第四章 数据描述性统计
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 4.平均数(Mean)
EXCEL
=Geomean( )
也称为均值,是集中趋势最常用的测度值
这一品牌。
集中趋势的度量
第四章 数据描述性统计
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 2.平均数(Mean)
一组数据中出现次数最多的变量值
EXCEL
=MODE( )
集中趋势的度量
第四章 数据描述性统计
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 4.平均数(Mean)
EXCEL
=Quartile ( )
集中趋势的度量
第四章 数据描述性统计
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 4.平均数(Mean)
EXCEL
=Quartile ( )
排序后处于前四分之一和后四分之一位置上的值
方法一:
QL位置
n 4
QU位置
3n 4
集中趋势的度量
左偏分布
SK 0
右偏分布
SK 0
偏度与峰度的度量
第四章 数据描述性统计
1.偏态及其测度 2.峰度及其测度
数据分布扁平程度的测度
n(n 1)
K
(xi x)4 3
(xi x)2 2 (n 1)
(n 1)(n 2)(n 3)s 4
尖峰分布
K 0
扁平分布
K 0
偏度与峰度的度量
第四章 数据描述性统计
第四章 数据描述性统计
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 4.平均数(Mean)
EXCEL
=Quartile ( )
排序后处于前四分之一和后四分之一位置上的值
方法二:
QL 位置
n 1 4
QU 位置
3(n 1) 4
集中趋势的度量
第四章 数据描述性统计
非众数组的频数占总频数的比例
vr
fi fm 1 fi
fm fi
对分类数据离散程度的测度 可用于衡量众数的代表性
离散趋势的度量
第四章 数据描述性统计
1.异众比率 2.四分位差 3.方差和标准差 4.变异系数
上四分位数与下四分位数之差,也称为内距或四分间距
Qd QU QL
对顺序数据和数值型数据离散程度的测度 反映了中间50%数据的离散程度 用于衡量中位数的代表性
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 4.平均数(Mean)
EXCEL
=Quartile ( )
排序后处于前四分之一和后四分之一位置上的值
方法三:
Q位置
n 1 2
2
1
其中[ ]表示中位数的位置取整。这 样计算出的四分位数的位置,要么 是整数,要么在两个数之间0.5的位 置上
第四章 数据描述性统计
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 2.平均数(Mean)
EXCEL
=MODE( )
一组数据中出现次数最多的变量值
例:左表是主要手机品 牌市场占有率调查数据, 在所调查的100人中, 拥有诺基亚品牌手机的 被调查者最多,为28人, 因此众数为“诺基亚”
Mk fk fk
k
Mi fi
i1 n
M 1,M 2, M k 是组中值,f1 ,f 2 f k 是频数
集中趋势的度量
第四章 数据描述性统计
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 4.平均数(Mean)
EXCEL
=Geomean( )
n 个变量值乘积的 n 次方根
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 4.平均数(Mean)
EXCEL
=MODE( )
一组数据中出现次数最多的变量值
适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据
和数值型数据
集中趋势的度量
集中趋势的度量
第四章 数据描述性统计
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 4.平均数(Mean)
EXCEL
=Average ( )
也称为均值,是集中趋势最常用的测度值
算术平均数
x
x1
x2
n
n
x n
xi
i 1
n
加权算术平均数
x M1 f1 M 2 f2 f1 f2
排序后处于中间位置上的值
不受极端值的影响 主要用于顺序数据,也可用数值型数据,
但不能用于分类数据
EXCEL
=MEDIAN( )
集中趋势的度量
第四章 数据描述性统计
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 4.平均数(Mean)
EXCEL
=MEDIAN( )
离散趋势的度量
第四章 数据描述性统计
1.异众比率 2.四分位差 3.方差和标准差 4.变异系数
【例】某管理局抽查了所属的8家企业,其产品销售 数据如表。试比较产品销售额与销售利润的离散程度
某管理局所属8家企业的产品销售数据
企业编号
1 2 3 4 5 6 7 8
产品销售额(万元) x1
170 220 390 430 480 650 950 1000
均值 中位数 众数 均值= 中位数= 众数 众数 中位数 均值
左偏分布
对称分布
右偏分布
偏度与峰度的度量
第四章 数据描述性统计
用Excel计算描述统计量
偏度与峰度的度量
第四章 数据描述性统计
数据分布特征
集中趋势 众数 中位数 平均数
离散程度 异众比率 四分位差 极差 平均差 方差、标准差 离散系数
离散趋势的度量
第四章 数据描述性统计
1.异众比率 2.四分位差 3.方差和标准差 4.变异系数
(1) 极差 一组数据的最大值与最小值之差
R Max ( x ) Min( x )
易受极端值影响
离散趋势的度量
第四章 数据描述性统计
1.异众比率 2.四分位差 3.方差和标准差 4.变异系数
(2) 平均差
第四章 集中趋势的度量 数据第四的章 描数据述描述性性统统计 计
集中趋势的度量 离散趋势的度量 偏态与峰态的度量
集中趋势的度量
第四章 数据描述性统计
一组数据向其中心值靠拢的倾向和程度
测度集中趋势就是寻找数据水平的代表值 或中心值
不同类型的数据用不同的集中趋势测度
集中趋势的度量
第四章 数据描述性统计
销售利润(万元) x2
8.1 12.5 18.0 22.0 26.5 40.0 64.0 69.0
离散趋势的度量
第四章 数据描述性统计
1.异众比率 2.四分位差 3.方差和标准差 4.变异系数
x1 536.25 s1 309.19
v1
x1 s1
0.557
x 2 32.52 s2 23.09
离散趋势的度量
第四章 数据描述性统计
集中趋势的度量 离散趋势的度量 偏态与峰态的度量
离散趋势的度量
第四章 数据描述性统计
反映各变量值远离其中心值的程度(离散程度)
从另一个侧面说明了集中趋势测度值的 代表程度
不同类型的数据有不同的离散程度测度 值
离散趋势的度量
第四章 数据描述性统计
1.异众比率 2.四分位差 3.方差和标准差 4.变异系数
=MEDIAN( )
排序后处于中间位置上的值
例:第一步: 确定位置: 位置 =(1000+1)/2=500.5 从分布表可以看出 中位数在“一般” 这一组别中。 即: 中位数=一般
集中趋势的度量
第四章 数据描述性统计
1.众数(Mode) 2.中位数(Median) 3.分位数(Quartile) 4.平均数(Mean)
方差的平方根
n
( x i x )2
s
i 1
n 1
未分组数据
k
( M i x )2 f i
s i 1 n 1
分组数据
离散趋势的度量
第四章 数据描述性统计
1.异众比率 2.四分位差 3.方差和标准差 4.变异系数
标准差与其相应的均值之比
vs
s x
对数据相对离散程度的测度 消除了数据水平高低和计量单位的影响
【例】一位投资者购持有一种股票,在2000、 2001、2002和2003年收益率分别为4.5%、 2.1%、25.5%、1.9%。计算该投资者在这 四年内的平均收益率 几何平均数
G 4 104.5% 102.1% 125.5% 101.9% 1 8.0787%
算术平均数
G 4.5% 2.1% 25.5% 1.9% 4 8.5%