统计学-数据的描述性分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
解: X i xi fi 2640 66个 fi 40
i
关于计算结果的说明
●根据原始数据和分组资料计算的结果一般不会完全相等, 根据分组数据只能得到近似结果.
●只有各组数据在组内呈对称或均匀分布时,根据分组资料 的计算结果才会与原始数据的计算结果一致.
(1).各变量值与均值的离差之和等于零.
i:众数组的组距。
离散程度的描述
●反映各变量值远离其中心值的程度(离散程度),从另一 个侧面说明了集中趋势测度值的代表程度.
3.2.1 离散程度的常用指标
①异众比率
Vr = i
fi fm =1
fi
fm fi
i
i
式中, fi 为变量值的总频数; fm 为众数组的频数. i
异众比率越大,说明非众数组的频数占总频数的比重越大, 众数的代表性越差.
3.2.2 数据的标准化
①定义 标准化数值是变量值与其平均数的离差除以标准
差后的值,也称为z分数或标准分数.设标准化数值为z,则有:
zi
xi
s
x
●对于来自不同均值和标准差的个体的数据,往往不能直 接对比.这就需要将它们转化为同一规格、尺度的数据后 再比较. ●标准分数是对某一个值在一组数据中相对位置的度量.
数值平均数 调和平均数
几何平均数
1.数值平均数:是以统计数列的所有数据来计算的平 均数.其特点是统计数列中任何一项数据的变动,都会 在一定程度上影响数值平均数的计算结果. 2.位置平均数:它不是对统计数列中所有数据进行计 算所得的结果,而是根据数列中处于特殊位置上的个 别单位或部分单位的标志值来确定的.
销售额 x1 536.25万元
s1 =309.19 万元
309.19 v1= 536.25 =0.577
销售利润 x2 32.5215万元
s2 =23.09万元
23.09 v2 = 32.5215 =0.710
结论:计算结果表明,v1 <v2 ,说明产品销售额的离散程度小 于销售利润的离散程度.
标准差系数:标准差与其相应的均值之比,表示为 百分数.
V
(总体)
X

Vs
s(样本) x
特点: 1、反映了相对于均值的相对离散程度; 2、可用于比较计量单位不同的数据的离散程度; 3、计量单位相同时,如果两组数据的均值相差悬殊,离散 系数比标准差更有意义.
例子. 某管理局抽查了所属的8家企业,其产品销售数据 如表3.2所示,试比较产品销售额和销售利润的离散程度.
lg xn )
lg xi
i 1
n
(2)加权几何平均数
n
n
fi G i1
x f1 1
x f2 2
L
x fn n
fi
i1
fi
xi
例3.1.1 一位投资者持有一种股票,1997,1998,1999,2000年 收益率分别为4.5%,2.0%,3.5%,5.4%. 计算该投资者在这四 年内的平均收益率.
x1 x2
xn x1 x2
xn
x i1 i
n
(2) 加权调和平均数
n
H m1 m2 m3 mn m1 m2 m3 mn
mi
i 1
n mi
x1 x2 x3
xn
i1 xi
式中,m表示各单位或各组的标志值对应的标志总量.
例.某蔬菜批发市场三种蔬菜日成交数据如下表,计算三 种蔬菜该日的平均批发价格.
例3.1.2 某企业四个车间流水作业生产某产品, 一车间产 品合格率99%,二车间为95%,三车间为92%,四车间为90%,
计算该企业的平均产品合格率.
4 99% 95% 92% 90% =93.94%.
练习:某管理局所属的15个企业,2000年按其生产某产品 平均单位成本的高低分组资料如下,试计算平均单位成 本.
n
xi x =0
i =1
(2).各变量值与均值的离差平方和最小.
n
2
xi x = min
i =1
②.调和平均数(倒数平均数, Harmonic Mean)
调和平均数分为简单调和平均数和加权调和平均数. (1)简单调和平均数 标志值的倒数的算术平均数的倒数.
1
n
n
H 1 1 L 1 1 1 L 1 n 1
426.67万元
i1
5
2
s
xi x fi
i1 5
fi 1
250 426.672 19 350 426.672 30 L 650 426.672 11
119
i1
116.48 万元
⑥离散系数(Coefficient of variation)
离散系数也称变异系数,是各变异指标与其算术平均 数的比值.例如,将极差与其平均数对比,得到极差系 数;将标准差与其平均数对比,得到标准差系数.最常 用的变异系数是标准差系数:
加权式(分组数据):
n
xi x fi
M D i1 i
fi
i 1
平均差虽然能较好地区别出不同组数据的分散情况或程度,
但它的缺点是绝对值不适合作进一步的数学分析.
⑤标准差和方差(Standard deviation and Variance) 方差是一组数据中各数值与其算术平均数离差平方的平 均数.标准差是方差中的平方根.
3.1.2 位置平均数
①.众数(Mode)
一组数据中出现次数最多的变量值.
主要特点: ●不受极端值的影响. ●有的数据无众数或有多个众数.
说明:如果所有数据出现的次数都一样,那么这组数据没 有众数.
适用范围
众数主要用于分类数据,也可用于顺序数据和数值型数据, 对于未分组数据和单项式分组数据,众数位置确定之后便 找到了众数.
把所有数据由小到大排列并分成四等份,处于三个分割点 位置的数值就是四分位数.
四分位数的计算 首先确定四分位数的位置,再找出对应位置的标志值即为 四分位数.设样本容量为n,则
Q1的位置
n 1 4
,
Q2的位置
2
n 1
4
,
Q3的位置
3
n 1
4
.
如果各位置计算出来的结果恰好是整数,这时各位置上的 标志值即为相应的四分位数;如果四分位数的位置不是整 数,则四分位数为前后两个数的加权算术平均数.权数的大 小取决于两个整数位置与四分位数位置距离的远近,距离 越近,权数越大.
7
问题
1、计算甲、乙、丙三个班的平均成绩;该平均值是真 实值还是近似值?如是近似值,什么情况下会是真实值?
2、计算甲、乙、丙三个班的中位数、众数;
3、如要选择从算术平均数、中位数和众数三个平均数 中选择一个数来分别代表甲、乙、丙三个班的整体水平, 请问你会选择哪个平均数?为什么?
4、如要分别反映甲、乙、丙三个班的考试情况,你会 选择用哪些指标来衡量?
众数、中位数、平均数的特点和应用
1. 众数
– 不受极端值影响 – 具有不惟一性 – 数据分布偏斜程度较大且有明显峰值时应用
2. 中位数
– 不受极端值影响 – 数据分布偏斜程度较大时应用
3. 平均数
– 易受极端值影响 – 数学性质优良 – 数据对称分布或接近对称分布时应用
数值平均数与位置平均数的适用场合?
在实际应用中,计算四分位数的方法并不统一(数据量大时 这些方法差别不大),对于一组排序后的数据:

SPSS中四分位数的位置分别为
n
1 4
,
2
n 1
4
,
3
n 1
4
.

Excel中四分位数的位置分别为n
4
3
,
2
n 4
1
,
3n 1 .
4
练习: 已知9个家庭的人均月收入数据
1500 750 780 1080 850 960 2000 1250 1630
5、如要比较甲、乙、丙三个班的考试情况的优劣,你 又会选择什么样的指标来衡量? 6、甲乙丙三个班的考试成绩分别服从对称分布、左 偏分布、右偏分布中的哪种分布?为什么?
由组距数列确定中位数
n
先计算各组的累计次数,再按公式
i 1
fi
确定
2
中位数的位置,并对照累计次数确定中位数。
下限公式:
n
fi
Me L
数据的描述性分析
本章内容
第一节 集中趋势的描述 第二节 离散程度的描述 第三节 分布的偏态与峰度
集中趋势
集中趋势反映的是一组数据向某一中心值 靠拢的倾向,在中心附近的数据数目较多, 而远离中心的较少。对集中趋势进行描述就 是寻找数据一般水平的中心值或代表值。
位置平均数
众数 中位数
平均数
算术平均数
四分位差的计算公式为:
Qr =Q3 Q1
把所有数据由小到大排列并分成若干等份,处于分割点位 置的数值就是分位数.
分位数可以反映数据分布的相对位置(而不单单是中心 位置). 常用的有四分位数、十分位数、百分位数. 四分位数(Quartile): Q1 ,Q2 ,Q3; 十分位数(Decile): D1 , D2 ,..., D9; 百分位数(Percentile): P1, P2 ,...,P99 ;
②全距(极差)
极差(Range)也叫全距,是一组数据的最大值与最小值之 差,即:
R max( xi ) min( xi )
组距分组数据可用最高组上限-最低组下限计算.
③四分位差 四分位差(quartile deviation)也称内距或四分间距(interquartile range),是指第三四分位数和第一四分位数之差.
注:总体方差和样本方差的符号不同,计算公式也不一 样.是反映定量数据离散程度的最常用的指标.
例. 在某地区抽取的120家企业按利润额进行分组,结果如 表3.1所示.
表3.1 某地区120家企业的利wenku.baidu.com额分组
计算120家企业利润额的均值和标准差.
5
Key : x
xi fi
i1 5
fi
25019 35030 450 42 55018 65011 120
i 1
2
sm1 i
fm
L 为中位数组的下限;
f 为总次数;
Sm1 为中位数组前一组的向上累计次数;
fm 为中位数组的次数;
i 为中位数组的组距。
组距式变量数列计算众数的公式:
M0
L
1 1 2
i
M0 :众数,L:众数组的下限值;
1:众数组次数与下一组次数之差;
2:众数组次数与上一组次数之差;
③.几何平均数(Geometric Mean)
是另一种形式的平均数,是n个标志值乘积的 n 次方根.主 要用于计算平均比率和平均速度. (1)简单几何平均数
1
G n x1 x2 L xn xi n
式中G表示几何平均数, xi表示各项标志值.
n
可以看作均值的一种变形lg G
1 n (lg x1 lg x2
中国工商银行的某笔投资的年利率是按照复利计算的,25 年利率分配(按时间数列):有一年是3%,有4年是4%,有8年 是8%,有10年为10%,有2年为15%.求平均年利率.
注:(1)
(2) 数值平均数主要适用于定量数据,而不适用于定性数据. (3) 简单数值平均数适用于未分组的资料,加权数值平均数 适用于分组的资料.
3.1.1 数值平均数
数值平均数包括算术平均数、调和平均数和几何平均数.
①.算术平均数(均值, Arithmetic Mean)
总体均值常用X 或 表示,样本均值常用 x表示,样本均值
的计算公式:
简单算术平均数:
x
x1 x2
xn
n
x i
i1
nn
n
加权算术平均数:
xi fi
x
i 1 n
fi
权数的意义和作用
• 权数:各组次数(频数)的大小所对应的标志值对平均数
的影响具有权衡轻重的作用.
• 当各组的次数都相同时,即当f1 =f2 =f3 =L =fn 时:
加权算术平均数就等于简单算术平均数.
n
n
n
xi fi f xi
xi
x
i 1 n
fi
i 1
nf
i1 n
i 1
例:计算某车间工人加工零件平均数(组距式数列)
案例1:甲班《统计学》考试情况如下表:
60分以下
2
60-70
8
70-80
22
80-90
10
90分以上
4
案例2:乙班《统计学》考试情况如下表:
60分以下
2
60-70
30
70-80
8
80-90
4
90分以上
1
案例3:丙班《统计学》考试情况如下表:
60分以下
2
60-70
5
70-80
12
80-90
25
90分以上
试求这组数据的第一和第三四分位数.
四分位差反映了中间50%数据的离散程度,数值越小说明 中间数据越集中.
④平均差(Mean deviation)
平均差也称平均绝对偏差,总体所有单位的标志值与其平
均数的离差绝对值的算术平均数.通常用M D表示.
未分组数据计算平均差的公式为:
n
xi x
M D i1 n
例:分类数据的众数
例:顺序数据的众数
②.中位数(Median)
中位数是一组数据按一定顺序排列后,处于中间位置 上的变量
负偏 注: (1)中位数总是介于众数和平均数之间.
正偏
(2) 皮尔逊经验法则 分布在轻微偏斜的情况下,众数、中位数和算术平均 数数量关系的经验公式为:
x Mo 3(x Me )
相关文档
最新文档