统计学第四章第三节
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二节离散程度的测度
克拉克批发公司
集中趋势只是数据分布的一个特征,数据的离中趋势是数据分布的另一个重要特征。两者是反映总体数据分布特征的一对对立统一的代表值。
一、离散程度指标,又称标志变异指标,标志变动度。
(一)定义
就是总体各项标志值差别大小的程度。
(二)应用
1 •主要是评价平均数代表性的依据。平均数的代表性与标志变动度的数值成反比。
例如:有甲乙两组工人,人数都是5人。每人每日产量:
甲:5 20 45 85 95
乙:48 49 50 51 52
平均数50
95-5 90
52-48 4
2 •标志变动度可以用来反映社会生产和其他社会经济活动过程的均衡性或协调性。
标志变动度小,就说明生产或经济活动各阶段变动幅度小,是均衡的协调的,反之,就是不均衡,不协调的。
10天
道森供应公司
、测量标志变动度的主要方法
一)异众比率——分类数据,顺序数据,数值型数据
1 定义:异众比率,即非众数组的频数占总频数的比率
2 公式:
Vr=(刀fi —fm)/ 刀fi =1 —fm/ 刀fi
刀fi变量值的总频数, fm 众数组的频数。
3 作用:主要用于衡量众数对一组数据的代表程度。
异众比率越大, 说明非众数组的频数占总频数的比重越大, 众数的代表性就越差;反之,异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。
4 适用范围:测定分类数据(也可以是顺序数据,数值型数据)的离散程度
饮料品牌频数
可口可乐15
旭日升11
百事可乐9
汇源果汁6 露露9
合计50
异众比率
解:
Vr=(刀fi —fm)/ 刀fi
=1—fm/ 刀fi
=(50—15)/50
=35/50=0.7=70%
二)四分位差——顺序数据数值型数据
1 定义:上四分位数和下四分位数之差。
2 公式:Qd=Qu—Ql
3 作用:反映了中间50%数据的离散程度。其数值越小,说明中间的数据越集
中,数值越大,说明中间的数据越分散常常和中位数一起使用
4 特点:四分位差不受极值的影响。
例如:在某城市中随机抽取9 个家庭,调查得到每个家庭的人均月收入数据如下(单位为元),计算人均月收入的四分位差
1500 750 780 1080 850 960 2000 1250 1630
解:先按大小顺序排队
750 780 850 960 1080 1250 1500 1630 2000 QL 位次
(n+1)/4 = ( 9+1) /4=2.5
QL=( 780+850) /2=815 (元)
QU 位次
3(n+1)/4 =3 (9+1) /4=7.5
QU=( 1500+1630) /2=1565(元)
四分位差
Qd=Qu—Ql
=1565—815=750(元)
三)全距(极差)——数值型数据
1 全距——是一个数列中两个极端数值之差。(最大值- 最小值)组距数列,以最
大一组的上限和最小一组的下限之差为全距。
例如:
甲:5 20 45 85 95
乙:48 49 50 51 52 甲组全距=95-5=90 乙组全距=52-48=4
一般地说,全距数值愈小,标志变动度愈小,反映变量值愈集中,反之,越大。
2 评价:意义明确,计算简单。但不考虑中间变量,受极端值影响。有时根本反映不
出差异程度。
10 20 30 40 50 60 70 80 90 100 55 90
10 50 50 50 50 60 60 60 60 100 55 90
(四)平均差
1 定义:各标志值对其算数平均数的平均离差
2 公式
五)标准差
1 定义
各标志值对其算数平均数的平均离差
2 简单式(未分组资料)
3 加权式(分组资料)如果是样本资料,将来要推断总体的,方差及标准差的公式就是:分母用样本数据个数减1:n—1 ——n—1 称为自由度。
公式为:
为什么样本方差是用自由度n—1 去除?样本方差的表达式中的分子,为n 个量的平方和,为何自由度只有n —1 、这是因为这n 个离差并不能自由变化,而是受到一个约束,即离差之和等于零,这使它的自由度少了一个。在样本方差公式中的分母上是n—
1,就是因为当给
定均值时,x1,x2,x3, ----- xn, 这n 个数据中前n—1 个数据都可以自由取值,
而第n个数据受全部数据的平均值的制约,不能自由取值。第n个数据可以由公式刀xi 求得。因此,方差的自由度是n —1 o
也可以这样理解:从字面意义上看,自由度是指一组数据中,可以自由取值的个数。当样本数据的个数为n时,如果样本平均数确定后,只有n—1个数据可以自由取值,其中必有一个数据不能自由取值。例如,假如样本有3个数值,
X仁2 X2=4, X3=9,则平均数=5o当平均数=5确定后,XI, X2, X3只有两个数据可以自由取值,其中必有一个不能自由取值。例如X仁6, X2=7,那么X3 则必然取2,而不能取其他值。
另一种解释:即共有n个样本,有n个自由度。用样本方差估计总体方差,自由度本应为n,但总体均值也未知,用样本平均数去估计它,就用掉了了一个自由度,故,只剩下n—1个自由度。
(七)标准差系数
厂名工人平均标准差标准差系数劳动生产率(元)甲16000 600 3.75
乙8000 400 5.00