电大社会统计学
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、基本概念
1、众数
众数是一组数据中出现频数最多的数值,用Mo表示。
例如,一个城市有多种产业,但如果以旅游业为最多,那么旅游业就是众数,这个城市也被称为旅游城市。
2、中位数
中位数是中心趋势的一种测量,是将一组数据排序后,处于中间位置的变量值,用Me表示。
中位数处于中间位置,前后每部分均包括50%的数据,而且前面部分小于中位数、后面部分大于中位数。
例如,在职工收入水平差异比较大的单位,要了解职工收入的一般水平,用职工收入分布的中位数作为收入水平的代表值要比用算术平均数更恰当,因为它排除了极端数据的影响。
3、四分位数
四分位数是将一组数据排序后,找出将该组数据等分为四等份的三个点,每份包括25%的数据,这三个点上的数据就是四分位数。
第二个四分位数就是中位数,它前面包括50%数据,后面也包括50%数据,因而,平时所说的四分位数主要是指第一个四分位数和第三个四分位数。
通常,我们将第一个四分位数称为下四分位数(QL),将第三个四分位数称为上四分位数(QU)。
4、均值
均值是集中趋势最主要的测量值,它是将全部数据进行加总然后除以数据总个数,也称为算数平均数。
均值包含一组数据中所有数值,它是先将所有数值进行加总,然后进行平均,在均值中所有数值都有所体现。
因而,我们说均值是集中趋势最主要的测量值。
二、基本方法
1、众数的计算
(1)众数的计算比较简单,就是找出频数最大的即可。
例如“甲城居民对交通满意度调查”,调查者在甲城市随机抽取统计500人调查,调查结果发现,选择“非常不满意”的有50人,“不满意”的有98人,选择“一般”的有204人,选择“满意”的有110人,选择“非常满意”的有38人。
从调查结果可以看出,选择“一般”的居民最多,为204人,占总数的40.8%,因而众数为“一般”这一变量值,即Mo=“一般”。
对于数值型数据,计算众数时,最好先对数据进行排序,有利于计算各变量值频数,避免出错。
(2)对于分组数据,计算具体数值时,根据公式:
对于任意一组数据,基本都存在频数最多的数值,这个数值可能有一个,也可能是两个,或者三个甚至更多,不管存在几个,它们均是该组数据的众数。
但是,有些数据
组的分布没有明显的中心趋势,例如各变量值分布很均匀,即每个观察值出现的次数相同,其就可能不存在众数。
2、中位数的计算
(1)对于未分组数据,在计算中位数时首先要对所有数据进行排序,然后确定中位数的位置。
具体公式为:
n为奇数时,中位数位置=(n+1)/2
n为偶数时,中位数介于n/2和(n/2)+1之间,
其中,n为数据的个数,然后确定中位数的值。
从某个班级随机抽取11位同学,调查期末考试英语成绩,11位同学成绩分别为:98,87,90,89,87,95,83,72,91,93,85。
这是数值型数据,首先对数据进行排序,如下:
72,83,85,87,87,89,90,91,93,95,98
中位数位置=(11+1)/2=6,中位数为89,即Me=89。
再比如,假设从本班抽取10名同学,并进行排序:
72,83,85,87,87,89,90,91,93,95
数据个数为10,是偶数,因而中位数位于第5、6个数据中间,
中位数为Me=(87+89)/2=88
(2)对于分组数据,按照以下公式计算:
其中,L为中位数所在组的下限值,i为中位数所在组组距,fm为中位数所在组频数,Sm—1为中位数所在组之前各组的累积频数。
3、四分位数的计算
(1)对于未分组的数据,首先将数据排序,然后确定四分位数的位置:
QL=(n+1)/4,QU=3*(n+1)/4
(2)对于分组的定序数据,各四分位数的位置:
QL=n/4,QU=3n/4
同样,当四分位数不在某一数值上时,可以根据四分位数的位置,按比例分摊四分位数位置两侧数值的差值。
4、均值的计算
未分组数据均值的计算,先加总然后除以数据总个数:
=
分组数据均值的计算,假设原始数据分为N组,每组数据频数分别为f1,f2,
f3,···,fN表示,各组的组中值分别为X1,X2,X3,···XN表示,计算公式为:=
三、其他重点难点
1、中心趋势
也叫集中趋势,反映一组数据中各个数值向中心值集中的程度,是指一组数据向某一中心值靠拢的趋势。
中心趋势的测量就是找出代表数据水平的代表值或者中心值。
2、众数的特点
(1)众数简单易懂,适用范围广,可以用于各种类型数据中心趋势的测量。
(2)众数不受数据中极端值的影响,它是根据数值出现频数多少来确定的,因而不论极端值为多大或多小,众数都不会受其影响。
(3)众数也有其缺点:首先,众数不稳定,前面我们讲到,对于一组数据,可能存在一个、两个甚至多个众数,也可能不存在众数。
其次,众数只是一个很粗略的反映中心趋势的测量值,对于一些变化很多的数据组,众数并不能很好的反映数据的集中特征。
3、中位数和分位数的特点
中位数和分位数计算简单,而且都是位置代表值,可以用于定序变量中心趋势的测定,同时可以用于数值型变量中心趋势的测量,但是不可以用于测量定类变量中心趋势。
同众数一样,中位数和分位数由于是位置代表,因而不受极端值的影响。
但是由于在计算时不是所有数据都参与运算,因此,它没有利用数据中的所有信息。
另外,对于已分组的数据资料确定中位数时,计算比较麻烦。
4、均值特征
(1)各数值之和等于均值的N倍(N是数据个数)。
(2)各变量值与均值之差的总和等于零,即∑(Xi—)=0。
(3)各变量值与其均值的离差的平方和最小,即∑[(Xi—)*(Xi—)]=最小
同时,由于均值是利用了所有数值的特点,因而,均值容易受极端值的影响,这会降低平均数均值对研究对象整体水平的代表性。
5、三者的特点与适用场合
众数、中位数、均值各自有自己的特点,在实际应用中也有不同的使用场合。
(1)众数是根据数据出现频数判断,是数据分布的峰值。
众数计算简单,可以用于定类数据、定序数据和数值型数据中心趋势的测量,但是主要用于定类数据中心趋势的测量。
众数是位置代表值,不受极端值的影响。
但是,如前面章节中讲到的,一组数据可以能一个、两个甚至多个数据,也可能没有众数存在,因而,众数具有不唯一性。
(2)中位数是根据数据的排列顺序判断,是一组数据中位于最中间位置的数值,将数据分为均等的两部分,可以适用于定序数据和数值型数据中心趋势的测量,但是主要适用于定序数据中心趋势测量,定序数据虽然也可以使用众数作为测量值,但以中位数为最优。
同众数一样,中位数也是位置代表,不受极端值的影响,而且众数和中位数都没有利用所有数值的信息,因而其代表性均不如均值。
其他四分位数、十分位数、百分位数等也是如此。
(3)均值是将所有数据加总后除以数据总个数求出,它利用所有数值的信息,而且具有很好的数学特征。
均值主要适用于数值型数据中心趋势的测量,尽管数值型数据也可以使用众数和中位数,但是均值最佳。
但是,由于均值利用所有数值的信息,因而容易受极端值的影响,尤其是在偏态分布中,均值的代表性较差,这时可以考虑用众数或者中位数等不受极端值影响的位置代表值来代替均值。
6、众数、中位数和均值的关系
众数、中位数和均值都是中心趋势的测量度,众数是数据分布中的最高峰值,中位数始终是位于中间位置的数值,均值则是全部数据的算术平均值。
众数适用于所有类型数据,中位数适用于定序数据和数值型数据,而均值则只适用于数值型数据。
一般情况下,众数、中位数和均值三者具有以下关系:
(1)对于对称分布的数据,其众数、中位数、均值三者是相等的,即Mo=Me=
(2)对于左偏分布,由于存在极小值,均值受极小值影响向极小值一方靠近,而众数和中位数是位置代表值,不受极小值影响,因而三者关系变为:<Me<Mo (3)对于右偏分布,由于存在极大值,均值受极大值影响向极大值一方靠近,而众数和中位数是位置代表值,不受极大值影响,因而三者关系变为:Mo<Me<。