数据特征的测度

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据特征的测度

统计数据经过整理和显示后,我们对数据分布的类型和特点就有了一个大致的了解,但这种了解只是表面上的,还缺少代表性的数量特征值准确地描述出统计数据的分布。为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。对统计数据分布的特征,我们可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的偏态和峰度,反映数据分布的形状。这三个方面分别反映了数据分布特征的不同侧面,这里我们主要讨论集中趋势和离散程度的测度方法。

(一)集中趋势的测度

集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。集中趋势的测度值主要有众数、中位数、均值、几何平均数等几种。

1.众数

众数是一组数据中出现次数最多的变量值,用0M 表示。例如,下面是抽样调查的10个家庭住房面积(单位:平方米)的数据:

55 75 75 90 90 90 90 105 120 150

这10个家庭住房面积的众数为90。即0M =90(平方米) 众数是一个位置代表值,它的特点是不受数据中极端值的影响。 2.中位数

中位数是一组数据按一定顺序排序后,处于中间位置上的数值,用e M 表示。显然,中位数将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。

根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置,其公式为:

2

1

+n 中位数位置=

式中的n 为数据的个数,最后确定中位数的具体数值。

设一组数据为1x ,2x ,…,n x ,按从小到大排序后为)1(x ,)2(x ,…,)(n x ,则中位数可表示为:

⎪⎪⎩

⎪⎨⎧⎪⎪⎭⎫

⎝⎛+=++为偶数时

当为奇数时当n x x n x M n n n e 122)21

(21 例如,在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:

元):

750 780 850 960 1080 1250 1500 1650 2000

中位数位置=(9+1)÷2=5,中位数为1080,即e M =1080(元)。 假定我们抽取了10个家庭,每个家庭的人均月收入数据为: 660 750 780 850 960 1080 1250 1500 1650 2000 这时,中位数位置=(10+1)÷2=5.5,中位数为1020,即:

10202

1080

960=+=

e M (元)

中位数是一个位置代表值,其特点是不受极端值的影响,在研究收入分配时很有用。 3.均值

均值也称为算术平均数,它是全部数据的算术平均。均值在统计学中具有重要的地位,是集中趋势的最主要测度值,根据所掌握数据的不同,均值有不同的计算形式和计算公式。

(1)简单均值。根据未经分组整理的原始数据计算均值。设一组数据为1x ,2x ,…,

n x ,则均值x (读作x-bar )的计算公式为:

n

x n

x x x x n

i i

n

∑==

+++=

1

21

例如,根据下面的例子,计算10个家庭的平均住房面积。 55 75 75 90 90 90 90 105 120 150

9410

150

1207555=++++=

x (平方米)

(2)加权均值。根据分组整理的数据计算均值。设原始数据被分成k 组,各组的组中值为1x ,2x ,…,k x ,各组变量值出现的频数分别为1f ,2f ,…,K f ,则均值的计算公式可以写为:

∑∑===

++++++=k

i i

k

i i

i k

k k f f x f f f f x f x f x x 1

1212211

例如,假定我们在某城市中随机抽取50个家庭,调查住房面积,经分组后结果如表。计算50个家庭的平均住房面积。

计算过程见表。

4-7 某城市50个家庭住房面积均值计算表

代入上面的公式得:

8.9850

4940

1

1==

=

∑∑==k

i i

k

i i

i f f x x (平方米) 从加权均值可以看出,其数值的大小不仅受各组变量值(i x )大小的影响,而且受各组变量值出现的频数即权数(i f )大小的影响。如果某一组的权数较大,说明该组的数据较多,那么该组数据的大小对均值的影响就越大,反之则越小。实际上,我们将加权均值变形为下面的形式,就能更清楚地看出这一点。

∑∑∑∑====⋅

==

k

i k

i i

i

i k

i i

k

i i

i f f x f f x x 1

1

1

1

由上式可以清楚地看出,加权均值受各组变量(i x )值大小和各组权数∑=k

i i i

f f 1

大小

的影响。当我们掌握的不是各组变量值出现的频数,而是频率时,也可直接根据上面的公式计算均值。

均值在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。从统计思想上看,均值是一组数据的重心所在,是数据误差相互抵消后的必然性结果。比如我们对同一事物进行多次测量,若所得结果不一致,可能是由于测量误差所致,也可能是其他因素的偶然影响,利用均值作为其代表值,则可以使误差相互抵消,反映出事物必然性的数量特征。均值的缺点是容易受极端值的影响。

4.几何平均数

几何平均数是n 个变量值乘积的n 次方根,计算公式为:

n

n

i i

n

n x x x x G ∏==⨯⨯⨯=1

21

式中:G 表示几何平均数,∏为连乘符号。 几何平均数是适用于特殊数据的一种平均数,它主要用于计算比率或速度的平均。当我们所掌握的变量值本身是比率的形式,而且各比率的乘积等于总的比率,这时就应采用几何平均法计算平均比率。在实际应用中,几何平均数主要用于计算社会经济现象的平均发展速度。

例如,一位投资者持有一种股票,在1996、1997、1998和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。

解:根据几何平均数的计算公式得:

n n x x x G ⨯⨯⨯= 21

4%4.105%5.103%0.102%5.104⨯⨯⨯=

相关文档
最新文档