“平均数”的陷阱
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
“平均数”的陷阱
不管是学过统计的还是没有学过统计的人,对于“平均数”这个概念想必不会陌生,但是,“平均数”真的是一个很容易理解和应用的概念吗?事实上,并非如此的简单,我们经常掉入“人为设计”的统计陷阱中而不能看到事实的真相。
“平均数”这个词有很广泛的含义。
当一个家伙希望影响公共概念时,或者向其他人推销广告版面时,平均数便是一个经常被使用的诡计,有时出于无心,但更多时候是明知故犯。
在统计上,平均数有三个具体的种类,分别是:均值(mean)、中位数(median)和众数(mode)。
其含义分别是:
均值(Arithmetic mean,简称为mean):是将一组数据的总和除以数据个数得到的,因此,一组数据只有一个均值,其计算公式如下:
中位数(median):英文解释是:a median is described as the number separating the higher half of a sample, a population, or a probability distribution, from the lower half. 是将所有数据按照由小到大进行排列,若数据为奇数个,中位数为中间那个数据;若数据为偶数个,中位数则是中间两个数的平均值。
众数(mode):英文解释是:the value that has the largest number of observations。
是指一组数据中,出现频次最高的那个数据。
一组数据可以有多个众数,也可以没有众数。
三个平均数的关系是怎样的呢?这根数据的分布情况有关。
当数据的分布十分接近于正态分布时,它的均值、中位数和众数落在同一点上。
当数据的分布偏离正态分布时,数据的分布不再对称,而是有偏的,形状类似于孩子玩的滑梯,这时三个平均数就存在着较大的差异。
说到这里,相比大家已经很清楚这三个数据之间的差异。
一个没有加以限定的“平均数”,最终是没有意义的。
为何在现实生活中,我们经常对这三个概念不加区分呢?一个可能的原因是:有些资料的平均数落在十分接近的范围内,也就是数据的分布很接近于正态分布,出于一般的目的没有必要区分它们。
最后举个例子。
某杂志对新订阅者,有如下的描述:“他们的平均年龄(中位数)为34岁,家庭平均收入为7270元。
”为何这里谈到年龄时指出是中位数,而关于收入却不明确平均数的类型?也许这里使用的是均值,以便利用高收入读者群达到吸引广告商的目的。