简明应用统计学夜大第三章第一节 描述数据:如何用少量数字概括数据
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
方米和130平方米,前面已经讨论得出均值92.67平方米 不是一个很好的代表值,因为极大值130平方米的出现使 得均值可能会超过样本中的大多数观测值,使得集中趋势 的测度发生偏差。而中位数m=76平方米则更能代表实际 的平均住房面积。
• 定性数据也有中位数:如,对于某个市场调查问 题的回答,一人认为“好极了”,一人认为“很 好”,一人认为“一般”和一个人认为“差”, 那么回答的中位数就是“好”,一般的回答在 “好”之上,一半的回答在“好”之下。
其中,n为样本数据的数据个数(样本量),Xi 为样本的第i个数据
样本均值
X
具有以下重要性质:
(1)一组数据只有一个样本均值,样本均值具有唯一性。 (2)样本均值是比较两个戒多个总体时一个非常有用的工具。 如它可以用于比较我国东西不农民收入的差异;两个班级的成 绩优异度等; (3)每一数值相对于均值的偏离之和总是0,样本均值是唯一 一种具有此性质的集中趋势度量方法。用符号表示为
2.中位数的确定
对未分组资料确定中位数。 • 将总体各单位的标志值按 照大小顺序排列, • 当总体单位数n为奇数时
me x n 12Fra bibliotek• 当总体单位数n为偶数时
xn xn me
2 2
1
2
中位数具有稳健性,即,不易受极端值影响的性质。
• 例如:假设三户人家的住房面积分别为72平方米,76平
x
n i 1
i
-x
0
因此,我们可以将均值视为一组数据的平衡点。 值得注意的是,样本均值容易受到极大戒极小值得影响。例如, 假设三户人家的住房面积分别为72平方米,76平方米和130平方 米,则均值为(72+76+130)÷3=92.67 很明显,130这个数字影响了均值 ,使其不能够恰当地代表数 据的平均数了。
第三章
描述数据:如何用少量数字概括数据
3、1 引言
•
在第二章,我们介绍了使用统计图和统计表来显示数据
的基本方法。然而在许多情况下,我们常常需要用几个简 单的数字来浓缩概括具有很多数字的变量或指标。比如, 我们说北京人的人均收入是多少,大学生占人口的百分比 等等。这些“人均收入”、“百分比”的数字就是对大量 观测数据的概括。这种概括使得人们对数据有一个简单而 又直接的认识。由于定性变量主要用于计数,常用的概括 方法就是比例、百分比以及频数等。这些在第二章中已经 涉及,在这里我们主要介绍定量变量的数字描述。
联系: (1) 三者都是作为反映总体一般水平(或集中趋 势)的平均指标: (2) 三者之间存在着一定的数量关系, A.在对称的正态分布条件下:算术平均数等于众数等 于中位数: B.在非对称正态分布的情况下,众数、中位数和平均 数三者的差别取决于偏斜的程度,偏斜的程度越大, 它们之间的差别越大 • 当次数分配呈右偏(正偏)时:算术平均数受极大 值的影响
下面我进一步了解平均数----加权平均数
• 加权平均数是平均数的一种特殊形式,它应用在以下情 况:如果数据已经分组得到了频数分布,一些观测可能 具有相同的数值,此时一个较为简便的计算均值的方法 是计算加权平均数。即,我们将每个观测值与它出现的 次数相乘。用 X 来代表加权平均数。一般的,用 x • x1, 2 - - - -xn 表示的一组数据,它们相应的频数分别为
当次数分配呈左偏(负偏)时,算术平均数受极小值 的影响 ;
• 中位数则总是介于众数和平均数之间
x Me Mo Mo Me x
数据类型与集中趋势测度值
※为该数据类型最适合用的测度值.
如果一只脚放在摄氏1度的水里, 另一只脚放在摄氏79度的水里, 平均水温40度。你感觉舒服极了 !?
3、2、3 众数
• 1、定义 • 众数是另一种集中趋势度量方法,是数据中重复 出现次数最多的数。 • 当样本的观测值没有重复时,众数就没有意义。 但是在离散定量变量和定性变量情况下,它能明 确反映数据分布的集中趋势,因此在这种情况下 ,众数常常有意义。
众数的优缺点
• 优点:众数不受极端值得影响。 • 在某些情况下,众数是一个较好的代表值,如 ,在了解大多数家庭的收入状况是,就可以用众 数。 • 缺点:1、并非所有数据都有众数; • 2、有些情况下会出现存在多个众数 • 3、对于某些数据,众数会不存在,因为观 测值可能会出现一次; • 例如,年龄的数据22,26,27,27,31,35,35。其,27 和35都是众数,这样的数据称为双众数,从而会 导致人们对于众数对这组年龄数据集中趋势的代 表性产生质疑。
w
w1,w 2 - - - -wn
则它们的加权平均数计算公式为:
w1 x1 w2 x2 w3 x3 wn xn xw w1 w2 w3 wn
权数的意义和作用
• 权数:各组次数(频数)的大小所对应的标志值 对平均数的影响具有权衡轻重的作用。 • 当各组的次数都相同时,即当f1=f2=f3=…=fn时: • 加权算术平均数就等于简单算术平均数。 • 需要注意的是:通常使用频数分布数据计算的平 均数存在一定误差,这是因为频数分布中没有包 含完整的数据信息。
•
在描述定量变量的数据时,我们一般用汇总统计量或概括 统计量来描述。 这些数字是从样本数据得来的,因而也是样本的函数,任 何样本的函数,只要不包含总体的未知参数,都称为统计量 。
•
由于样本是随机的,因而作为其函数的统计量也是随机 变量。对于不同的样本,统计量的取值也不同。 • 当样本确定时,统计量有且仅有一个值,不再是随机的 了,它是相应统计量的实现值。
3、2、1 均值
• 最常用的位置统计量就是小学时所学到的算术平均数,它在统 计中叫做均值;均值反映同类现象在特定条件下所达到的平均 水平,是总体分布的一个重要特征。严格地说均值叫做样本均 值,以区别于总体均值。 总体均值:研究全部数据而得到的平均值,即总体的全部数 值之和除以总体中数值的个数。当数据比较大时,可以进行随 机抽样的方法获得样本,进而得到有关总体的某一方面特征的 信息,此时得到的均值就是样本均值,(均值)。 如果记样本中的观测值为x1,…,xn,则样本均值定义为
3、2、4 均值、中位数和众数的相对位置
• • • • • • 选择哪种集中趋势度量将依赖于所分析数据集的 性质和应用要求。因此,了解均值、中位数和众 数之间的关系很重要。 三者的区别: 1) 三者的含义不相同; 2) 三者的计算(确定)方法不同; 3) 对资料的要求不同, 4) 对数据的“灵敏度”、“抗耐性”和“概括能 力”不同。
3、2、2 中位数
• 在前面我们应经提到,当一组数据中存在一个 或多个过大或者过小的数值时,均值可能就不具 有代表性了。对于这样的数据我们使用另一种度 量方法来描述其集中趋势。 • 1.定义: • 中位数m是将总体各个单位按其标志值的大小顺 序排列,处于数列中点的那个单位的标志值,在 总体中,标志值小于中位数的单位占一半;标志 值大于中位数的单位也占一半。
3、2 集中趋势的数字度量
• 有些汇总统计量是描述数据“位置”的,其实数 据的每个点都有自己的位置,不可能一 一列举, 很多时候也没有必要这样做。能够做的就是描述 数据的“中间”或“中心”在哪里,数据离中心 多远,或者数据的百分之几的数据点小于哪个数 ,等等。 • 中心位置(集中趋势)这种和“位置”有关的统 计量我们称为位置统计量。后面学到的均值、中 位数、众数都是位置统计量。