管理统计学:第三章:样本数据特征

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 2.直方图:适用于大量不重复样本值的数 据集合。 • 在绘制直方图时,如何对数据分组, 如何确定区间长度、区间个数?如何确定 区间起点?参见教材。 • 今后软件可自动完成分组和绘图。 • 需要掌握的是:直方图与条形图的区别, 各适用于什么数据特点?
• 作直方图时,在区间长度确定后,如何确定区 间个数? (数据集合中最大值-数据集合中的最小值)/区 间长度,其值4舍5入后加1为组的个数。 • 作直方图时,如何确定最左端区间的中心位置? 取出样本数据集合中的最小值;确定备选 的起始区间的中心位置;在备选区间的中心位 置中,哪个与最小值接近,就确定为数据分组 的起始区间。
• 问:若以100cm为茎节宽?茎节是多少?对吗? • 结论:样本数据集合中的“茎节”必须是有变化 的 • ∴茎节宽应为10cm • 把所有的数据都表达为“茎节· 叶”形式后,把相 同茎节的数据合并为“茎节· 叶1叶2……”形式 (叶,要从小到大排列),再把不同的茎节从小 到大纵向排列,就得到茎叶图:
第 3章 样本数据特征的初步 分析
第3章 样本数据特征的初步分析
• 第3.1节 样本数据结构的基本特征:频次 与频率 • 第3.2节 观察刻度级样本数据结构的茎叶 图与直方图方法 • 第3.3节 样本数据的位置特征:对数据中 心的描述 • 第3.4节 样本数据的离散特征 • 第3.5节 样本数据特征的综合表达:箱形 图
• 其中,R表示暗红色,Y表示淡黄褐色,G表示 浅绿色,W表示白色,B表示黑色。 • 统计出各个颜色出现的频率如下:
家具基 色 基色频 次 基色频 率
B 1 3.33
G 6 20.0
R 8 26.7
W 5 16.7
Y 10 33.3
合计 30 100
• 当然,也可以统计出顺序级数据集合的 频次与频率结构。
• 例如,可用茎叶法,把123表达为1.23 (此时,茎节宽=100) • 此时,123(样本值)=1.23(茎叶表达) ×100(茎节宽) • 问:若茎节宽度为10,如何表达123?
• 2.例题与茎叶图的作法 • 例3.2.1 某班级男生的身高(厘米)
• 171 182 175 177 178 181 185 168 170 175 177 • 180 176 172 165 160 178 186 190 176 163 183
• 某商品在30个商店的价格例(注意间距)
• 某科室职工文化程度例(有顺序,无间距)
• 家具基色调例(横坐标的色彩无顺序关系)
• 3.1.3 样本数据集合的基本特征的延伸: 累积频率(Cumulative Percentage)
• 1.累积频率的概念(简单) • 设X1<X2<…<Xm,是样本数据集合中的不 重复的样本值(m≤n样本个数)。 • 若把样本值小于等于某个样本数据Xi的频率值, 都累加起来,就得到“小于等于Xi”的累积频 率。 • 2.表格法表示累积频率(以价格问题为例):
• 某单位职工文化程度的结构(顺序级数据)
• • • •
2.表示频次与频率的条形图 图见下页。 非常简单: 1)横坐标:样本数据的不同值。
• 顺序级以上,横坐标上的样本数据应从小到大 排列。若是刻度级的,则在排序中,要注意长 度的刻度,保持一致的比例。 • 2)纵坐标:相应样本值出现的频次或频率。
3.4.1 对样本数据离散特征的点状描述: 极值、四分点与百分位点
• 1.极大值(Maximum)与极小值 (Minimum)
• 极大值与极小值,从一定Fra Baidu bibliotek角反映了样本 数据集合中样本的离散情况。 • 问:极大值、极小值适用于什么测度? • 另一个位与数的问题:
• 2.下四分点(Lower quartile)与上四分点 (Upper quartile) • 1)上、下四分点的概念 • 下四分点使由小到大排序后的数据集合的左 边部分,包含25%的样本总个数,右边部分 包含75%的样本总个数。 • 上四分点使由小到大排序后的数据集合的左 边部分,包含75%的样本总个数,右边部分 包含25%的样本总个数。 • 上、下四分点在一定意义上反映了样本数据 的离散情况。
• 故意增加了“9.94元”这个刻度 • 排成一行,看清楚了频率结构特征。 • 今后,统计频次、频率,都由机器完成。
• 上例是刻度级的数据,下面看一个名义级数据 的例子。 • 例3.1.3 抽样调查后,得到客户家具的基色调 的数据:
• R、Y、R、G、Y、Y、W、Y、G、G、R、Y、Y、R、W • G、Y、R、W、Y、G、G、B、R、Y、Y、W、R、R、W • R、Y、R、G、Y、Y、W、Y、G、G、R、Y、Y、R、W • G、Y、R、W、Y、G、G、B、R、Y、Y、W、R、R、W
第3节 样本数据的位置特征 对数据中心的描述
• 样本数据的测度级别的不同,需要不同的表示 “数据集合中心”的概念。
• 本节将介绍“样本中位数”、“样本众数”和 “样本均值”三个重要的描述数据集合中心位 置的基本概念。
• 3.3.1 样本众数(Sample mode)
• 样本众数定义1:样本数据集合中出现频次最 高的那个样本值,称为样本众数。在一般情况 下,“样本众数”被简称为“众数”。 • 单一众数:P.67。复众数:P.67。无众数: P.68 • 从条形图,或者频率表、频次表来判断。
• 样本均值(Sample Mean) • 样本均值仅适用于刻度级的数据。 • 样本数据集合的样本均值定义为:
• 式中,Xi为样本观察值。
第3.4节 样本数据的离散特征
• 描述数据集合的离散特征的两种方法: • 一、点状描述,如明确样本数据集合中的最小 值和最大值等; • 二、区间描述(基于差值的描述),如样本数 据集合中的最大值与最小值之差。
第3.1节 样本数据结构的基本 特征:频次与频率
• 一个误区:聚焦于数据值(样本值)及其变化
• 另一个重要问题:相同值出现的频次、频率。 这是数据集合的最基本的结构特征。 • 本节讨论这一结构特征:频次(Frequency) 与频率(Percentage,或Relative Frequency) • 两个紧密相关的不同的概念: • 1)样本数据自身(不论什么测度级的数据) • 2)同一个数据值(样本值)出现的次数(频 次)。
• • • • • • • •
价格(元)9.93 9.94 9.95 9.96 9.97 9.98 9.99 10.00 次数: 1 0 1 1 2 3 4 4 频率% 3.33 0 3.33 3.33 6.67 10.00 13.33 13.33 累积频率% 3.33 3.33 6.67 10.00 16.67 26.67 40.00 53.33 价格(元)10.01 10.02 10.03 10.04 10.05 10.06 次数: 4 2 3 2 2 1 频率% 13.33 6.67 10.0 6.67 6.67 3.33 累积频率% 66.67 73.33 83.33 90.00 96.67 100.00
• 3.1.2 观察样本数据基本特征(频次与 频率)的图形方法 • 1.表示频次与频率的饼图(Pie Chart) • 每个不同的样本值所占据的圆心角的大 小由下式计算: • 在圆圈中,给每个不同的样本值一个与 其频次(或频率)相当的圆心角: • 某样本值对应的圆心角=该样本值的 频率×360º
• 家具基色调(名义级数据)
• “茎节长度”的概念:茎节长度=允许覆盖最 大值-允许覆盖最小值+1 • 上例中的茎节长度为5(cm):0~4,5~9 • 上例中的L、H可以省略。 • 事实上,上例的茎节是不必砍短的, • ∵叶并不多 • 注意:茎节砍短时,要注意茎节等长的原则
3.2.2 直方图(Histogram)的 概念与作法
• 这就是身高数据集合的茎叶图。 • 问:如果有的茎节右边的叶子太多了,怎么办?
• 把“茎节”砍短一点。 • 例如,把每个茎节分成两段(L、H),有
• 频次 茎 节 • 2 16L ·03 • 2 16H ·58 • 3 17L · 012 • 8 17H ·55667788 • 4 18L · 0123 • 2 18H ·56 • 1 19L · 0
• 基于排序,能够简单统计频次:
• 价格(元)9.93 9.94 9.95 9.96 9.97 9.98 9.99 10.00 • 次数: 1 0 1 1 2 3 4 4 • 频率% 3.33 0 3.33 3.33 6.67 10.00 13.33 13.33 • 价格(元)10.01 10.02 10.03 10.04 10.05 10.06 • 次数: 4 2 3 2 2 1 • 频率% 13.33 6.67 10.0 6.67 6.67 3.33
• 讨论:顺序级数据能够计算累积频率吗? • 名义级数据能够计算累积频率吗? • 为什么?(答案见教材第72页)
• 3.累积频率的条形图表示 • 把条形图的纵坐标改成累积频率即可。 • 商品价格例:
第3.2节 观察刻度级样本数 据结构的茎叶图与直方图方法
• 3.2.1茎叶图(Stem-and-Leaf Plot)的概 念与作法 • 1.概念 • “茎-叶”的含义:按照某规则,把所有的样 本值分成“茎节”和“叶”两个部分。表达为: “茎节· 叶”的形式。 • “茎节”末位上的1所代表的实际值,就是 “茎节”的宽度。
• 众数定义2:对刻度级的数据,在等区间分组 的直方图中,最高的矩形(即峰Peak)所表示 的数据区间,称为该数据集合的众数区间,简 称众数。如:
• 众数区间,也有单一众数和复众数之分。 • 问:众数适用于什么测度?广义与侠义
• 3.3.2 样本中位数(Sample median) • 样本中位数: • 设,样本数据集合中的所有数据的排序结 果为X1≤X2≤……≤Xn,n为样本容量。样本中 位数,就是上述序列中,处于“正中间位置” 上的数据。 • 两个要素:位与数。 • 正中间位置“号码”=(n+1)×0.5
• 3.1.1 频次与频率的基本概念 • 频次:在一个数据集合中,同一个数据 值(样本值)出现的次数。 • 频率:某样本值的频率=该样本值出现的 频次/n(该数据集合的数据总个数) • 一个例子(下页)
• 例3.1.1从某城市抽出来的30个商店中,查 出某商品的价格数据: • 9.98 10.02 10.00 10.04 10.01 9.99 10.05 10.04 10.06 10.01 • 10.03 9.99 9.97 9.93 10.01 10.03 10.03 10.02 10.05 9.99 • 9.95 9.96 9.98 10.00 9.97 10.01 10.00 9.99 9.98 10.00 • (感觉如何?乱!)
• 1.条形图的弱点,当刻度级的数据的精度相对高,使 得不重复的数据量非常大时,反而让人看不清数据集 合的结构。例如,身高问题

看不清分布的规律
• 如果我们对数据适当分组,再用矩形的高度来表示 各组的数据的个数或频率,就有(可看到清楚的分 布规律):
• 这就是直方图。各区间长度是5cm,起点是 157.5cm,终点时192.5cm。
• • • • •
• 进一步策略(并注明频次)为:
• 频次 茎 叶 • 4 16 ·0,3,5,8 • 11 17 ·0,1,2,5,5,6,6,7,7,8,8 • 6 18 ·0,1,2,3,5,6 • 1 19 ·0
茎 16 17 18 19
叶 ·0,3,5,8 ·0,1,2,5,5,6,6,7,7,8,8 ·0,1,2,3,5,6 ·0
• 例1:17.0 17.1 17.2 17.5 17.5 17.6 17.6 • Me=17.5 • 例2:16.8 17.0 17.1 17.2 17.5 • 17.5 17.6 17.6 • Me=17.35
• 问:中位数适用于什么测度? • 分奇偶个数。
• 3.3.3 样本均值(Sample Mean)
• 排序:最基本的整理。 • 9.93 9.95 9.96 9.97 9.97 9.98 9.98 9.98 9.99 9.99 9.99 9.99 10.00 10.00 10.00 10.00 10.01 10.01 10.01 10.01 10.02 10.02 10.03 10.03 10.03 10.04 10.04 10.05 10.05 10.06 • 简单之至? • 认为容易的,可以试试手工对300个数据排序 • 简单:基于软件。
相关文档
最新文档