图形方法graph

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

图形方法(graph)
方法演变:盒形图,控制图,直方图和其他频率分布图,多变异图,帕累托图,雷达图,链图和散布图
概述
图使数据具有清晰的视觉显示,便于深刻快速理解数据含义。

仅仅是列表或表格中数据的数量是很大的或者无意义的,用图来展示数据能帮助我们更好地解读数据,揭示出隐藏在数据中的信息。

图中的数据是成对的,每对代表了一个观测方面或事件。

图通常是画成矩形的(除了饼图和雷达图),成对数据的一半放于水平轴上(x轴),另一半则放于垂直辅(y轴)。

图中的点、线、条或符号的位置代表了成对数据的观测值。

这是一个工具门类。

有许多不同种类的图都能够被使用,常取决于数据的种类和画图的目的。

适用场合
·分析数据,尤其是发掘数据中的模式或趋势时;
·演示数据。

图形方法的决策树
图表5. 68是一个决策树,能帮助我们选择最有效的表示数据的图。

合适的图取决于数据的种类和所画图的目的。

数据分为分类型( categorical data)和数值型(numerical data),而分类型数据又可分为有两种:一种是表示名字或种类标签的示值型数据(nominal claLa),另一种是有顺序的和数字的序数( ordinal data)。

对序数进行运算是没有意义的,分类和等级评定都是序数。

数值型的数据可能是整数或连续(示值型)的数,包括分数或小数。

如果用图表示的数据是分类型的,使用决策树的顶部。

举例如下:
·一系列的问题(示值型数据)和每个问题的发生次数(数值型数据):排列图。

·客户服务中有响应性、精确性(示值型数据)和绩效评定等,它们的评定等级从
1~5(序数):雷达图。

·不同的邮政区码(示值型数据:虽然他们用数字命名,但表示的是位置)和每个
地区的人口数量(数值型的数据):条形图或圆点图。

·20年的经历(序数):低于1年、1~5年,6~10年,11~20年和调查者的数量
(数值型数据):条形图或圆点图。

注意到年龄分组是不同的。

如果数据都是数值型的,则使用表的下面部分。

例如:
·数据表示200个顾客中每个人等待服务的时间,想要用图表来表示出等待时
间的总体情况,我们可以采用分钟(数值型的数据)和多少顾客等待那么长时间(数值
型的数据):直方图或多边形图。

·相同数据。

如果想要察看随着时间的变化等待时间是否变化。

要画的成对数据为每个顾客进来的时间(数值型数据)和等待时长(数值型数据):控制图。

当我们有数个数据集,并且这些数据集含有数值型数据又含有表示数据类别的数据时,我们不要弄混淆了。

尽管出现了表示类别的数据,但是如果要画的是数值型数据,那么采用决策树的下面部分。

例如:
·如果我们想要表示过去20年里每个月的道琼斯指数,NASDAQ指数以及S&P指数(分类型数据)的数值。

我们可以在线图上表示月份与每个月的数值。

每个指数构成一个数据集,有它自己的标记线。

·想知道班级的大小(数值型数字)是否影响测试成绩(数值型数据)。

我们拥有的数据是按照学校所在地区(分类型数据)分组的。

我们可以把班级大小和成绩的关系用散布图来表示,不同的地区采用不同的符号标记。

基本步骤
1.收集整理数据,确定是否有分类型数据或只有数值型的数据,确定要研究或显示的内容。

2.确定要使用的图的形式。

通过基本步骤的以下部分,也可以通过参考所选图形的步骤和示例部分来作为指导。

3确定图形要显示的数据范围(最小值到最大值)。

如果两组数据都显示在y轴上,那么确保两者相同的测量单位。

选择每根轴的刻度范围尽可能的大或者比这个范围略大。

4画边界线(也叫刻度线)及刻度,来表明数据范围或数据类型。

在刻度的旁边标上数字或标识以及数值型数据的测量单位。

5确定恰当的表示数据的符号和描点,并在符号边写明符号注释。

6需要的话绘制重要数值的参考线,如平均值,用以数据间的比较。

如果要突出显示一个重要数字,如发生变化的时刻,就沿着刻度线做一个标记(箭头或说明)。

7填写图的标题和日期、符号注释和说明等。

8分析图的含义,确定是否还需要额外的图表、分析、调查或数据。

注意事项
基本的绘图原则
·绘图的两个重要原则是:
——使读者易于迅速看懂数据;
——去除冗余。

·冗余因素包括方格线、过多的标记符号、过多的与标记符号相应的数据、图形内的注释和说明、交叉线、用条柱代替线等。

·充分发挥图形上的每个标记符号的作用。

符号
·符号要显著清晰,易于辨认。

·如果几个符号都在顶部难以区分,就用像Y,X或* 的符号,从中心发出的线的数目代表落入区域的数值个数。

或者使用更加复杂的符号,如对数刻度、或描残差、或除去重复的残
差。

·如果必须在数据符号旁边标注数据标识,那么标识一定放在容易识别数据的地方。

不要把标识放在挤满数据符号的中心区域。

如果不能避免这种情况,就尽量使数据符号显著,数据标识不受干扰。

·只有在线图、链图或控制图上表示时间序列时连接各点。

有个例外:在多元圆点图中常用直线从而使模式更清楚。

刻度和刻度线
·一般在图的底部表示时间,向左或向右。

如果是因果图,原因沿底边表示,结果沿左边表示。

·刻度范围要和数据范围一样大或比数据范围略大。

尽量不要让图表中有不表示数据的区域。

刻度不一定必须包括零点。

特殊情况如:条形图刻度必须包括零点,否则条柱的长度就没有意义。

注意图表5.69,刻度从20开始,条柱长度不能表示真实信息。

·两张图做比较时刻度必须一致。

如果由于不同的绝对数值这一点无法做到(比如说一张图的数据在10左右,另一张图的数据在1 000左右),则至少应保证每个单位代表的长度是一样的。

·如果图中的一个很大的区域内没有数据,则可以使用刻度省略处理。

如图表5. 70所示,刻度省略必须对应到整个图形范围,不能只是筒单的刻度线上的省略,不要穿过省略部分将数据符号连接。

而条形图中则不能使用刻度省略。

·如果数据可用两种方式计算,可以考虑在图形的不同方向用两套不同的刻度。

比如,一个刻度表示真实值,另一个刻度表示分位点,或者一个是纯度百分数另一个是非纯度百分数,
一个是对数值另一个是原始真实值。

·当用图表示分位点变化或做比率比较时,使用对数刻度。

颜色、格式和特殊效果
·使用颜色或填充格式时要谨慎,应意识到粗体的颜色或格式会歪曲数据的印象。

颜色的刻度范围应该与数据的刻度范围成比例。

例如,可以使用从密集到稀疏的交叉线来表示从高到低的数据,避免采用强烈对比的颜色或格式来表示相近的值。

颜色越深或者字体越粗,就比实际的看起来大些,而较轻的看起来就小点。

可以参阅“饼图”来理解这种现象,而图表5. 69中亦可看出所使用的填充格式是如何混淆我们的视线。

·在必须采用颜色或格式来表示多个数据集(例如分组条形图中)的地方,确信颜色或者填图格式的差异足够显著。

·避免3D效应。

它们常使视线混乱,注意力分散。

复印
·复印的图形常难于读数,尤其是缩印以后。

可以这样进行检验:把图进行2/3缩印,复印件再进行2/3缩印,如果检验后能读数,说明在大多数条件下都可读数。

·不要在可能会被复印的图上用颜色区分符号和线。

条形图( bar chart)
慨述
条形图是表示分类型数据最常用的一种方法。

用条柱——一种长而窄的矩形——或有时是一条线来表示数值,排列图是特殊的条形图。

使用场合
·有分类型数据时。

实施步骤
采用“图形方法”的基本步骤,用下面的步骤代替步骤3~5。

3确定图中表述的最大数据。

刻度必须从0开始,如果有两组数据要表示,则两者必须有相同的测量单位。

使数轴的刻度范围尽可能的大或比数值范围稍大。

4类别的标识写在左边或底部。

在没有标识的一侧从0开始标出数据范围。

5每个数值用条柱或线表示。

用灰色阴影或图案来填图条柱。

示例
某大学的服务部进行一项顾客满意度调查。

图表5.71是来自图书馆复印中心的调查结果的水平条形图。

可以看到,尽管条柱的长度都大于5,但条柱仍以0为起点。

另外一个条形图示例请参阅第4章的圣鲁克医院改进案例。

注意事项
·数字刻度必须从0开始,否则条柱的长度即数据的视觉指示就失去了意义。

同样地,刻
度线不应该有中断。

也有个别例外:如果一个条柱比其他的都长很多,那么把它的值都用刻度表示出来,将会很难看清其他条形之间的不同一则可以把它中断,并且把值清楚地写在条柱的上面。

·避免交叉引起视觉干扰。

更好的做法是去掉矩形边缘线只画阴影,或用一个指示数值长度的线段代替矩形,柱的线条太多令人眼花缭乱。

·条柱可以是水平的或垂直的。

时间通常都显示在垂直轴上。

水平条形图的好处是左边有足够的空间来写标识。

选择使观察者感觉最清楚的图的形式。

·条柱之间必须有一定的空隙,表示刻度不连续。

在直方图中,条柱之间则不能有空隙。

方法演变:帕累托图(Pareto chart,或排列图)
帕累托图通常用于表示问题或问题原因的相对重要性的条形图,用发生频率、成本或时间来度量。

因为它是一个重要的质量工具,“帕累托图”部分有专门的讲解。

方法演变:分组条形图( grouped bar chart)或集群条形图(clustered bar chart),堆栈条形图(stacked bar chart)
这些是几种不同形式的显示多元或多分类的条形图,一般用两个维度表示,每个维度的分析各用一套不同的标识说明。

最后用一张图显示两个维度的分类。

在分组条形图或集群条形图,每种分类的标识都写在轴的旁边。

每个标识后边都有几个条形,表示不同的分类。

通常情况下,可以用颜色或者填图图案来进行区分。

在堆栈条形图或分割条形图中( divided bar chart)中,一个条形分成几个部分,各段的长度表示各部分的值。

这种方法不推荐使用,因为人脑和眼睛不能比较不在同一直线上的条柱长度。

示例
图表5.72表示四个不同地点复印中心调查结果的分组条形图。

所有的调查结果都一起显示出来,并且采用不同的填涂图案来区别相邻的条柱。

然而图案填充也易分散注意力,采用灰色或彩色的阴影可能会更好。

图左侧的评价准则和代表各个场所的条柱组成了分组图,使我们很容易地比较每个评价准则下四个场所的评分。

我们还可以把场所放在左边,每个准则作为条柱,这种作图法使得研究每个场所的结果变得更容易。

常根据分析的需要来选择合适的分组。

图表5.69采用堆栈图表示来自复印中心调查的统计数据。

哪个复印中心在花费100美元~500美元之间有更多的顾客,G大厅还是Med中心很难回答,这就是为什么不推荐使用该类图的原因。

圆点图( dot chart)
又名:点图( point chart)
概述
圆点图中,数值依靠点相对刻度的位置体现,有时也通过线段的长度表示,这是
表示分类型数据的一个非常好的方法。

适用场合
·有分类型数据时。

实施步骤
除步骤4,5外,按“图形方法”的基本步骤。

4.在图形的左边写说明,在图形的上/下边缘标刻度和数字。

5.根据刻度在每一个数据点的位置描点。

用浅色的虚实线连接数据点和它的标识部分。

如果刻度不是从0开始,此时将虚实线延长到图表的右端。

示例
图表5.73圆点图与图表5. 71条形图采用了相同的数据。

因为圆点图的刻度范围不需要从0开始,减少了空间的浪费,且使5~7的区域得心扩大。

图中把数值从小到大排列,更清楚地辨别出哪个准则最优、哪个最劣。

条形图也能像这样来排序。

然而正如在这个例子中,如果比较几个图表时,分类的次序应该保持一致。

注意事项
·对于一张表而言,按照数值的增加或减少来排列类别对于观察者而言是很有用的。

·仔细考虑一下,是越大的数据好呢,还是越小的数据好,通常我们画图时让数据越大代表的效果越好。

例如,不要用投诉百分比下降来画图,因为图中长线意味着很大的下降以及投诉变少了(混淆了?看图者也糊涂了)。

相反,我们可以采用投诉的实际数值作图,从而一系列的短线表示了投诉的减少。

·圆点图和条形图是描述数据的有效工具,因为观察者基地固定基线来比较距离,这种方法比基于移动的基线(堆栈条形圈),角度的大小(饼图),或区域(累积线图)更易于观察。

·如果刻度从0开始,那么线的长度和点的位置将表明实际的数值。

如果刻度不从0开始,点线的长度是没有意义的,此时把线延长到图表的右端避免读者比较无意义的长度。

·圆点图和条形图常用于分类型数据,但当有五个或更少个时间段时他们也能够用于时间数据,例如表示一年四个季度的情况。

方法演变:二元圆点图(two-way dot chart),分组圆点图(grouped dot chart),多元圆点图( multi-valued dot chart)
这些是几种不同形式的显示多元或多分类的圆点图,一般用两个维度表示,每个维度的分析各用一套不同的标识说明。

最后用一张图显示两个维度的分类。

二元圆点图中,第二类分析中的每一类都单独画成圆点图,使用一套标识并排排列,最左
边显示第一类说明。

每一个单独圆点图上端写明第二类分析的标识。

分组圆点图中,图的最左边是两种数据标识。

所有第一类标识在一起组成第二类标识的第一组,然后所有第一类标识又组成第二类标识的第二组,依此类推。

多元圈点图中,所有第二类分析的数值与第一类分析的标识都在一条直线上。

不同的符号表示第二类分析的不同组。

这是表示顾客满意度调查的最常用的方法,需要评价的类别放在垂直方向,评价值的范围在水平方向上。

调查的不同方面则用不同的符号来表示,所以有时候又称为“多重评价矩阵”(multiple rating matrix)。

详细情况请参阅“调查”部分。

示例
图表5.74是分析与条形图有相同顾客满意数据的一元圆点图:七个评价准则和四个场所。

第一个维度分析的是七个不同的银行,这些标识列在整个图的最左端。

每个场所的数据都显示在一个单独的圆点图中,这种安排对于研究独立的单个场所情况更容易。

图表5.75表示相同调查数据的分组点图。

四个场所按适时性、持续性等分组,分组方法有利于对每个准则下各个场所之间的比较。

注意到NW在所有的准则下排最高,G大厅在所有的准则中除了服务范围和问题解决外排第二。

数据可以有其他的分类方式:第一个场所的七个准则,然后第二个场所的七个准则等。

分组(与图表5. 74分组相似)利于每个场所下评价准则之间的比较,但是很难看清楚各个场所之间的关系,所以最好用不同方式对数据分组,以从中发现数据间的关系。

图表5. 76是同样数据的多元圆点图。

图更加的紧凑,需要一系列的图例且模式很难辨别。

在图中连接通常代表时间序列的各点,但这种圈使模式突显出来。

雷达图( rodar chart】
又名:网状图( web chart)、蜘蛛网图(spider chart)
雷达图看起来像是蜘蛛网,有辐条和连接线。

用来对有多个标准的项目或进展进行跟踪或报道,因为它的目的非常特殊,所以在后文中有专门的详细论述。

饼图( pie chart)
这类图也应该谨慎使用。

饼图中是表示分类型数据的常用方法。

一个圆划分成不同的楔形来显示相互的比例关系。

但是人脑和眼也不能很好的比较角度的大小。

图表5. 77中,G大厅或图书馆,哪个场所有更多的被调查者呢?如果不用圆饼图,也可以使用能更好地比较数值的圆点图或条形图。

在圆饼图中,问题恶化了,首先因为相似的楔形放置在一起,结果3D视图歪曲了他们的大小,并且强烈的颜色对比强调了图书馆。

饼图的一个优点是:强调各组成部分之和为100%。

如图表5.78中,如果因为这个原因而使用圆饼图,一定要在每一个楔形旁边注明所占百分比。

但是如果任两个楔形之间的大小不明显或者有多于五个楔形时很难想像这个图是否能更好的表达数据。

还可以根据楔形的大小选择颜色和填充图案,最大的楔形常用黑色;颜色越深楔形显得比实际的大,如图表5. 77饼图中的图书馆。

频率分布图(frequency distributions)
频率分布图计算一组数中某个数值出现的次数。

例如平均温度频率分布图表示平均温度50度出现的次数、51度出现的次数等。

许多种不同的图都能用来表示频率数据。

直方图表示一个数据集中的每个值(x轴上)以及相对应的频率值(y轴上)。

直方图是最
常用的频率分布图,和条形图很相似,但是两者之间有些重要的区别。

因为直方图是非常重要的质量工具,在“直方图和其他的频率分布图”详细地介绍。

其他的表示频率分布的图在相同的部分有所陈述。

多边形图与直方图的外形相似,但是用线而不是条柱来表示频率值。

茎叶图是直方图的演变方法,但是用真实值来作为数据点的符号。

点图对于小数据集是有用的。

沿着垂直线用小圆圈来表示每个数据点。

累积多边形图、分位点图以及累积分布函数( CDF)图则是将各值的频率加以累加,以表示小于或等于某个数值的个数、百分数或小数。

盒形图( box plot】
盒形图总结了分布的显著特征,但是不表示出所有的数据。

尤其是当对比两组或多组数据分布时或当没有足够的数据作直方图时,盒形图很有用。

质量工具箱
208
线图( line graph)
概述
线图是表述一个变量(y轴)随着水平轴上的另一个变量增加而怎样变化。

数据点用线连接起来。

x轴的变量通常是表示时间或类似的名目,叫做自变量。

y轴上的变量叫因变量,因为它的值依赖于自变量的值。

适用场合
·当成对数据都是数值时;
·当想要表示一个变量随着另一个连续变量(通常时间)如何变化时;
·仅当每个因变量只对应于一个自变量时。

实施步骤
遵循“图形方法”的基本步骤,更改步骤:
5.用线连接各点。

如果随着同一个自变量变化时,几个应变量都有随之变化的轨迹,则在每条线上标识或使用不同类型的线条。

为每种类型的线条添加图例说明。

示例
图表5. 79显示了10年中SAT平均成绩的线图,有两门成绩——数学和口语。

数学和口语平均成绩之间的差距越来越明显。

也可以参看第4章圣鲁克医院改进案
例中使用的线图。

注意事项
·对于每个因变量的值,自变量都有几个值,请使用散布冈。

·如果自变量是有规则的发生的事件并且时间上是有序的,可以把它认为等价于时间。


如:样本、批量和轮班。

·用直线来连接各点。

确信点足够大能在直线土显现出来,除非该点的值不重要。

·有多条线的图中,确信观察者能够把各线区分开,尤其是交叉点处。

并排放置两个独立的图时,也会出现问题。

当对两个图作对比时,我们需要在眼睛能够区分数据组和必须来同跳动之间作个权衡。

·有时需要对两条线作对比。

如果线的斜率变化时,眼睛不能够做精确的对比。

然而,它能反映两个数据集的差异。

方法演变:累积线图(cumulative line graph)
这类图不推荐使用。

累计线图与堆栈条形图类似,因为他们给出了多个部分怎么累积成总体。

每个部分的值从低一个的顶部到高一个的底部。

这些图与堆栈条形同有相同的问题:眼睛和大脑不能比较不在同一条直线上的距离。

也因为所有线形图的目的是寻找一段时期内的变化趋势,而中间部分的趋势则因为基线的变化而不易察觉或夸大。

如果各部分相对规则且没有较强的变化趋势可以使用上图。

另一个更好的办法对每个部分作一条独立的线,它的值从垂直轴的0点开始。

如果需要的话可以画出总的线图。

控制图、链图、多变异图( control chart,run chart,multi-vari chort)
控制图和链图常用作分析过程变量的线图。

当有足够的数据计算控制限时常采用控制图。

如果没有时,常采用链图。

因为这些都是重要的质量工具,在“控制图”和“链图”有详细的论述。

多变异图是惟一的用于研究过程变异源的图,尤其当变异源为分类型数据时,如不同的机器。

在“多变异图”中有详细的论述。

高低图( high-low graph)
概述
高低图被用于表示每个时间段内数据的波动。

股票价格、天气数据以及资源的使用量都是典型的应用。

实施步骤
采用“图形方法”的基本步骤,其中步骤5更改如下:
5每个时间段的高低值依次都画在垂直方向上,用一条垂直线连接。

不要把不同时间段的数值连接起来.
示例
图表5.80是一个月中每日气温的高低图。

散布图( scatter diagram)
散布图用来明确变量之间的相互关系。

一个变量可能引起另一个变量的变化,或者第三个因素影响上面两个因素。

散布图能解释相互关系或证明变量之间是独立的。

因为散布图是一种重要的质量工具,在“散布图”有详细的论述。

END。

相关文档
最新文档