数据分析的种类及分布情况

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据的分析
从总体中抽取样本,收集测定的数据,这些数据总是参差不齐的,即具有散差。

我们需要对收集的数据进行整理和分析,然后才能对总体作出推测和判断。

一、数据的种类
数据大体可以分为计量值和计数值二种。

所谓计数值数据,是指1,2,3,……这种非连续性取值的数据,如一批产品的不合格品数,缺陷的个数以及工厂的事故发生件数等。

把不合格数用全部产品所除得到的不合格率,仍是计数值。

而计量值数据,是指一些可以连续取值的数据。

如钢材的厚度、抗拉强度,零件的尺寸等测定值都属于计量值数据。

计量值与计数值数据差别,决定了数据所反映的统计的性质不同,进而数据的处理方法也有变化。

例如,计量数据属于连续概率分布,最典型的使正态分布;而计数值数据属于离散概率分布,最典型的是二项分布和泊松分布。

二、数据的分布
即时在同样的条件下制造的产品,其质量都会有差别,故我们收集到的数据总是大小不等的,称这种数据的不均一性为具有散差。

如果把数据控制在一定的范围哪,数据间的散差就会有某种规律性,我们称之为分布。

可以构造频数分布来了解分布状态。

们如下图所示,为某一个样本所反映的频数分布图。

(相当于直方图)
从两个图可以看出两个分布的不同,也很容易看出两个样本的差别,进而反映了总体的分布状况。

三、数据分布的定量表示
上面的频数直方图,可以用来观察数据的大致离散情况即分布的形状,但是得不到数量方面的信息。

特别是比较两个以上的分布时,尽管可以凭视觉观察出分布状态上的差异,却不能定量地求出他们的差别。

如果能把分布状态的特性予以数量化,就便于比较。

一般需要有表示数据整体即分布中心位置(中心趋向)和离散程度的尺度。

前者可以用平均值,后者可以用标准偏差。

有时,还需要从数量上表示分布状态的偏斜程度(可用偏斜度)以及表示分布峰顶的陡峭程度(可用陡度) 1. 中心位置的表示
表示中心位置的量有平均值、中位值、最多值、中值以及众数等。

最常使用平均值。

平均值:各个测定值的总和除以测定值的个数,称为平均值(算术平均值),用表示X 。

计算分式为:
中位值:将测定值按大小顺序排列,位居正中的那个数值
∑==+Λ++=n
i i
x n x x x x n
1
21
称为中位值。

若测定值的个数为奇数,则中位值为居于中央位置的那个数值;若测定值的个数为偶数,则中位值为中间两个数的平均值。

中值M :测定值的最大值和最小值的平均值,称为中值。

2、散差的表示 1) 极差(range )R
测定值的最大值和最小值之差为极差,用R 表示。

通常,当测定个数n 小于10的场合,用极差R 表示离散程度;而当n 大于10时,则用标准偏差s 表示离散程度。

2) 偏差的平方和(sum of squares )S
各个测定值与平均值之差称为偏差。

各测定值的偏差的平方和称为偏差平方和,简称平方和,用S 表示。

设各个测定值与为X 1,X 2,……X n ,其平均值为:
则:
3)无偏方差(unbiased variance )S 2
各个测定值的偏差平方和除以(n-1)后,所得到的值称
∑==n
i n
x x i 1
/n
x x n x x x x x x x x s n
i n
i i n
i i n
i i i n x x /)()()()()(2
1
1
2
2
1
2
2
12
2
2
21∑∑∑∑====-=-=-=-+Λ+-+=-22
1n
S
为无偏方差(简称为差),用S 2表示,其中n 为测定值个数,由S 的计算公式可以得到S 2的公式为:
方差的单位为测定值单位的平方。

4) 标准偏差(Standard deviation )s
方差S 2的平方根称为标准偏差(简称标准差),s 表示,
标准差s 的单位与测定值的单位相同,标准差的公式为: 附录: 方差的含义
标准偏差是测量由于取样引起的估计的可变性。

它指出样本估计的可变性,它可以从所有已知设计和规模的样本中获得。

标准偏差用来测量从一组特定样本得到的数据的精确度。

如果所有可能的样本都在类似的条件下接受调查,标准偏差在+1.96到-1.96的范围内的概率分布包括了95%的样品的情况,这个区间被成作是95%置信区间.
( ) Excel 的计算公式
∑=--=-=
=n
i x x n n S
S s i 1
22
)(111
1、平均值
平均值=3.5883
公式: =AVERAGE(B2:G2)
AVERAGEA也可以计算,不过包括逻辑值在内
2、偏差
偏差0.0081
公式: =DEVSQ(B8:F8)
3、无偏方差
无偏方差0.0020
公式: =STDEV(B13:F13)*STDEV(B13:F13)
4、标准偏差
标准偏差0.0451
公式: =STDEV(B18:G18)
在统计过程中,可以应用各种工具,其中最常用的统计方法有检查表、层别法、直方图、帕累托图、特性要因图、管理图和散布图,统称为常用的七种工具。

其中,控制图用来直接监控过程,是七种工具的核心。

随着全面质量管理的进
一步发展,于20世纪70年代又提出了质量管理的新七种工具,即关连图法、KJ法、系统图法、PDPC法(过程决策程序图法)、矩阵法、矩阵数据解析法及箭头图法。

但新七种工具已不是统计质量控制的具体方法,只是组织实施、计划调度等所采用的一些简明有效的方法,它们的许多思路来源于运筹学系统工程,这里不作介绍。

七种工具可分为三类:
一、用来作整理和分析数据用的目的:检查表和分层法
二、普通的科学归纳分析方法:帕累托图和特性要因图
三、数据统计方法:直方图、管理图和散布图
层别法
一、分层的定义
层别即将很多的数据按照其所持有的特性进行层次划分。

将数据以状况、原因分类进行分析的方法
二、分层的方法
1.按问题的发生状况分:
1)不合格项目、缺陷内容
2)形状、长度、深度
3)发生位置、发生区域
4)天气、状态
2.按可能有问题的原因分:
通常可以根据层别获取比整体事件更多的分析结果。

但由
于某些层别的失败导致了错误的情报,所以在划分层别的时候必要使用工程技术方面的知识及经验,也要使用特性要因图,并要检讨其特性质及其同要因的关系,即运用特性要因图里的中骨、小骨的项目划分数据便得到较好的层别,在做层别的过程中,以下事件也是极其重要的:
1)人的区别:在划分制造要因的层别时,通常也要根据实施人的区别进行层别。

(从作业班分析)这样对作业管理、作业方法有益。

另外,还可根据性别区分、年龄区分、经验区分。

2)机械、装置的区别:在有几台相同机械的时候,可以根据每一台机械的数据进行判断不良原因是否因机械差异而产生,另外,像炉子这样的设备会因位置的不同而温度不同,所以在炉内的位置上考虑层别将会得到良好的效果。

3)原材料区分:从供应者、前工程、批量、原材料的比例等方面考虑层别。

4)时间区分:上午、下午、日期、季节
5)环境区分:温度、湿度、气候、环境状况
6)作业方法区分:作业的方法、作业条件、批量、测定方法。

一个出色的层别应是将数据层别后,能清楚的将层间的区别表现出来
三、层别的手顺
手顺1:明确层别的目的
手顺2:决定特性值
手顺3:决定层别的项目
手顺4:取数据
手顺5:将数据层别
手顺6:追究错误的原因
手顺7:采取对策
四、层别的实例
例:为查明不良原因
某汽车部件在生产过程中因折、弯曲所造成的不良
层别Array
不良中占不良比率的再按不良状况现象进行层别,然后
将其中大的两项问题进行层别,如此反复试验就可查明
不良原因
图三按发生场所再次层别(n=47为前两项多发生性不良)
按原因分的层别项目
(1)按人——按个人、年龄、工作年数、性别、组别(2)按机械设备——按机种、号机、型式、新旧
(3)按原料——按生产厂家、购入地、产地、品牌、进货日期、接纳批量、成份
(4)按方法——按加工顺序、条件、温度、湿度、转速、力度、销售方式
(5)按测量检查——按测量器、测量者、测量方法、检查人员、检查方法
(6)按工夹模具——按夹具、工具、模具、安装工具、螺丝板
(7)按零件——按生产厂家、制造批量、接纳批量、包装(8)接流通——按市场、顾客、销售形式
(9)按组织——按部门、小组、班组
分层时注意:
(1)很好的观察分类问题的内容
(2)数据记录用纸事先设计好,并且能够简单的将分层的数据记录
例题:上一节不良原因调查用检查表用层别方法可能得到几种结论?
在调查服装品牌喜好和个人特性不同方面如何应用层别法呢?
帕累托图
一、概述
工场内常常需处理不良品、灾害、故障、投诉等问题点,这些问题点按项目分类后会有2-3个项目占全体的大部分。

帕累托图是针对这些问题点按现象、原因来分类,将数据按由大至小的顺序排列,以柱状图和累积曲线图作成帕累托图是在不良对策中发现重要问题点的情况下使用。

也就是说,不良损失额的大部分是由几个主要项目构成,残余的小部分则为多数的不良项目。

其意义在于对前者的不良项目采取相应的对策并实施,能够有效的降低不良数或使成本大幅度的减低。

二、帕累托图的作法
步骤1 数据的收集
对于发现的不良、灾害、及错误等问题点收集数据,数据收集期间我们可以根据问题发生状况及性质来决定数据集计的周期,例如:以一个月、三个月(一年四次)为周期,也可以根据问题的具体情况每星期每星期的来收集。

下表是某制品检查中所发现的不良数,期间是一个月,检
查台数为500台。

表一不良的数据
步骤2 将数据根据原因及内容进行分类
原因可按材料、机械、作业者、作业方法分类;
内容可按不良项目、场所、时间进行分类步骤3 根据分类项目来整理数据,并作成计算表
分类项目按数据多少由大到小排列,“其他”项目不论多大都是排在最后
表二计算表
例如:到涂装位置的累积件数为
(脏污)+(涂装)→31+18=49
并且,最后项目的累积件数一定要等于总件数
步骤4 图表中纵轴和横轴的作成
纵轴和横轴最好是一样长,并适当的决定刻度的间隔
纵轴:坐标终点应稍大于数据的合计数,并且恰当选择(凑整)
横轴:按项目的数据多少从左至右依次排列,并在下面记入相应的项目名称
纵轴是记录件数、金额等特征值;横轴记录分类项目
下面是纵轴、横轴记录项目的具体举例:
表三项目举例
步骤5 柱状图的作成
柱状图中“其他”项放置最右端,各项目之间无间隔。

“其他”项不论它有多大,应放在最右端作为最后一个项目,并且作为检讨的对象
步骤6累积曲线的作成
累积的值在各个柱状图的右上部打点,然后用直线连接
这些点,做出折线,折线的起始点为0。

折线即为帕累托图的累积曲线
步骤7累积比率的作成
在帕累托图的右侧作纵轴,与左侧轴相应的建立右纵轴的起点(0)、终点(100%),将0-100%的长度进行等分,并记录刻度,例如:20%可以五等分,10%可以十等分。

而即使数据比率的合计值超过100%(累积为100.1%,四舍五入的原因),但仍以100%为准记录纵轴。

终点(100%)的确定:从左侧纵轴的数据合计数点引出横轴平行线(即垂直与左侧纵轴),其必与左侧纵轴相交,即其相交点位右纵轴100%点
数据的修约口决:“五下舍五上入,整五偶舍奇入”,即4以下舍去,6以上入1的原则,数字是五时,要看其前的数字而定,若是偶数则舍去,若是奇数则入1。

例:10.26 10.3 10.24 10.2
10.25 10.2 10.15 10.2
等分有以下两种方法
(1)根据0-100%的测量长度,然后进行等分;
(2)从0点引辅助线OA,以1cm为间隔,OA画10cm 长,辅助线OA十等分。

将A点与右纵轴100%点连结,以该线做出各等分点的平行线与右纵轴交并打点,这些
点即为右纵轴的等分点。

(辅助线及点须用铅笔画出,作完后应清除)
下表举例说明通过计算求出各分类项目比率与累积比率值
脏污不良的比率:
{脏污不良件数/总件数}×100 31/74×100=41.9
涂装不良比率:
{脏污不良件数/总件数}×100 18/74×100=24.3
涂装不良累积比率:
{脏污不良的比率}+{涂装不良的比率}=41.9+24.3=66.2 检查台数期间:9.2-9.28
500 作成日:10月1日
步骤8 记入必要事项
(1)帕累托图表表题在图表的下部记入
(2)记入数据的收集时间
(3)记入数据的合计值;
例:件数n= ; 金额= 元
(4)记入作成日期
三、帕累托图的应用有观察·判断方法
帕累托图是针对不良损失金额、投诉件数、错误件数等问题点按原因、现象、工程、品种分类,并根据数据的大小顺序来进行排列的图表
图表可以告诉我们这样的一些信息:
·整体上观察不良及错误有多少?
·它们是怎样的顺序?
·根据以上两项,可以推测如果哪一项目降低多少,会给整
体效果造成怎样的影响?
因此,图表横轴的分类项目最好是按容易改善的原因分类,从记录数据时就考虑到这一点易取得明显的效果。

另外,纵轴应尽量体现特征值(量化)。

很多时候,金额与件数也可以放在一起一同检讨
例:
(1)决定采取相应对策的顺序
在排列图上,通常将曲线的累积百分数分为三级,则相应的也就将因素分为三类:
A类因素:频率由0-80%,这一区间影响产品质量的因素,是主要影响因素;
B类因素:频率由80-90%,这一区间影响产品质量的因素,是次要影响因素;
C类因素:频率由90-100%,这一区间的因素,是影响产品质量的一般因素。

(2)通过图表确认报告、记录的改善效果
(3)获取信息,调查不良故障的原因;
(4)明确问题点的内容
例如:同样的不良,有些修理后OK,有些降为二极品,有些废弃,因此,其损金的金额是不一样的,在这种情况下做成金额损失帕累托图将会使不良内容和其影响程度更加清楚明了。

(5)帕累托图中柱状图的表示比较平坦,可以考虑改变纵轴、横轴的内容。

从金额上发现不了问题,可以用件数表示,反之亦然。

(6)帕累托图中“其他”项过高,可以重新考虑分类项目的内容
应用帕累托图确认改善前后的效果时,改善前及改善后的帕累托图应水平排列且站在同一水平线上,并注明改善取得的效果,以使图表易懂,观察直观。

检查表
检查表用于多种目的,是一种预先设计的适当的规格用纸,以便于数据简单记录、提取及整理,且能够对检查、确认项目进行毫无遗漏的核对、检查。

因此,设计合适的检查表可以将必要的数据整理归纳出来,收集情报并且有条不紊的对需检查确认的项目进行毫无遗漏的点检核对。

利用检查表可以迅速地将繁琐数据记录在纸上,方便的知道问题是什么,缺陷集中在什么地方,另外在作直方图、帕累托图时也经常使用检查表。

一、检查表的种类及使用
检查表按其使用的不同大致可分为:
1.记录用检查表
记录用检查表是将数据以项目、位置等分类,并在其图表上记录数据或用记号等,能够一目了然的知道,记录完整后
的数据大体集中在哪个项目上,是怎样分布的。

记录用检查表又可分为如下:
1)不良项目调查用检查表
用于调查何种不良项目属于多发。

作业者在发现不衣时填写不良项目检查表,记录检查
记号并对应到相应栏中,作业结束时,就可以看出哪一个项目不良有多少?
2)工程分布调查用检查表
需要了解有关特性值的分布形式、分布中心、数据的偏差情况以及规格值的关系等分布状况时使用。

关于数据是怎样进行分布的,可以通过直方图表现,并作成度数分布表,但在进行工程调查时需了解分布的形式、规格值与目标值之间的关系时,在收集数据时以检查表的形式进行分类,更为简单
易懂。

检查表中可以观察数据分布状态,处于规格内的数据分布有无“双峰型”或“孤岛型”,规格中心与分布中心有无偏心大小,估计超出规格的比率等,及时发现问题,采取措施进行改善。

工程分布检查用检查表
3)欠点位置调查用检查表
通常先准备好产品的大致图形,以此来检查缺陷的位置,用于调查欠点的发生处所时使用。

一般用于制品的草图或者展开图,比较容易与现场结合。

使用该图表调查欠点发生的场所,为什么该处所的缺陷会相对集中,从这一角度观察问题可以查明原因,着手对策。

4)不良原因调查用检查表
产生不良的原因很多时,按不同原因对产生不良的情况分类,根据机械、作业、材料、零部件、作业方法的不同分层找出不良项目,用于发现不良主要时使用。

○:表面伤痕●:短射△:变形▲:光斑
5)检修·确认用检查表
检修·确认用检查表是在设备的启动、保养、检查、安全确认、整理整顿等的场合,对检修·确认事项无遗漏的查对,在事先写有应检修·确认的项目的纸上将查对的结果记录上去。

6)点检确认用检查表
这种检查表是预先记录所有需检查的项目,检查时对应检查表边检查边记录,可以做到无遗漏的检查确认核对项目,也可以用于事后检讨。

检查表中的项目顺序根据实际点检手顺编排最佳。

二、检查表的使用方法
作成检查表的一般步骤:
1、明确收集数据的目的
明确收集数据是为了调查不良项目、不良主因或欠点位置等等。

2、整理调查项目
将需调查的项目作成清单,并决定其顺序
为了使数据收集后还能继续层别或分析使用,应明确各项目的履历
3、决定检查方法
检查期间、检查方式(全数检查或者抽样检查)、检查数量、检查员、使用记号等应事先做出规定,并制定评价标准
4、作成检查表的格式(根据实际需求)
需确保用纸的大小、记录的空间;适当确定项目的排列顺序等布局;格式要统一
5、试用
使用过程中能否达到预计的目的,操作简便
必要时可以作成使用手册,并进行修正
检查表中一般记号的表示
◇数量的多少用……正
◇按人、装置区别时用……△○▲×
◇确认记号……以√表示
6、使用6个月以上的检查须检讨其内容并订证;
检查表作成时应尽量使其操作简便、简单易懂
特性要因图
一、特性要因图的定义
对作为问题的的特征(结果)和,所谓对其影响的因素(原因)进行整理,汇总成鱼骨状的图形,称之为特性要因图。

(石川图)
二、特性要因图的作法
(1)大骨展开法(偏差分析型)
大骨展开法又称偏差分析型。

作法的要领是将“其
偏差为什么发生的?”的疑问彻底追究,为了分解
偏差,要整理其互相的关系,使其成为较完整的体
系。

但是,存在很小的原因很容易遗漏等缺点。

(2)小骨扩张法(原因罗列型)
无遗漏地吸收有关人员的意见,将被认为是原因的
项目全部罗列在黑板上,对所举出的原因项目以原
因、结果的关系进行整理汇总的方法。

三、特性要因图的作成手顺
(1)大骨展开法
手顺1:选择问题的特征
手顺2:在右端写上特征,从左边画一粗的横线(这
将成为背骨,是工序的意思),
画上箭头
手顺3:影响特征的原因之中,汇总成较大的项目以
稍微小的箭头作为大骨记入
手顺4:追究大骨的原因,从中骨到小骨进行更细的
分类,记入到骨架上
手顺5:要查看是否有遗漏的因素
手顺6:在认为重要的因素处作上记号
手顺7:记入关连事项
(2)小骨扩张法
手顺1:选择问题的特征
手顺2:每个人自由地举出认为是影响特征的因素,
将举出的意见写到纸片上
手顺3:因素全部举完后,对纸片进行分类。

听取每
个人的意见,将关系最近的
纸片汇总,做一个与其内容相符的标题,作为中骨
手顺4:从中骨的标题中找出有关系的项目汇总为一
个,作标题,作为大骨
手顺5:整理成特性要因图的形式
手顺6:对完成的特性要因图全体人员进行研讨,看
是否有遗漏的因素
手顺7:对认为重要的因素处作上记号
手顺8:记入必要的关连事项
四、特性要因图的作成要点
1.聚集众人作图
2.选出所有的因素
3.经常进行讨论改善
4.注意特征的表现
要避免“办公用消耗品的节约”、批量不合格的减少”
等抽象的表现,要用如“复印的纸张过量”、“B零件的不合格率”等的具体的表现。

5.根据需要每一特征作几张图
例如,在不良发生时,如以制品、区域、不良内容分
类应该作成几张特性要因图,这是因为根据退货的内
容,其对策是不同的。

6.在重要因素处作记号
特性要因图完成后,所记入的各因素中,认为是对特
征有最大影响的或重要的项目做上记号,可以用红笔
画一圈。

这对异常原因的追究、改善活动是很有效的。

特性要因图的目的是在利用上,从图中进行现状分
析,作为改善案的利用图;分析工序、车间的问题点,
找出改善点;备齐管理点、管理工作等。

直方图
质量的偏差是无法回避的,判断质量的偏差是否由于偶然原因引起的,有必要对质量偏差状况进行实际测量和采集数据。

下表为某一制品的100个对象,测量其长度,得到以下数据:
从如此罗列的数据表是不能知道制品长度的偏差状态的。

为了把握长度的偏差状态,有必要将其数据表换写成能读取偏差状态的频数表。

直方图是将数据存在的区域分成几个区间,各区间里分布的数据的出现次数做成频数表,以柱形的高度来表示各区
间的所属次数,能够清楚地知道偏差的状态。

一、直方图的作法
手顺1:收集数据
作成直方图,采集数据的数是50—250,通常情况下100左右为佳。

手顺2:求出数据中的最大值和最小值
具体的作法:可以先找出各行(各列)中的最大值和最小值,然后在这些值中找出最大值和最小
值。

行的最大值作记号●,最小值作记号▲,然后找出
●记号中的最大值,▲记号中的最小值。

X max=199,
Xmin=170
手顺3:求出最大值和最小值的差(即数据波动的范围)范围R=Xmax-Xmin
=199-170
=29
手顺4:决定假定区间数
假定区间数=n
如果n不为整数,则按四舍五入法计算手顺5:求出测定单位(测定值的最小刻度)
即所有数据间差的最小值。

本例中测定单位为1mm 。

手顺6:决定区间的幅度
区间的幅度h=n
max max 假定区间数数据最小值数据最大值X X 因测定单位为1mm ,所以是1的整数倍,离2.9最近的值是3。

手顺7:求出区间的境界值
区间的境界值规定在测定单位的1/2之处。

这是因为区间的境界值和数据值相同,就不清楚其数据值应放在上区间或下区间。

(1)由以下公式求出第一区间的下境界值: 第一区间的下侧界限值=数据最小值—2测定单位=170—2
1=169.5 (2)因为级的幅度=3,所以:
第一区间的上限境界值=第一区间的下限境界值+区间的幅度=169.5+3=172.5
(3)以此类推,按照这样的顺序求出第二、三……区间的上下限境界值,直到最终区间的上限境界值超过数据最大值(199),即数据最大值被包括在最终区间内。

相关文档
最新文档