数据分析培训提纲

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据分析培训提纲

1.概论

数据分析的重要性

(1)贯彻质量管理8项原则的需要

QM的8项原则之一为:基于事实的决策方法。要避免决策失误必须提供足够的信息,以及进行科学决策。

信息:有意义的数据。

数据:能客观反映事实的资料和数字。

要使数据提升为信息,才能将其增值。为此,必须从数据收集和分析上运用科学的方法,使之便于利用。

(2)通过数据的收集和分析可证实QMS是否适宜和有效。

(3)帮助识别和评价QMS持续改进的机会。

(4)增强对各种意见和决策的分析、判断、评审、质疑能力因此,数据分析是保障QMS有效运行的重要手段。

数据分析的一般过程

1.2.1数据收集

(1)收集范围

产品、体系和过程的数据,如:产品检测中的不合格,QMS质量目标完成情况、持续改进情况、过程监视和测量情况等。

事实上在QMS的各个过程中,都会产生一些数据,在管理中必须根据当前及长远目标的需要,确定应收集那些数据,重点如何。

(2)收集方法

1)各种报表和原始记录(注意分类)

2)区域网中的数据库

3)注意明确收集人、收集时间、收集方式、传递方式。

(3)收集的要求

1)及时

2)准确数据的质量,“进来的是垃圾,出去的还是垃圾”

3)完整数据项目齐全,数量符合要求。

1.2.2数据分析、处理

(1)数据的审查和筛选

剔除奇异点,确定数据是否充分

(2)数据排序

按其重要度进行排序,以确定分析处理的对象和顺序

(3)确定分析内容,进行统计分析

(4)分析判断

在统计分析的基础上,以目标值或标准为依据,对统计分析结果(绘图或计算)作进一步分析,以获得指导过程改进的明确信息,找出主要问题和薄弱环节,并提出相应的改进建议。

(5)编写报告

对分析判断得出的规律、趋势整理成报告(附有直观的图表)

-1-

1.2.3数据的利用

不能为分析而分析,要有“的”放矢,数据分析应指导管理。数据分析是为了科学决策,决策的结果,可通过前后对比来分析判断其有效性。数据分析应对其全过程做到闭环管理。

为此,应将数据分析信息有效地传递,做到信息共享。在风险评估的基础上,采取适当措施。

2.统计分析技术

概述

2.1.1什么是统计分析技术

(1)统计技术

运用数理统计的方法对数据进行分析,找出其规律和趋势。如:常用的控制图、回归分析、试验设计等。

(2)分析技术

运用逻辑分析的方法对数据进行分析,找出影响事物的因素及其影响程度。如常用的排列图、因果图、饼图、QFD和FMEA等方法。

2.1.2统计技术应用的基础条件

(1)日常管理秩序健全,产品质量有可追溯性。

(2)生产过程相对稳定。

影响质量的因素已规范化,过程质量处于受控状态。

(3)具备必要的物质、技术基础

测试手段适用,必要的图表及计算处理用具或软件。

(4)大量的数据计算和处理运用计算机

统计技术的基础知识

2.2.1随机变量及其分布

(1)什么是随机变量:

变量——数值有变化的量,相对常量而言。

随机因素——随机(不是人为偏向)因素(多种因素),如:年降雨量,抛硬币。

加工尺寸——由模具磨损、机器磨损、材料、人的操作重复性、环境……等决定。

随机变量——受随机因素影响的在一定范围内取值的量抽样必须

随机,不能有倾向性,。

(2)分布

直方图:

fi

n ——数据总数 n i ——第i 组的

频数

连续型随机变量: ΔX O 为一光滑曲线,此曲线为分布函数。 分布的特征:形状(对称、偏斜)、位置、分布宽度(最大值—最

小值)。

2.2.2总体与样本

总体——研究对象的全体,如一批电缆,可视为总体,研究其总长,

每一根(或段)电缆则为总体中的一个个体(成员),一批n i

所有电缆的总长为总体。

总体用变量X表示

-2-

样本——从总体中抽出的部份个体组成的集合称为样本。

抽样因为不可能研究每一个个体。

从样本推断总体,必须正确反映总体的信息,正确抽样。

随机抽样——简单随机样本、随机数表

Xi 0~99 可以构成2500个随机数。

2.2.3正态分布

钟形曲线,曲线下的面积表示概率

对称,中间高,两边低

X~(μ,σ2)

X

μ

μ——总体的均值;σ——总体标准差正态分布检验:

·直方图

·概率纸横坐标——X的等距取值;纵坐标——不等距%~% 在概率纸上描出的点呈一直线,则为正态分布。正态分布的分布函数值

近似正态分布——总趋势符合正态分布,但有个别的奇异点。2.2.4常用统计特征量(样本)

统计量——不含未知数的样本函数称为统计量。

统计量是由样本得出,但其对估计总体状况(产品的某些特性值)具有重要意义。

(1)反映样本位置的统计量

1)均值——样本的算术平均值X

样本中的数据多数分布在样本均值附近,因此它是表示样本位置的最好的统计量。

局限性:容易受数据中的特大、特小值(异常值)的影响。

若有5个样本,观测值为3,5,7,9,11 X=7

如果误将11记为21 X=9

当数据异常时,把X作为数据的代表不太合适,需要引入新的统计量。

2)中位数——样本中的数据从大到小排列后处在中间位置上的数。

样本容量n为奇数时,它为中间的一个数

n为偶数时,它为中间的两个数的平均值,记为Mα

如样本为10,15,23,30 则Mα=(15+23)/2=19

10,15,23,30,35 则Mα=23

中位数受异常值的影响较小,如:

3,5,7,9,11

其Mα均为7

3,5,7,9,21

(2)反映数据波动的统计量

1)极差R=Xmax —Xmin

极差计算简便,但对样本信息利用不够,且它受异常值的影响较

相关文档
最新文档