质量特性数据的统计规律

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

质量特性数据的统计规律

一、总体、个体与样本

产品的质量可以用一个或多个质量特性来表示。这里的特性可以是定量的,也可以是定性的。例如灯泡的寿命,钢的成分等都是定量特性;而按规范判定产品为“合格”或“不合格”,则是一种定性特征。

在质量管理中,通常研究一个过程中生产的全体产品。在统计中,将研究、考察对象的全体称为总体。例如某个工厂在一个月内按照一定材料及一定工艺生产的一批灯泡。总体是由个体组成的。在上例中,这批灯泡中的每个特定的灯泡都是一个个体。如果总体中包含的个体数不大,而对产品质量特性的观测(例如测量)手段不是破坏性的,工作量也不大,那么有可能对总体中的每个个体都进行观测,以得到每个个体的质量特性值。但是如果总体中的个体数N很大,甚至是无限的,或者观测是破坏性的或观测的费用很大,那么不可能对总体中的每个个体都进行观测。通常的做法是从总体中抽取一个或多个个体来进行观测。抽出来的这一部分个体组成一个样本,样本中所包含的个体数目称为样本量。通过对样本的观测来对总体特性进行研究,是统计的核心。

上述总体、个体和样本的概念是统计的基本概念,从上面的叙述中,这些概念都可以是具体的产品。但有时为了表达的方便,当研究产品某个特定的质量特性X时,也常把全体产品的特性看做为总体,而把一个具体产品的特性值x视为个体,把从总体中抽出的由n个产品的特性值x1,x2,…,x n看做为一个样本。

[例1.1-1]从一个工厂一个月内生产的一批灯泡中抽取n=8个灯泡,进行寿命试验,得到这8个灯泡的使用寿命为(单位为小时): 325,84,1244,870,645,1423,1071,992 这8个灯泡或相应的使用寿命即为一个样本,样本量n=8。

从总体中抽取样本的方法称为抽样。为使抽取的样本对总体有代表性,样本不能是有选择的,最好应是随机抽取的,关于这一点,以后我们还要详细解释。

二、频数(频率)直方图及累积频数(频率)直方图

为研究一批产品的质量情况,需要研究它的某个质量特性(这里为了叙述简单起见,仅讨论一个质量特性,有必要时也可以同时讨论多个质量特性)X的变化规律。为此,从这批产品(总体)中抽取一个样本(设样本量为n),对每个样本产品进行该特性的测量(观测)后得到一组样本观测值,记为x1,x2,…,x n,这便是我们通常说的数据。

为了研究数据的变化规律,需要对数据进行一定的加工整理。直方图是为研究数据变化规律而对数据进行加工整理的一种基本方法。下面用一个例子来说明直方图的概念及其作法。

〔例1.1-2]食品厂用自动装罐机生产罐头食品,从一批罐头中随机抽取100个进行称量,获得罐头的净重数据如下:

为了解这组数据的分布规律,对数据作如下整理:

(1)找出这组数据中的最大值x max及最小值x min,计算它们的差R=x max-x min,R称为极值,也就是这组数据的取值范围。在本例中x max=356,x min=332,从而R=356-332=24。

(2)根据数据个数,即样本量n,决定分组数k及组距h。

一批数据究竟分多少组,通常根据n的多少而定,不过这也不是绝对的,表1.1-1是可以参考的分组数。

选择k的原则是要能显示出数据中所隐藏的规律,组数不能过多,但也不能太少。

每一组的区间长度,称为组距。组距可以相等,也可以不相等。组距相等的情况用得比较多,不过也有不少情形在对应于数据最大及最小的一个或两个组,使用与其他组不相等的组距。对于完全相等的组距,通常取组距h为接近R/k的某个整数值。

在本例中,=100,取k=9,R/k=24/9=2.7,故取组距h=3。

(3)确定组限,即每个区间的端点及组中值。为了避免一个数据可能同时属于两个组,因此通常将各组的区间确定为左开右闭的: (a0,a1],(a1,a2],…,(a k-1,ak]通常要求a0x max。在等距分组时,a1=a0+h,a2=a1+h,…,a k=a k-1+h,而每一组的组中值

在本例中取a0=331.5,则每组的组限及组中值见表1.1-2。

(4)计算落在每组的数据的频数及频率

确定分组后,统计每组的频数,即落在组中的数据个数n i以及频率f i=n i/n,列出每组的频数、频率表,见表1.1-2。

(5)作频数频率直方图

在横轴上标上每个组的组限,以每一组的区间为底,以频数(频率)为高画一个矩形,所得的图形称为频数(频率)直方图,如图1.1-1。到在本例中频数直方图及频率直方图的形状是完全一致的。这是因为分组是等距的。

在分组不完全等距的情形,在作频率直方图时,应当用每个组的频率与组距的比值f i/h i为高作矩形。此时以每个矩形的面积表示频率。

(6)累积频数和累积频率直方图

还有另一种直方图使用的是累积频数和累积频率。以累积频率直方图为例,首先要计算累积频率F i,F i是将这一组的频率与前面所有

,第2组的F2=f1+f2,一般的,F i=

组的频率累加,也即第1组的F

f j。本例中的各组F i值也见表1.1-2。

如果以每组的累积频率F i为高作矩形,所得的直方图称为累积频率直方图,本例中的累积频率直方图如图1.1-2所示。

可以从直方图获得数据的分布规律,其中包含数据取值的范围,以及它们的集中位置和分散程度等信息。

应当引起注意的是,如果我们观测的数据量(即样本量)n很大,而分组又很细,那么从频率直方图及累积频率直方图可以分别得到一根光滑曲线,关于这一点我们将在本章第三节详细讨论。

三、数据集中位置的度量

对一组样本数据,可以用一些量表示它们的集中位置。这些量中,常用的有样本均值、样本中位数和样本众数。

(一)样本均值

样本均值也称样本平均数,记为,它是样本数据x 1,x2,…,x n的算术平均数:

[例1.1-3]轴直径的一个n=5的样本观测值(单位:cm)为:15.09,15.29,15.15,15.07,15.21,则样本均值为:

=15.09+15.29+15.15+15.07+15.21)=15.162 对于n较大的分组数据,可利用将每组的组中组x'i用频率f i加权计算近似的样本均值:

〔例1.1-4]在例11.2中,100个罐头的净量的均值按分组计算为:

=333×0.01十336×0.04十339×0.11+…+357×0.01 =34508/100=345.08

样本均值是使用最为广泛的反映数据集中位置的度量。它的计算比较简单,但缺点是它受极端值的影响比较大。

(二)样本中位数

样本中位数是表示数据集中位置的另一种重要的度量,用符号Me或表示。在确定样本中位数时,需要将所有样本数据按其数值大小从小到大重新排列成以下的有序样本:

x(1),x(2),…,x(n)其中x(1)=x min,x(n)=x max分别是数据的最小值与最大值。

样本中位数定义为有序样本中位置居于中间的数值,具体地说:

相关文档
最新文档