2021年正态概率图(normal probability plot)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

正态概率图(normal probability plot)

欧阳光明(2021.03.07)

方法演变:概率图,分位数-分位数图( Q- Q)

➢概述

正态概率图用于检查一组数据是否服从正态分布。是实数与正态分布数据之间函数关系的散点图。如果这组实数服从正态分布,正态概率图将是一条直线。通常,概率图也可以用于确定一组数据是否服从任一已知分布,如二项分布或泊松分布。

➢适用场合

·当你采用的工具或方法需要使用服从正态分布的数据时;

·当有50个或更多的数据点,为了获得更好的结果时。

例如:

·确定一个样本图是否适用于该数据;

·当选择作X和R图的样本容量,以确定样本容量是否足够大到样本均值服从正态分布时;

·在计算过程能力指数Cp或者Cpk之前;

·在选择一种只对正态分布有效的假设检验之前。

➢实施步骤

通常,我们只需简单地把数据输入绘图的软件,就会产生需要的图。下面将详述计算过程,这样就可以知道计算机程序是怎么来编译的了,并且我们也可以自己画简单的图。

1将数据从小到大排列,并从1~n标号。

2计算每个值的分位数。i是序号:

分位数=(i-0.5)/n

3找与每个分位数匹配的正态分布值。把分位数记到正态分布概率表下面的表 A.1里面。然后在表的左边和顶部找到对应的z 值。

4根据散点图中的每对数据值作图:每列数据值对应个z值。数据值对应于y轴,正态分位数z值对应于x轴。将在平面图上得到n 个点。

5画一条拟合大多数点的直线。如果数据严格意义上服从正态分布,点将形或一条直线。将点形成的图形与画的直线相比较,判断数据拟合正态分布的好坏。请参阅注意事项中的典型图形。可以计算相关系数来判断这条直线和点拟合的好坏。

➢示例

为了便于下面的计算,我们仅采用20个数据。表5. 12中有按次序排好的20个

值,列上标明“过程数据”。

下一步将计算分位数。如第一个值9,计算如下:

分位数=(i-0.5)/n=(1-0.5)/20=0.5/20=0.025同理,第2个值,计算如下:

分位数=(i-0.5)/n=(2-0.5)/20=1.5/20=0.075

可以按下面的模式去计算:第3个分位数=2.5÷20,第4个分位数=3 5÷20

以此类推直到最后1个分位数=19. 5÷20。

现在可以在正态分布概率表中查找z值。

z的前两个阿拉伯数字在表的最左边一列,

最后1个阿拉伯数字在表的最顶端一行。如

第1个分位数=0. 025,它位于-1.9在行与

0.06所在列的交叉处,故z=-1.96。用相

同的方式找到每个分位数。

如果分位数在表的两个值之间,将需要用插值法进行求解。例如:第4个分位数为0. 175,它位于0.1736与0.1762之间。0.1736对应的z值为-0.94,0.1762对应的z值为-0.93,故

这两数的中间值为z=-0.935。

现在,可以用过程数据和相应的z值作图。图表5. 127显示了结果和穿过这些点的直线。注意:在图形的两端,点位于直线的上侧。这属于典型的右偏态数据。图表 5.128显示了数据的直方图,可进行比较。

➢概率图( probability plot)

该方法可以用于检验任何数据的已知分布。这时我们不是在正态分布概率表中查找分位数,而是在感兴趣的已知分布表中查找它们。

➢分位数-分位数图(quantile-quantile plot)

同理,任意两个数据集都可以通过比较来判断是否服从同一分布。计算每个分布的分位数。一个数据集对应于x轴,另一个对应于y轴。作一条45°的参照线。如果这两个数据集来自同一分布,

那么这些点就会靠近这条参照线。

➢注意事项

·绘制正态概率图有很多方法。除了这里给定的程序以外,正态分布还可以用概率和百分数来表示。实际的数据可以先进行标准化或者直接标在x轴上。

·如果此时这些数据形成一条直线,那么该正态分布的均值就是直线在y轴截距,标准差就是直线斜率。

·对于正态概率图,图表5.129显示了一些常见的变形图形。

短尾分布:如果尾部比正常的短,则点所形成的图形左边朝直线上方弯曲,右边朝直线下方弯曲——如果倾斜向右看,图形呈S 型。表明数据比标准正态分布时候更加集中靠近均值。

长尾分布:如果尾部比正常的长,则点所形成的图形左边朝直线下方弯曲,右边朝直线上方弯曲——如果倾斜向右看,图形呈倒S 型。表明数据比标准正态分布时候有更多偏离的数据。一个双峰分布也可能是这个形状。

右偏态分布:右偏态分布左边尾部短,右边尾部长。因此,点所形成的图形与直线相比向上弯曲,或者说呈U型。把正态分布左边截去,也会是这种形状。

左偏态分布:左偏态分布左边尾部长,右边尾部短。因此,点所形成的图形与直线相比向下弯曲。把正态分布右边截去,也会是这种形状。

·如果翻转正态概率图的数轴,那么弯曲的形状也跟着翻转。比如,左偏态分布将是一个U型的曲线。

·记住过程应该在受控状态下对图形作出有效判断。

·尽管作直方图能马上知道数据的分布,但它却不是判断这些数据是否来自同一特定分布的好办法。人眼不能很好地判别曲线,其他的分布也可能形成相似的形状。并且,用服从正态分布的少量数据集作成的直方图可能看起来不是正态的。因此,正态概率图是判断数据分布的较好方法。

·判断数据分布的另一种方法是使用拟合良好性检定,比如Shapiro-Wilk检验,Kolmogorov-Smirnov检验,或者Lilliefors检验。关于这些检验的具体描述,不在本书的讨论范围,这些检验在大多数的统计软件上都能实现。向统计学家咨询如何选择正确的检验并解释其结果。请参阅“假设检验”以理解这些检验和所得到的结论的一般原则。

·最好的方法是使用统计软件得到正态概率图并作拟合性检验。结合使用可以对数据和统计标准有直观的理解,以此判定是否为正态。

END

相关文档
最新文档