演示档:正态分布与假设检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
σ =1
σ =2
µ
四、正态总体参数的估计
1、正态总体均值 常用的无偏估计为样本均值 :X
X
X1
X 2 n
Xn
1 n
n i 1
Xi
、正态总体方差 常用的无偏估计为样本方差 :
n
(Xi X )2
S 2 n 1 n 1
15 Kenneth.Yang
3、正态总体标准差 常用的无偏估计为样本标准差修偏而得:
31 Kenneth.Yang
例2、在改进工艺前后,各测量了若干钢条的抗剪强度,数 据如下:改进后:525、531、518、533、546、524、521 、533、545、540;改进前:521、525、533、525、517 、514、526、519。可以认为改进工艺后的平均抗剪强度 有提高吗?
在一定条件下,并不总是出现相同结果的现象称为随 机现象。
表示随机现象结果的变量称为随机变量。 随机现象有两个特点:
1、随机现象的结果至少有两个; 2、至于哪一个出现,事先并不知道。
3 Kenneth.Yang
离散型随机变量和连续型随机变量
假如一个随机变量仅取数轴上有限个点或可列个点,则 称此随机变量为离散型随机变量;
9 Kenneth.Yang
下面我们以某地18岁男大学生100人的身高(cm)资料,来说 明身高变量服从正态分布。
该数值变量资料频数
分布呈现中间频数多,左右
两侧基本对称的分布。所以
30
我们通俗地认为该资料服从
正态分布。
25
20
频数
15 频数
10
5
0 163 165 167 169 171 173 175 177 179 181 183
解:设在改进后钢条的抗剪强度X~N(μ ,σ ²),改进前钢 条的抗剪强度Y~N(μ ,σ ²)。从两组产品中随机抽取 n=10,m=8的样品,测得抗剪强度的均值和方差分别为: x =531.60,(Sx)²=(9.78)² y =522.50,(Sy)²=(6)²
32 Kenneth.Yang
首先在
的显著性水平上检验改进前后的方差是否相
等,若可以认为相等的话,再在
的显著性水平上检
验改进后的均值是否增大。
( )检验方差是否相等:
用 检验,设原假设 :
,备择假设 :
拒绝域为{
/2 , 或
由样本观测值求得 x
或 1‐ /2 ,
y
结论:由于样本观测值未落在拒绝域中,所以接受原假设, 认为改进前后的方差相等。
变,试问生产是否正常?(
)
解:( )建立假设。原假设 : ;
,备择假设 :
( )由于 已知,故选用 检验,检验统计量
(
)
,,拒绝域为{
1‐ /2};
( )根据显著性水平
{
1‐ /2} {
,查表知拒绝域为: };
29 Kenneth.Yang
( )由样本观测值,求得:
(
)(
)
结论:由于样本观测值未落在拒绝域中,所以不能拒绝原假 设,可以认为该天生产正常。
max
f(x )
0 13 Kenneth.Yang
µ1
µ2
标准差对正态曲线的影响
在μ不变的情况下,函数曲线位置不变,若σ变大时,曲 线形状变的越来越“胖”和“矮”;若σ变小时,曲 线形状变的越来越“瘦”和“高”,故称σ为形态参 数或变异度参数。
f(x )
0
14 Kenneth.Yang
σ =0.5
21 Kenneth.Yang
质量检验的两类风险—生产方风险
生产方风险:由于抽样的随机性,本来质量合格的批 被判拒收的风险,称为生产方风险。它是对给定的抽 样方案,当批质量水平为某一指定的可接受值p 时, 但不被接收的概率。一般用字母 表示,在使用时, 通常规定为 。这里的p 称为生产方风险质量。
22 Kenneth.Yang
质量检验的两类风险—使用方风险
使用方风险:由于抽样的随机性,本来质量不合格的批 被判接收的风险,称为使用方风险。它是对给定的抽样 方案,当批质量水平为某一指定的不可接受值p 时,但 被接收的概率。一般用字母 表示,在使用时, 通常 规定为 。这里的p 称为使用方风险质量。
正态曲线在横轴上方均数处最高; 正态分布以均数为中心左右对称; 正态分布有2个关键参数 : 平均值μ:位置参数 标准差 :形状参数(变异度参数)
12 Kenneth.Yang
平均值对正态曲线的影响
在σ不变的情况下,函数曲线形状不变,若μ变大时,曲 线位置向右移;若变小时,曲线位置向左移,故称μ 为位置参数。
这里自由度是指样本中可以独立或自由取值的自变量的个 数。
20 Kenneth.Yang
六:统计判断的两类错误
在假设检验中,错误有两类: 第一类错误:拒真错误。原假设H 为真,但是由于抽
样的随机性,样本落在拒绝区域内,从而导致拒绝H ,其发生概率为 ; 第二类错误:取伪错误。原假设H 不真,但是由于抽 样的随机性,样本落在接受区域内,从面导致接受H ,其发生概率为 。
26 Kenneth.Yang
假设检验的判断:
将检验统计量的值与拒绝域的临界值相比较,当 它落在拒绝域中就做出拒绝原假设的结论;反之 则接受原假设。
由检验统计量计算P值,如果P ,则拒绝原假设 。所谓 值就是当原假设成立时,出现目前状况的 概率。当这个概率很小时,这个结果在原假设成 立的条件下本不应该出现。但确实出现了,我们 可以认为原假设不成立。
33 Kenneth.Yang
(2)检验均值是否有提高:
由于两总体方差相等,但未知,改用t检验。设 :
,
:
拒绝域为:{ 1‐
由样本观测值知:
x - y )/[Sw
结论:由于统计量的值落在拒绝域中,应拒绝原假设,可以 认为改进后的钢条抗拉强度确有提高。
34 Kenneth.Yang
用
进行计算:
1)等方差检验: 改进后, 改进前 ,95% 标准差Bonferroni 置 信区间
假如一个随机变量的所有可能取值充满数轴上的一个区 间(a,b),则称此随机变量为连续型随机变量。
4 Kenneth.Yang
产 品
定量
质
量
特
定性
性
连续 离散
计量值
计数值
计
数
计件值
值
5 Kenneth.Yang
计量值数据 计量值数据是可以连续取值,或者说可以用测
量工具具体测量出小数点以下数值的这类数据。 如长度、压力、温度等。 计数值数据
S
1 n 1
n i 1
(X i
X
)2
为修偏系数,可通过查系数表得到:
子组大 小n
2
3
5
8
10
12 15 20 25
修偏系 数C₄
0.798 0.886
0.94
0.965 0.973
0.978 0.982 0.987
0.99
当n 时,
, 越大越接近 。
16 Kenneth.Yang
五、正态总体参数的置信区间
根据样本观测值可以得到总体参数的置信区间, 如果原假设的参数值未落入此置信区间,则拒绝 原假设;反之则接受原假设。
27 Kenneth.Yang
案例:
已知某产品正常生产下服从N( , ),测得某 天生产的产品数据,平均值稍有变化,如果标准 差不变,试问生产是否正常?
经过试验得到两组测量值数据,试问这两组数据 的均值是否有明显的差异?
正态分布 均匀分布 对数正态分布 指数正态分布
2、常用的连续分布:
7 Kenneth.Yang
三、正态分布
正态分布的概率密度函数
wk.baidu.com
f (X)
1
e ,
(
X 2 2
)2
2
X
X为连续随机变量,π=3.14159,e为自然对数的底即 2.71828,μ为总体均数,σ为总体标准差,记为X~ N(μ ,σ2)
19 Kenneth.Yang
当用样本标准差 代替总体标准差 ,则 变量改为 变量, 标准正态分布 ( , )也随之改为自由度为 的 分布 ,记为 ( )。自由度为 的 分布的概率密度函数与 标准正态分布 ( , )的概率密度函数图形大致类似。 当自由度超过 后,两者的差别已很小,这时可以用 ( , )替代 ( )。
某厂要求出货产品不合格品率不得超过 ,出货 时抽样 个,发现有 个不良,试问能否放行?如 果抽样 个,发现有 个不良,试问能否放行?
28 Kenneth.Yang
例1、某零件,其厚度在正常生产下服从N(0.13,0.015 )
。某日在生产的产品中抽查了 件,其观测值为:
、、、、、、、、
、 。发现平均厚度稍有变化,如果标准差不
23 Kenneth.Yang
在相同样本量下:要使 小, 就大;要使 小, 就 大。
基本原则:力求在控制 前提下减少 常选 取值0.05,有时也用0.1、0.01等。 为减少损失:如果犯I类错误损失更大, 值取小;如
果犯II类错误损失更大, 值取大。 确定 ,就确定了临界点。
24 Kenneth.Yang
计数值数据是不能连续取值,只能以个数计算 的数据。如不合格品数,缺陷数等。
6 Kenneth.Yang
二、随机变量的分布
分布(distribution):用来描述随机现象的统计规律,说明两个问题: 变异的幅度有多大;出现这么大幅度的概率。
1、常用的离散分布: 二项分布 泊松分布 超几何分布
8 Kenneth.Yang
正态分布的通俗概念:
如果把数值变量资料编制频数表后绘制频数分布图(又 称直方图,它用矩形面积表示数值变量资料的频数分 布,每条直条的宽表示组距,直条的面积表示频数( 或频率)大小,直条与直条之间不留空隙。),若频 数分布呈现中间为最多,左右两侧基本对称,越靠近 中间频数越多,离中间越远,频数越少,形成一个中 间频数多,两侧频数逐渐减少且基本对称的分布,那 我们一般认为该数值变量服从或近似服从数学上的正 态分布。
25 Kenneth.Yang
用样本指标估计总体指标,其结论有的完全可靠,有 的只有不同程度的可靠性,需要进一步加以检验和证 实。通过检验,对样本指标与假设的总体指标之间是 否存在差别作出判断,是否接受原假设。这里必须明 确,进行检验的目的不是怀疑样本指标本身是否计算 正确,而是为了分析样本指标和总体指标之间是否存 在显著差异。从这个意义上,假设检验又称为显著性 检验。
正态分布与假设检验
SQE:Kenneth.Yang
提纲:
1. 随机变量; 2. 随机变量的分布; 3. 正态分布; 4. 正态总体参数的估计; 5. 正态总体参数的置信区间; 6. 统计判断的两类错误(质量检验的两类风险); 7. 正态总体参数的假设检验。
2 Kenneth.Yang
一、随机变量
1、区间估计的概念: 设 是总体的一个待估参数,确定两个统计量 L与 U
,若对于任意 落在区间【 L、 U 】里的概率 ,则称随机区间【 L、 U 】是 的置信水平为 的 置信区间。 L与 U 分别称为 的 的置信上限与置 信下限。
17 Kenneth.Yang
2、总体均值 的置信区间的求法: 当总体标准差 已知时:
X [
1‐ /2
X ,
1‐ /2
1‐ /2 是标准正态分布的 是样本容量。
分位数;X 是样本均值;
18 Kenneth.Yang
2、总体均值 的置信区间的求法: 当总体标准差 未知时:
X [
1‐ /2
X ,
1‐ /2
1‐ /2
表示自由度是 的 分布的
分位数;X 是
样本均值; 是样本容量; 是样本标准差。
身高(cm)
10 Kenneth.Yang
表1 某地1998年100名18岁男大学生身高的频数分布图
正态分布的曲线特征
正态分布曲 max 线位于横轴 上方,呈钟 形。
正态分布曲 f(x) 线以均数所 在处最高, 且以均数为 中心左右对 称。
0
µ 11 Kenneth.Yang
正态分布的特征
七、正态总体参数的假设检验
假设检验亦称“显著性检验 (Test of statistical significance)”,是数理统
计学中根据一定假设条件由样本推断总体的一种方法 。用来判断样本与样本,样本与总体的差异是由抽样 误差引起还是本质差别造成的。目的就在于排除抽样 误差的影响,区分差别在统计上是否成立,并了解事 件发生的概率。
用
进行计算,结果如下:
单样本 Z: X
mu = 0.13 与 ≠ 0.13 的检验,假定标准差 = 0.015
变量 N 平均值 标准差 平均值标准误
X 10 0.13580 0.01511 0.00474
95% 置信区间
Z
P
(0.12650, 0.14510) 1.22 0.221
30 Kenneth.Yang