标准差与估计标准差
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2-3 變異的計算及解析
由基礎課程裡我們可以知道:表示變異的方法有很多,其最常使用的是“標準差”;關於標準差的計算又分兩個觀念:(真)標準差σ與估計標準差σˆ。
為了解釋這兩個觀念的差異,我們先看下例數據:
下例數據有經過分組,每組抽測5個數據(即S/S 或n = 5的意思)。分組的原因不外乎量產、或長期研究等, 需要分批量測而形成母體與樣本的關係。
(1)(真)標準差σ:
若將所有Raw Data 視為一個母體、混合不分組,則
=STDEV( )所計算出來的標準差即為所求,即工程師最熟
悉的算法。
--------------------------------------------------------------
使用時機:a.) 想了解母體真正的變異的時候; b.) 想
敏銳地抓出上圖/組間變異的異常的時候。
---------------------------------
目的:了解整個母體的總變異。
優點:可以充分反映整個母體的異常(含上圖/組間變異、及下圖/組內變異的異常…尤其是組間變異的異
常)。
缺點:數據量要夠大(避免誤差過大)、且上圖不能有異常(避免組間變異顯著),否則計算出來的不具代
表性。
(2) 估計標準差σˆ:
大部分的工程師沒聽說過估計標準差。Raw Data 若經過分組(分組與抽樣皆要隨機),我們可以利用樣本的變異、去估算整個母體的變異;但是要特別注意組間變異(Xσ)已經被假設成常態分配;以白話來說:想像管制圖-上圖的每個組平均X是一顆綠豆,當這些綠豆被一把撒到管制圖-上圖的時候,這些綠豆皆自動定位到常態分配該有的位置上,因此整個上圖的假設都是常態分配,若真有異常、也早已被視而不見。
故以估計標準差σˆ來看問題,祇能解析下圖/組內變異的異常(即管理面的異常:如某單一人/機抽樣技術不穩定的問題、某單一作業機台不穩定的問題、某個別材料品
質不穩定的問題等一般因…主要還是抽樣技術不穩定的問題)。
此時的計算,都是由下圖/組內變異的平均來倒推,以估算整個母體變異的期望值:σˆ=s/c4 =R/d2 (註),其中c4、d2是查表值(附表),隨著n (即S/S)而變,n愈大估計值就會愈接近母體。
註:樣本s、R、MR與母體σ之間的關係,令母體與樣本均為常態分配,不需執行冗繁的計算,可以直接以查表方式整理如下:
E(s)= c4σ,D(s)= c3σ,其中c4、c3是查表值(附表)
E(R)= d2σ,D(R)= d3σ,其中d2、d3是查表值(
附表)
--------------------------------------------------------------------------------------------
使用時機:當組間變異過於顯著,無法正確評估製程之實力時。(註)
註:理想上σˆ=σ;實務上通常σˆ<σ:
σˆ代表著統計經驗對一特性在常態分配時的理想預測;也許是因為製程真的較差、也許是因為管制圖的管理分組做得並不好,造成上圖/組間變異變得比常態分配預期的還要大。
-----------------------------------------------------------------
目的:估算整個母體的總變異的期望值。
優點:因為計算的是期望值,當數據量不大時、較(真)標準差具代表性。
缺點:只能反映下圖/組內變異的異常,而組內變異的異常通常只能反映管理問題,所以較適合量產使
用。
t检验是对各回归系数的显著性所进行的检验,(--这个太不全面了,这是指在多元回归分析中,检验回归系数是否为0的时候,先用F检验,考虑整体回归系数,再对每个系数是否为零进行t检验。t检验还可以用来检验样本为来自一元正态分布的总体的期望,即均值;和检验样本为来自二元正态分布的总体的期望是否相等)目的:比较样本均数所代表的未知总体均数μ和已知总体均数μ0。
计算公式:
t统计量:
自由度:v=n - 1
适用条件:
(1) 已知一个总体均数;
(2) 可得到一个样本均数及该样本标准误;
(3) 样本来自正态或近似正态总体。
例1 难产儿出生体重n=35, =, S =,
一般婴儿出生体重μ0=(大规模调查获得),问相同否
解:1.建立假设、确定检验水准α
H0:μ = μ0 (无效假设,null hypothesis)
H1:(备择假设,alternative hypothesis,)
双侧检验,检验水准:α=
2.计算检验统计量
,v=n-1=35-1=34
3.查相应界值表,确定P值,下结论
查附表1,/ = ,t < / ,P >,按α=水准,不拒绝H0,两者的差别无统计学意义
什么是T检验
T检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。
T检验是用于小样本(样本容量小于30)的两个平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。
T检验是戈斯特为了观测酿酒质量而发明的。戈斯特在位于都柏林的健力士酿酒厂担任统计学家,基于Claude Guinness聘用从牛津大学和剑桥大学出来的最好的毕业生以将生物化学及统计学应用到健力士工业程序的创新政策。戈特特于1908年在Biometrika上公布T检验,但因其老板认为其为商业机密而被迫使用笔名(学生)。实际上,戈斯特的真实身份不只是其它统计学家不知道,连其老板也不知道。
T检验的适用条件:正态分布资料
单个样本的t检验
目的:比较样本均数所代表的未知总体均数μ和已知总体均数μ0。
计算公式:
t统计量:
自由度:v=n - 1
适用条件:
(1) 已知一个总体均数;
(2) 可得到一个样本均数及该样本标准误;
(3) 样本来自正态或近似正态总体。