统计量数 - 欢迎光临,国立台北大学

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2 0
統計量數

集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數
集中量數(Measures of Central Tendency)

平均數
– – – – –

算術平均數 加權平均數 幾何平均數 調和平均數 截尾平均數 溫塞平均數

中位數 眾數
算術平均數(Arithmetic Mean)

分組資料:
kn c Pk L ( F) 100 f
四分位數(Quartile)

為百分位數的特殊應用,亦即第一個四分位數 (Q1)代表第二十五百分位數、第二個四分位數 (Q2) 代表第五十百分位數,亦為中位數,第 三個四分位數(Q3)則為第七十五百分位數。
標準分數(Standard score)
SK ( M 0 )

(或
3( x Md )

)
M0:眾數 Md:中位數 a. SK = 0對稱分配 b. SK > 0右偏分配 c. SK < 0左偏分配
正負偏態時,平均數、中位數、和眾數的 關係
峰度係數
m4 2 4 3 s
2 0
2 0
則此分配為常態峰 則此分配為高狹峰 則此分配為低闊峰

算術平均數簡稱平均數,亦稱非加權平均數 (unweighted mean)。其運算公式如下:

未分組資料:
分組資料:
n
M X
X
i 1
n
i
n
M X
fm
i 1 i
i
n
加權平均數( Weighted Mean )

加權平均數適用於當各個數值之重要程度不同, 須使用不同權數表示不同比重時。

原動差:當 a = 0 時之 動差
m

' r
1 n
x
i 1
n
r i
主要動差:當 a =
x
時之動差
1 n r mr ( xi x ) n i 1
偏態(skewness)係數

動差法
1
m3 s3
1 0
1 0
對稱分配 右偏分配 左偏分配
1 0

Pearson法
Z
X

~ N(0,1)
分配形態量數(Measure of Distribution Shape)

動差 偏態 峰度
動差


定義:一群數字資料中每個數值與某特定值差 異之r次方的平均數,稱為r階動差。 概約動差
– 對任一實數a為特定值之動差,又稱之為輔助動差。
n 1 ' r mr ( xi a ) n i 1
n
s2

i 1
k
f i ( mi x ) 2 n 1
標準差(Standard Deviation, SD)

標準差為變異數的正平方根
母體的標準差
樣本的標準差
2
2 ( x x ) i i 1 n

(X i )
i 1
N
N
s
n 1
變異係數(Coefficient of Variation, CV)

當kn/100不為整數時,使用內差法的公式為
Pk X ([ kn /100 ]1) ( X ([ kn /100 ] 2) X ([ kn /100 ]1) ) k ([kn / 100]) /(n 1) *( ) ([kn / 100] 1) /(n 1) ([kn / 100]) /(n 1)
契比雪夫不等式(Chebyshev’s Inequality)
不論資料為何種分佈,至少有(1 – 1/k2)的資料落在距離平均數k個標 準差的範圍內,其中k為大於1的任意數。
1 p[(| X |) k ] 1 2 k
1 p[(| X |) k ] 2 k
相對位置量數(Measures of Relative Position)

變異係數是由標準差變化而來的另一量數,為將標準 差除以平均數所得。變異係數的主要功用是用以比較 單位不同之多種資料的差異程度;或用以比較單位相 同,但平均數不同之多種資料的差異程度。
SD CV M
四分位數距(Inter-quartile range)及 四分差(Quartile Deviation, QD)
Mw
W X
i 1 n i
n
i
W
i 1
i
幾何平均數(Geometric Mean)

幾何平均數適用於平均改變率、平均成長率、平均比率或是 對數分配等之資料的平均之求算。常見的幾何平均數有平均 經濟成長率、物價等具有基期之資料。
GM n X 1 X 2 X n n
X
i
n
i
調和平均數(Harmonic Mean)


若資料呈現調和級數(資料的倒數為等差級數)時, 適用調和平均數來計。在實際的應用中,如物價固定 下的平均物價、距離固定下之平均時速等資料皆適合 使用。 (調和平均數永遠小於幾何平均數,而幾何平均數又小 於算術平均數。)
HM
n

i
n
1 Xi
截尾平均數(Trimmed mean)


分組資料:
n F Md L ( 2 )c f
眾數(Mode)

眾數係指在一群體中出現次數最多的那個數值。通常它適 用名義尺度資料。
未分組資料:



分組資料:

將資料依序歸類, 找出出現次數最多 的數值,即為眾數。
使用King插補法
fa Md L ( )c fb fa
平均數、中位數、眾數的比較

尺度特性
– –

名義尺度:眾數 序列尺度:眾數或中位數 等距尺度及比例尺度:平均數 眾數:具有作為類別資料的判斷準則(例如在民意的表達,少數服 從多數)、不受極端值影響等之優點。但是如果觀察值的分佈並不 集中,則不適用眾數為判斷準則;另外眾數不適合數學運算。 中位數:具有不受極端值的影響,代表機率累積到中位數時所佔之 機率值為50%等優點。但是中位數一樣不適合數學運算。 算術平均數:具有可進行四則運算、誤差平方和(Error sum of squares)最小、母體平均數的最佳估計式等優點。但是容易受極端 值影響及資料分配呈現雙峰分配時,無法代表集中趨勢。
中位數(Median)

將統計資料依其大小排列,而其位置居於中間者,為該 群資料的中位數
未分組資料: – 首先將n個數值由小而大 順序排列,然後決定中位 數所在位次,如果樣本大 小n 為偶數,則以第n/2個 與n/2+1個數值的平均值 為中位數,如果樣本大小 n為奇數, 則以第(n+1)/2 個數值為中位數。
四分位數距 四分位差
IQR Q3 Q1
Q3 Q1 IQR QD 2 2
各種離散趨勢量數的比較 Nhomakorabea

全距:優點為計算容易,易於瞭解,缺點是只使用了資料中的極 大值與極小值,不能充份表達資料的分散情況而且易受資料中的 極端值的影響。 四分位距及四分位差:優點為使用第三及第一四分位數,避免受 極端值的影響;但是和全距一樣,不能充份表達資料的分散情況。 平均絕對離差:相對於全距及四分位距等量數,平均絕對離差使 用了全部的資料來計算;但是因為其運算是使用絕對值的方式, 在計算上較為不便。 變異數:和平均絕對離差一樣,變異數在計算上使用了全部的資 料,而且其計算較為方便;但是變異數較平均容易受極端值的影 響、

截尾平均數為將資料中的第一四分位數以下、 第三四分數位以上的觀察值去除後,計算剩餘 觀察值(第一和第三四分位數中間的數值)的 算術平均數。
溫塞平均數(Winsorized mean)

將資料中第一四分位數以下、第三四分數位以 上的觀察值分別以第一四分位數及第三四分數 位代替之,然後計算算術平均數。

百分位數 四分位數 標準分數
百分位數(Percentile)

將原始資料由小至大排序後,累積次數到達第 k%的觀測值,稱為第k百分位數;其表示方法 為「Pk」

原始資料

以遞增方式將原始資料排序,(1)≦X(2)≦、、≦X(n)

當kn/100為整數時,使用內差法的公式為
Pk X ([ kn /100 ]) ( X ( kn /100 1) X ( kn /100 ) ) k (kn / 100 1) /(n 1) *( ) (kn / 100) /(n 1) (kn / 100 1) /(n 1)

優缺點

– –
變異量數(Measures of Dispersion)或離 散量數

全距 平均絕對離差 變異數 標準差 變異係數 四分差
全距(Range, R)

全距是表示一群體全部數值的變動範圍。其計算簡單、意義 顯明,但反應不夠靈敏,即最大、最小數值不變而其它各項 數值皆改變時,全距不能反應;此外,全距容易受兩極端數 值的影響。
R X max X min
平均絕對離差(Mean absolute Deviation)

平均絕對離差係用以表示所有觀測值與平均數之絕對值差異距離。 由於其係根據全部數值求得,故較全距感應靈敏,但因使用絕對 值運算,較不易計算,故較不常使用。
AD
X
i 1
n
i
X
n
變異數(Variance)

變異數係用以顯示一群體中所有數值與平均數離散 的情形,應用最為廣泛。
未分組資料
母體變異數 樣本變異數
2
2
(X
i 1
N
i
)
N

X
i 1
N
2 i
n
2
N
s2
2 ( x x ) i i 1
n
n 1
母體變異數
樣本變異數

2
f (m
i 1 i
k
i
x)
2
相关文档
最新文档