邱皓政2007统计原理与分析技术05__参数估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
敘述統 計 統計量 Speed 平均數 平均數的 95% 信 賴區間 下限 上限 116.50 112.78 120.22 標準誤 1.821
12
百分比的區間估計
• 連續變數
– 可計算出平均數,因此可進行母體平均數的 估計
• 類別變數
– 無法進行平均數估計,僅有次數,故可進行 百分比區間估計 – 二分尺度:指每一位受測者對於某一個選項 的選項只有「是」、「否」或「贊成」、 「反對」兩種答案 – 多點尺度:超過兩點以上的類別變數
( n 1) s
2
2
2
( n 1) s
2
2 1
( 5-1 2)
2
19
範例
• 一個投手在某一場比賽中,他投出30個直球, 球速平均為每小時116.5公里,變異數為 99.5(km/hr)2,標準差為9.975(km/hr),那麼這 位投手球速變異數與標準差的90%信賴區間為
116 . 5 2 . 045
112 . 78 120 . 22
9 . 975 30
116 . 5 2 . 045 1 . 821 116 . 5 3 . 72
• 利用SPSS的預檢資料(explore),可獲得平均數的區 間估計,數據如下: • 標準誤為1.821,區間為112.78至120.22
13
類別尺度的機率換算
是否支持小學教英文? □是 □否 130( 65% ) 70( 35% ) ( p = .6 5 , q = .3 5 ) ( p = .3 5 , q = .6 5 )
是否支持小學教英文? □是 □否 □沒意見 130( 65% ) 40( 20% ) 30( 15% ) ( p = .6 5 , q = .3 5 ) ( p = .2 0 , q = .8 0 ) ( p = .1 5 , q = .8 5 )
f ( x1 ; ) f ( x 2 ; ) f ( x n ; )
(5-1)
• 「概似」函數
– 因為L()是我們進行樣本估計時,對於參數空間機率函數的估 計 – 其所描繪的事件空間近似於參數空間,是在參數空間最有可 能觀測的樣本值 – 由最有可能觀測值去求取參數的估計數,稱為ˆ ,又稱為最大 概似估計數(maximum likelihood estimator)。例如要以n個特 定大小的樣本X1,…,Xn的平均數來推估參數,即為。
17
變異數的區間估計(1/2)
• 區間估計的應用
– 變異數的抽樣分配為卡方分配
(X
2 ( n 1) n i
X)
2
2
i 1
ˆ ( n 1 )
2
2
– 對於變異數的估計必須參照卡方分配的機率 函數來求得上下限,據以進行區間估計。 – 利用卡方分配的機率函數,求出在1-的信 心水準下的上下限卡方值 與
i 1
ln
1 2 2
n
i 1
( xi 1 ) n ln ( 2 ) 2 2 2 2
2
(x
i 1
n
i
1 )
2
2 2
• 分別對於兩個參數進行一階偏微分,令式為0,同時解出兩個參數
2 2
2
轉折點
-3
-2
-1
0
1
2
3
圖 3 .1 常 態 曲 線 與 累 積 機 率 圖
6
常態分配的最大概似估計數
• 從此一常態母體N(,2)抽取n個獨立隨機變數X1,…,Xn,利用最大 概似法,由樣本統計量估計常態分配的兩個參數,需代入常態分配 的機率函數,得到二參數概似函數為
s
2 n
1 n 1
(Xi X )
2
i 1
n 1 n 1 2 E (ˆ2 ) E (s ) n n
2
2
8
平均數的區間估計
• 對於一個平均數的抽樣分配,標準誤是母體標準差除以樣本數開 跟號 • 配合常態機率,機率值68.26%、95.44%、99.74%稱為母數的區 間估計的信心水準(level of confidence),幾個標準誤的區間範 圍稱為母數的區間估計的信賴區間(confident interval)
1 n
n
(X i X )
2
i 1
• 常態母體N(1=,2=2),對於與2的最大概似不偏 估計數如下,樣本變異數為母體變異數2的不偏估計
數
ˆ ˆ1 X
ˆ ˆ2
2
1
(X n
i 1
n
i
X )
2
( n 1) s n
2
• 樣本平均數的抽樣分配為N(,2/n),最大概似估計數 是的偏估計數
• 選擇其中一個選項的百分比(以p表示),相對的,不選擇該選項 的比例就是1-p,或以q表示,兩者合計為100%。 • 百分比資料在計算p與q時,是以個別選項的反應為基礎,也就是 受測者在每一個二分決策的選擇(與未選擇)的百分比,而不是 以所有選項的整體百分比來計算。
14
二項分配的原理
• 原理 • 二分變項的機率分配稱為二項分配(binominal distribution),是一種基於 白努力實驗(Bernoulli experiment) 所獲得的機率分配。 • 白努力實驗是指每一次獨立嘗試具有兩 個完全互斥結果的隨機實驗。 • 二項分配的機率函數如下: • 二項分配的平均數為np,標準差為:
2
估計的分類
• 點估計(point estimation)
– 以單一統計量來估計參數
• 區間估計(interval estimation)
– 利用區間估計的概念來說明可能涵蓋參數的 範圍 – 利用參數估計的信賴區間,除了反應了抽樣 誤差程度,還可以進行參數比較
3
估計的原理
• 估計的原理
– 從樣本統計量去推估參數 – 樣本統計量所存在的參數空間,以及這個參 數空間的機率特性是參數估計的基礎 – 如果參數空間的機率模式已知(如常態分 配),我們就可以藉由參數的特性去找到抽 樣分配的機率模式,間接估計出個別樣本事 件的出現機率,稱為最大概似估計法 (maximum likelihood estimation)
量化研究法二 統計原理與分析技術
第5章
參數估計
Parameter Estimation
基本概念
• 估計(estimation)
– 最基本的推論統計技術 – 目的在利用樣本統計量去推知母數
• 例如以利用樣本平均數( X)去推估母體平均數 (μ) • 利用樣本變異數s2去推知母體變異數σ2。
– 利用樣本統計量去推估母數的過程又稱為參 數估計(parameter estimation)
的 9 5 % 信 賴 區 間 為 : X 1 . 9 6 的 9 9 % 信 賴 區 間 為 : X 2 . 5 8
X 1 . 9 6 X 2 . 5 8
2
X
X
X
X
母數估計的1-信賴區間為:
wk.baidu.com
X Z
X
10
抽樣分配條件不明的區間估計
的 6 8 .2 6 % 信 賴 區 間 為 : X 1 的 9 5 .4 4 % 信 賴 區 間 為 : X 2 的 9 9 .7 4 % 信 賴 區 間 為 : X 3
X
X 1
X
X
X 2 X 3
X
X
X
X
圖 5 .1 以 樣 本 平 均 數 X 為 中 心 的 抽 樣 分 配 機 率 圖 示
5
常態分配
• 常態分配(normal distribution)
– 指一個隨機變項的觀察值,呈現對稱的鐘形曲線分配 – 由德國數學家Gauss(Karl F. Gauss;1777-1855)所提出,因 此又稱為高斯分配(Gaussian distribution)。
f (x) 1 e
( x ) / 2
sp s n npq n pq
– 樣本百分比p去估計母體百分比(π)的區間估計:
π 的 1 - 信 賴 區 間 為 : p Z s p
2
( 5 -6 )
16
範例
• 某民意調查公司以電話訪問台灣地區18歲以上的1000 名成人對於是否贊成於離島設置賭場的看法,結果有 40%贊成,60%反對,此時真實母數的95%區間估計為:
4
概似函數與最大概似估計數
• 概似函數(likelihood function;L())
– 隨機變數x的母體機率分配具有一個決定參數,對這個母體 進行抽樣,假設樣本含有n個觀察值,所形成的機率分配f(x;) 是n個獨立樣本的聯合機率分配,稱之為概似函數。
L ( ) L ( ; x1 , x 2 ,..., x n )
t X sX
的 1 - 信 賴 區 間 為 : X t s X
2
11
範例
• 某一個棒球隊的教練正在訓練投手投球,他記錄了某 一個投手在某一場比賽中的30個直球,球速平均為每 小時116.5(km/hr),標準差為9.975(km/hr),變異數 為99.5(km/hr)2,那麼這位投手直球球速的平均值的 95%信賴區間為
9
區間估計的應用
• 信心水準的機率值 – 為信賴區間之內的機率 – 表示樣本可以推知母數的可能性 – 在特定的信心水準下所進行的區間估計,會有(1-信心水準)的 失誤率 – 其概念類似於犯下第一類型統計錯誤的機率,可以表示,信心 水準即為1-。 • 應用原理 – 一般在學術或實務應用,區間估計最常用的信心水準是95%或99%, 錯誤率分別為5%與1% – 由常態分配機率對照表可以查出所相對應的信賴區間為1.96與 2.58倍的標準誤 – 母數的區間估計的信賴區間可以表述如下
( 30 1) 99 . 5 42 . 56
2
2
( 30 1) 99 . 5 17 . 71
.4 .6 1000
. 4 1 . 96
. 4 1 . 96 . 0155 . 4 . 03
• 在95%的信心水準下,台灣18歲以上民眾有百分之37% 到43%的人贊成在離島設置賭場 • 或台灣18歲以上民眾有百分之40%的人贊成在離島設 置賭場,95%信心水準下的抽樣誤差為正負3個百分點
• 母體平均數的區間估計
– 利用標準化Z分配的機率概念來進行 – 基本前提是抽樣分配必須是常態分配
• 當抽樣分配條件不明(尤其是常態性假設可能遭 到違反時)
– 抽樣分配的標準誤無法估計,不宜使用標準Z分配的 概念進行區間估計 – 必須改用t分配來進行區間估計 – 利用t分配進行母體平均數的區間估計,是利用t分數 公式算出t值,配合t分配機率變化來決定信賴區間
(ln L ) 1
(ln L ) 2
1
2
n 2 2
(x
i 1
n
i
1 )
1 x
2
1 2 2
2
n
( xi 1 )
2
1
i 1
(x n
i 1
n
i
x )
2
7
• 推導結果
對於1=,2=2,最大概似估計數分別為
ˆ1 X
ˆ2
f ( x ) C x P (1 P )
n x n x
Cx P Q
n x
n x
npq
15
百分比的區間估計
• 原理
– 百分比的抽樣分配是一種二項分配,百分比的區間 估計的機率原理以二項分配的機率函數為基礎 – 百分比標準誤(standard error of the proportion,以sp 表示)為百分比抽樣分配的標準差的估計數
L ( 1 , 2 )
i 1
n
1 2 2
n
( xi 1 ) 2 exp 2 2
( x 1 ) 2 exp i 2 2 exp
n
ln L ( 1 , 2 ) ln
1 2 2
2 1
2
2
2
2 2 ( n 1) s 2 1 P 1 2 2 2
18
變異數的區間估計(2/2)
• 變異數與標準差的區間估計通式:
( n 1) s
2
2
2
2
( n 1) s
2
2 1 2
( 5 -11 )
12
百分比的區間估計
• 連續變數
– 可計算出平均數,因此可進行母體平均數的 估計
• 類別變數
– 無法進行平均數估計,僅有次數,故可進行 百分比區間估計 – 二分尺度:指每一位受測者對於某一個選項 的選項只有「是」、「否」或「贊成」、 「反對」兩種答案 – 多點尺度:超過兩點以上的類別變數
( n 1) s
2
2
2
( n 1) s
2
2 1
( 5-1 2)
2
19
範例
• 一個投手在某一場比賽中,他投出30個直球, 球速平均為每小時116.5公里,變異數為 99.5(km/hr)2,標準差為9.975(km/hr),那麼這 位投手球速變異數與標準差的90%信賴區間為
116 . 5 2 . 045
112 . 78 120 . 22
9 . 975 30
116 . 5 2 . 045 1 . 821 116 . 5 3 . 72
• 利用SPSS的預檢資料(explore),可獲得平均數的區 間估計,數據如下: • 標準誤為1.821,區間為112.78至120.22
13
類別尺度的機率換算
是否支持小學教英文? □是 □否 130( 65% ) 70( 35% ) ( p = .6 5 , q = .3 5 ) ( p = .3 5 , q = .6 5 )
是否支持小學教英文? □是 □否 □沒意見 130( 65% ) 40( 20% ) 30( 15% ) ( p = .6 5 , q = .3 5 ) ( p = .2 0 , q = .8 0 ) ( p = .1 5 , q = .8 5 )
f ( x1 ; ) f ( x 2 ; ) f ( x n ; )
(5-1)
• 「概似」函數
– 因為L()是我們進行樣本估計時,對於參數空間機率函數的估 計 – 其所描繪的事件空間近似於參數空間,是在參數空間最有可 能觀測的樣本值 – 由最有可能觀測值去求取參數的估計數,稱為ˆ ,又稱為最大 概似估計數(maximum likelihood estimator)。例如要以n個特 定大小的樣本X1,…,Xn的平均數來推估參數,即為。
17
變異數的區間估計(1/2)
• 區間估計的應用
– 變異數的抽樣分配為卡方分配
(X
2 ( n 1) n i
X)
2
2
i 1
ˆ ( n 1 )
2
2
– 對於變異數的估計必須參照卡方分配的機率 函數來求得上下限,據以進行區間估計。 – 利用卡方分配的機率函數,求出在1-的信 心水準下的上下限卡方值 與
i 1
ln
1 2 2
n
i 1
( xi 1 ) n ln ( 2 ) 2 2 2 2
2
(x
i 1
n
i
1 )
2
2 2
• 分別對於兩個參數進行一階偏微分,令式為0,同時解出兩個參數
2 2
2
轉折點
-3
-2
-1
0
1
2
3
圖 3 .1 常 態 曲 線 與 累 積 機 率 圖
6
常態分配的最大概似估計數
• 從此一常態母體N(,2)抽取n個獨立隨機變數X1,…,Xn,利用最大 概似法,由樣本統計量估計常態分配的兩個參數,需代入常態分配 的機率函數,得到二參數概似函數為
s
2 n
1 n 1
(Xi X )
2
i 1
n 1 n 1 2 E (ˆ2 ) E (s ) n n
2
2
8
平均數的區間估計
• 對於一個平均數的抽樣分配,標準誤是母體標準差除以樣本數開 跟號 • 配合常態機率,機率值68.26%、95.44%、99.74%稱為母數的區 間估計的信心水準(level of confidence),幾個標準誤的區間範 圍稱為母數的區間估計的信賴區間(confident interval)
1 n
n
(X i X )
2
i 1
• 常態母體N(1=,2=2),對於與2的最大概似不偏 估計數如下,樣本變異數為母體變異數2的不偏估計
數
ˆ ˆ1 X
ˆ ˆ2
2
1
(X n
i 1
n
i
X )
2
( n 1) s n
2
• 樣本平均數的抽樣分配為N(,2/n),最大概似估計數 是的偏估計數
• 選擇其中一個選項的百分比(以p表示),相對的,不選擇該選項 的比例就是1-p,或以q表示,兩者合計為100%。 • 百分比資料在計算p與q時,是以個別選項的反應為基礎,也就是 受測者在每一個二分決策的選擇(與未選擇)的百分比,而不是 以所有選項的整體百分比來計算。
14
二項分配的原理
• 原理 • 二分變項的機率分配稱為二項分配(binominal distribution),是一種基於 白努力實驗(Bernoulli experiment) 所獲得的機率分配。 • 白努力實驗是指每一次獨立嘗試具有兩 個完全互斥結果的隨機實驗。 • 二項分配的機率函數如下: • 二項分配的平均數為np,標準差為:
2
估計的分類
• 點估計(point estimation)
– 以單一統計量來估計參數
• 區間估計(interval estimation)
– 利用區間估計的概念來說明可能涵蓋參數的 範圍 – 利用參數估計的信賴區間,除了反應了抽樣 誤差程度,還可以進行參數比較
3
估計的原理
• 估計的原理
– 從樣本統計量去推估參數 – 樣本統計量所存在的參數空間,以及這個參 數空間的機率特性是參數估計的基礎 – 如果參數空間的機率模式已知(如常態分 配),我們就可以藉由參數的特性去找到抽 樣分配的機率模式,間接估計出個別樣本事 件的出現機率,稱為最大概似估計法 (maximum likelihood estimation)
量化研究法二 統計原理與分析技術
第5章
參數估計
Parameter Estimation
基本概念
• 估計(estimation)
– 最基本的推論統計技術 – 目的在利用樣本統計量去推知母數
• 例如以利用樣本平均數( X)去推估母體平均數 (μ) • 利用樣本變異數s2去推知母體變異數σ2。
– 利用樣本統計量去推估母數的過程又稱為參 數估計(parameter estimation)
的 9 5 % 信 賴 區 間 為 : X 1 . 9 6 的 9 9 % 信 賴 區 間 為 : X 2 . 5 8
X 1 . 9 6 X 2 . 5 8
2
X
X
X
X
母數估計的1-信賴區間為:
wk.baidu.com
X Z
X
10
抽樣分配條件不明的區間估計
的 6 8 .2 6 % 信 賴 區 間 為 : X 1 的 9 5 .4 4 % 信 賴 區 間 為 : X 2 的 9 9 .7 4 % 信 賴 區 間 為 : X 3
X
X 1
X
X
X 2 X 3
X
X
X
X
圖 5 .1 以 樣 本 平 均 數 X 為 中 心 的 抽 樣 分 配 機 率 圖 示
5
常態分配
• 常態分配(normal distribution)
– 指一個隨機變項的觀察值,呈現對稱的鐘形曲線分配 – 由德國數學家Gauss(Karl F. Gauss;1777-1855)所提出,因 此又稱為高斯分配(Gaussian distribution)。
f (x) 1 e
( x ) / 2
sp s n npq n pq
– 樣本百分比p去估計母體百分比(π)的區間估計:
π 的 1 - 信 賴 區 間 為 : p Z s p
2
( 5 -6 )
16
範例
• 某民意調查公司以電話訪問台灣地區18歲以上的1000 名成人對於是否贊成於離島設置賭場的看法,結果有 40%贊成,60%反對,此時真實母數的95%區間估計為:
4
概似函數與最大概似估計數
• 概似函數(likelihood function;L())
– 隨機變數x的母體機率分配具有一個決定參數,對這個母體 進行抽樣,假設樣本含有n個觀察值,所形成的機率分配f(x;) 是n個獨立樣本的聯合機率分配,稱之為概似函數。
L ( ) L ( ; x1 , x 2 ,..., x n )
t X sX
的 1 - 信 賴 區 間 為 : X t s X
2
11
範例
• 某一個棒球隊的教練正在訓練投手投球,他記錄了某 一個投手在某一場比賽中的30個直球,球速平均為每 小時116.5(km/hr),標準差為9.975(km/hr),變異數 為99.5(km/hr)2,那麼這位投手直球球速的平均值的 95%信賴區間為
9
區間估計的應用
• 信心水準的機率值 – 為信賴區間之內的機率 – 表示樣本可以推知母數的可能性 – 在特定的信心水準下所進行的區間估計,會有(1-信心水準)的 失誤率 – 其概念類似於犯下第一類型統計錯誤的機率,可以表示,信心 水準即為1-。 • 應用原理 – 一般在學術或實務應用,區間估計最常用的信心水準是95%或99%, 錯誤率分別為5%與1% – 由常態分配機率對照表可以查出所相對應的信賴區間為1.96與 2.58倍的標準誤 – 母數的區間估計的信賴區間可以表述如下
( 30 1) 99 . 5 42 . 56
2
2
( 30 1) 99 . 5 17 . 71
.4 .6 1000
. 4 1 . 96
. 4 1 . 96 . 0155 . 4 . 03
• 在95%的信心水準下,台灣18歲以上民眾有百分之37% 到43%的人贊成在離島設置賭場 • 或台灣18歲以上民眾有百分之40%的人贊成在離島設 置賭場,95%信心水準下的抽樣誤差為正負3個百分點
• 母體平均數的區間估計
– 利用標準化Z分配的機率概念來進行 – 基本前提是抽樣分配必須是常態分配
• 當抽樣分配條件不明(尤其是常態性假設可能遭 到違反時)
– 抽樣分配的標準誤無法估計,不宜使用標準Z分配的 概念進行區間估計 – 必須改用t分配來進行區間估計 – 利用t分配進行母體平均數的區間估計,是利用t分數 公式算出t值,配合t分配機率變化來決定信賴區間
(ln L ) 1
(ln L ) 2
1
2
n 2 2
(x
i 1
n
i
1 )
1 x
2
1 2 2
2
n
( xi 1 )
2
1
i 1
(x n
i 1
n
i
x )
2
7
• 推導結果
對於1=,2=2,最大概似估計數分別為
ˆ1 X
ˆ2
f ( x ) C x P (1 P )
n x n x
Cx P Q
n x
n x
npq
15
百分比的區間估計
• 原理
– 百分比的抽樣分配是一種二項分配,百分比的區間 估計的機率原理以二項分配的機率函數為基礎 – 百分比標準誤(standard error of the proportion,以sp 表示)為百分比抽樣分配的標準差的估計數
L ( 1 , 2 )
i 1
n
1 2 2
n
( xi 1 ) 2 exp 2 2
( x 1 ) 2 exp i 2 2 exp
n
ln L ( 1 , 2 ) ln
1 2 2
2 1
2
2
2
2 2 ( n 1) s 2 1 P 1 2 2 2
18
變異數的區間估計(2/2)
• 變異數與標準差的區間估計通式:
( n 1) s
2
2
2
2
( n 1) s
2
2 1 2
( 5 -11 )