罗吉斯回归方程式
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
圖15.6 含行駛哩程數(x1)及送貨批數(x2) 兩個自變數 的巴特勒貨運公司Minitab的電腦報表
The regression equation is Time = - 0.869+0.0611 Miles+0.923 Deliveries
關於誤差項ε的假設
(2)對所有自變數x1,x2,…, xp而言,ε的變異數恆 等於σ2。 (3)ε值相互獨立。 某一特定自變數值的誤差大小與另一組值 的誤 差大小無關。 (4)誤差ε為反應值y與給定β0+β1x1+β2x2+….+βpxp 的y的期望值間的離差之常態分配隨機變數。
含兩個自變數的複迴歸方程式的圖形
結論。但在複迴歸中,t檢定與F檢定則有不同的 結果。
1.在複迴歸中, F檢定用來判定應變數與所有自變 數所成的集合間是否有顯著關係,所以我們稱F檢 定為總體顯著性(overall significance)的檢定。 2.如果F檢定的結果是顯著的,再利用t檢定來檢定 模型中個別自變數的顯著性,所以我們稱t檢定為 個別顯著性(individual significance)的檢定。
範例:巴特勒貨運公司
H0 : β1=β2=0
Ha : β1與β2至少有一個不為0
圖15.6是以行駛哩程數(x1)及送貨批數(x2)為兩個 自變數的Minitab統計報表。 在變異數分析的部分可以看到,MSR=10.8且 MSE=0.328。運用式(15.14)可以得到檢定統計 量為 10.8 F= 0.328 = 32.9
調整複判定係數
(Adjusted Multiple Coefficient of Determination ) Ra = 1-( 1 2
R2 )
n-1 n-p-1
在巴特勒貨運公司例子中
10 -1 Ra = 1-( 1-0.904 ) = 0.88 10 -2-1
2
模型假設
複迴歸模型 y =β0+β1x1+β2x2+….+βpxp+ε 關於誤差項ε的假設 (1)誤差項ε是平均數或期望值為零的隨機變 數;亦即E(ε)=0 E(y) =β0+β1x1+β2x2+….+βpxp
誤差均方也可作為誤差項ε之變異數σ2的不偏估計 量。 圖15.6可以看到σ2的估計值是MSE =0.328。 MSE的平方根也就是誤差項之標準差的估計值。我 們稱這個標準差為估計值的標準差,以s表示。因 此,我們可以得到 s= MSE = 0.328 =0.573
請注意估計值的標準差也出現在圖15.6的Minitab 報表中。
y 當X1=X1* , X2=X2* 時的y值
●
β0
對應於E(y) =β0+β1x1+β2x2 的平面
X2*
當X1=X1* , X2=X2* 時 ε
●
的E(y)值
Байду номын сангаас
X1*
X2
●
(X1*,X2*)
相對於X1=X1* , X2=X2* 的點
X1
15.5 顯著性檢定
簡單線性迴歸中,t檢定與F檢定會得到相同的
計算估計迴歸方程式 以b0,b1, b2…bp為β0,β1, β2…βp的估計值
^ y=b0+b1x1+b2x2+….+bpxp
b0,b1,b2…bp為樣本統計量
最小平方法
最小平方法準則
2, minΣ(yi-y^ ) i
其中,yi=第i個應變數的觀察值
^
yi=第i個應變數的估計值
應變數的估計值是利用估計迴歸方程式算 出的 最小平方法使用樣本資料,得使殘差平方 和最小的組合b0.b1. b2…bp
Ex:巴特貨運公司
巴特公司的管理階層想對駕駛員的每日 行駛總時數做估計。 起初管理者相信每日 行駛總時數與行駛里程數密切相關,於是 隨機抽取10筆駕駛紀錄,如表1,資料集的 散佈圖如圖1。
檢視散佈圖後,管理階層假設簡單的線 性迴歸模式y=β0+β1x1+ε應可用來描述總行 駛時數(y)與行駛里程數(x)間的關係。為估 計β0與β1,用最小平方法建立了y=b0+b1x1 ^ 的估計迴歸方程式
請注意報表中的F值為32.88,與我們使用四 捨五入後的MSR與MSE所做的計算有些許差異。 統計報表的變異分析表(圖15.6)的最後一欄,在 α=0.01的顯著水準下,因為p值=0<α=0.01,故 可拒絕H0 : β1=β2=0。
也可以利用在α=0.01的顯著水準下,由附錄B 表4可以看到分子自由度為2,分母自由度為7時, F 0.01 =9.55。由於32.88 >9.55,拒絕H0 : β1=β2=0,而可以說行駛時間y與兩個自變數行駛 哩程數及送貨批數的複迴歸關係是顯著的。
表1
駕駛 1 2 3
巴特公司的原始資料
X1=行駛里程數 100 50 100 100 y=行駛時間(小時) 9.3 4.8 8.9 6.5
4
5 6 7 8 9 10
50
80 75 65 90 90
4.2
6.2 7.4 6.0 7.6 6.1
圖1
巴特公司的原始資料散佈圖
y
10
總 行 駛 時 間 小 時 ( )
^ y=b0+b1x1+b2x2+…+bpxp ,
其中, b0.b1…bp為β0,β1…βp的估計值 下圖為複迴歸的估計過程。
複迴歸模型 y=β0+β1x1+β2x2+….+βpxp+ε 複迴歸方程式 E(y)=β0+β1x1+β2x2+….+βpxp β0,β1…βp為未知數
樣本資料 x1.x2…xp.y . . . . . . . .
F檢定
15.4節所定義的複迴歸模型如下。
y=β0+β1x1+β2x2+…+βpxp+ε
F檢定的虛無與對立假設如下。
H0 : β0=β1=β2=…=βp=0 Ha : 至少有一個參數不等於0
MSR= SSR p MSE= SSE n-p-1
(15.12) (15.13)
MSE可作為誤差項ε之變異數σ2的不偏估計量。如 果虛無假設H0 : β0=β1=β2=…=βp=0為真, MSR也是 σ2的不偏估計量,所以MSR/MSE會接近1。反之, 如果H0為假, MSR會高估σ2,所以MSR/MSE就會 變大。 至於MSR/MSE多大時才要拒絕H0?我們運用的觀 念如下:如果H0為真,且有關迴歸模型的諸項假設皆 為真, MSR/MSE的抽樣分配是分子自由度為p,分 母自由度為n-p-1的F分配。
2.複迴歸方程式(multiple regression equation):描述y的平均數與自變數x1.x2…xp 間關係的方程式,其公式為 E(y)=β0+β1x1+β2x2+….+βpxp
估計迴歸方程式
以簡單隨機樣本來計算樣本統計量b0.b1…bp, 並以這些統計量作為參數β0,β1…的點估計 值,由此可導出估計迴歸方程式,其公式為:
SST,SSR與SSE的關係
SST=SSR+SSE
其中 SST=總平方和=Σ(yi - y)2 2 SSR=迴歸造成的平方和=Σ(y^ y) i 2 SSE=誤差造成的平方和=Σ(yi - y^ ) i
含兩個自變數的巴特勒貨運公司例子中 SST=23.9 SSR=21.601 SSE=2.299 含一個自變數的巴特勒貨運公司例子中 SST=23.9 SSR=15.871 SSE=8.029 ^ →兩個例子中的SST是相等的,因為SST與y 無關。 在含兩個變數的情況中,加入第二個自變 數的SSR增加,而SSE減少。此表示估計 迴歸方程式的適合度提高了。
8
9
8.029
23.900
1.004
在0.05的顯著水準下,F值為15.81,p值為 0.004 結論:行駛里程數與行駛時間的關係是顯著 的;即行駛里程數越長時,行駛所需的時 間也越長。 判定係數為66.4% 此線性效果可解釋 66.4%的行駛時間之變異數
巴特公司又蒐集送貨批數的資料如下(包含 兩個自變數行駛里程數[x1]與送貨批數[x2]
Chapter 15
複迴歸
複迴歸模型
複迴歸分析:研究一個應變數y與兩個以上自 變數之間的關係 迴歸模型與迴歸方程式:
1.複迴歸模型(multiple regression model): 用來描述應變數y與自變數x1、x2…及誤差 項間關係的方程式。公式為
y=β0+β1x1+β2x2+….+βpxp+ε
表15.3是變異數分析(ANOVA)的通式,我們可 以利用這張表來做複迴歸模型的F檢定。統計檢定 量F出現在最後一欄,我們可以將之與分子自由度 為p,分母自由度為n-p-1的Fα做比較,以決定是 否要拒絕虛無假設。
藉由回顧圖15.6中,巴特勒貨運公司的Minitab 統計報表,我們見到Minitab 的變異數分析表包含 這些資訊。此外, Minitab也提供相當於F檢定的 p值。
9 8 7 6 5 4
˙ ˙ ˙ ˙ ˙ ˙
50 60 70 80 90 100
˙ ˙ ˙ ˙
x
行駛里程數
下圖為運用Minitab軟體對表1資料做簡單線性 迴歸後所得之統計報表
The regression equation is Time = 1.27+0.0678 Miles Predictor Constant Miles Coef 1.274 0.06783 SE Coef 1.401 0.01706 T 0.91 3.98 P 0.390 0.004
Predictor Constant Miles Coef -0.8687 0.061135 SE Coef 0.9515 0.0009888 T -0.91 6.18 P 0.392 0.000
S=0.5731
R-sq=90.4%
R-sq (adj)=87.6%
Analysis of Variance SOURCE Regression Residual Error Total DF 2 7 9 SS 21.601 2.299 23.900 MS 10.800 0.328 F 32.88 P 0.000
上表提到估計迴歸方程式為:
^ = -0.869+0.0611 x +0.923 x y= 1 2
以下探討上式中,b1=0.0611與b2=0.923兩 個係數的涵義 在迴歸方程式中,包含一個自變數與包含 兩個自變數得到的b1不相等
在簡單線性迴歸中, b1指自變數變動一個 單位時,應變數的變動量;複迴歸中, bi 係數表當其他自變數固定不變時,xi變動一 單位,應變數的變動量 以巴特公司為例, b1 =0.0611,代表當送 貨批數(x2)固定時,行駛距離(x1)增加一哩, 則行駛時間預期增加0.0611小時 b2=0.923表當行駛里程數固定,送貨次數 增加一次,行駛時間預期增加0.923小時
複判定係數 (Multiple Coefficient of Determination )
R2 = SSR SST
複判定係數可解釋為估計迴歸方程式所能 解釋的應變數之變異量。
若將複判定係數乘上100,代表了可由估計 迴歸方程式所解釋的y的變異百分比。
含兩個自變數的巴特勒貨運公司例子中 R2 =21.601 / 23.9 = 0.904 →行駛時間y的變異有90.4%可用來解釋含 行駛哩程數及送貨批數兩個自變數的迴歸方 程式。 含一個自變數的巴特勒貨運公司例子中 R2 = 0.664 →以行駛哩程數作為迴歸方程式解釋了行駛 時間66.4%的變異。 →一般而言,迴歸模型中的自變數個數增加時, R2也會提高(本例:66.4%→90.4%)。
含一個自變數 的Minitab 電腦報表
S=1.002
R-sq=66.4%
R-sq (adj)=62.2%
Analysis of Variance SOURCE Regression DF 1 SS 15.871 MS 15.871 F 15.81 P 0.004
Residual Error
Total
駕駛 1 2 3 4 X1=行駛里程數 100 50 100 100 X2=送貨批數 4 3 4 2 y=行駛時間(小時) 9.3 4.8 8.9 6.5
5
6 7
50
80 75
2
2 3
4.2
6.2 7.4
8
9 10
65
90 90
4
3 2
6.0
7.6 6.1
含兩個自變數的Minitab電腦報表
The regression equation is Time = -0.869+0.0611 Miles+0.923 Deliveries