讲述回归分析讲义教材
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
a預 . 測變數:(常數), M
變異 數分b析
模式
平方和自由度 平均平方和 F 檢定 顯著性
1
迴歸 12 4. 038
1124.038 16.660 .004a
殘差59 .5 62
8 7.445
總和 18 3. 600
9
a.預測變數:(常數), MIDTERM
b.依變數\:FINAL
適合度檢定: 期中考可以解釋期末考67.6%的變異。調整後的R 平方為63.5%,F=16.66,p=0.004在0.01水準下達 到顯著。 表示此模式適合,即期中考可以用來解 202釋0/7或/30預測期末考。
係數 標準 迴 化 歸 係 係數 未標準化係 數 數 模 B式 之估 標 計 B 準 e 值 t誤 a 分配 t 顯著下 性 1 4 (常 9 .3數 6 89 .)57 7 5.75 6 .0 20 90 .5 69 M.I4 D 3T 4 .E 1 0 R 6 .M 8 2 42 .08 2 .0 04 .1 8 a依 . 變數\:FINAL
– 例:以智商、閱讀時間和與他人討論頻率,三個變項 來預測學業表現
– Y率(學)+業表現)=b1X1(智商)+b2x2 (閱讀時間)+b3x3(討論頻 – b、1、x3(b討2、論b頻3三率個)三迴個歸變係項數對代Y表的X預1(智測商能)力、 x2 (閱讀時間)
• 利用常態點圖(normal plot),將每個殘差分別描 繪在圖上,若誤差變數是常態分配,則圖上點之連 線應近似一直線
2020/7/30
相關
FINAL MIDTERM
Pearson 相關 FINAL
1.000
.822
MIDTERM
.822
1.000
顯著性 (單尾)FINAL
.
.002
MIDTERM
– 逐步迴歸分析(stepwise) – 刪除(remove)::強制剔除式迴歸分析法 – 向後(backward) :後向剔除迴歸分析法 – 向前(forward)
2020/7/30
• Durbin-Watson統計量
– 檢定迴歸模型中殘差獨立的假設 – 如果相鄰殘差項間是相關,則其總差異必小或
簡單線性迴歸方程式為: Final = 49.369 + 0.434 Midterm
期中考成績能夠有效預測期末考成績,Beta係數達 0.822(t=4.082, p=0.004),表示期中考成績愈高,期 末考成績也愈高。
2020/7/30
• 由上述分析可知,以期中考來解釋或預測 期末考成績是相當合適的,而且所建立的 模式也令人滿此,但是是否真能用該模式 呢?
• 必須再進一步作殘差分析,以判定該模式 是否符合簡單線性迴歸模型的假設。
2020/7/30
殘差分析
直方圖
依變數: FINAL
5
4
3
2
次 數1
標準差 = .94 平均數 = 0.00
0
N = 10.00
-2. 50
-1. 50
-.50
.50
-2. 00
-1. 00
0.00
1.00
迴歸 標準化殘差
迴歸 標準化殘差 的常態 P-P 圖
– 例2:由圖書館利用頻率,預測圖書館網站的利用頻率
2020/7/30
• Y = a + bX • 在線性關係中,若兩變項之關係是完全相關時(
r=1正相關或r=-1負相關),X與Y的關係呈一直線 ,兩變項之觀察值可以完全被方程式所涵蓋,其 中b為斜率, a為截距,代入X可求得Y,代入Y可 求得X,無須預測。 • 但是當兩變項間的關係未達到完全相關時(r±1 ),X與Y的關係是分佈在一個區域內,無法以一 條直線來表示,而必須以最小平方法來求取一條 最具代表性的線,此線稱為最適線(best-fit line )或迴歸線(regression line),再利用迴歸線來 預測因果關係。
.002
.
個數
FINAL
10
10
MIDTERM
10
10
期中考和期末考的Pearson相關係數為0.822,在 0.01水準下達到顯著,進一步檢驗其影響關係
2020/7/30
模 式摘
調過後的 模式 RR 平 R 估 方 平 計 方 R 的平 標方 準改 誤 F 1 .822.a676.635 2.73 .61 76 6
依變數: FINAL
1.00
預 .75 期
累 積 .50 機
率 .25
0.00
0.00
.25
.50
觀察累積機率
.75
1.00
由標準化殘差次數分配圖(左)和標準化殘差常態機率分 配P-P圖(右),可看出殘差的機率分配並不接近常態 機率分配
2020/7/30
2020/7/30Βιβλιοθήκη Baidu
多元迴歸
• multiple regression • 複迴歸 • 利用多個預測變數(自變數)去預測另一依變數
2020/7/30
•
以X預測Y(X
Y)
^
Y
ay.xby.xX
• By.x 是迴歸係數,表示每當X變動一個單 位時,Y的變動量
– 例:以身高預測體重, YYyy..xxXX Y= -165.35 +1.3426X, 表示身高每變動一公分, 體重增加 1.3426公斤
• 標準化迴歸係數(standardized regression coefficient),去除特定單位
2020/7/30
2020/7/30
迴歸
• 線性關係的分析 • 相關分析可以描述兩個連續變數的線性關係,若要
進一步確認兩個變數之間的因果關係,則應採用迴 歸分析 • 迴歸分析係用以由自變項(獨立變項)預測依變項 ,或是研究實驗控制(因)對被觀察的變項(果) 的影響
– 例:由父母身高預測子女身高; 用人口成長(自變項)預測(解釋)電話用戶數的成長
大
• 若殘差項間是正相關,則其差異必小 • 若殘差項間是負相關,則其差異必大
– 當DW值愈接近2時,殘差項間愈無相關 – 當DW值愈接近0時,殘差項間正相關愈強 – 當DW值愈接近4時,殘差項間負相關愈強
2020/7/30
• 驗證常態分配
• 驗證誤差變項是否具常態分配,可繪殘差次數分配 圖,概略判斷母群體的誤差變數是否是常態分配? 平均數是否為零
2020/7/30
Y y.xX
‧ ‧
‧‧
‧‧ ‧‧
‧‧ ‧
‧ ‧ ‧‧ ‧
‧
‧‧
身高 vs. 體重
2020/7/30
簡單迴歸分析
• 程序:
– 分析>迴歸方法>線性
2020/7/30
2020/7/30
2020/7/30
2020/7/30
• 迴歸方法
– 強迫進入(enter):強制一次進入式迴歸分析法 ,為預設
變異 數分b析
模式
平方和自由度 平均平方和 F 檢定 顯著性
1
迴歸 12 4. 038
1124.038 16.660 .004a
殘差59 .5 62
8 7.445
總和 18 3. 600
9
a.預測變數:(常數), MIDTERM
b.依變數\:FINAL
適合度檢定: 期中考可以解釋期末考67.6%的變異。調整後的R 平方為63.5%,F=16.66,p=0.004在0.01水準下達 到顯著。 表示此模式適合,即期中考可以用來解 202釋0/7或/30預測期末考。
係數 標準 迴 化 歸 係 係數 未標準化係 數 數 模 B式 之估 標 計 B 準 e 值 t誤 a 分配 t 顯著下 性 1 4 (常 9 .3數 6 89 .)57 7 5.75 6 .0 20 90 .5 69 M.I4 D 3T 4 .E 1 0 R 6 .M 8 2 42 .08 2 .0 04 .1 8 a依 . 變數\:FINAL
– 例:以智商、閱讀時間和與他人討論頻率,三個變項 來預測學業表現
– Y率(學)+業表現)=b1X1(智商)+b2x2 (閱讀時間)+b3x3(討論頻 – b、1、x3(b討2、論b頻3三率個)三迴個歸變係項數對代Y表的X預1(智測商能)力、 x2 (閱讀時間)
• 利用常態點圖(normal plot),將每個殘差分別描 繪在圖上,若誤差變數是常態分配,則圖上點之連 線應近似一直線
2020/7/30
相關
FINAL MIDTERM
Pearson 相關 FINAL
1.000
.822
MIDTERM
.822
1.000
顯著性 (單尾)FINAL
.
.002
MIDTERM
– 逐步迴歸分析(stepwise) – 刪除(remove)::強制剔除式迴歸分析法 – 向後(backward) :後向剔除迴歸分析法 – 向前(forward)
2020/7/30
• Durbin-Watson統計量
– 檢定迴歸模型中殘差獨立的假設 – 如果相鄰殘差項間是相關,則其總差異必小或
簡單線性迴歸方程式為: Final = 49.369 + 0.434 Midterm
期中考成績能夠有效預測期末考成績,Beta係數達 0.822(t=4.082, p=0.004),表示期中考成績愈高,期 末考成績也愈高。
2020/7/30
• 由上述分析可知,以期中考來解釋或預測 期末考成績是相當合適的,而且所建立的 模式也令人滿此,但是是否真能用該模式 呢?
• 必須再進一步作殘差分析,以判定該模式 是否符合簡單線性迴歸模型的假設。
2020/7/30
殘差分析
直方圖
依變數: FINAL
5
4
3
2
次 數1
標準差 = .94 平均數 = 0.00
0
N = 10.00
-2. 50
-1. 50
-.50
.50
-2. 00
-1. 00
0.00
1.00
迴歸 標準化殘差
迴歸 標準化殘差 的常態 P-P 圖
– 例2:由圖書館利用頻率,預測圖書館網站的利用頻率
2020/7/30
• Y = a + bX • 在線性關係中,若兩變項之關係是完全相關時(
r=1正相關或r=-1負相關),X與Y的關係呈一直線 ,兩變項之觀察值可以完全被方程式所涵蓋,其 中b為斜率, a為截距,代入X可求得Y,代入Y可 求得X,無須預測。 • 但是當兩變項間的關係未達到完全相關時(r±1 ),X與Y的關係是分佈在一個區域內,無法以一 條直線來表示,而必須以最小平方法來求取一條 最具代表性的線,此線稱為最適線(best-fit line )或迴歸線(regression line),再利用迴歸線來 預測因果關係。
.002
.
個數
FINAL
10
10
MIDTERM
10
10
期中考和期末考的Pearson相關係數為0.822,在 0.01水準下達到顯著,進一步檢驗其影響關係
2020/7/30
模 式摘
調過後的 模式 RR 平 R 估 方 平 計 方 R 的平 標方 準改 誤 F 1 .822.a676.635 2.73 .61 76 6
依變數: FINAL
1.00
預 .75 期
累 積 .50 機
率 .25
0.00
0.00
.25
.50
觀察累積機率
.75
1.00
由標準化殘差次數分配圖(左)和標準化殘差常態機率分 配P-P圖(右),可看出殘差的機率分配並不接近常態 機率分配
2020/7/30
2020/7/30Βιβλιοθήκη Baidu
多元迴歸
• multiple regression • 複迴歸 • 利用多個預測變數(自變數)去預測另一依變數
2020/7/30
•
以X預測Y(X
Y)
^
Y
ay.xby.xX
• By.x 是迴歸係數,表示每當X變動一個單 位時,Y的變動量
– 例:以身高預測體重, YYyy..xxXX Y= -165.35 +1.3426X, 表示身高每變動一公分, 體重增加 1.3426公斤
• 標準化迴歸係數(standardized regression coefficient),去除特定單位
2020/7/30
2020/7/30
迴歸
• 線性關係的分析 • 相關分析可以描述兩個連續變數的線性關係,若要
進一步確認兩個變數之間的因果關係,則應採用迴 歸分析 • 迴歸分析係用以由自變項(獨立變項)預測依變項 ,或是研究實驗控制(因)對被觀察的變項(果) 的影響
– 例:由父母身高預測子女身高; 用人口成長(自變項)預測(解釋)電話用戶數的成長
大
• 若殘差項間是正相關,則其差異必小 • 若殘差項間是負相關,則其差異必大
– 當DW值愈接近2時,殘差項間愈無相關 – 當DW值愈接近0時,殘差項間正相關愈強 – 當DW值愈接近4時,殘差項間負相關愈強
2020/7/30
• 驗證常態分配
• 驗證誤差變項是否具常態分配,可繪殘差次數分配 圖,概略判斷母群體的誤差變數是否是常態分配? 平均數是否為零
2020/7/30
Y y.xX
‧ ‧
‧‧
‧‧ ‧‧
‧‧ ‧
‧ ‧ ‧‧ ‧
‧
‧‧
身高 vs. 體重
2020/7/30
簡單迴歸分析
• 程序:
– 分析>迴歸方法>線性
2020/7/30
2020/7/30
2020/7/30
2020/7/30
• 迴歸方法
– 強迫進入(enter):強制一次進入式迴歸分析法 ,為預設