简单线性回归

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
編號 X
( X i X )2
1
2
3
4
5
6
7
8
9 10 mean 合計
31 25 29 20 40 32 27 33 28 21 28.6 5.8 13.0 0.2 74.0 130 11.6 2.6 19.4 0.4 57.8 314.40
第二節 結構模式與參數估計 (18)
1 28 .6 2 2 S b0 62 .32 [ ] 168 .37 10 314 .40 1 2 S b1 62 .32 ( ) 0.198 314 .40 b0的95%信賴區間為 13.86 2.306 168.37
第二節 結構模式與參數估計 (1)
• 最簡單的線性模式為直線模式: • Yi = b0 + b1Xi + ei,ei ~ N(0, s2) • Yi是效標變項中第i個數值, b0 和 b1為所欲估計 的參數:截距和斜率。Xi是預測變項中第i個數 值,ei是誤差。

第二節 結構模式與參數估計 (2)
2
MS e [
1

i 1
n
]
( X i X )2
• 若要檢定 b1 是否等於某個值(如0),所計算 的T值與自由度為n- 2的t分佈臨界值相比較, 如果超過臨界值,就拒絕虛無假設。
第二節 結構模式與參數估計 (17)
• 例子2
• 承例子1,估計母體參數的95%信賴區間,並進 行母體斜率參數為0的假設檢定。
2
1 MS e [ n
X2

i 1
n
]
( X i X )2
• 若要檢定 b0 是否等於某個值(如0),所計算 的T值與自由度為n- 2的t分佈臨界值相比較, 如果超過臨界值,就拒絕虛無假設。
第二節 結構模式與參數估計 (16)
b1的(1-a)100%信賴區間是
b1 ta 2 S b1 b1 ta
第二節 結構模式與參數估計 (4)
• 以英文字母表示參數估計值,得
Yi b0 b1 X i 0
i 1
n
X i Yi b0 b1X i 0
i 1
n
• 整理後得
b0 Y b1 X
b1
( X i X )(Yi Y )
i 1
n
( X i X )2
第二節 結構模式與參數估計 (11)
• 作法
• b1 = 61.73/34.93 = 1.767。 • b0 = 64.4 – 1.767 28.6 = 13.86。
• 8歲體重每增加1公斤,20歲重就增加1.767公斤。
r 61 .73 34 .93 164 .49 0.81
ˆ Yi 13.86 1.767 X i
i 1
n

S XY
2 SX
2 • SXY為X和Y的樣本共變數,S X 為X的樣本變異數。
第二節 結構模式與參數估計 (5)
• 這種方法所得到的估計式為最小平方法(least squares)估計式。這個估計式是不偏的,且是 所有不偏估計式中最有效的。 • 除了估計b0和b1 ,還要估計s2 。可利用MSw估 計母體變異數:
第二節 結構模式與參數估計 (10)
• 例子1
• 抽樣調查了10位20歲成人,記錄其現在的體重, 以及8歲時的體重。進行簡單線性迴歸分析, 求參數估計值和母體變異數估計值。
編 號
X
1
2
3
4
5
6
7
8
9 10 mean
S
2
SXY
Y
31 25 29 20 40 32 27 33 28 21 28.6 34.93 61.73 58 52 61 57 93 63 68 71 73 48 64.4 164.49
第二節 結構模式與參數估計 (3)
• 要讓誤差的平方和最小,就是讓Q最小:
Q
i 1 n
ei2
ˆ Yi Yi
i 1
n


2
Yi b 0 b1 X i 2
i 1
n
• 分別對b0和b1 進行偏微分,並設為0:
n Q 2 Yi b 0 b1 X i 0 b 0 i 1 n Q 2 X i Yi b 0 b1 X i 0 b1 i 1
第二節 結構模式與參數估計 (7)
• 標準化迴歸係數
• 將X和Y變項加以標準化:
XX X SX
*
Y Y Y SY
*
• 然後再進行迴歸分析,結構模式變為:
* * Y j* b 0 b1 X i* e i
第二節 結構模式與參數估計 (8)
SX* • 由於 X *和 Y *均為0,且 S X * 和 SY *均為1,因此
第一節 五種主要的迴歸線(1)
• 迴歸分析就是用預測變項X來說明或預測效標 變項Y,也就是利用已有的資料決定Y = f (X)這 個函數,然後將新資料的X值帶入這個數學公 式,預測它的Y值。 • 預測變項和效標變項均必須是量的變項。研究 者應根據過去的經驗或是理論來判斷這個數學 函數到底是怎樣形狀。主要有五大類:線性 (直線)、多項式、對數、乘冪、指數。
MSe ˆ (Yi Yi ) 2
i 1 n
n2
第二節 結構模式與參數估計 (6)
• 斜率與相關係數
S XY S XY • 因為 r 和 b1 2 ,所以 S X SY SX
b1
S XY
2 SX

rS X SY
2 SX
SY r( ) SX
• b1 和r符號相同。如果r是0,b1 就是0(此時迴 歸線是水平線)。如果|r|越大,斜率b就越陡峭。
第一節 五種主要的迴歸線(2)
• 迴歸分析就是用預測變項X來說明或預測效標 變項Y,也就是利用已有的資料決定Y = f (X)這 個函數,然後將新資料的X值帶入這個數學公 式,預測它的Y值。 • 預測變項和效標變項均必須是量的變項。研究 者應根據過去的經驗或是理論來判斷這個數學 函數到底是怎樣形狀。主要有五大類:線性 (直線)、多項式、對數、乘冪、指數。
• 參數的點估計
• E(Yi) = E(b0 + b1Xi + ei) = b0 + b1Xi b0 和 b1 是未知的參數,必須估計。估計的原則 就是希望所找到的 b0 和 b1 可以使得誤差的平方 ˆ 和最小。誤差就是觀察值減期望值 ei Yi Yi ˆ • 在此觀察值為Yi,期望值為 Yi b 0 b1 X i
• MSe = 498.56/(10-2) = 62.32。 • 20歲體重的變異數為164.49,這是用20歲的體 重平均數64.4去猜這10個人的體重所產生的誤 差。用8歲體重猜20歲的體重所產生的誤差是 62.32,用8歲體重預測20歲體重的效果不錯。
第二節 結構模式與參數估計 (13)
• 參數的區間估計與假設檢定
ˆ • 標準化變項的迴歸模式為 Yi* 0.81X i*
第二節 結構模式與參數估計 (12)
編號 X Y 1 2 3 4 5 6 7 8 9 10 31 25 29 20 40 32 27 33 28 21 58 52 61 57 93 63 68 71 73 48 ˆ Yi 合計 68.6 58.0 65.1 49.2 84.5 70.4 61.6 72.2 63.3 51.0 ˆ (Yi Yi ) 2 113.2 36.5 16.9 60.8 71.5 54.9 41.3 1.4 93.3 8.8 498.56
• 例子1
• 抽樣調查了10位20歲成人,記錄其現在的體重, 以及8歲時的體重。進行簡單線性迴歸分析, 求參數估計值和母體變異數估計值。
編 號
X
1 2 3 4 5 6 7 8 9 10 mean
S
2
SXY
Y
31 25 29 20 40 32 27 33 28 21 28.6 34.93 61.73 58 52 61 57 93 63 68 71 73 48 64.4 164.49
• 在結構模式為公式(15.1)及常態分佈的假設下,
2 1 b0 ~ N ( b 0 , s [ n
X2

i 1
n
])
( X i X )2
b1 ~ N ( b1 , s [
2
1

i 1
n
])
( X i X )2
第二節 結構模式與參數估計 (14)
• 用MSe代替s2:
2 S b0
1 MS e [ n
第一節 五種主要的迴歸線(3)
• • • • •
ˆ 一次函數(直線):Y = bX + a ˆ 多項式:Y = b1 + b2X + b3X2 + ...+ bnXn ˆ 對數方程式: Y = blogX + a ˆ 乘冪: Y = aXb ˆ 指數: Y = aebX
第一節 五種主要的迴歸線(4)

Байду номын сангаас
Y Y

來源 平方和 迴歸
自由度
n 2
均方
SSreg 1 SSe n2
F
MSreg MSe
均方期望值
ˆ SSreg (Yi Y )
i 1 n
1
s
2
b12
( X i X )2
i 1
n
ˆ 誤 差 SSe (Yi Yi )2
i 1
n
n-2 n-1
s2
合 計 SST
• 決定迴歸線的標準:
• 1. 資料符合性 2. 理論吻合性 • 3. 解釋便利性 4. 抽樣變動 5. 經濟效益 • 越複雜的迴歸線越吻合資料,但簡單的迴歸線 較容易吻合理論,較不會受到抽樣變動的影響, 容易解釋,有經濟效益。 • 研究者的責任在不喪失資料吻合度很多的情況 下,選擇有理論基礎、抽樣變動小、易解釋、 有經濟價值的模式。
前言
• 用已有的資料,算出一個數學公式(又稱迴歸 線,regression line):Y = f (X)。然後將新的X 值帶入這個數學公式,求得預測的Y值。 • 此時必須假設新的X值和Y的關係會依照這條迴 歸線來運作。這種假設值得懷疑,例如我們使 用的迴歸線建立在現在已經20歲的成人的體重, 和他12年前8歲時的體重。可是想將這條線用 在現在是8歲的小孩身上,顯然這條線已經過 時12年。
第四節 預測效果的變異數分析 (1)
SST (Yi Y )
i 1 n 2
ˆ SSe (Yi Yi ) 2
i 1
n
ˆ SST SSe (Yi Y ) 2 SSreg
i 1
n
• 如果迴歸線非常接近平均數的水平線,SSreg趨 近於0,此時使用迴歸線的必要性就減低了。 反之,如果迴歸線距離水平線很遙遠,SSreg就 會很大,反映出迴歸線的必要性。
* b0 0 * b0
Y
*
* b1 X *
* b1
r(
SY *
)
* b1 r
• 亦即結構模式應為 Y j* b1* X i* e i * • b1與 b1的關係為
* b1 b1 (
SY * ) 或 b1 b1 ( S X ) SX SY
第二節 結構模式與參數估計 (9)
X2
(Xi X )
i 1
n
]
2
2 S b1
MS e [
1 ( X i X )2
i 1 n
]
b1 b1 b0 b 0 •T 和T 是自由度為 n-2的t分佈。 Sb1 Sb0
第二節 結構模式與參數估計 (15)
b0的(1-a)100%信賴區間是
b0 ta 2 S b0 b0 ta
第15章
簡單線性迴歸
前言
• 相關係數除了可以用來瞭解兩變項間的關連強 度之外,還有什麼用?例如8歲的體重和20歲 的體重的相關是0.8。但身為父母,可能更關心 他的8歲小孩現在是25公斤,將來20歲時大概 會是幾公斤。換句話說,要用8歲的體重來預 測20歲的體重。 • 我們希望從學生的高中成績來預測大學聯考的 成績。或是從公司過去的銷售業績,預測未來 的發展。
b1的95%信賴區間為1.7672.306 0.198 • 由於b1的95%信賴區間為(0.74, 2.79),並沒 包含0,因此拒絕斜率為0的假設。可以用8歲 體重預測20歲的體重。
第二節 結構模式與參數估計 (19)
T 1.767 0 0.198 3.969
• 超出臨界值2.306,因此可以拒絕虛無假設。 • 假如得到的結果是無法拒絕斜率等於0的虛無 假設,就表示8歲體重無助於預測20歲的體重。

i 1
(Yi Y )2
第四節 預測效果的變異數分析 (2)
• 當母體b1= 0的虛無假設為, MS 服從F分佈, e 其分子和母自由度分別為1和n - 2。如果從樣本 計算的超過F分佈臨界值,就拒絕虛無假設, 而宣稱b1 0。如果b1 = 0,代表預測變項無用。 • 這個變異數分析和b1的t檢定一致,因為t2 = F。
相关文档
最新文档