MATLAB程式设计进阶篇曲线拟合与回归分析(精)

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

MATLAB 程式設計進階篇曲線擬合與迴歸分析
張智星 (Roger Jang) jang@mirlab.org http://mirlab.org/jang 清大資工系多媒體檢索實驗室
資料擬和簡介

資料擬合（Data Fitting）

給定一組資料（含輸入及輸出），建立一個數學模型，來逼近此資料的輸入輸出特性如果此資料包含一維輸入及輸出，則此數學模型可以表示成一條曲線，在此情況下又稱為曲線擬合（Curve Fitting）使用統計的方法來進行資料擬和，並分析每一個變數的統計特性，此過程稱為迴歸分析

迴歸分析（Regression Analysis）

曲線擬合簡介

曲線擬合（Curve Fitting）

欲建立的數學模型是「單輸入、單輸出」（Single-input Single-output，簡稱SISO），其特性可用一條曲線來表示若模型是線性模型，則此類問題稱為線性迴歸（Linear Regression）若模型是非線性模型，則稱為非線性迴歸（Nonlinear Regression）。
y f ( x) a0 a1 x a2 x 2 21130 23.51x 0.00654 x2
提示：左除及右除

迴歸分析之分類

曲線擬合：美國人口範例

觀察資料是美國自 1790 至 1990 年（以 10 年為一單位）的總人口，此資料可由載入檔案 census.mat 得到：

範例10-1： censusPlot01.m
% 載入人口資料 % cdate 代表年度，pop 代表人口總數
250 200
load census.mat plot(cdate, pop, 'o'); xlabel('年度'); ylabel('美國人口總數');

總平方誤差 E 為 a0, a1 , a2的二次式導式 E 、 E 及 E 為a0, a1 , a2 的一次式
a0 a1 a2

令上述導式為零之後，我們可以得到一組三元一次線性聯立方程式，就可以解出參數 a0 、 a1 、a2的最佳值。
Βιβλιοθήκη Baidu
矩陣表示法

假設 21 個觀察點均通過此拋物線，將這 21 個點帶入拋物線方程式，得到下列21個等式：
a 0 a1 x1 a 2 x1 y1 a 0 a1 x 2 a 2 x 2 y 2 2 a 0 a1 x 21 a 2 x 21 y 21
2 2

亦可寫成
1 x1 x12 2 1 x x 2 2 2 1 x21 x21
E (a0 , a1 , a2 ) yi f ( xi ) yi a0 a1 xi a2 xi
2 i 1 i 1 21 21

2

2
目標函數之求解

求得參數 a0 、 a、 1 a2 的最佳值 a2 的導式，令其為零，即可解求出 E 對 a0、a1 、出 a0、 a1、a2 的最佳值。

目標

曲線擬合之目標函數

曲線擬和的平方誤差

yi

假設觀察資料可寫成 ( xi , yi ),i= 1~21。當輸入為 x i 時，實際輸出為 yi 。模型的預測值為 f ( xi ; a0 , a1, a2 ) a0 a1xi a2 xi 2 平方誤差： yi f ( xi )2 總平方誤差 E是參數 a0, a1 , a2 的函數，這也是我們要最小化的目標函數，可表示如下：
y A
2
( y A ) T ( y A )
此即為前述的總平方誤差 E

MATLAB 提供一個簡單方便的「左除」（\）指令，來解出最佳的，使得總平方誤差為最小。
曲線擬合運算範例

利用「左除」來算出最佳的參數值，並同時畫出具有最小平方誤差的二次曲線

範例10-2： census01.m
A 1 1 y 2 2 3
y

y 21
y

為未知向量。其中 A 、 y 為已知，
MATLAB的最小平方解

觀察

上述21個方程式，只有 3 個未知數 1,2 ,3 T，所以通常不存在一組解來滿足這 21 個方程式。在一般情況下，只能找到一組，使得等號兩邊的差異為最小，此差異可寫成
曲線擬合結果
250 200 實際人口數預測人口數
美國人口總數
150
100
50
0 1750
1800
1850 年度
1900
1950
2000

由上述範例，我們可以找出最佳的
a0 , a1 , a2 21130 , 23.51, 0.00654

因此具有最小平方誤差的拋物線可以寫成：
load census.mat % 載入人口資料 plot(cdate, pop, 'o'); % cdate 代表年度，pop 代表人口總數 A = [ones(size(cdate)), cdate, cdate.^2]; y = pop; theta = A\y; % 利用「左除」，找出最佳的 theta 值 plot(cdate, pop, 'o', cdate, A*theta, '-'); legend('實際人口數', '預測人口數'); xlabel('年度'); ylabel('美國人口總數');
美國人口總數
150
100
50
0 1750
1800
1850 年度
1900
1950
2000
曲線擬合之模型選取

模型選取

由上圖資料分佈，可猜測這適合的曲線可能是二次 2 拋物線 y f ( x; a0 , a1 , a2 ) a0 a1 x a2 x 其中y為輸出，x為輸入，a0, a1 , a2 則為此模型的參數。由於參數相對於y呈線性關係，所以此模型為稱線性模型找出最好的參數值，使得模型輸出與實際資料越接近越好，此過程即稱為線性迴歸