第08讲_回归分析法预测A

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0.01 , 则回归在α = 0.05水平上显著 FP0.05 F F , N P1 P, N P1
0.05 ,则回归在α = 0.1水平上显著 Fp0.1 F F ,n p1 P, N P1
, 则回归不显著。 F FP0.1 , N P 1
(四)回归系数的显著性检验 通过回归方程显著性检验后,便得到一个“最优”的 回归数学模型,但是回归方程显著,并不意味着方程中每 一个自变量都与因变量的关系密切,我们希望从回归方程 中剔除那些次要的变量,回归效果更好。 由于自变量的重要性体现在标准回归系数上, bi越大, 则xi与y的关系越密切,于是,我们用另外一个统计量来检 验自变量的重要性,即:
(2)利用相关矩阵求
将原始数据标准化以后,计算相关矩阵如下:
1 r12 r13 … r21 1 r23 r31 r32 1 … … … rp1 rp2 rp3 r1p r2p r3p … 1 r1y r2y [riy]= r3y … rpy
[rij]=
数学上可以证明:
1 r12 r21 1 r31 r32 … … rp1 rp2 r13 … r23 1 … rp3 r1p r2p r3p … 1 b1 b2 b3 … bp r1y r2y r3y … rpy
对n个已知单元进行观测,获得以下观测数据矩阵:
y1 y 2 y ... yn
1 x11 1 x 21 X ... ... 1 xn1 x12 x22 ... xn 2 ... x1 p ... x2 p ... ... ... xnp
第j个和第k个变量的离差叉积和为:
SS jk ( xij x j )( xik xk )
i 1 n
(j≠k)
回归系数矩阵B为:
B=[SSij]-1[SSiy]
SS11 SS21 … SSp1
(i ,j =1, 2,…… p)
b1 b2 … bp SS1y SS2y … SSpy
SS12 … SS1p SS22 … SS2p … … SSp2 … SSpp
(3)剩余平方和/偏差平方和SSD
SS D SST SS R ( yi yi )
i 1
n
2
现在我们就可以进行拟合度的计算了。
(4)拟合度(goodness of fitting) (回归方程对n个观 测值yi的拟合优度)
虽然SSR和SSD都可以用来衡量回归效果,但SST,SSR, SSD都与y的量纲有关,为了消除量纲的影响,我们引入 一个无量纲的指标R来表示回归方程对观测值 yi的拟合优 度。
Q 0 b0 Q 0 b1 ...... Q 0 bp
n ∑x 1 ∑x 2
∑ x1
∑x 2
2 1

∑x p ∑x1xp ∑x2xp
b0 b1 b2 …
∑y ∑x1y
x
∑x1x2
∑x2x1
x
… ∑xpx2
2 2
=
∑x2y … ∑xpy
… … ∑xp ∑x px1
x
2 p
bp
A
第九讲 回归分析法预测
(Regression Analysis)
主要内容
一、 引 言 二、 一元线性回归 三、多元线性回归 四、逐步回归分析
一、引 言
变 量 间 的 关 系
函数关系:变量间的确定性关系,有 精确的数学表达式。 统计关系:根据大量观测或试验数据 建立起来的一种经验关系。
矿床的形成及矿床规模受各种地质条件的控制。矿床统 计预测的主要目的就是建立矿床值(矿化强度)y 与各种 地质变量(控矿地质因素和找矿标志)(xi)之间的统计 相关关系,即
二、一元线性回归分析
设某种控矿因素x与矿床值y之间有如下图所示的关系:
14 12 10 8 6 4 2 0 0 2 4 6 8 10 12
y
x
y和x之间的关系可用一条最佳直线方程来拟合:
ŷ = a + bx
该方程就称为y对x的线性回归方程,其中:
x-自变量(控矿地质因素) ŷ -xi所对应的y的回归估计值,称回归估值
y = f (xi) (i = 1, 2, …, p)
一旦这种统计关系建立起来以后,便可以对未知单元 进行成矿预测,这就是利用回归分析数学模型进行矿床统 计预测的基本思想。
回归分析(Regression Analysis)的定义:
回归分析是研究自变量与因变量之间相关关系 (统计关系、因果关系)的一种统计分析方法。 对地质变量而言,也就是从不存在确定性关系的 大量观测数据中,建立一个地质变量与另一个或 多个地质变量之间相关关系的数学表达式。
=
简写为:B = [rij] -1[riy] B就是回归系数矩阵。求出bi后,利用以下公式计算b0,
b0 yi ( bi xi )
(3)利用离差平方和/离差叉积和矩阵求bi
第j个变量的离差平方和为: n SSij ( xij x j )2 (j = 1, 2, ……、p )
i 1
B
C
以A,B,C分别代表上述三个矩阵,则 AB=C 0 ∑x 1 0 0 ∑x 2 0… 0 ∑x
p
n
∑ x1
2 x 1
∑x 2

∑x p ∑x1xp ∑x2xp …
2 x p
矩阵A =
∑x1x2
2 x 2
∑x2x1 … ∑x px1
… ∑xpx2
为一对称矩阵,可通过原始数据的增广矩阵X表示如下 1 x11 x12 … x1p 1 …1 x21 xn1 x22 xn2 … … x2p xnp 1 x11 x12 … 1 x21 x22 … 1 x31 x32 … … … 1 xn1 xn2 x1p x2p x3p = xnp
对上二式经运算、移项、整理后得下列线性方程组:
解上述方程组可得:
b a n xy x y
2 x y x y
n x 2 ( x ) 2
n x 2 ( x ) 2
x1 x2 x3 . . . xn
y1 y2 y3 . . . yn
于是得到最优一元线性回归方程:
=
(二)标准回归系数和偏回归系数 根据相关矩阵求出的回归系数称为标准回归系数,记 为bi', 而根据原始数据矩阵和离差平方和-离差叉积和矩 阵求出的系数称为偏回归系数,记为bi。 其中,标准回归系数的绝对值大小真实地反映了各 自变量在回归方程中的重要性,bi'的绝对值越大,则xi 对y的影响越大,条件是各xi之间的相关性很小。
b0 b1
B=

bp
y1 = b0 + b1x11 + b2x12 + … + bpx1p y2 = b0 + b1x21 + b2x22 + … + bpx2p ...... yn = b0 + b1xn1 + b2xn2 + … + bpxnp
y1 = b0 + b1x11 + b2x12 + … + bpx1p y2 = b0 + b1x21 + b2x22 + … + bpx2p ...... yn = b0 + b1xn1 + b2xn2 + … + bpxnp
利用回归分析进行矿床统计预测的基本步骤: 1、根据预测对象、预测范围和预测比例尺,将 研究区划分成若干个单元,并选取控制单元。 2 、变量的选取和研究(取值、变换、构置、筛 选);地质数据预处理(标准化、均一化等) 3 、根据控制单元建立最优回归方程,并对其进 行显著性检验。 4 、若回归方程通过检验,则可用于未知单元的 预测,圈定成矿远景区,对远景区进行地质分 析、检查和评价;若未通过检验,说明变量选取 不当或控制单元选择不合理,重复上述步骤。
2. 拟合度检验
首先计算反映因变量y的变异特征的三个指标:
(1)总离差平方和
SST ( yi y )2
i 1 n
它反映了n个观测对象(单元)的总变化,
(2)回归平方和SSR
2 SSR ( yi y )
i 1
n
反映回归估计值 yi 与原始观测值平均数 y 之差的平方 和,如果 yi 与yi一一对应,则SST与SSR应该相等,说明所 有观测点均落在回归直线上;反之,SST与SSR不相等,其 差为:
回归分析是一种由因索果的定量分析、预测技术。
回归分析的数学模型是:
y b0 bi xi
i 1
p
ŷ -因变量y的回归估计值。 xi-自变量,即控矿地质因素或找矿标志。
b0-常数,
bi-待定系数,亦叫权系数
回归分析的主要作用:
确定回归方程:确定一个地质变量与另一个或其它 几个地质变量之间是否存在相关关系,如果存在的 话,通过适当的方法找出它们之间的数学表达式; 成矿预测:根据一个或几个变量值(自变量,相对 而言较易测定),来预测另一个地质变量(因变量 ,不易观测)的估计值,并确定预测精度 判断自变量与因变量的亲疏关系:在共同影响某个 特定变量(因变量)的许多变量(自变量)之中, 找出哪些是重要的,哪些是次要的,以及它们之间 有什么关系。
X X
矩阵C可写成:
1 1 … x11 x21 x12 x22 … … x1p x2p 1 xn1 xn2 … xnp y1 y2 y3 … yn
C=
=
X´ Y
于是,
1 B A C (X X ) X Y 1
B就是我们所需要的回归系数矩阵(由p个元素 b0, b1, b2, ∙∙∙, bp组成) A-1是A 的逆矩阵(inverse matrix)
(三)回归方程的显著性检验 对回归方程进行显著性检验,目的是考查回归方程对 预测区矿床值预测效果的好坏;在数学上就是考察回归方 程中自变量与因变量之间线性关系的程度,常用方法有: 1. 回代法
在已知的n个控制单元中只选取其中的m个( m<n)单 元建立回归方程,然后用此方程对其余 n-m个已知单元进 行预测,并将预测值与实际观测值相比较,若二者接近, 说明回归方程显著;反之不显著。
yi a bxi
三、多元线性回归
(一)数学模型
y b0 bi xi
i 1
p
建立最优回归方程的关键仍然是计算b0 和bi。方法如下:
(1) 利用原始观测数据矩阵求bi
在研究区选取n个控制单元和p个地质变量,对(p+1)个 变量(xi, y)进行n次观测,获得n组观测数据和由n个方程 组成的方程组。
SS R p F SS D ( N p 1)
这就是方差分析中的F统计量,它服从第一自由度为ν1 (p), 第二自由度为ν2 (N-P-1)的F分布。
给定信度α(α = 0.05, 0.01, 0.1),查表求 如果统计量:
Fv F p ,n p 1 1 ,v2
F FP0.01 , N P1 ,则回归高度显著(回归在α = 0.01水平上显著)
R SSR SST 或R SSR SST
2
R2 就 称 为 拟 合 度 , R 称 为 复 相 关 系 数 ( multiple correlation coefficient)。 0≤ R≤1, R越大,表明回归效果越好。
3. F检验(Test of F-distHale Waihona Puke Baiduibution)
R的大小与自由度(回归方程中自变量的个数p和控制 单元数n)有关。为了综合考虑N和P的影响,引入一个比R 更有效的统计量,即:
Q ( yi yi )2 (a bxi yi )2 min imum (最小二乘法)
i 1 i 1 n n
yi ŷ
yi ŷ
Q ( yi yi )2 (a bxi yi )2 min imum
i 1 i 1
n
n
根据极值的求法,欲使Q达到最小,只需上述方程对a, b的 偏导数等于零,即:
bi'与bi有以下关系:
S xi bi bi Sy bi bi S y S xi
Sxi—自变量xi的标准差,
Sy—因变量y的标准差。
至此,我们已求出回归系数,并可以建立回归方程。 换句话说,我们已经根据地质模型建立了数学模型;该模 型是否能有效地用于未知单元的预测。需要以过显著性检 验。
a-常数,回归直线在y轴上的截距 (intercept )
b-待定系数,此时称回归系数(regression coefficient),数 值上等于回归直线的斜率(slope)
总之,对同一批数据(样本),可以有无数条直线来拟 合y与x的关系,但其中只有一条是最优的,这条直线所对 应的统计函数关系就是我们要求的回归方程。 那么,如何寻找这条最优的直线呢?数学上就是要寻找 一对常数a和回归系数b,使偏差(deviation) ŷ-yi的平方和达 到最小,即:
相关文档
最新文档