生物统计课件第8章 多元线性回归和相关
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元线性回归方程的建立
多元线性回归中,自变量x个数有k个(k≥2)n组,设 x1、 x2、…、 xk为自变量观测值,y为因变量观测值, 则一个k元线性回归的数学模型为:
y 0 1x1 2x2 k xk
式中k>1,β0为截距, β1~ βk为偏回归系数,ε为 随机误差,服从N(0,σ)的正态分布 。
逐步回归与通径分析 在DPS中输入数据,选择数据:
逐步回归与通径分析 点击菜单多元分析→回归分析→逐步回归,弹出对 话框:
已经引入方程的变量为x1、x2、x3,调整的R为 0.94804
逐步回归与通径分析 按yes,则引入变量x4,结果:
已经引入方程的变量为x1、x2、x3、x4,调整的R为 0.94473<0.94804,因此不能引入x4,需要剔除。
引入6个变量时的最优回归方程:
X4、X6对Y卵巢重的影响非常显著(p<0.01),X2 的影响也显著(p<0.05),而X1、X3、X5对Y的而影响 不显著(p>0.05),得到回归方程(略) 决定系数R2=0.9822(略高于引入4个自变量时的 0.9820),回归关系经方差分析,F=128.4913,p=0, 非常显著。
简单的相关系数与偏相关系数会差别很大, 符号也存在正负差异。
简单的相关系数往往不能反应两个变量之 间的真实的线性相关关系,而偏相关系数消 除了其他变量的取值的影响,反映两个变量 的真实关系。
逐步回归与通径分析
在实际研究中,影响y的因素有很多,这些因素之 间可能存在多重共线性问题,如温度和雨量、雨量 与雨日之间的关系。逐步回归分析就是一种自动从 大量变量中选择对建立回归方程比较重要的方法, 它是建立在多元线性回归的基础上派生出来的一种 更算法技巧。
用DPS解题: (3)结果: 引入1个变量时的最优回归方程:
X5空壳重对Y卵巢重的影响最显著(p=0),优先 引入方程,得到回归方程 y 7288.9484 29.0172x5 决定系数R2=0.9283,回归关系经方差分析, F=245.8777,p=0,非常显著。
引入2个变量时的最优回归方程:
结果:
y平均数的置信区间、y观测值的置信区间 当x1=12.5,x2=2.5,预测y平均数的95%置信 区间与y观测值95%的置信区间:
自变量的重要性和取舍
在多元回归方程中,x1~xk个自变量对因变量y的影响 程度和对回归方程的贡献大小是不一样的。因此需要 进行取舍,去掉那些对因变量影响不显著的自变量, 建立“最优”的多元线性回归方程,这样才能对因变 量y作出有效的准确的分析、预测。
在多元线性回归分析中,较多的自变量拟合回归 方程,会使得方程稳定性差,建立的方程作为预测 的可靠性就差,精度低,因此希望得到“最优”的 回归方程,把对y影响不显著的因素剔除。
逐步回归与通径分析
逐步回归分析根据自变量对y的影响显著程度,从 大到小逐个引入方程,每次引入自变量都要进行F检 验,确保引入的自变量有新的统计意义。对y没有显 著影响的变量要从方程中剔除。
DPS法 (1)输入数据,选择数据:
(2)菜单:
(3)结果: • Pearson相关系数:
从相关系数看,所有变量之间都存在非常显著的 正相关(P<0.01) 。
(3)偏相关系数:
从偏相关系数看,年龄与绝对怀卵量正相关非常 显著,r=0.7829,p=0.0003;
其次是卵巢重, r=0.6716,p=0.0044; 然后是体长,r=-0.5962,p=0.0148,体长与怀卵 量是负相关。
X4、X6对Y卵巢重的影响非常显著(p<0.01),优先 引入方程,得到回归方程
y 23050.0510 10513.8276x4 81.5943x6
决定系数R2=0.9470(高于引入一个自变量X5时的 0.9283),回归关系经方差分析,F=160.8874,p=0, 非常显著。
引入3个变量时的最优回归方程:
引入5个变量时的最优回归方程:
X2、X4、X6对Y卵巢重的影响非常显著(p<0.01), X1的影响也显著(p<0.05),优先引入方程,而X3对Y 的而影响不显著(p=0.7259),得到回归方程(略) 决定系数R2=0.9822(略高于引入4个自变量时的 0.9820),回归关系经方差分析,F=165.1353,p=0, 非常显著。
机变量,随x1、x2、…、xm而变,受试验误差影响; σ2为相互独立且都服从的随机变量。我们可以根据
实际观测值对以及
0、1、 2、...、方 m差σ2作出估
计。
多元线性回归方程的建立
设y对x1、x2、…、 xm的元线性回归方程为:
yˆ b0 b1x1 b2 x2 bm xm
式中,b0、b1、b2、…、bm为 0、1、2、...、m的
结果: • 回归决定系数R2及方差分析:
DPS一次性操作即可给出回归方程、方差分析、 决定系数等数据,而Minitab需要两次操作。
多元相关与偏相关 多元相关,又称复相关,是y与k个x的总相关。 例 分析X1(全长)、X2(体长)、X4(年龄)、 X6(卵巢重)四个自变量与怀卵量Y的复相关系数, 并进行假设检验 在上面的结果中已经解决了这个问题:
多元线性回归和相关
多元线性回归分析的基本任务包括: •根据依变量与多个自变量的实际观测值建立依变量 对多个自变量的多元线性回归方程; •检验、分析各个自变量对依自变量的综合线性影响 的显著性; •检验、分析各个自变量对依变量的单纯线性影响的 显著性,选择仅对依变量有显著线性影响的自变量, 建立最优多元线性回归方程; •评定各个自变量对依变量影响的相对重要性以及测 定最优多元线性回归方程的偏离度等。
决定系数R2=0.9820,p=0.000,相关非常显著。
偏相关系数及其假设检验
例 分析X1(全长)、X2(体长)、X4(年 龄)、X6(卵巢重)四个自变量及怀卵量Y (总共5个变量)之间都存在不同程度线性相 关关系。当X1变化,其他变量X2、X4、X6、 Y都在变化,要消除其他变量的影响,就要保 持其他变量不变。比如,要了解X1与Y的关 系,就要保持 X2、X4、X6不变。这就要进 行偏相关分析。
最测值小y二与乘回估归计估值计。值即yb0的、偏b1、差b平2、方…和、最b小m应。使实际观
多元线性回归方程的建立
例 随机抽查某渔场16次放养记录,得到结果(单 位:kg),要建立鱼产量(y)和投饵量(x1)、放养 量(x2)的线性回归方程,并预测x1 =12.5, x2 =2.5 时y平均数的置信区间、y观测值的置信区间。
逐步回归与通径分析 按No,则剔除变量x4,结果:
复习:一元回归和相关
一元回归分析:建立x与y之间的回归方 程,利用方程由x来预测y。
如果x与y存在相关,但不需要由x来估 计y,只需要对x与y进行相关分析。R为相关 系数,取值范围从-1到1。 R2为决定系数, 取值范围为0~1,只能反应相关程度,而不能 反应相关性质。
多元线性回归和相关
一元线性回归研究的是一个依变量与一个自变量之间的 回归问题,但是,在畜禽、水产、食品等科学领域的许多实 际问题中,影响依变量的自变量往往不止一个,而是多个, 比如绵羊的产毛量这一变量同时受到绵羊体重、胸围、体长 等多个变量的影响,因此需要进行一个依变量与多个自变量 间 的 回 归 分 析 , 即 多 元 回 归 分 析 ( multiple regression analysis),而其中最为简单、常用并且具有基础性质的是 多元线性回归分析(multiple linear regression analysis), 许 多 非 线 性 回 归 ( non-linear regression ) 和 多 项 式 回 归 (polynomial regression)都可以化为多元线性回归来解决, 因而多元线性回归分析有着广泛的应用。研究多元线性回归 分析的思想、方法和原理与直线回归分析基本相同,但是其 中要涉及到一些新的概念以及进行更细致的分析,特别是在 计算上要比直线回归分析复杂得多,当自变量较多时,需要 应用计算机进行计算。
p=0.0008<0.01,认为鱼产量Y与投饵量X1、放 养量X2的回归关系是非常显著的。
决定系数R2=0.668452
结果: • 回归系数及假设检验:
根据b0、b1、b2我们可以得到回归方程为:
y 4.6921 0.5965x1 3.0384x2
对b1、b2进行t检验,p分别为0.0026、0.0004, 说明投饵量X1、放养量X2对鱼产量Y的影响是非常 显著的。
X2、X4、X6对Y卵巢重的影响非常显著(p<0.01), 优先引入方程,得到回归方程(略) 决定系数R2=0.9750(高于引入2个自变量时的 0.9470),回归关系经方差分析,F=220.7037,p=0, 非常显著。
引入4个变量时的最优回归方程:
X2、X4、X6对Y卵巢重的影响非常显著(p<0.01), X1的影响也显著(p<0.05),优先引入方程,得到回归 方程(略) 决定系数R2=0.9820(高于引入3个自变量时的 0.9750),回归关系经方差分析,F=218.2896,p=0, 非常显著。
多元线性回归方程的建立
多元线性回归中,自变量x个数有k个(k≥2)n组,设 x1、 x2、…、 xk为自变量观测值,y为因变量观测值:
多元线性回归方程的建立
假定因变量y与自变量x1、x2、…、xm间存在线 性关系,其数学模型为:
Y 0 1X1 2 X2 k Xk
式 中 , x1 、 x2 、 … 、 xm 为 可 以 观 测 的 一 般 变 量 (或为可以观测的随机变量);y为可以观测的随
对话框设置:
选项设置:
结果:
引入4个变量时决定系数R2(调整)最佳,Mallows Cp接近入选的变量数目时较好。此时引入的变量为: 全长、体长、年龄、卵巢重,与DPS是一致的。然 后可以进一步做回归分析: 菜单:统计→回归→回归
对话框:
结果: • 回归方程:
• 偏回归系数及其显著性检验:
这是一个二元线性回归问题,设y对x1、x2的线性回
归方程为: yˆ b0 b1x1 b2x2
用DPS解题: (1)输入数据与选择数据:
注意:和书上顺序不 一样,X1、X2、Y分 别在第1、2、3列, 顺序不可倒!
(2)菜单:
(3)对话框:
(4)点击“返回编辑”,即可出结果: • 方差分析表与决定系数:
结论:
引入X1(全长)、X2(体长)、X4(年龄)、 X6(卵巢重)四个自变量时最好,此时4个自变量都 对Y有显著影响(p<0.05)。建立四元回归方程:
y 25353.7038 5775.4061x1 8940.3612x2 29524.3071x4 127.1420x6
X3(体重)、空壳重(X5)没有引入方程,虽 然两者与全长、体长、年两之间有密切关系,但两者 容易受到外界环境的影响而变化,不引入回归方程也 是合理的。
例 分别测定21尾狗鱼性成熟个体的全长x1 (cm)、体 长x2 (cm)、体重x3 (g)、年龄x4 (a)、空壳重x5 (g)、 卵巢重x6 (g)和绝对怀卵量Y (粒),试建立x1~x6与怀 卵量Y之间的最优多元线性方程
用DPS解题: (1)输入数据与选择数据:
用DPS解题: (2)菜单:
逐步回归与通径分析
通径分析是通径系数分析的简称。通径系数是自 变量偏回归系数标准化后得到的,用来表示相关变 量因果关系的统计量。
逐步回归与通径分析
例 测定“丰产3号”小麦15株的单株穗数x1、每穗 的结实穗数x2、百粒重x3、株高x4和单株籽粒产量y, 结果见下表,试建立y与xi之间的最优回归方程。
Minitab法做题 例8.1
(1)输入数据:
(2)菜单:
(3)对话框设置:
结果: (1)回归方程:
(2)偏回归系数及其显著性检验:
结果: (3)决定系数R2及方程回归显著性检验:
结果: (4)y平均数的置信区间、y观测值的置信区间:
Minitab对于y值的置信区间预测也比较方便。
例8.4 看Minitab如何对自变量进行取舍 菜单:统计→回归→最佳子集