SPSS—非线性回归(模型表达式)案例解析
SPSS回归分析过程详解
线性回归的假设检验
01
线性回归的假设检验主要包括拟合优度检验和参数显著性 检验。
02
拟合优度检验用于检验模型是否能够很好地拟合数据,常 用的方法有R方、调整R方等。
1 2
完整性
确保数据集中的所有变量都有值,避免缺失数据 对分析结果的影响。
准确性
核实数据是否准确无误,避免误差和异常值对回 归分析的干扰。
3
异常值处理
识别并处理异常值,可以使用标准化得分等方法。
模型选择与适用性
明确研究目的
根据研究目的选择合适的回归模型,如线性回 归、逻辑回归等。
考虑自变量和因变量的关系
数据来源
某地区不同年龄段人群的身高 和体重数据
模型选择
多项式回归模型,考虑X和Y之 间的非线性关系
结果解释
根据分析结果,得出年龄与体 重之间的非线性关系,并给出 相应的预测和建议。
05 多元回归分析
多元回归模型
线性回归模型
多元回归分析中最常用的模型,其中因变量与多个自变量之间存 在线性关系。
非线性回归模型
常见的非线性回归模型
对数回归、幂回归、多项式回归、逻辑回归等
非线性回归的假设检验
线性回归的假设检验
H0:b1=0,H1:b1≠0
非线性回归的假设检验
H0:f(X)=Y,H1:f(X)≠Y
检验方法
残差图、残差的正态性检验、异方差性检验等
非线性回归的评估指标
判定系数R²
非线性回归案例与spss
2020/5/31
7
SPSS曲线拟合
1,
2020/5/31
8
2,
2020/5/31
9
3,点击ok,得到结果报表和图形
2020/5/31
10
报表分析
Linear:
compoud:
方程:y=-1.33E4+4.318E3t 方程:y=3603.061(1.192)t
SSE=1.589E9,R2=0.856
SSE=0.122782,R2=0.99188
复合函数是按线性化后的回归模型计算的,因此两
者的残差不能直接比较。为了与线性回归的拟合效果直
接相比,可以先储存复合函数回归的残差序列,然后计
算出复合函数回归的
SSE =262467769=2.625×108, R2=1-262467769/11043353279=0.97623,
2020/5/31
23
2020/5/31
通过以上分析可以认为药物 反应程度y与药剂量x符合以 下非线性回归方程:
yˆ 99.541
99.541
1
x
6.7612 Βιβλιοθήκη 4.7996 R2=0.999
24
2020/5/31
3
导入数据
1,
2,
2020/5/31
4
3,
2020/5/31
5
散点图
2020/5/31
6
散点图分析
从散点图上看到,GDP大致为指数函数形式。复 合函数y=b0bt1的形式与经济意义更相吻合。自变 量为时间变量时,Curve Estimation命令提供了直 接选取自变量为时间的功能,做复合函数y=b0bt1 的曲线回归,同时做简单线性回归y=b0+b1t以做 比较。
《SPSS统计分析》第11章 回归分析
返回目录
多元逻辑斯谛回归
返回目录
多元逻辑斯谛回归的概念
回归模型
log( P(event) ) 1 P(event)
b0
b1 x1
b2 x2
bp xp
返回目录
多元逻辑斯谛回归过程
主对话框
返回目录
多元逻辑斯谛回归过程
参考类别对话框
保存对话框
返回目录
多元逻辑斯谛回归过程
收敛条件选择对话框
创建和选择模型对话框
返回目录
曲线估计
返回目录
曲线回归概述
1. 一般概念 线性回归不能解决所有的问题。尽管有可能通过一些函数
的转换,在一定范围内将因、自变量之间的关系转换为线性关 系,但这种转换有可能导致更为复杂的计算或失真。 SPSS提供了11种不同的曲线回归模型中。如果线性模型不能确 定哪一种为最佳模型,可以试试选择曲线拟合的方法建立一个 简单而又比较合适的模型。 2. 数据要求
线性回归分析实例1输出结果2
方差分析
返回目录
线性回归分析实例1输出结果3
逐步回归过程中不在方程中的变量
返回目录
线性回归分析实例1输出结果4
各步回归过程中的统计量
返回目录
线性回归分析实例1输出结果5
当前工资变量的异常值表
返回目录
线性回归分析实例1输出结果6
残差统计量
返回目录
线性回归分析实例1输出结果7
返回目录
习题2答案
使用线性回归中的逐步法,可得下面的预测商品流通费用率的回归系数表:
将1999年该商场商品零售额为36.33亿元代入回归方程可得1999年该商场 商品流通费用为:1574.117-7.89*1999+0.2*36.33=4.17亿元。
SPSS在非线性回归分
8.4 SPSS在非线性回归分析中的应用
8.4 SPSS在非线性回归分析中的应用
(5)线性回归和非线性回归的股票预测图
图8-35显示了原始数据、线性回归模型、非线性回归模型三者的比较。其中, “股票 A” 是实际曲线,“ Predicted Values” 是本案例建立的非线性回归方 程的预测曲线,“ Unstandardized Predicted Values” 是不考虑股票 B 、 C 交 互项的二元线性模型的预测曲线。可以明显看到,非线性回归的预测效果要好 于二元线性回归的预测效果,说明了这里我们引入股票B、C交互项的合理性。
单击【Save】按钮,弹出如下图所示的对话框。它表示要保存到数据文件中的 统计量。
Predicted Values:输出回归模型的预测值。
Residuals:输出回归模型的残差。 Derivatives:模型各个参数的一阶导数值。 Loss function values:损失函数值。
8.4 SPSS
在非线性回归分析中的应用
Step04:输入回归方程
在【Model Expression (模型表达式)】文本框中输入需要拟合的方程式,该方 程中包含自变量、参数变量和常数等。自变量从左侧的候选变量列表框中选 择,参数变量从左侧的【Parameters (参数)】列表框里选入。同时,拟合 方程模型中的函数可以从【Function (函数组)】列表框里选入;方程模型 的运算符号可以用鼠标从窗口“数字符号”显示区中点击输入。
非线性回归分析
非线性回归分析(转载)(2009-10-23 08:40:20)转载分类:Web分析标签:杂谈在回归分析中,当自变量和因变量间的关系不能简单地表示为线性方程,或者不能表示为可化为线性方程的时侯,可采用非线性估计来建立回归模型。
SPSS提供了非线性回归“Nonlinear”过程,下面就以实例来介绍非线性拟合“Nonlinear”过程的基本步骤和使用方法。
应用实例研究了南美斑潜蝇幼虫在不同温度条件下的发育速率,得到试验数据如下:表5-1 南美斑潜蝇幼虫在不同温度条件下的发育速率温度℃17.5 20 22.5 25 27.5 30 35 发育速率0.0638 0.0826 0.1100 0.1327 0.1667 0.1859 0.1572 根据以上数据拟合逻辑斯蒂模型:本例子数据保存在DATA6-4.SAV。
1)准备分析数据在SPSS数据编辑窗口建立变量“t”和“v”两个变量,把表6-14中的数据分别输入“温度”和“发育速率”对应的变量中。
或者打开已经存在的数据文件(DATA6-4.SAV)。
2)启动线性回归过程单击SPSS主菜单的“Analyze”下的“Regression”中“Nonlinear”项,将打开如图5-1所示的线回归对话窗口。
图5-1 Nonlinear非线性回归对话窗口3) 设置分析变量设置因变量:从左侧的变量列表框中选择一个因变量进入“Dependent(s)”框。
本例子选“发育速率[v]”变量为因变量。
4) 设置参数变量和初始值单击“Parameters”按钮,将打开如图6-14所示的对话框。
该对话框用于设置参数的初始值。
图5-2 设置参数初始值“Name”框用于输入参数名称。
“Starting”框用于输入参数的初始值。
输入完参数名和初始值后,单击“Add”按钮,则定义的变量及其初始值将显示在下方的参数框中。
需要修改已经定义的参数变量,先用将其选中,然后在“Name”和“Starting”栏里进行修改,完成后点击“Change”按钮确认修改。
spss-非线性回归分析
实验三非线性回归分析(2学时)一、实验重点掌握非线性回归分析的方法。
二、实验难点模型的选择及对SPSS软件的输出结果进行分析和整理。
三、实验举例例1、对GDP(国内生产总值)的拟合。
选取GDP指标为因变量,单位为亿元,拟合GDP关于时间t的趋势曲线。
以1981年为基准年,取值为t=1,1998年t=18,1991-1998年的数据如下:解:分析过程(一)画散点图图3.1:Y 与t 的散点图图3.2:Ln Y 与t 的散点图(二)根据画散点图,及经济背景可选用模型 复合函数:01t y b b = (也称增长模型或半对数模型)同时,做简单线性回归 01y b b t =+ 以作比较。
(三)模型求解直接用SPSS 软件的Curve Estimation 命令计算。
(也可以用线性化的方法求解,结果基本一致。
) 运行结果如下:(四)结果分析线性回归方程:2ˆ133754417.520.856y t R =-+=复合函数回归方程:ˆ3603.06(1.1924)t y= ………(*)2ˆln 8.190.1760.992y t R =+=注意:不能直接比较两模型的拟合优度,需要对复合函数模型处理,利用(*)式,得到复合函数的残差,计算该模型的残差平方和RSS=2.1696×108 ,并计算y 的离差平方和TSS=1.1×1010 ,得到非线性回归的相关指数82102.169610110.981.110RSS R TSS ⨯=-=-≈⨯ 由于该相关指数大于线性回归的拟合优度,所以可以判断复合函数模型比线性回归模型要好。
例2 、一位药物学家是用下面的非线性模型对药物反应拟合回归模型1021()i i c i c y c u c =-++ 其中,自变量x 为药剂量,用级别表示; 因变量y 为药物反应程度,用百分数表示。
三个参数c 0 ,c 1 ,c 2都是非负的, c 0 的上限是100%,三个参数的初始值取为c 0 =100,c 1=5 ,c 2=4.8.测得9个数据如下表:解:分析过程:(一)画散点图从图形上看,y 与x 确实呈非线性关系! (二)模型求解用SPSS 软件的Nonlinear 命令计算,具体操作如下: (1)建立数据集;(2)在数据窗口点击:Analyze → Regression → Nonlinear …,出现窗口在将y 点入Dependent 框中,在Model Expression 框中输入表达式:c0-c0/(1+(x/c2)**c1)(3) 点击Parametere …, 出现下图:在Name 框中输入: c0Starting Value 框中输入:100点击add,即可得到参数c0的初始赋值,类似的方法可以得到c1和c2参数的初始赋值,Continue 。
【SPSS统计挖掘】第27章 曲线回归与非线性回归
• 2.实例结果及分析 • (1)模型描述 • 图27-13所示是SPSS对曲线拟合结果的初步描述统计,例如自变
量和因变量、估计方程的类型等。
• 图27-16所示给出了样本数据分别进行三种曲线方程拟合的检验统计量 和相应方程中的参数估计值。对于对数拟合,它的可决系数R2为0.914, F统计量等于52.999,概率P值小于显著性水平0.05,说明该模型有统计 学意义。
• 假定数据文件图27-24所示中是一家公司在8个周期间的广告费用与 公司收入。公司的老板希望建立一个回归模型用电视广告费用和报 纸广告费用来预测公司收入。以往8周的样本数据如图27-24所示 (单 位:千美元)。请建立回归模型分析。
• SPSS模块说明 • 1.非线性回归 • 单击“分析”|“回归”|“非线性”命令,弹出单“非线性回归”
从图27-8所示中也进一步说明三次曲线曲线方程的拟合效果最好。
• 因变量与自变量之间的相互关系可以用线性方程来近似的反应。但是, 在现实生活中,非线性关系大量存在。线性回归模型要求变量之间必 须是线性关系,曲线估 计只能处理能够通过变量变换化为线性关系的 非线性问题,因此这些 方法都有一定的局限性。相反的,非线性回归 可以估计因变量和自变 量之间具有任意关系的模型,用户根据自身需 要可随意设定估计方程的具体形式。
• 对于二次曲线方程和三次方程拟合来说,它对应的可决系数R2分别为 0.971和0.995,模型也显著有效。
• 虽然上述模型都有显著的统计学意义,但从可决系数的大小可以清晰 看到三种曲线函数方程较其他两种曲线方程拟合效果更好,因此选择 三种曲线方程来描述锡克氏试验阴性率与儿童年龄的关系。
• (3)拟合曲线图,如图27-17所示。 • 最后给出的是实际数据的散点图和三种估计曲线方程的预测图。
实验六用spss进行非线性回归分析
实验六用SPSS进行非线性回归分析例:通过对比12个同类企业的月产量(万台)与单位成本(元)的资料(如图1),试配合适当的回归模型分析月产量与单位成本之间的关系图1原始数据和散点图分析一、散点图分析和初始模型选择在SPSS数据窗口中输入数据,然后插入散点图(选择Graphs→Scatter命令),由散点图可以看出,该数据配合线性模型、指数模型、对数模型和幂函数模型都比较合适。
进一步进行曲线估计:从Statistic下选Regression菜单中的Curve Estimation命令;选因变量单位成本到Dependent框中,自变量月产量到Independent框中,在Models框中选择Linear、Logarithmic、Power和Exponential四个复选框,确定后输出分析结果,见表1。
分析各模型的R平方,选择指数模型较好,其初始模型为但考虑到在线性变换过程可能会使原模型失去残差平方和最小的意义,因此进一步对原模型进行优化。
模型汇总和参数估计值因变量: 单位成本方程模型汇总参数估计值R 方F df1df2Sig.常数b1线性.912110.000对数.943110.000幂.931110.000指数.955110.000自变量为月产量。
表1曲线估计输出结果二、非线性模型的优化SPSS提供了非线性回归分析工具,可以对非线性模型进行优化,使其残差平方和达到最小。
从Statistic下选Regression菜单中的Nonlinear命令;按Paramaters按钮,输入参数A:和B:;选单位成本到Dependent框中,在模型表达式框中输入“A*EXP(B*月产量)”,确定。
SPSS输出结果见表2。
由输出结果可以看出,经过6次模型迭代过程,残差平方和已有了较大改善,缩小为,误差率小于,优化后的模型为:迭代历史记录b迭代数a残差平方和参数A B+133.087导数是通过数字计算的。
a. 主迭代数在小数左侧显示,次迭代数在小数右侧显示。
利用SPSS拟合非线性回归模型
利用SPSS拟合非线性回归模型——以S型曲线为例1.原始数据下表给出了某地区1971—2000年的人口数据(表1)。
试用SPSS软件对该地区的人口变化进行曲线拟合,并对今后10年的人口发展情况进行预测。
表1 某地区人口变化数据年份时间变量t=年份-1970人口y/人1971133 8151972233 9811973334 0041974434 1651975534 2121976634 3271977734 3441978834 4581979934 49819801034 47619811134 48319821234 48819831334 51319841434 49719851534 51119861634 52019871734 50719881834 50919891934 52119902034 51319912134 51519922234 51719932334 51919942434 51919952534 52119962634 5211997 27 34 523 1998 28 34 525 1999 29 34 525 20003034 527根据上表中的数据,做出散点图,见图1。
,337003380033900340003410034200343003440034500346001970197219741976197819801982198419861988199019921994199619982000年份人口图1 某地区人口随时间变化的散点图从图1可以看出,人口随时间的变化呈非线性过程,而且存在一个与横坐标轴平行的渐近线,近似S 曲线。
下面,我们用SPSS 软件进行非线性回归分析拟合计算。
2.用SPSS 进行回归分析拟合计算在SPSS 中可以直接进行非线性拟合,步骤如下(假定已经进行了数据输入,关于数据输入方法见SPSS 相关基础 教程):Analysis->Regression->Cubic,在弹出的对话框(见图一)中选择拟合的变量和自变量,本例分别选择y (人口),t (时间变量)为变量(Dependent )和自变量(Independent)。
SPSSAU_进阶方法_非线性回归
非线性回归非线性模型非线性函数非线性表达式SPSSAU非线性回归模型如果数学模型为非线性关系,比如人口学增长模型Logistic(S模型),其模式公式为:y = b1 / (1 + exp(b2 + b3 * x)),其中y为人口数量,x为年份(实际数据为第n年,数字从0年起,依次顺序增加),b1,b2和b3分别为三个估计参数,exp为自然指数的意思。
此数学表达式并非线性表达式,因此不能使用SPSSAU的线性回归进行拟合。
诸如此类非线性关系(即不是直接关系)的非线性模型,可使用非线性回归进行研究。
SPSSAU当前提供约50类非线性函数表达式,涵盖绝大多数非线性函数表达式。
如下图:备注:图中出现的b1,b2,b3等代表待估计参数;exp表示自然指数,ln表示自然对数,cos表示余弦函数;“**”表示指数的意思。
进行非线性回归模型构建时,通常分为三步。
第一步:首先需要结合专业知识选择正确的构建模型,比如人口增长预测时使用logistic模型,经济学研究的抛物线二次曲线模型等。
第二步:设置参数初始值;与线性回归不同,非线性回归模型数学原理上使用迭代思想计算参数估计值,因而对初始值的不同设置,很可能会导致不同的结果,因而初始值设置较为重要,其可使用模型求解更为精确,并且有助于模型快速迭代收敛。
关于初始值的设置在案例中有更详细说明。
第三步:模型预测。
在得到参数拟合值后,并且拟合效果在认可范围内时,那么可使用模型进行预测数据,输入X的数据信息,对应得到Y的预测值。
特别提示:关于初始值。
初始值是由研究人员输入的一个‘大概’值,即参数的大概估计值,大概预期的值,与此同时,也可设置参数的范围,即上下界,但通常情况下不设置上下界值,除非认为有必要,通常不需要设置上下界值。
关于初始值的设置方法。
通常包括两种,一是结合专业知识进行判断,二是利用模型公式时的特殊点(比如X=0时,Y=?)去求解得到。
专业知识判断上,某参数的实际意义为数据的最大值,那么就设定该参数为最大值即可。
spss科研数据分析参数解释意义非线性回归分析
一、非线性函数形式的确定 在对实际的客观现象进行定量分析时,选择回归方程 的具体形式应遵循以下原则:
首先,方程形式应与有关实质性科学的基本理论相一致。例 如,采用幂函数的形式,能够较好地表现生产函数;采用多 项式方程能够较好地反映总成本与总产量之间的关系等等。 其次,方程有较高的拟合程度。因为只有这样,才能说明回 归方程可以较好地反映现实经济的运行情况。 最后,方程的数学形式要尽可能简单。如果几种形式都能基 本符合上述两项要求,则应该选择其中数学形式较简单的一 种。一般来说,数学形式越简单,其可操作性就越强。
双曲线函数 1. 基本形式:
2. 线性化方法 令:y' = 1/y,x'= 1/x, 则有y' = + x' 3. 图像
<0
>0
几种常见的非线性模型
对数函数 1. 基本形式:
2. 线性化方法 x'= lgx , 则有y' = + x'
3. 图像
0
<0
3.
比较 直线的残差平方和= 5.3371< 指数模型的 残差平方和=6.11。直线模型略好于指数模型
非线性回归(实例)
生产率与废品率的散点图
16
· Ï · Æ Ê Â
12 8 4 0 0 2000 4000
ú ² É ú Â Ê
6000
非线性回归(实例)
1.
用线性模型:y =01x+ ,有
2.
y = 2.671+0.0018x 用指数模型:y = x ,有
y =4.05(1.0002)x
SPSS数据分析—非线性回归
线性回归的首要满足条件是因变量与自变量之间呈线性关系,之后的拟合算法也是基于此,但是如果碰到因变量与自变量呈非线性关系的话,就需要使用非线性回归进行分析。
SPSS中的非线性回归有两个过程可以调用,一个是分析—回归—曲线估计,另一个是分析—回归—非线性,两种过程的思路不同,这也是非线性回归的两种分析方法,前者是通过变量转换,将曲线线性化,再使用线性回归进行拟合;后者则是直接按照非线性模型进行拟合。
我们按照两种方法分别拟合同一组数据,将结果进行比较。
分析—回归—曲线估计
变量转换的方法简单易行,在某些情况下是首选,但是只能拟合比较简单的(选项中有的)非线性关系,并且该方法存在一定的缺陷,例如
1.通过变量转换使用最小二乘法拟合的结果,再变换回原值之后不一定是最优解,并且变量转换也可能会改变残差的分布和独立性等性质。
2.曲线关系复杂时,无法通过变量转换进行直线化
3.曲线直线化之后,只能通过最小二乘法进行拟合,其他拟合方法无法实现
基于以上问题,非线性回归模型可以很好的解决,它和线性回归模型一样,也提出一个基本模型框架,所不同的是模型中的期望函数可以为任意形式,甚至没有表达式,在参数估计上,由于是曲线,无法直接使用最小二乘法进行估计,需要使用高斯-牛顿法进行估计,这一方法比较依赖于初始值的设定。
下面我们来直接按照非线性模型进行拟合,看看结果如何
分析—回归—非线性
以上用了两种方差进行拟合,从决定系数来看似乎非线性回归更好一点,但是要注意的是,曲线回归计算出的决定系数是变量转换之后的,并不一定能代表变换之前的变异解释程度,这也说明二者的决定系数不一定可比。
我们可以通过两种方法计算出的预测值与残差图进行比较来判断优劣,首先将相关结果保存为变量,再做图。
SPSS—非线性回归(模型表达式)案例
SPSS—非线性回归(模型表达式)案例解析非线性回归过程是用来建立因变量与一组自变量之间的非线性关系,它不像线性模型那样有众多的假设条件,可以在自变量和因变量之间建立任何形式的模型非线性,能够通过变量转换成为线性模型——称之为本质线性模型,转换后的模型,用线性回归的方式处理转换后的模型,有的非线性模型并不能够通过变量转换为线性模型,我们称之为:本质非线性模型还是以“销售量”和“广告费用”这个样本为例,进行研究,前面已经研究得出:“二次曲线模型”比“线性模型”能够更好的拟合“销售量随着广告费用的增加而呈现的趋势变化”,那么“二次曲线”会不会是最佳模型呢?答案是否定的,因为“非线性模型”能够更好的拟合“销售量随着广告费用的增加而呈现的变化趋势” 下面我们开始研究:第一步:非线性模型那么多,我们应该选择“哪一个模型呢?”1:绘制图形,根据图形的变化趋势结合自己的经验判断,选择合适的模型点击“图形”—图表构建程序—进入如下所示界面:点击确定按钮,得到如下结果:放眼望去, 图形的变化趋势,其实是一条曲线,这条曲线更倾向于"S" 型曲线,我们来验证一下,看“二次曲线”和“S曲线”相比,两者哪一个的拟合度更高!点击“分析—回归—曲线估计——进入如下界面在“模型”选项中,勾选”二次项“和”S"两个模型,点击确定,得到如下结果:通过“二次”和“S“ 两个模型的对比,可以看出S 模型的拟合度明显高于“二次”模型的拟合度(0.912 >0.900)不过,几乎接近接着,我们采用S 模型,得到如下所示的结果:结果分析:1:从ANOVA表中可以看出:总体误差= 回归平方和+ 残差平方和(共计:0.782)F统计量为(240.216)显著性SIG为(0.000)由于0.000<0.01 (所以具备显著性,方差齐性相等)2:从“系数”表中可以看出:在未标准化的情况下,系数为(-0.986)常数项为2.672所以S 型曲线的表达式为:Y(销售量)=e^(b0+b1/t) = e^(2.672-0.986/广告费用)当数据通过标准化处理后,常数项被剔除了,所以标准化的S型表达式为:Y(销售量)= e^(-0.957/广告费用)下面,我们直接采用“非线性”模型来进行操作第一步:确定“非线性模型”从绘图中可以看出:广告费用在1千万——4千多万的时候,销售量增加的跨度较大,当广告费用超过“4千多万"的时候,增加幅度较小,在达到6千多万”达到顶峰,之后呈现下降趋势。
SPSS数据分析—非线性回归
SPSS数据分析—非线性回归非线性回归是一种用于分析非线性关系的统计方法,广泛应用于各个领域的研究。
SPSS是一个功能强大的统计分析软件,可以进行非线性回归分析。
本文将介绍SPSS中的非线性回归分析的基本步骤和应用方法。
SPSS中进行非线性回归分析的步骤如下:1.导入数据:将数据导入SPSS软件中,确保数据的准确性和完整性。
2.确定变量:根据研究的目的和研究对象,选择合适的自变量和因变量,并将其设定为分析变量。
3.拟合模型:选择适当的非线性模型,并通过将模型拟合到数据中来估计模型中的参数。
SPSS中常用的非线性模型有二次曲线模型、对数模型、指数模型等。
4.模型检验:进行模型检验以评估模型的拟合程度。
常用的模型检验方法包括残差分析、F检验、最小二乘法等。
SPSS提供了各种统计指标和图表来辅助模型检验。
5.模型优化:根据模型检验的结果,若模型不拟合数据,则需对模型进行优化。
常见的优化方法包括添加交互项、引入非线性项等。
6.结果解释:根据模型参数的估计结果,对研究对象的预测和解释进行分析。
可以使用SPSS中的预测向量生成功能,生成预测值和置信区间等结果。
非线性回归分析的应用十分广泛。
在医学研究中,可以使用非线性回归来研究药物的有效性和剂量响应关系;在经济学研究中,可以使用非线性回归来分析市场需求和价格弹性等;在环境科学研究中,可以使用非线性回归来研究环境因素对生物多样性的影响等。
除了基本的非线性回归分析,SPSS还提供了一些高级的非线性建模功能。
例如,SPSS中的广义线性模型(Generalized Linear Models)可以处理更复杂的非线性关系,并适用于离散因变量的回归分析;SPSS还提供了非线性混合模型(Nonlinear Mixed Models),适用于处理随机效应的非线性问题。
总之,非线性回归是一种重要的统计方法,可以帮助研究人员分析非线性关系和预测未知的观测值。
SPSS作为一款功能强大的统计软件,提供了各种非线性回归分析的工具和功能,使得非线性回归分析变得更加简单和便捷。
SPSS在非线性回归分PPT课件
左侧的候选变量列表框中,“RESID_”代表所选变量的残差;“PRED_”代表预 测值。可以从左下角的【Parameters(参数)】列表框中选择已定义的参数 进入损失函数。
2020/1/13
8
8.4 SPSS 在非线性回归分析中的应用
Step06:参数取值范围选择
单击【Constraints】按钮,将打开如下图所示的对话框。该对话框用来设置回归方程中参数的取值范围。
2020/1/13
2
8.4 SPSS 在非线性回归分析中的应用
非线性回归模型一般可以表示为如下形式:
yi yˆ ei f (x, ) ei
其中 f (x为,期)望函数,该模型的结构和线性回归模型非常相似,所不同
的回归是方期f程望(x中函,参数) 数可的能估为计任是意通形过式迭,代甚方至法在获有得的的情。况下没有显式关系式,
2020/1/13
4
8.4 SPSS 在非线性回归分析中的应用
Step02:选择因变量
在【Nonlinear Regression(非线性回归)】对话框左侧的候选变量列表框 中选择一个变量,将其添加至【Dependent(自变量)】列表框中,即选择 该变量作为非线性回归分析的因变量。 Step03:设置参数变量和初始值 单击【Parameters(参数)】按钮,将打开如下图所示的对话框,该对话框 用于设置参数的初始值。
Step07:选择预测值和残差等输出
单击【Save】按钮,弹出如下图所示的对话框。它表示要保存到数据文件中的统 计量。
SPSS—非线性回归(模型表达式)案例
SPSS—非线性回归(模型表达式)案例解析非线性回归过程是用来建立因变量与一组自变量之间的非线性关系,它不像线性模型那样有众多的假设条件,可以在自变量和因变量之间建立任何形式的模型非线性,能够通过变量转换成为线性模型——称之为本质线性模型,转换后的模型,用线性回归的方式处理转换后的模型,有的非线性模型并不能够通过变量转换为线性模型,我们称之为:本质非线性模型还是以“销售量”和“广告费用”这个样本为例,进行研究,前面已经研究得出:“二次曲线模型”比“线性模型”能够更好的拟合“销售量随着广告费用的增加而呈现的趋势变化”,那么“二次曲线”会不会是最佳模型呢?答案是否定的,因为“非线性模型”能够更好的拟合“销售量随着广告费用的增加而呈现的变化趋势” 下面我们开始研究:第一步:非线性模型那么多,我们应该选择“哪一个模型呢?”1:绘制图形,根据图形的变化趋势结合自己的经验判断,选择合适的模型点击“图形”—图表构建程序—进入如下所示界面:点击确定按钮,得到如下结果:放眼望去, 图形的变化趋势,其实是一条曲线,这条曲线更倾向于"S" 型曲线,我们来验证一下,看“二次曲线”和“S曲线”相比,两者哪一个的拟合度更高!点击“分析—回归—曲线估计——进入如下界面在“模型”选项中,勾选”二次项“和”S"两个模型,点击确定,得到如下结果:通过“二次”和“S“ 两个模型的对比,可以看出S 模型的拟合度明显高于“二次”模型的拟合度(0.912 >0.900)不过,几乎接近接着,我们采用S 模型,得到如下所示的结果:结果分析:1:从ANOVA表中可以看出:总体误差= 回归平方和+ 残差平方和(共计:0.782)F统计量为(240.216)显著性SIG为(0.000)由于0.000<0.01 (所以具备显著性,方差齐性相等)2:从“系数”表中可以看出:在未标准化的情况下,系数为(-0.986)常数项为2.672所以S 型曲线的表达式为:Y(销售量)=e^(b0+b1/t) = e^(2.672-0.986/广告费用)当数据通过标准化处理后,常数项被剔除了,所以标准化的S型表达式为:Y(销售量)= e^(-0.957/广告费用)下面,我们直接采用“非线性”模型来进行操作第一步:确定“非线性模型”从绘图中可以看出:广告费用在1千万——4千多万的时候,销售量增加的跨度较大,当广告费用超过“4千多万"的时候,增加幅度较小,在达到6千多万”达到顶峰,之后呈现下降趋势。
spss多元回归及非线性
多元回归分析f回归f线性,拟合优度检验总离差平方和(tss)::回归平方和(ess) +残差平方和(rss):可决系数的取值范围:[0,1]. R2越接近1,说明实际观测点离样本线越近,拟合优度高_由增加解释变量个数引起的R2的增大与拟合好坏无矢,R2需调整。
调整的可决系数思路是:将残差平方和与总离差平方和分别除以各自的自由度(出),以剔除变量个数对拟合优度的影响:(2)方程总体线性的显著性检验(F检验Ho: Pi=Pz= ... =pk=OHi: Oj不全为0F> F o(/c,n-k-l)或FWFa(k“k • I)来拒绝或接受原假设Ho,以判定原方程总体上的线性矢系是否显著成立。
(3)变量的显著检验(t检验)如果变量X对Y的影响是显著的,那么X前的参数应该显著的不为0检验步骤:1)对总体参数提出假设Ho: Pi=OtHi: Pi#0若|t|>ta/2(n • 2),则拒绝HO,接受HI;(小概率事件发生)若|t|Mta/2(n • 2),贝! I接受H0 ;看指标选模型<拟合程度Adjusted 越接近1拟合程度越好4回归方程的显著性检验F统计量的值,及其Sig4回归系数表回归系数B和显著性检验Sig(4)满足基本要求的样本容量从统计检验的角度:n>30时,Z检验才能应用;”炬8时,t分布较为稳定四、预测一元或多元模型预测的SPSS实现:特征根和方差比特征根是诊断解释变量间是否存在严重的多重共线性的另一种有效方法。
最大特征根的值远远大于其他特征根的值,则说明这些解释变量间具有相当多的重叠信息,原因是仅通过这一个特征根就基本刻画出了所有解釋变量的绝大部分信息。
解释变量标准化后它的方差为“如果某个特征根既能够刻画某解释变量方差的较大部分(0.7以上),同时又可以刻画另一根解释变量方差的较大部分,则说明这两个解释变量间存在较强的线性相矢矢系。
4、条件指数条件指数反映解释变量间多重共线性的指标。
实验六-用SPSS进行非线性回归分析
实验六-用SPSS进行非线性回归分析
一、实验目的
通过本次实验,学生应掌握以下内容:
1.掌握非线性回归和SPSS结合的方法
2.掌握非线性回归结果的解读和分析
3.熟悉SPSS软件的使用和应用
二、实验原理与方法
1.非线性回归分析原理
非线性回归分析是一种常见的回归分析方法,其主要目的是找到一个非线性函
数来描述变量之间的关系。
其中,非线性函数的形式可以是指数函数、对数函数、幂函数、多项式函数等等。
在实际应用中,非线性回归分析常用于描述速度、密度、强度、反应等自然界和社会经济现象的关系。
2. SPSS软件的使用
SPSS是目前应用最为广泛的统计学分析软件之一。
通过SPSS可以进行数据的
描述统计、频率分布、方差分析、回归分析、因子分析、判别分析等多种统计分析。
在本次实验中,我们将要使用SPSS软件来进行非线性回归分析,通过SPSS软件,我们可以方便地得出非线性回归方程、残差、R方值等重要数据,并进行数据可视化分析。
三、实验步骤
1. 数据准备
本次实验所使用的数据集为。
SPSS非线性回归
SPSS数据统计分析与实践主讲:周涛副教授北京师范大学资源学院2007-12-18教学网站:/Courses/SPSS第十四章:非线性回归Contents:1. 非线性回归概述2. SPSS实例3. 常用的非线性模型SPSS procedures for Regression1.The Nonlinear Regression procedure allows you tocreate powerful and flexible models fornonlinear relationships between a dependentvariable and one or more independent variables. 2.The Linear Regression procedure provides morestatistics for models that are intrinsically linear.3.The Curve Estimation procedure allows you tomore easily specify certain nonlinear models,and can be useful for quickly comparing severaldifferent types of models.Linear vs. Nonlinear models . Regression models, whether linear or nonlinear, assume that the form of the model is Y=F(X,B) +error , where Y is the dependent variable, X represents the predictors, and F is a function of X. In linear models, F is of the form:Where x j is the jth predictor, and b j is the jth regressioncoefficient. Note that for a model to be considered linear, F must be a linear function of the parameters, notnecessarily the predictors . Thus, y=bx 2+ error is a linear model. Additionally, some models in which the error is multiplicative, such as y=e bx error , are linear models under the log-transformation: ln(y) = bx + ln(error).These model are known as intrinsically linear. Nonlinear models are all other forms of F.∑==pj jj X b B X F 1),(Parameters estimation in Nonlinear Regressionz A difference from linear regression is that the solution of the normal equations usually requires an iterative numerical search procedure because analytical solutions generally cannot be found.z To make things still more difficult, multiple solutions may be possible.Basic Ideas for parameter estimationExamples for Search methodsMethods of parameter estimation (1)z解析解(Analytic solution )z 梯度下降算法(Gradient descent algorithms)z Steepest-descentz quasi-Newtonz Levenberg-Marquardt剃度下降法的优点:速度快算法相对简单缺点:通常只能找到“Local minimum”需要提供“Gradient vector”ky y J J ∂∂=∇/Methods of parameter estimation (2) z解析解(Analytic solution)z梯度下降算法(Gradient descent algorithms)z全参数空间搜索算法(Global search methods)z优点:能搜索到全局最优参数(Global minimum)很多算法不需要提供“Gradient vector”z缺点:速度慢,需要消耗较大的计算时间z代表性算法:模拟退火(Simulated annealing)遗传算法(Genetic Algorithms)马尔可夫链蒙特卡洛法(Markov chain Monte Carlo)ExampleSPSS解决方案1.根据散点图或经验确定模型2.根据经验给出初始值和参数空间(非常重要)Examplez A retailer wants to examine the relationship between money spent on advertising and the resulting sales. To this end, they have collected past sales figures and the associated advertising costs.z This data file was previously analyzed using Linear and Quadratic models via the Curve Estimation procedure, and the the Quadratic model was found to be superior to the Linear model for this situation. However, the retailer is concerned that the Quadratic model may not beappropriate because it suggests that increasedadvertising will eventually decrease sales. Use Nonlinear Regression to fit an appropriate model.Step 1: Scatter plotThe resulting scatterplotshows that salesincrease with increasedadvertising; however,the sales return onadvertising investmentappears to decreasewith increased spending,until increasedadvertising has nofurther effect on sales.An appropriate model forthis kind of pattern is theasymptotic(]渐近线的)regression model.Step 2: Choosing ModelThe asymptotic regression model (渐近回归模型) has form:Xb eb b Y 321+=When b1>0, b2<0, and b3<0, it gives Mistcherlich's model of the "law of diminishing returns ". This model initially increases quickly with increasing values of x, but then the gains slow and finally taper off just below the value b1.6065707580859095100105246810Y =100-30*EXP(-0.5*X)Step 3: Choosing starting valuesz The Nonlinear Regression procedure requires that you supply starting values for the parameters in the model. This seems adaunting(使人畏缩的)task at first, but becomes easier with some familiarity with the model.z b1represents the upper asymptote for sales. Looking at the chart, even the largest sales values fall justs short of13, so that's areasonable starting value.z b2is the difference between the value of y when x=0 and the upper asymptote. A reasonable starting value is the minimum value of y minus b1. Looking at the chart, say that's about7-13= -6.z b3 can be roughly initially estimated by the negative of the slope between two "well separated" points on the plot. Looking at the chart there are a few points about x=2, y=8, and about x=5, y=12. Theslope between these points is (12-8)/(5-2)=1.33, thus a rough initial estimate for b3 is -1.33.Step 4: Running Nonlinear Regression(1) Define model1.Analyze ÆRegression ÆNonlinear...2.Select Detrended sales as the dependentvariable.3.Type b1 + b2*exp(b3*advert)as the modelexpression.Step 4: Running Nonlinear Regression(1) Define modelStep 4: Running Nonlinear Regression(2) Input initial values of parameters 4.Click Parameters....z Type b1as the parameter name.z Type 13as the starting valuez Click Add.z Type b2as the parameter name.z Type -6as the starting value.z Click Add.z Type b3as the parameter name.z Type -1.33as the starting value.z Click Add.Step 4: Running Nonlinear Regression(2) Input initial values of parametersStep 4: Running Nonlinear Regression(3) Constrains5.Click Constraints in the Nonlinear Regressiondialog box.z Select Define parameter constraint.z Select b1as the parameter to be constrained.z Select >= from the dropdown list.z Type 0 as the constraintz Click Addz Select b2as the parameter to be constrained.z Select <= from the dropdown listz Type0as the constraint.z Click Addz Select b3as the parameter to be constrained.z Select <= from the dropdown listz Type 0as the constraint.z Click Add(3) Constrains(3) ConstrainsClick OK in the warning. The sequential quadratic programming algorithm(顺序二次规划)will be used instead.(4) Save variables6.Click Save in the Nonlinear Regression dialog box.•Select Predicted values and Residuals.Step 5: Output and InterpretingThe parameter estimates table summarizes the model-estimated value of each parameter. Parameters in a nonlinear regression model usually do not have the same interpretation as linear regression coefficients, and often vary from model to model .Parameter Estimates12.904.61011.63614.173-11.268 1.581-14.556-7.979-.496.138-.782-.209Parameterb1b2b3Estimate Std. ErrorLower Bound Upper Bound95% Confidence IntervalStep 5: Output and InterpretingAs previously discussed, b1 represents the maximum possible sales , even if infinite advertising money were available. Its small standard error with respect to the value of the estimate suggests that you can be confident in the estimate.Parameter Estimates12.904.61011.63614.173-11.268 1.581-14.556-7.979-.496.138-.782-.209Parameterb1b2b3Estimate Std. ErrorLower Bound Upper Bound95% Confidence IntervalStep 5: Output and Interpretingb2 is the difference between maximum possible sales and sales when no advertising money is spent . Its standard error is large and confidence interval is wide compared to the value of the estimate, so there is some uncertainty here.Parameter Estimates12.904.61011.63614.173-11.268 1.581-14.556-7.979-.496.138-.782-.209Parameterb1b2b3Estimate Std. ErrorLower Bound Upper Bound95% Confidence IntervalStep 5: Output and Interpretingb3 controls the rate at which the maximum is reached , the so-called "rate constant ". Like b2, there is some uncertainty in the estimate.Parameter Estimates12.904.61011.63614.173-11.268 1.581-14.556-7.979-.496.138-.782-.209Parameterb1b2b3Estimate Std. ErrorLower Bound Upper Bound95% Confidence IntervalStep 5: Output and InterpretingThe ANOVA table provides a breakdown of the sum of squares , a measure of variability in the dependent variable, for this model.ANOVA a2748.5193916.1736.77821.3232755.2972474.52023Source Regression ResidualUncorrected Total Corrected TotalSum of Squares dfMean Squares Dependent variable: Detrended salesR squared = 1 - (Residual Sum of Squares) /(Corrected Sum of Squares) = .909.a.Step 5: Output and InterpretingThe Uncorrected Total represents the entire variability in the dependent variable, while the Corrected Total is adjusted to only reflect variability about "average" sales.ANOVA a2748.5193916.1736.77821.3232755.2972474.52023Source Regression ResidualUncorrected Total Corrected TotalSum of Squares dfMean Squares Dependent variable: Detrended salesR squared = 1 - (Residual Sum of Squares) /(Corrected Sum of Squares) = .909.a.Step 5: Output and InterpretingThe Residual sum of squares and Corrected Total are used to compute r2. An r 2value of 0.909 means that the model accounts for about 90.9% of the variability in the dependent variableANOVA a2748.5193916.1736.77821.3232755.2972474.52023Source Regression ResidualUncorrected Total Corrected TotalSum of Squares dfMean Squares Dependent variable: Detrended salesR squared = 1 - (Residual Sum of Squares) /(Corrected Sum of Squares) = .909.a. CommentComments:Some properties that exist for linear regression least squares do not hold for nonlinear regression least squares.z The residuals do not necessarily sum to zero for nonlinear least squares.z Additionally, the error sum of squares SSE and the regression sum of squares SSR do not necessarily sum to the total sum of squares SSTO.z Consequently, the coefficient of multiple determination R2=SSR/SSTO is not a meaningful descriptive statistic fornonlinear regression.Step 6: Scatter Plot of residualsz To produce a scatterplot of residuals by fit values for the Nonlinear model, from the menuschoose:GraphsÆScatter/Dot...z Select Residuals as the y variable and Predicted Values as the x variable.Step 6: Scatter Plot of residuals These residuals do not show a pattern, thus the Asymptotic model is acceptable in the sense the residuals are independent of the fit values.Example 2An internet service provider (ISP) is determining the effects of a virus on its networks. As part of this effort, they have tracked the (approximate) percentage of infected e-mail traffic on its networks over time, from the moment of discovery until the threat was contained.Use Nonlinear Regression to model the rise and decline of the infection.Scatter Plotz To produce a scatterplot of infected e-mails by time, from the menus choose:z Graphs ÆScatter/Dot...Scatter Plot•The resulting scatterplotshows a rise, leveling out,and eventual decline in theproportion of infected e-mailsover time. The shape of theplot is such that it is unlikelythat a single nonlinearequation will both provide agood fit and allow sufficientinterpretability.Closerexamination suggests that asegmented model couldperform quite well here.•The initial curve in the plothas an S-shape--there is aninitial bend before the rapidrise, followed by anotherbend as it levels off. A classicgrowth curve, the logisticequation, can be used tomodel this shape.Scatter PlotAt approximately hour 20, theproportion of infected e-mailsdrops precipitously with eachpassing hour and the rate atwhich the proportion dropsappears to decrease withtime, until the virus threat isessentially eliminated. Anappropriate model for thiskind of pattern is theasymptotic regressionmodel (渐近线回归模型).A segmented model thatuses a logistic equation forthe first 19 hours and anasymptotic regression forthe remaining hours shouldprovide a good fit andinterpretability over the entiretime period.Choosing starting values for the logistic modelThe logistic model has form:Generally, b1>0, b2>0, and b3>0. This model has an "S" shaped curve .z b1represents the upper asymptote for viral growth. Looking at the chart, even the largest values fall short of 0.65, so that's a reasonable starting value.z b2is the ratio between the value of y when x=0 and the upper asymptote . A reasonable starting value is the ratio of b1 to the minimum value of y. Looking at the chart, say that's about 0.65/0.13=5.z b3can be roughly initially estimated by the slope between two "well separated" points on the plot. Looking at the chart there are a few points about x=3, y=0.12, and about x=19, y=0.60. The slope between these points is (0.60-0.12)/(19-3)=0.03, thus a rough initial estimate for b3 is 0.03.Xb eb b Y 3211−+=Choosing starting values for the asymptotic regression modelThe asymptotic regression model has form:When a1>0, a2>0, and a3<0, this model initially decreases quickly with increasing values of x, but then it slows and finally tapers off just above the value a1.z a1represents the lower asymptote for the proportion of infected e-mails. The lowest value this can be is 0, so that's a reasonable starting value.z a2is the difference between the value of y when x=20and the lower asymptote . A reasonable starting value is the maximum value of y minus a1. Looking at the chart, say that's about 0.6-0.0=0.6.z a3 can be roughly initially estimated by the slope between two "well separated" points on the plot. Looking at the chart there are points about x=20, y=0.6, and about x=40, y=0.1. The slope between these points is (0.6-0.1)/(20-40)=-0.025, thus a rough initial estimate for a3 is -0.025.Xa ea a Y 321+=Running Nonlinear Regressionz Analyze ÆRegression ÆNonlinear...z Select Proportion of infected messages as the dependent variable.z Type (time<20)*b1/(1 + b2*exp(-b3*time)) + (time>=20)*(a1 + a2*exp(a3*(time-19)))as the model expression.z Note (time<20), (time>=20) terms;z note (time-19) term.Running Nonlinear RegressionRunning Nonlinear Regression z Setting initial values:z b1 = 0.65z b2 = 5z b3 = 0.03z a1 = 0z a2 = 0.6z a3 = -0.025Running Nonlinear Regression z Setting Constraintsz b1 >= 0z b2 >= 0z b3 >= 0z a1 >= 0z a2 >= 0z a3 <= 0Running Nonlinear Regression z Setting SaveOutputsParameter Estimates.734.127.477.9917.428 1.375 4.63810.217.184.040.103.265.091.030.030.153.661.044.572.750-.150.027-.205-.095Parameterb1b2b3a1a2a3EstimateStd. ErrorLower Bound Upper Bound95% Confidence Interval The parameter estimates table summarizes the model-estimated value of each parameter. The standard errors of the logistic model's parameter estimates are considerably larger than those of the asymptotic regression model, relative to the values of the estimates. This is due in part to the fewerobservations available to fit the logistic portion of the model;the rest is likely due to greater variation in the data during the first 20 hours.OutputsThe ANOVA table provides a breakdown of the sum ofsquares, a measure of variability in the dependent variable, for this model.The Residual sum of squares and Corrected Total are used to compute r 2. An r 2value of 0.933means that the model accounts for about 93.3% of the variability in the dependent variable.ANOVA a4.8846.814.08236.0024.966421.21241Source Regression ResidualUncorrected Total Corrected TotalSum of SquaresdfMean SquaresDependent variable: Proportion of infected messages R squared = 1 - (Residual Sum of Squares) /(Corrected Sum of Squares) = .933.a.Scatter PlotThese residualsdo not show apattern, thus themodel isacceptable inthe sense theresiduals areindependent ofthe fit values常用非线性模型: 2D Model1. PolynomialModel Group Descriptiona*x+b Polynomial First Order Polynomiala*x^2+b*x+c Polynomial Second Order Polynomial a*x^3+b*x^2+c*x+d Polynomial Third Order Polynomiala*x^4+b*x^3+...+e Polynomial Fourth Order Polynomial a*x^5+b*x^4+...+f Polynomial Fifth Order Polynomiala*x^6+b*x^5+...+g Polynomial Sixth Order Polynomiala*x^7+b*x^6+...+h Polynomial Seventh Order Polynomial a*x^8+b*x^7+...+i Polynomial Eighth Order Polynomial a*x^9+b*x^8+...+j Polynomial Ninth Order Polynomiala*x^10+b*x^9+...+k Polynomial Tenth Order Polynomial。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SPSS—非线性回归(模型表达式)案例解析
2011-11-16 10:56
由简单到复杂,人生有下坡就必有上坡,有低潮就必有高潮的迭起,随着SPSS 的深入学习,已经逐渐开始走向复杂,今天跟大家交流一下,SPSS非线性回归,希望大家能够指点一二!
非线性回归过程是用来建立因变量与一组自变量之间的非线性关系,它不像线性模型那样有众多的假设条件,可以在自变量和因变量之间建立任何形式的模型非线性,能够通过变量转换成为线性模型——称之为本质线性模型,转换后的模型,用线性回归的方式处理转换后的模型,有的非线性模型并不能够通过变量转换为线性模型,我们称之为:本质非线性模型
还是以“销售量”和“广告费用”这个样本为例,进行研究,前面已经研究得出:“二次曲线模型”比“线性模型”能够更好的拟合“销售量随着广告费用的增加而呈现的趋势变化”,那么“二次曲线”会不会是最佳模型呢?
答案是否定的,因为“非线性模型”能够更好的拟合“销售量随着广告费用的增加而呈现的变化趋势” 下面我们开始研究:
第一步:非线性模型那么多,我们应该选择“哪一个模型呢?”
1:绘制图形,根据图形的变化趋势结合自己的经验判断,选择合适的模型
点击“图形”—图表构建程序—进入如下所示界面:
点击确定按钮,得到如下结果:
放眼望去, 图形的变化趋势,其实是一条曲线,这条曲线更倾向于"S" 型曲线,我们来验证一下,看“二次曲线”和“S曲线”相比,两者哪一个的拟合度更高!
点击“分析—回归—曲线估计——进入如下界面
在“模型”选项中,勾选”二次项“和”S"两个模型,点击确定,得到如下结果:
通过“二次”和“S“ 两个模型的对比,可以看出S 模型的拟合度明显高于“二次”模型的拟合度(0.912 >0.900)不过,几乎接近
接着,我们采用S 模型,得到如下所示的结果:
结果分析:
1:从ANOVA表中可以看出:总体误差= 回归平方和 + 残差平方和(共计:0.782)F统计量为(240.216)显著性SIG为(0.000)由于0.000<0.01 (所以具备显著性,方差齐性相等)
2:从“系数”表中可以看出:在未标准化的情况下,系数为(-0.986)常数项
为2.672
所以 S 型曲线的表达式为:Y(销售量)=e^(b0+b1/t) = e^(2.672-0.986/广告费用)
当数据通过标准化处理后,常数项被剔除了,所以标准化的S型表达式为:Y(销售量) = e^(-0.957/广告费用)
下面,我们直接采用“非线性”模型来进行操作
第一步:确定“非线性模型”
从绘图中可以看出:广告费用在1千万——4千多万的时候,销售量增加的跨度较大,当广告费用超过“4千多万"的时候,增加幅度较小,在达到6千多万”达到顶峰,之后呈现下降趋势。
从图形可以看出:它符合The asymptotic regression model (渐近回归模型)表达式为:Y(销售量)= b1 + b2*e∧b3*(广告费用)
当b1>0, b2<0, and b3<0,时,它符合效益递减规律,我们称之为:Mistcherlich's model
第二步:确定各参数的初始值
1:b1参数值的确定,从表达式可以看出:随着”广告费用“的增加,销售量也会增加,最后达到一个峰值,由于:b2<0, b3<0 ,随着广告费用的增加:
b2*e∧b3*(广告费用)会逐渐趋向于“0”而此时 Y(销售量)将接近于 b1值,从上图可以看出:Y(销售量)的最大值为12点多,接近13,所以,我们设定b1的初始值为13
2:b2参数值确定:当Y(销售量)最小时,此时应该广告费用最小,基本等于“0”,可以得出:b1+b2= Y(销售量)此时Y销售量最小,从图中可以看出:第一个值为6.7左右,接近7这个值,所以:b2=7-13=-6
3: b3参数值确定:可以用图中两个分离点的斜率来确定b3的值,例如取
(x1=2.29,y1=8.71) 和(x2=5.75, y2=12.74) 通过公式
y2-y1/x2-x1=1.16,(此处可以去整数估计值来算b3的值)
确定参数初始值和参数范围的方法如下所示:
1:通过图形确定参数的取值范围,然后在这个范围里选择初始值。
2:根据非线性方程的数学特性进行某些变换后,再通过图形帮助判断初始值的范围。
3:先使用固定的数代替某些参数,以此来确定其它参数的取值范围。
4:通过变量转换,使用线性回归模型来估计参数的初始值
第三步:建立模型表达式和选择损失函数
点击“分析”—回归——非线性,进入如下所示界面:
如上图中,点击参数,分别添加b1,b2,b3进入参数框内,在模型表达式中输入:b1 + b2*Exp(b3*广告费用)(步骤为:选择“函数组”—算术——Exp函数),将“销售量”变量拖入“因变量”框内
“损失函数”默认选项为“残差平方和” 如果有特需要求,可以自行定义
点击“约束”进入如下所示的界面:
点击“继续”按钮,此时会弹出警告信息,提示用户是否接受建议, 建议内容为:将采用序列二次编程进行参数估计,点击确定,接受建议即可
参数的取值范围指在迭代过程中,将参数限制在有意义的范围区间内,提供两种对参数范围约束的方法:
1:线性约束,在约束表达式里只有对参数的线性运算
2:非线性约束,在约束表达式里,至少有一个参数与其它参数进行了乘,除运算,或者自身的幂运算
在“保存”选项中,勾选“预测值”和“残差”即可,点击继续
点击“选项”得到如下所示的界面:
此处的“估计方法”选择“序列二次编程”的方法,此方法主要利用的是双重迭代法进行求解,每一步迭代都建立一个二次规划算法,以此确定优化的方向,把估计参数不断的带入损失函数进行求值运算,直到满足指定的收敛条件为止
点击继续,再点击“确定”得到如下所示的结果:
上图结果分析:
1:从“迭代历史记录”表中可以看出:迭代了17次后,迭代被终止,已经找到最优解
此方法是不断地将“参数估计值”代入”损失函数“求解,而损失函数采用的是”残差平方和“最小,在迭代17次后,残差平方和达到最小值,最小值为(6.778)此时找到最优解,迭代终止
2:从参数估计值”表中可以看出:
b1= 12.904 (标准误为0.610,比较小,说明此估计值的置信度较
高) b2=-11.268 (标准误为:1.5881,有点大,说明此估计值的置信度不太高)b3=-0.496(标准误为:0.138,很小,说明此估计值的置信度很高)
非线性模型表达式为:Y(销售量)= 12.904-11.268*e^(-0.496*广告费用)
3:从“参数估计值的相关性”表中可以看出:b1 和 b3的相关性较强,b2和b1或b3的相关性都相对弱一些,其中b1和b2的相关性最弱
4:从anova表中可以看出:R方 = 1- (残差平方和)/(已更正的平方和) = 0.909,拟合度为0.909,说明此模型能够解释90多的变异,拟合度已经很高了
前面已经提到过,S行曲线的拟合度更高,为(0.916)那到底哪个更合适呢?如果您的数据样本容量够大,我想应该是“非线性模型”的拟合度会更高!
其实想想,我们是否可以将“非线性”转换为“线性”后,再利用线性模型进行分析了?后期有时间的话,将还是以本例为说明,如何将“非线性”转换为“线性”后进行分析!!。