线性回归模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
线性回归模型Iinear regression model
一、相关分析与回归分析的区别
与相关分析相类似,回归分析也可以用来考察两个连续变量间的联系,但与相关分析反映的是不同的侧面。
如图1与图2所示,图1的散点明显比图2稀疏,表明图1中两变量在数量上的联系弱于图2,对此现象进行描述,则进行相关分析,相关系数反应散点的疏密程度。r1<r2。
若观察当X变化时Y的数量变化,则图1中,X每增加一个单位,Y平均增加的较多。即图1中,X的变动对Y数值的影响比图2要大,这种差别可以用回归分析来表述。
总的来说,回归方程解释两变量之间的关系更加精确,例如可以计算出年龄每增加1岁时信心指数值平均下降的单位数量,这是相关分析无法做到的。
除了描述一下两个变量间的关系以外,回归方程还可以进行预测与控制。预测即在回归方程中控制了变量X的取值范围,则可以得到相应变量Y的上下限。控制即限制变量Y 的取值范围来的到X的上下限。这两点在实际应用中非常重要。
二、简单回归分析的原理及要求1、模型基本结构
回归方程每个预测值可以分解为如下两部分:
(1)常量:x 等于零时回归直线在y 轴上的截距,即x 取值为0
时y 的平均估计量。
(2)回归部分:因变量y 取值中,可由x 直接估计的部分,β
为回归系数又称为回归线的斜率。
b ax y
+=ˆ
①x 自变量,y 因变量,一般认为y 的变化由x 的变化导致。
②不是一个确定的数值,而是对应于某个先确定的x 群体的y 的平均值的估计。
b
ax y +=ˆy ˆ
估计值和每一个实测值之间的差称为残差,它是因变量y 除了自变量x 以外的其他所有未进入模型或未知,但可能与y 有关的随机和非随机因素共同引起的变异,即不能由x 直接估计的部分。通常假定εi 服从正太分布N (0,σ2)。因残差无法消除,方程应当和大多数点尽量靠近,从模型算得的预测值应当是总体中相应个体y 值的均数。因此人们采用最小二乘法来拟合模型,即保证个实测点至回归直线纵向距离的平方和最小。回归方程中的a 、b 数值可以通过公式算出
,b=lxy / lxx
y ˆx b y a -=
总体回归线的可信区间
对回归线的总体进行可信区间的估计,该区间估计范围在散点图上表现为一个二维空间的弧形区带,也称为回归线的置信带。以95%的区间为例,其含义是在满足线性回归的条件下两条弧形曲线所形成的区域包含真实总体回归直线的置信度为95%。
三、注意事项
1、线性趋势
自变量与应变量关系为线性,通过散点图判断。
2、独立性
因变量y的取值相互独立。即要求残差之间相互独立,
不存在相关性。
3、正态性
自变量的任何一个线性组合,因变量y均服从正态分布。
即εi 服从正态分布。
4、方差齐性
自变量的任何一个线性组合,因变量y的方差均相同,是指要求残差的方差是齐性的。
p.s 注意!!!
值得注意的是,自变量与因变量有回归关系并不一定代表两者一定会有因果关联,不能揭示因果关系。
例
太阳黑子活动周期与犯罪率的关系