文科统计与概率1-回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文科统计与概率1-回归分析
一、回归分析 1、函数关系
函数关系是一种确定性的关系,如一次函数,二次函数 2、相关关系
变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系带有随机性 3、散点图
把两个变量的统计数据分别作为横、纵坐标,在直角坐标系中描点,这样的图叫做散点图,通过散点图可以初步判断两个变量之间是否具有相关关系。 (1)正相关 散点图中,点分布在左下角到右上角的区域 (2)负相关 散点图中,点分布在坐上角到右下角的区域 4、回归直线:
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。 5、求回归直线方程的一般步骤:
①作出散点图→②由样本点是否呈条状分布来判断两个量是否具有线性相关关系(粗略)或者计算相关系数r (||r 越接近于1,两个变量的线性相关性越强),若存在线性相关关系→③求回归系数 →④写出回归直线方程 ,并利用回归直线方程进行预测说明.
6、线性回归方程:a x b y ˆˆˆ+= 其中,⎪⎪
⎪⎩⎪⎪⎪
⎨⎧
-=--=---=∑∑∑∑====x b y a
x n x y
x n y x x x y y x x b n
i i n
i i
i n i i n
i i i ˆˆ)())((ˆ21
21
121 注意:①线性回归直线经过定点),(y x ,点),(y x 称为样本点的中心。②最小二乘法是使得样
本数据的点到回归直线的距离的平方和最小的方法,以上公式是a
ˆ和b ˆ的值的最好估计③b ˆ是斜率的估计值,若b ˆ>0,x 每增加一个单位,y 的值就增加b ˆ;若b ˆ<0,x 每增加一个单位,y 的值就减少|b
ˆ| 7、相关系数(判定两个变量线性相关性):∑∑∑===----=
n
i n
i i i
n
i i i
y y x x
y y x x
r 1
1
2
21
)()()
)((
注:⑴r >0时,变量y x ,正相关;此时0ˆ>b
相当于回归直线方程中的斜率为正 r <0时,变量y x ,负相关;此时0ˆ
相当于回归直线方程中的斜率为负 ⑵①||r 越接近于1,两个变量的线性相关性越强;
②||r 接近于0时,两个变量之间几乎不存在线性相关关系。
③通常当75.0||>r 时,认为两个变量有很强的线性相关关系。如果两个变量不具有
线性相关关系,即使求出回归方程也毫无意义,用其进行预测也是不可信的。 8、回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。 9、回归方程拟合效果分析
评价回归效果的三个统计量:总偏差平方和(总的效应);残差平方和(随机误差的效应);
回归平方和(解释变量的效应).
(1)计算每组观测数据残差i i i y y e
ˆˆ-=,列出样本编号i 与对应残差i e ˆ (2)选样本编号为横坐标,残差为纵坐标,作出的图形称为残差图
(3)分析残差图。残差点比较均匀落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。(每一个残差的绝对值越小,带状区域宽度越窄,拟合效果越好) (4)可根据残差图,查找异常样本数据
(5)计算残差的平方和
∑=-n
i i i
y
y
1
2)ˆ(,残差平方和越小,拟合效果越好。 (6)计算相关指数∑∑==---
=n i i
n
i i i
y y
y
y
R 1
2
1
22
)()ˆ(1,指数越大,残差平方和越小,拟合效果越好。
(其中
∑=-n
i i y y 1
2
)(称为总偏差平方和,回归平方和=总偏差平方和 - 残差平方和) 10、非线性回归问题
非线性回归问题有时并不给出经验公式,此时可画出已知数据的散点图,把它与以前学过的各种函数(幂函数、指数函数、对数函数等)图像做比较,挑选一种跟这些散点图拟合得最好的函数,然后采用适当的变量置换,把问题转化为线性回归分析问题,使之得到解决。
11、两种非线性回归方程拟合效果的比较(高中阶段不涉及)
(1)对于给定的样本点,明确哪个变量是解释变量x,哪个是预报变量y,画出散点图后,根据已知的函数知识,分别建立两个回归方程。
(2)若为非线性回归方程,可通过适当的变量置换,转化为线性回归方程
非线性回归问题的处理方法: 指数函数型bx a y e +=
① 函数bx a y e +=的图像:
② 处理方法:两边取对数得ln ln()bx a
y e +=,即ln y bx a =+.令ln ,z y =把原始数据(x,y )转化为(x,z ),再根据线性回归模型的方法求出,b a .
对数曲线型ln y b x a =+ ① 函数ln y b x a =+的图像
② 处理方法:设ln x x '=,原方程可化为y bx a '=+ 再根据线性回归模型的方法求出,a b .
二次函数2
y bx a =+型
处理方法:设2x x '=,原方程可化为y bx a '=+,再根据线性回归模型的方法求出,a b .
(3)按一定规则估计回归方程中的参数(如最小二乘法),求得线性回归方程后可再转化为原来的非线性回归方程
(4)分析拟合效果。分别计算残差i i i y y e
ˆˆ-=,列表比较,残差的绝对值越小,拟合效果越好。
(5)一般情况下,比较两个模型的残差比较困难,原因是某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反。此时需计算残差的平方和
∑=-n
i i i
y
y
1
2)ˆ(,残差平方和越小,拟合效果越好。 (6)也可计算相关指数∑∑==---
=n i i
n
i i i
y y
y
y
R 1
2
122
)()ˆ(1,指数越大,残差平方和越小,拟合效果越
好。(其中
∑=-n
i i
y y 1
2
)
(称为总偏差平方和,回归平方和=总偏差平方和 - 残差平方和)