文科统计与概率1-回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文科统计与概率1-回归分析

一、回归分析 1、函数关系

函数关系是一种确定性的关系,如一次函数,二次函数 2、相关关系

变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系带有随机性 3、散点图

把两个变量的统计数据分别作为横、纵坐标,在直角坐标系中描点,这样的图叫做散点图,通过散点图可以初步判断两个变量之间是否具有相关关系。 (1)正相关 散点图中,点分布在左下角到右上角的区域 (2)负相关 散点图中,点分布在坐上角到右下角的区域 4、回归直线:

如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。 5、求回归直线方程的一般步骤:

①作出散点图→②由样本点是否呈条状分布来判断两个量是否具有线性相关关系(粗略)或者计算相关系数r (||r 越接近于1,两个变量的线性相关性越强),若存在线性相关关系→③求回归系数 →④写出回归直线方程 ,并利用回归直线方程进行预测说明.

6、线性回归方程:a x b y ˆˆˆ+= 其中,⎪⎪

⎪⎩⎪⎪⎪

⎨⎧

-=--=---=∑∑∑∑====x b y a

x n x y

x n y x x x y y x x b n

i i n

i i

i n i i n

i i i ˆˆ)())((ˆ21

21

121 注意:①线性回归直线经过定点),(y x ,点),(y x 称为样本点的中心。②最小二乘法是使得样

本数据的点到回归直线的距离的平方和最小的方法,以上公式是a

ˆ和b ˆ的值的最好估计③b ˆ是斜率的估计值,若b ˆ>0,x 每增加一个单位,y 的值就增加b ˆ;若b ˆ<0,x 每增加一个单位,y 的值就减少|b

ˆ| 7、相关系数(判定两个变量线性相关性):∑∑∑===----=

n

i n

i i i

n

i i i

y y x x

y y x x

r 1

1

2

21

)()()

)((

注:⑴r >0时,变量y x ,正相关;此时0ˆ>b

相当于回归直线方程中的斜率为正 r <0时,变量y x ,负相关;此时0ˆ

相当于回归直线方程中的斜率为负 ⑵①||r 越接近于1,两个变量的线性相关性越强;

②||r 接近于0时,两个变量之间几乎不存在线性相关关系。

③通常当75.0||>r 时,认为两个变量有很强的线性相关关系。如果两个变量不具有

线性相关关系,即使求出回归方程也毫无意义,用其进行预测也是不可信的。 8、回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。 9、回归方程拟合效果分析

评价回归效果的三个统计量:总偏差平方和(总的效应);残差平方和(随机误差的效应);

回归平方和(解释变量的效应).

(1)计算每组观测数据残差i i i y y e

ˆˆ-=,列出样本编号i 与对应残差i e ˆ (2)选样本编号为横坐标,残差为纵坐标,作出的图形称为残差图

(3)分析残差图。残差点比较均匀落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。(每一个残差的绝对值越小,带状区域宽度越窄,拟合效果越好) (4)可根据残差图,查找异常样本数据

(5)计算残差的平方和

∑=-n

i i i

y

y

1

2)ˆ(,残差平方和越小,拟合效果越好。 (6)计算相关指数∑∑==---

=n i i

n

i i i

y y

y

y

R 1

2

1

22

)()ˆ(1,指数越大,残差平方和越小,拟合效果越好。

(其中

∑=-n

i i y y 1

2

)(称为总偏差平方和,回归平方和=总偏差平方和 - 残差平方和) 10、非线性回归问题

非线性回归问题有时并不给出经验公式,此时可画出已知数据的散点图,把它与以前学过的各种函数(幂函数、指数函数、对数函数等)图像做比较,挑选一种跟这些散点图拟合得最好的函数,然后采用适当的变量置换,把问题转化为线性回归分析问题,使之得到解决。

11、两种非线性回归方程拟合效果的比较(高中阶段不涉及)

(1)对于给定的样本点,明确哪个变量是解释变量x,哪个是预报变量y,画出散点图后,根据已知的函数知识,分别建立两个回归方程。

(2)若为非线性回归方程,可通过适当的变量置换,转化为线性回归方程

非线性回归问题的处理方法: 指数函数型bx a y e +=

① 函数bx a y e +=的图像:

② 处理方法:两边取对数得ln ln()bx a

y e +=,即ln y bx a =+.令ln ,z y =把原始数据(x,y )转化为(x,z ),再根据线性回归模型的方法求出,b a .

对数曲线型ln y b x a =+ ① 函数ln y b x a =+的图像

② 处理方法:设ln x x '=,原方程可化为y bx a '=+ 再根据线性回归模型的方法求出,a b .

二次函数2

y bx a =+型

处理方法:设2x x '=,原方程可化为y bx a '=+,再根据线性回归模型的方法求出,a b .

(3)按一定规则估计回归方程中的参数(如最小二乘法),求得线性回归方程后可再转化为原来的非线性回归方程

(4)分析拟合效果。分别计算残差i i i y y e

ˆˆ-=,列表比较,残差的绝对值越小,拟合效果越好。

(5)一般情况下,比较两个模型的残差比较困难,原因是某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反。此时需计算残差的平方和

∑=-n

i i i

y

y

1

2)ˆ(,残差平方和越小,拟合效果越好。 (6)也可计算相关指数∑∑==---

=n i i

n

i i i

y y

y

y

R 1

2

122

)()ˆ(1,指数越大,残差平方和越小,拟合效果越

好。(其中

∑=-n

i i

y y 1

2

)

(称为总偏差平方和,回归平方和=总偏差平方和 - 残差平方和)

相关文档
最新文档