第七章 相关与回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 ( x x) (x ) s 1 t (n 2) n l xx 2
即夹在两曲线 y ( x), y ( x)之间的部分就是 预测带。 当给定n对数据和置信度,则 (x) 是x的函数, 因此预测精度(即置信区间长度)实际上与x 有关,x越靠近 ,精度越高; 时区间 x xx 最短,精度最高。



1 x [ ] 2 n ( x x)
2 2
2

2

1 [ ] 2 ( x x)
2

2
检验
方差未知,小样本,采用t检验。 对 检验,因为它表示x对y的影响程度。 样本信息计算出
H 0 : 2 0 H1 : 0
t
有:
Y Y Y Y Y Y


两边求平方和:
推导出:
(Y (Y
Y)
2 2
(Y Y
2

Y Y)

2
Y ) ( Y Y ) (Y Y ) 2

SST = SSR +
SSE
总离差平方和 回归平方和 残差平方和 SST:反映Yi的分散程度。 SSR:反映 Y i 的分散程度。 SSE:扣除了X对Y的线性影响之外的剩余因素对Y的分 散性的作用。

y0 y0 p{ t (n 2)} 1 2 1 ( x0 x) 2 s 1 n l xx
其中令:
1 ( x0 x) 2 ( x0 ) s 1 t (n 2) n l xx 2

则预测区间为 ( y ( x), y ( x)) 其中 2

0
s


给定显著性水平,查临界值
t ( n 2 )
2
一元线性回归模型的预测
区间预测:对于给定的x 及置信度水平, 找到 p{ yl ( x0 ) y0 y u ( x0 )} 1 定理:在一元线性回归中,
0

y0 y0 ~ t (n 2) 2 1 ( x0 x) s 1 n l xx 给定1 ,有
二、简单线性相关分析
●总体相关系数
对于所研究的总体,表示两个相互联系变量 相关程度的总体相关系数为:
Cov( X , Y ) Var ( X )Var (Y )
总体相关系数反映总体两个变量X和Y的线性 相关程度。 特点:对于特定的总体来说,X和Y的数值是 既定的总体相关系数是客观存在的特定数值。
习题:
某零售商店流通费用率对商品销售额依存关系的 资料如下:
按销售额分组X (万元) 10-12 12-14 14-16 16-18 18-20
流通费用率Y(%) 8.0 7.5 6.7 6.0 5.0
要求:计算相关系数。拟合直线方程。计算回归估计 标准误差
总结
掌握一元线性回归方程的拟合。 模型拟合程度的评价。 两个变量相关系数的计算。
可决系数是就回归模型而言,是判断模 型拟合程度的优劣。 相关系数是就两个变量而言。 当仅有一个自变量和一个因变量,且线 性时,相关系数r的平方等于可决系数。
显著性检验
t检验:对回归系数的显著性检验。 F检验:对回归方程的显著性检验。 学习对回归系数的显著性检验,就是利 用样本估计的结果对总体回归系数的有 关假设进行检验。 2 已知: ~ N ( , 2 ) , ~ N ( , )
样本回归函数
总体回归函数未知,需利用样本来估计。 一元线性回归模型的样本回归线: ,其中: Y X


是样本回归线上与X对应的Y值,为
的估计; Y ) E (Y 为截距系数; 为斜率系数,是对总 体 和 的估计。
样本回归函数
实际观测到的因变量Y的值,并不完全 等于 Y ,则 残差 e Y Y 样本回归函数: Y X e e与总体误差项u相互对应。
样本与总体回归函数的关系
总体回归线未知,但只有一条;样本回 归线多条,每一组样本拟合一条回归线。 总体中 未知,但是常数;而样本 和 回归函数中的 和 是随机变量,因 样本观测值而变动。 u是Y与未知回归线的距离,不可直接 观测;而e是Y与样本回归线的距离,可 根据样本数据拟合出回归线后,计算e。
第三节 一元线性回归 分析
1、标准的一元线性回归模型 2、模型的估计 3、模型的检验 4、模型的预测
总体回归函数
最简单的模型: Y X u ,其中 和 是回归系数。 u 是随机误差项,反映除X的其他因素对Y
的干扰。
例如:消费函数 Y X ,影响 Y的因素主要有可支配收入,但是诸如 消费习惯、地理等因素都会对Y有影响。 所以公式中的Y应表示为E(Y),即 E (Y ) X
相关系数的特性
r的取值范围【-1,1】 r=0,表示x与y没有线性关系,但并不 意味着x与y之间不存在其他类型关系。 r=1,x与y完全正相关。 r=-1,x与y完全负相关。 0 r 1,表示x与y存在线性关系。 r>0,x与y正相关。r<0,x与y负相关。
使用相关系数的注意事项:
s2
e
2
推导出

n2

e2 Y 2 Y
XY
一元线性回归模型的检验
拟合程度的评价
– 拟合程度:指样本观测值聚集在样本回归
线周围的紧密程度。 – 评价指标:可决系数(决定系数)
总离差 (Y Y ) ቤተ መጻሕፍቲ ባይዱ以分解为

– 回归值与均值的离差 Y Y (解释离差) – 观测值与回归值的离差,即e (未解释离差)
误差项的标准假定
误差项的期望值为0。 误差项的方差为常数。 误差项之间不存在序列相关关系。 自变量与误差项不相关。 误差项服从正态分布。
一元线性回归模型的估计
回归系数的估计
– 采用最小二乘法(OLS):残差平方和最小 – 残差平方和
2
e (Y Y ) (Y X )
给定显著性水平 , 查自由度为 n-2 的临界值 t
相关系数的检验方法
2
若 ,表明相关系数 r 在统计上是 显著的,应否定 而接受 0 的假设; 0 反之,若 t t ,应接受 0 的假 2 设。
t t 2
例:假设根据6对样本观测数据计算出 来某公司的股票价格与气温的样本相关 系数为0.50,试问是否可以根据0.05的 显著性水平认为该公司的股票与气温之 间存在一定程度的线性相关关系?
rXY
● 样本相关系数
通过X和Y 的样本观测值去估计样本相关系 数变量 X和Y的样本相关系数通常用 rXY 表示
rXY
rXY
( X X )(Y Y ) ( X X ) (Y Y )
i i __ 2 __ i i
__
__
2
特点:样本相关系数是根据从总体中抽取的随 机样本的观测值计算出来的,是对总体相关 系数的估计,它是个随机变量。
第七章 相关与回归分析
1、相关与回归分析的基本概念 2、相关分析 3、一元线性回归分析
相关与回归分析的基本概念
函数关系与相关关系
函数关系:当自变量取一定值时,因变量
有确定值对应。例如:y=2x 相关关系:当自变量取一定值时,因变量 的值不确定,但是按某种规律变化。 例如:某商品的销售量与居民收入密切相 关;粮食产量与施肥量密切相关。
2

2
要使e最小,对 和 求偏导,得
n XY X Y Lxy 2 2 n X ( X ) Lxx


Y X


总体方差的估计
和 估计后,还要对u的方差进行估计。 方差反映模型误差的大小,误差小说明 模型拟合的好。 因为u的方差未知,用样本方差代替 可以证明:
▲X和Y 都是相互对称的随机变量,所以 XY YX ▲相关系数只反映变量间的线性相关程 度,不能说明非线性相关关系。 ▲相关系数不能确定变量的因果关系, 也不能说明相关关系具体接近于哪条直 线。
相关系数的检验
为什么要检验? 样本相关系数是随抽样而变动的随机变 量,相关系数的统计显著性还有待检验。 检验的依据: 如果X和Y都服从正态分布,在总体相 关系数 0 的假设下,与样本相关系数 r 有关的 t t r n 2 1 r 2 ~ t (n 2) 统计量服从自由度为n-2的 t 分布:
相关关系的种类
按相关程度分:
完全相关、不完全相关、不相关
按相关方向分:
正相关、负相关
按相关形式分:
线性相关、非线性相关
按变量多少分:
单相关、复相关、偏相关
相关分析与回归分析
相关分析:描述的是两个数值变量间关 系的强度。但不能指出变量间相互关系 的具体形式,也无法从一个变量来推测 另一个变量的变化。 回归分析:依靠相关关系来表明数量变 化的相关程度。只有变量高度相关,回 归才有意义。
可决系数 r 2 SSR 1 SSE L xy
SST SST
2
Lxx Lyy
可决系数特性
可决系数越大,拟合程度越高。 可决系数非负。 可决系数取值范围【0,1】
– 可决系数等于0,表示X,Y完全无关。 – 可决系数等于1,说明观测值都位于回归线 上,残差等于0。
相关系数与可决系数
相关文档
最新文档