回归分析概念、相关、多元回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 统计方法选择: Analyze → Correlate → Bivariate…
引入变量:进食量与体重增加 选择相关分析系数 : Pearson
双变量相关分析的选择项(Options): 显示每一个变量的均数与标准差
SPSS结果分析和结论 3. 主要结果: Descriptive Statistics
定义6.4.1 设
具有联合概率
分布,如果对
给定一组值
,都存在 的条件期望
则称此条件期望为 为经验回归方程。
的回归函数.称
析多
的元
数线
学性
理 解
回 归
分
一、多元线性回归模型
偏相关系数
为未知参数。
随机误差的方差
经验公式
研究问题 1. 根据样本观测值去估计未知参数,从而建立
变量间的关系式(即回归方程); 2. 对回归方程的回归效果进行统计检验 ; 3. 检验各自变量分别对因变量是否有显著影响。
称
为 X 对Y 的回归方程。
定义6.1.1(均方误差) 设 有联合分布且二阶矩存在, 变量X1, X2 ,…, Xp的函数,则称
具 是随机
为
对 的均方误差。
均方误差从平均意义上反映
了函数 f (x1,…,xp)与随机变 量Y之间误差的大小,它是回
归 函 数 好 坏 的 判 断 标准
回归函数的数学表达理解
--P156
个元素
检验统计量:
或:
检验法则: (1) 若 (2) 若
成立 成立
, 拒绝原假设 , 接受原假设 对 的偏回归效果不显著 对 的偏回归效果显著
例6.4.1 已知29例儿童的血红蛋白与钙、 镁、铁、锰、铜的含量如表( P155),试建立钙、 镁、铁、锰、铜对血红蛋白的多元回归方程。
实例的SPSS软件实现
现有1984 ---2008共25年的数据资料,试 建立方程。
实例 某工厂随机抽查了166名正常成 年砂轮工人肺活量 Y 及他们的年龄 (X1 ) 、 工龄(X2 ) 、身高(X3 ) 、体重(X4 )的值 (yi , xi1 , xi2 ,xi3, xi4) ,i=1,2,…,166.
一共得到166组值,目的是希望通过 这些数据判断
编号 1 2 3 4 5 6 7 8 9 10
X 820 780 720 867 690 787 934 679 639 820 Y 165 158 130 180 134 167 186 145 120 158 试问进食量与体重增量间有无相关关系?
实例 SPSS软件实现和结果分析 1. SPSS数据输入格式 10行2列
.003
.
.000
N
29
29
29
铁
Pearson Correlation
.300
.635** 1.000
Sig. (2-tailed)
.114
.000
.
N
29
29
29
锰
Pearson Correlation
.148
-.121
-.271
Sig. (2-tailed)
.444
.531
.156
N
29
29
29
定理6.1.1 在定义6.1.1 的条件下 ,函数
是所有
的函数
中均值方差最小的函数 ,即对任意给定的函数
,总有
成立。
称 y E(Y x1, , xp )为回归函数. (Y,x1,…,xp)服从多元
在
的条件下
正态分布时,回归函数 为线性回归函数
y E(Y x1, , xp ) a0 a1x1 apxp
回归分析
(随机变量为连续型)
内容提要:
一、回归分析的基本概念及原理 二、如何画散点图 三、线性相关性检验 四、多元线性回归分析
§1 回归分析的基本概念及原理
回归分析:是研究一个或几个变量的变 化对另一个变量的变化影响程度的方法,根 据资料,找出它们之间的关系式,用自变量 的已知值去推测因变量的值或范围。
二、回归分析的直观判断 散点图
在 n较大的情况下 ,如果有一条曲线基本 上通过这些点,或者使这些点的大部分偏离曲 线不远,则称此曲线是对观测值的拟合曲线。
直线回归方程 曲线回归方程
通过观测值描出的点,大部分的点离此 曲线或直线的偏离不远
实例 某出租汽车公司随着出租车数量的 增加,每年发生交通事故的次数也在增加,收 集到的损失资料如下。要求预测出租车数量增 加时,每年发生损失额的变化情况。
施肥量 施肥越多,产量越高;但肥料超过 一定量则又有相反的作用。
4. 描述某市场上食盐价格与销售量间的关系:
几食
无
何 直
盐
相 关
观价
关
理 解
格
系
销售量
无论销售量如何变化,价格大体保持在 同一水平
假定总体
为m元正态总体,
为总体容量为n的样本,相应 样本的观测值为
------- 的样本均值 ------- 的样本方差
,而
称为相关系数或标准协方差。
相关系数性质:
2)若 若
较大,则 、 线性相关较紧密; 较小,则 、 线性相关较不紧密;
为常数)
且
3)若 、 独立,则
(不相关)
若 、 相关,则不独立。
两个随机变量X、Y, 若
问:
,如果 对 有影响 与 线性相关
相关关系的描述:线性关系可分为线性相 关、非线性相关、完全相关和不相关。 1. 描述国际海运的航程与轮船在途天数的关系:
几天 何数 直 观 理
线 性 关 系
解
航程
航程越远,则所需天数就越多
2. 描述资金占用量与周转速度的关系:
资
金
几 何 直
占 用 量
观
理
解
线 性 关 系
商品周转速度
商品周转速度越快,则商品所占用的流 动资金就越少
3. 描述化肥的施用量与农作物产量的关系:
几产 何量 直 观 理 解
非 线 性 关 系
MCeoarnr el a tDieovSintasdt.ion
N
进食量
773.60
91进.8食4 量 体1重0 增量
进食量 体重增Pe量arson C1o5r4r.e3l0ation 21.691.000
10 .940**
Sig. (2-tailed)
.
.000
N
Baidu Nhomakorabea
10
10
体重增量 Pearson Correlation
定义P值: 检验法则:
1)若 2)若
,拒绝原假设 ,接受原假设
双侧检验
若定义P值为t(n-1)中| |点右侧尾部概率 的2倍,即
几 何
H0为真
直
观
理
解
H1为真
接受域
拒绝域
例6.2.1 某实验室用大白鼠做实验,研究一 种代乳粉的营养价值。将10只体重不全相同的大 白鼠分笼饲养,提供充足的代乳粉和必要的饮用 水。经一段时间喂养后,记录进食量(X)和体 重增加量(Y) ,获得原始数据如下:
N 29 29 29 29 29 29
Correlations
钙
镁
铁
钙
Pearson Correlation
1.000
.538** .300
Sig. (2-tailed)
.
.003
.114
N
29
29
29
镁
Pearson Correlation
.538** 1.000
.635**
Sig. (2-tailed)
都有显著的线性关系? 不一定。
进行单个自变量的显著性检验.
四、自变量的偏回归效果显著性检验 把在其它自变量对 线性回归基础上 对 的线性回归效果称做 对 的偏回归效果。
检验假设: 定理6.4.2 在m元正态线性模型下, 是 的 最小二乘估计量, 为残差平方和 估计量,则有:
其中
与 独立
是矩阵 主对角线上第
.940** 1.000
Sig. (2-tailed)
.000
.
N
10
10
**. Correlation is significant at the 0.01 level (2-tailed).
P=0.000<0.05, 拒绝原假设的证据较充分
结论:进食量与体重增量间有显著线性相关关系.
§4 多元线性回归分析
试考察温度与重量间的关系。
如何作散点图?
散点图的SPSS软件实现 散点图 直方图 P-P概率图
简单散点图 矩形散点图 重叠散点图 三维散点图
数据散点图
16
14
12
10
8
6
重 量4
1
2
3
4
5
6
温度
三、回归分析的基本原理
是可控变量, Y是随机变量.
对于给定(X,Y),考察条件期望
,
条件期望反映了在 X=x条件下平均来讲 Y取值的 大小,它是 x的函数,显然是 x与 间定量关系 的一种反映。
输入格式: 29行6列
1. 相关性分析
SPSS处理结果分析
主要结果:
Descriptive Statistics
钙 镁 铁 锰 铜 血红蛋白
Mean 59.7362 34.1965 381.0117 1.234E-02 1.10290 10.5362
Std. Deviation
9.5547 6.1000 64.0739 1.3962E-02 .26083 2.1800
§ 2 线性相关性检验
线性相关性检验是研究不同变量间密切 程度的一种最常用的统计方法,它是描述两 个变量间线性程度和方向的统计量。
涉及的相关统计方法是线性相关分析, 又称为直线相关分析。
变量间相关程度的度量 ——线性相关系数
相关系数的数学表达理解
定义6.2.1 数学期望
称为随机变量X与Y的协方差,记作
目的:寻求一个随机变量(因变量)对 一组随机变量(自变量)的统计依赖关系。
回归分析包括:线性回归、非线性回归、 逻辑回归、Cox 回归...
实例:为了研究香港股市的变化规律, 以恒生指数 y为例,建立模型用以分析影响 股票价格趋势变动的因素。
我们选择了六个影响指数的经济变量:九 九金价 x2 、港汇指数 x3 、人均生产总值 x4、 建筑业总开支 x5 、房地产买卖金额 x6、优惠利 率 x7 。由于市场环境状况对股价也有十分重要 的影响,我们还选择成交额 x1来反映市场状况。
1、正常成年人肺活量与哪些指标有关? 2、怎样通过有影响的指标预测肺活量, 效果如何?
待解决的问题:
1.从一组样本观测值出发,确定出变量 之间的数学关系式(经验公式);
2.判断所建立的经验公式是否有效:对 这些关系式的可信程度进行各种检验,并从影 响某一特定变量(因变量)的诸多变量(自 变量)中找出哪些变量的影响是显著的,哪 些是不显著的;
几何直观理解 数据散点图
4000
3800
3600
3400
3200
3000
损 2800 失 额 2600
20
40
60
80
100
120
140
160
车辆数
实例 测得某种物质在不同温度下吸附 另一种物质的重量如下:
温度(。C) 1.5 1.8 2.4 3.0 3.5 3.9 4.4 4.8 5.0 重量(mg) 4.8 5.7 7.0 8.3 10.9 12.4 13.1 13.6 15.3
铜
Pearson Correlation
.625** .582** .265
Sig. (2-tailed)
.000
.001
.164
总偏差平方和
回归偏差平方和
残差平方和
定理6.4.1 在m 元正态线性回归模型中,有
(1)
(2)
检验统计量:
检验法则: (1) 若 (2) 若
, 拒绝原假设 , 接受原假设
接受
经验回归方程无意义:
1.对Y有显著影响的自变量因子没有
包含在
中;
2. Y与
间的关系是非线性的。
拒绝
经验回归方程有意义;
? 每个自变量与因变量间
---- 和 的样本协方差 ---- 和 的样本相关系数
线性相关分析:检验随机变量中任意两 个变量间是否具有显著的线性相关性。
1. 前提条件——多元正态总体
2. 根据样本观测值确定样本相关系数
3. 统计方法
的相关系数
(不相关)
(线性相关)
构造统计量:
定理6.2.1(P144)
样本相关系数
拒绝域: |T|>C,
年损失额的原始数据 年份 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 数量 40 42 48 55 65 79 88 100 120 140 损失额 3000 2800 3200 3400 3000 3240 3700 3300 3800 3700
假定对
选取了n 个不同的点:
分别对Y 随机抽样得到 为未知参数
,则有
m
元 正 态 线 性 回 归 模 型
记
为
的样本观测值。
二、参数的估计 1. 最小二乘法 思想:估计值 平方和达到最小
应使误差
观测值 预测值
2. 极大似然估计
三、线性回归效果显著性检验
经验回归公式:
检验假设:
(线性关系不显著)
(线性关系显著)
3.利用所求得的关系式进行预测或控制; 4.建立一个最优预报效果的经验公式。
一元回归分析:研究一个自变量和一 个因变量之间的关系。
多元回归分析:研究多个自变量和一 个因变量之间的关系。
一、变量的确定及要求
1.连续性随机变量
2.将需要预测的变量作为因变量,其取 值是可观测的,为不可控变量;
3.将被认为对因变量的取值具有显著影 响的那些变量作为自变量,其值为可控制,称 为可控变量。