多元线性回归分析讲义
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二节:多元线性回归假设检验
在多元线性回归模型中,由于变量众多, 需要对模型的合理性以及参数的显著性进 行检验。
一、回归方程的假设检验(F检验) H0 :β1=β2=…=βp=0 H1: β1,β2…βp不全为0 如果H0成立,认为回归方程不显著,如果拒 绝H0 ,认为回归方程显著。
二、回归系数的假设检验(t检验) 在F检验中,如果拒绝H0假设,只能说β1,β2…βp 不全为0,还需要进一步检查每个自变量的总体 偏回归系数。
基本思想:利用收集到的因变量 和自变量建立线性函数,使得每 一个实际测量的Yi与估计的Yi之 间的离差的平方和尽可能的小。
只有一个自变量时,回归结果 为二维平面的一条直线,而有两 个自变量时,结果为三维空间的 一个平面,有更多的自变量时, 回归的结果则是在三维以上空间 的“超平面”,无法直观图形表 达,只能想象。
对应的Y具有相同方差。
残差分析
• 通过残差分析可以深入了解实际资料是否符合回归模型假 设(如正态、方差齐)
多元线性回归决定系数
• 决定系数:回归平方和(SS回)在总平方和( SS总 )中比例。 R2=SS回/SS总
• 0≤R2≤1,R2接近1, 表示样本数据很好的拟 合了所用的线性回归模型。 R2反映了线性回 归模型能多大程度上解释Y的变异。
H0 : βi=0, H1 : βi≠0 (i=1,2…p) 如果H0成立,认为偏回归系数βi不显著,如果拒
绝H0 ,认为偏回归系数βi显著。
第三节、自变量的筛选
• 多元回归分析时收集的某些自变量对因变量无影 影响或影响甚微;也不敢保证自变量之间是相互 独立的,因而在建立多元线性回归方程时,需要 使回归方程尽可能包含对解释因变量有较大贡献 的自变量,而把贡献不大的或无贡献以及与其他 自变量有密切关系的自变量排除。
• ─────────────────────
•
1
X11 X12 … X1m Y1
•2
X21 X22 … X2m Y2
•
3
┆
┆… ┆
┆
•n
Xn1
Xn2 … Xnm Yn
• ━━━━━━━━━━━━━━━━━━━━━━
多元线性回归模型
多元线性回归数学模型:
y 平 均 0 1 x 1 值 2 x 2 p x p
• 最大R2改进法 • 最小R2改进法 • R2选择法 • 修正R2选择法 • Cp选择法
第四节:多元线性回归应用
• 定量的建立一个反应变量和多个自变量之间 的线性关系
• 筛选危险因素 • 通过较易测算的变量估计不易测量的变量 • 通过反应变量控制自变量
第五节:多元线性回归应注意问题
多重共线性 除了LINE前提条件外,多元线性回归还需要注意自变量之间的关系。当自变 量之间高度相关,则称自变量存在多重共线性。共线性可使回归系数极不稳 定,表现为回归系数标准误很大,以至于本来非常重要的自变量无统计意义 而不能进入方程,甚至使样本回归系数可大可小,可正可负,专业知识无法 进行解释。
例:血压值与年龄、性别、劳动强度、饮食习 惯、吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、 血清总胆固醇、甘油三脂
多元线性回归数据结构
假定对n例观察对象逐一测定了因变量Y与m个自变 量X1,X2,…Xm的数值。
• ━━━━━━━━━━━━━━━━━━━━━━
•
例号 X1wk.baidu.com
X2 … Xm Y
标准化偏回归系数
• 因为各自变量都有各自的计量单位以及不同的变异 度,所以不能直接用普通偏回归系数的大小来比较 方程中各个自变量对反应变量Y的影响大小。需要求 出标准化偏回归系数。
• 设:与一般回归系数bi对应的标准化偏回归系数为 Bi,则
SXi、SY分别为Xi和Y的标准差。
偏回归系数的估计--最小二乘法
相应的由样本估计而得到的回归模型:
y ˆ b 0 b 1 x 1 b 2 x 2 b p x p
其中Ỷ表示Y的总体平均值的估计值, b0为常数项,也称为截 距,bi为Xi的偏回归系数,表示当方程中其他自变量不变时, 自变量Xi变化一个计量单位,反应变量Y的总体平均值的估计 值变化的单位数.
多元线性回 归分析
主要内容
• 第一节:多元线性回归概念及统计描述 • 第二节:多元线性回归假设检验 • 第三节、多元线性回归自变量的筛选 • 第四节:多元线性回归应用 • 第五节:多元线性回归应注意问题 • 第六节:实例分析(SAS)
第一节:多元线性回归概念及统计描述
概念:用于分析一个连续型因变量与多个自 变量之间的线性关系的统计学分析方法。
多元线性回归分析前体条件——LINE
(1)linear : Y与X1, X2,…, Xm之间具有线性关系。 (2)independent :各个体观测值间相互独立。 (3)normal distribution :在一定范围内,对任意一
组自变量X1, X2,…, Xm值,Y都服从正态分布。 (4)equal variance :在一定范围内,不同组自变量
最简单的处理办法就是删除变量:在相关性较强的变量中删除测量误差较大
的、缺失数据多的,专业角度看不是很重要的,也可采用主成分回归法。
交互效应
当回归模型中有多于2个的自变量,变量之间可能存在交 互作用(一自变量对应变量的作用大小与另一个自变量的 取值有关),此时可建立包含各自变量及其某些有交互作 用的自变量的乘积( X1X2)的回归模型。
自变量筛选的标准和原则
• 1、残差平方和(SS残)缩小或决定系数(R2)增大 R2=1- SS残/ SS总
• 2、残差均方(MS残)缩小或调整决定系数(R2ad)增大 MS残= SS残/(n-p-1)
• 3、Cp统计量减小
自变量筛选的方法
• 向前选择法
• 建模时没有自变量,逐个加入自变量。并通过F 检验加入自变量对模型的影响是否显著。显著则 保留此变量。
• 向后删除法
• 建模时加入所有自变量,通过F检验,逐个剔除 在当前模型中最不显著的自变量,直到模型的变 量都显著为止。
• 逐步筛选法
• 为上述两种方法的综合,即每次首先加入一个变 量,如果其对模型影响显著,则保留,然后对当 前模型中的所有变量进行检查,剔除不显著的变 量。直到没有显著变量加入且没有不显著变量剔 除为止。