回归分析及进阶分析多元回归与结构方程模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实际观测值与理论回归 值的离差
,它是不能由回归直 线加以解释的残差e
因变量的理论回归值与其 样本均值的离差 , 它可 以看成是能够由回归直线 解释的部分,称为可解释
离差
平方,对所有的点求和,最终可得
总离差平方和(Total Sum of Squares) 残差平方和(Residual Sum of Squares) 回归平方和(Explained Sum of Squares)
每次回归的F值及其显著性 每个自变量的系数,及其T检验的显著性 判定系数 判定系数的变化及其显著性
33
34
曲线检验——U形、倒U形 中介与调节 对曲线的调节作用 曲线调节 如何画调节效应图
36
因变量y
自变量x
37
曲线估计
◦ P.220
可以证明,在一元线性回归条件下,ESS和 RSS分 别服从自由度为 1和 n-2 的 卡方 分布
H0:B2=B3=0
等同于零假设H0:R2=0
这个假设表明两个解释变量一起对应变量Y无影响,
这是对估计的总体回归直线的显著性检验。
Note:书上的写反了。
如果分子比分母大,也即Y被回归解释的部分比未被回 归解释的部分大,F值越大,说明解释变量对应变量Y的 变动的解释的比例逐渐增大,就越有理由拒绝零假设。
用样本回归直线与推断总体回归直线 用一些指标来判断推断的是否合理(接近)
样本回归方程
求出参数
需要一个公式/准则:
◦ 所有观测点与直线的垂直距离
(称为残差
Residual)都尽可能地小,即让所有的观测点与直线的垂
直距离之和∑e为最小。
◦ 有些观测点在直线之下,因此有些e是正的,有些是负的。
多元回归—2个以上的自变量
研究一个变量(被解释变量/因变量)对另一个或 多个变量(解释变量/自变量)的依赖关系。变量 之间的关系可分为线性关系和非线性关系。
因变量y
自变量x
x1
y2
y1
x2
y3
自变量x与因变量y皆为定量(定距变量、定比变 量),而非定性(定类变量、定序变量)
如果要将定类、定序变量放入回归,须转化为虚拟 变量(dummy variable)。如未转换,则有可能 造成就对结果解释的偏误。
拟合的方法也就不同,拟合出来的直线就不一样。 最常用的准则是普通最小二乘准则。
残差
可以 计算
误差 •客观现象 的随机性质 •测量误差
总体回归直线 未知的
残差e——根据样本所拟合出来的直线上的y值与样 本实际观测到的y之间的距离。这个值可以观测到。
误差E/Ksi——总体直线中,x与常数项不能解释的 总体y的部分。不可观测。它来自随机性与测量误 差。
能大一些,样本量太小时,估计量的稳定性肯定不 会很好。
拟合优度:
◦ 样本数据聚集在样本回归直线周围的密集程度,从而判断 回归方程对样本数据的代表程度。
◦ 判定系数
回归方程的显著性检验:
◦ F检验
◦ 对因变量与所有自变量之间的线性关系是否显著的一种假 设检验
回归系数的显著性检验
◦ 根据样本估计的结果对总体回归系数的有关假设进行检验 ◦ T检验
自变量的中心化问题
43
加入自变量的二次项×调节变量
◦ 中心化
乘积项与二次项方向一致——加强——更陡 Note:
◦ 控制变量放入一次项与调节变量的乘积项
相加后正负抵销,有可能总和∑e很小但是个别是的e还是
很大。为了克服这个问题,我们先将e平方使它们都变成
正的,然后再求和并使之变成最小,这就是所谓的“普通 最小二乘法(OLS——Ordinary Least Squares)准则”
目标函数:min 变量:b0和b1
要想使 b0和 b1更稳定,在收集数据时,就应该 考虑 X 的取值尽可能分散一些;样本容量也应尽可
回归分析 一元回归 多元回归
回归分析是研究一个变量(被解释变量/因变量) 对另一个或多个变量(解释变量/自变量)的依赖 关系。变量之间的关系可分为线性关系和非线性关 系。
在进行回归分析之前,要先分析变量之间是否存在 线性相关关系,如果变量间不存在线性相关关系, 则使用基于最小二乘法的回归分析所得的的结果是 不可靠的。
年龄是否影响智商(IQ)
◦ 定量---定量
年龄是否影响对电脑品牌的选择
◦ 定量---定性
性别是否影响对电脑品牌的选择
◦ 定性---定性
。。。。。。
考虑家庭月可支配收入如何影响消费支出。 可支配收入 X(千元) 消费支出 Y(千元)
假设样本为10,
为了拟合这样一条直线,需要某种准则。准则不同,
期望:拒绝零假设,即,F检验要显著
当样本为小样本时,回归参数估计值的标准化变换 变量并不遵循正态分布规律,而是服从自由度为
n-2 的t分布
H0:B2=0。 X对Y的影响为0 期望:拒绝零假设,要显著
如果 t 的绝对值大于临界值(或者 p<α) ,就拒 绝原假设,接受备择假设,说明 X 对 Y具有显著的 影响作用;反之,如果 t 的绝对值小于临界值的绝 对值(或者 p>α) , 则接受原假设,说明 X 对Y 没有显著的影响
选择R square最大的函数式进行回归检验
◦ 曲线估计没能包括控制变量
38
加入自变量的二次项
◦ 中心化
跟据二次项的方向,判断是U形还是倒U形 Note:
◦ 仍要放入一次项
39
40
中介: Baron3步检验:
调节: 1. 整体模型的F检验 2. 交互项的系数的T检验 3. R Square change的显著性
判定系数是对回归模型拟合程度的综合源自文库
度量,判定系数越大,模型拟合程度越
高。判定系数越小,则模型对样本的拟 合程度越差。大于0,小于1
如果比例值 ESS/RSS 较大,说明 X 对 Y 的解释程
度高,可以认为总体存在线性关系,反之总体可能 不存在线性关系。做利用这个值 ESS/RSS 进行推
断。由于对不同的样本,这个比值可能不同,因此 对给定的样本,利用这个比值进行推断,必须在统 计假设检验的基础上进行