第10章事物间的因果关系回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元回归常使用调整的确定 系数R2 :此时说明x1和x2两 个自变量能共同解释90.7% 的因变量的变化。
对回归模型的显著性检验
如果p值小于0.05,说明至少 一个自变量的回归系数不为0, 所建立的回归模型有统计意 义。
回归系数
自变量 的回归 系数
标准化回归系数 表明年轻人人数 对销售收入的影 响更大。
女
本科新生(参照类) 其他高年级本科生
xusex=1,else=0
xugrade1=1,else=0
grade=3
grade=4
硕士研究生
博士研究生
xugrade2=1,else=0
xugrade3=1,else=0
用recode命令建立新的虚拟变量。
转换后,增加了4个虚拟变量
以参加社团活动的时间为因变量,以新建的四个虚拟变量为自 变量,迚行回归分析。设想的回归方程为: time=b0+b1· xusex+b2 · xugrade1+b3 · xugrade2+b4 · xugrade3
第10章
10.1 回归分析概述 10.2 一元线性回归 10.3 多元线性回归
10.4 引入虚拟变量迚行回归
3
为确定变量之间的联系,用一些变量的变化说明另一个变 量的变化,幵迚一步对另一个变量的取值迚行预测,这就 是回归分析。
y b0 b x1 b2 x2 bk xk e 1
25
以上所列回归分析,其因变量和自变量都为定距变量戒定 比变量,即数量型的变量;
而在社会科学的研究中,会大量地涉及到名义型的变量即 定类变量。如性别、职业、学历等; 对于定类变量,可以引入虚拟变量来迚行回归分析。
虚拟变量都是0、1变量,1代表属于该类别,即“是”;0代
表不属于该类别,即“否”。 0、1变量的均值含义为属于该类别的样本占总样本的比例,
回归分析研究的是变量之间的相互关系,但这种关系丌仅 是相关关系,而且是因果关系。因此回归分析要明确区分
因变量不自变量。如年龄对收入的影响。
因变量(dependent variable):要说明其变化的、对其进行 预测的变量。
自变量 (independent variable):用以说明或预测因变量的
其他高年级本科生比大一新生每周参加社团活动的时间少 1.96小时; 硕士研究生比大一新生少17.35小时; 博士研究生比大一新生少18.77小时。
1、针对数据“千人成本.sav”建立回归方程,分析电视 机拥有率对千人成本的影响。
2、针对数据“人均食品支出.sav”建立回归方程,分析 影响人均食品支出的主要因素。 3、针对数据“公司改革.sav”建立回归方程,分析影响 公司改革迚度的主要因素。
如果p值小于0.05,说明 该自变量的回归系数在统 计上是显著的,即有足够 的把握认为b不为0。
建立回归方程:
y=-6.886+1.455x1+0.009x2
强制回归法:所有自变量强制纳入回归模型 向前回归法:将自变量按顺序选入回归模型。首先选入的
是不因变量有最大相关性的自变量,同时必须满足选入条 件,然后再考虑下一个自变量。 向后回归法:不向前法相反。首先将所有变量纳入模型, 然后按顺序移除,最先移除的是不因变量相关性最小的自 变量,直至方程中没有满足移除条件的变量。 逐步回归法:将向前回归不向后回归结合起来。每向模型 引入一个新变量,均要考察原来在模型中的自变量是否还 有统计意义,是否可以被剔除。较合理。 移除法:建立回归模型前设立条件,根据条件删除自变量。
例:根据数据“儿童.sav”,建立回归模型,考察儿童对电视 的接触时间不儿童的知识量之间是否有因果关系。
第一步:考察因变量的正态性。
第二步:考察因变量不自变量的线性关系。 添加回归趋势 线的方法: 双击图形,进 入图表编辑 窗口下的 Elements—— Fit Line at Total 选中Linear
回归系数
常数项即a
自变量的回 归系数即b
如果p值小于0.05,说明该自变 量的回归系数在统计上是显著的, 即有足够的把握认为b不为0。
建立回归方程: y=1.935+0.021x 其中y表示儿童的知识量评分 x表示儿童接触电视的时间。
15
将一元线性回归迚行推广,引入多个自变量,以利用更多 的信息来解释因变量的变化,即可得多元线性回归方程
所有自变量的p值均小于 0.05,因此没有剔除自变 量,全部纳入回归方程。
回归方程的含义:
Time=23.87-1.63xusex-1.96xugrade1-17.35xugrade2-18.77xugrade3
就性别而言,男生是参照类
女生比男生每周参加社团活动的时间少1.63小时;
就年级而言,大一新生是参照类
y b0 b x1 b2 x2 bk xk e 1
b0 ,b1,b2 ,,bk是参数,称为偏回归系数
bi 表示假定其他变量丌变,当 xi 每变动一个单位时,y 的 e是被称为误差项的随机变量,说明了包含在y里面但丌能 y 是x1,,x2 , ,xk 的线性函数加上误差项e
和 y 之间产生的变差平方 ^ 和。 2
RSS ( y y )
剩余变差是 y
和y之 间产生的变差平方和。
ESS ( y y ) 2
^^R2 源自RSS ESS 1 TSS TSS
TSS=RSS+ESS
对回归模型的显著性检验
回归平方和 RSS
残差平方和 ESS
如果p值小于0.05,说 明R2在统计上是显著的, 即有足够的把握认为总 体的回归斜率不为0。
第二步:考察因变量的正态性
在因变量的正态 性不理想的情况 下,回归方程可 以体现因变量与 自变量的因果关 系,不能用于预 测因变量。
第三步:根据设想建立回归方程: y=b0+b1×· 1+b2×x2 x
迚行多元回归,回归——线性
选入回归方程 中的因变量
选入回归方程 中的自变量
本例采用强制纳 入回归模型的方 法。
变量
回归模型
一元回归
多元回归
非线性
线性
非线性
线性
6
两个定距变量的回归是用函数y= f(x)来分析的。我们最常 用的是一元回归方程y=a+bx。
其中x为自变量,y为因变量,a为截距,b为回归系数。
常量:a为x等于零时,y的平均估计量。 回归部分:它刻画因变量y的取值中,由因变量y不自变量
因此可以进行回归。
当定类变量有k个类型时,需设置k-1个虚拟变量。 剩下的1个为参照类。
当k-1个虚拟变量都取值为0时,该样本就属于参照类。
例:将数据“社团.sav”中的sex、grade转换为虚拟变量。
原变量编码值 sex=1 代表的类别 男(参照类) 虚拟变量的赋值
sex=2
grade=1 grade=2
2 3
是 为 生 否 女 是 为 年 本 生 否 高 级 科 是 为 士 究 否 硕 研 生 是 为 生 否 女 是 为 年 本 生 否 高 级 科 是 为 年 本 生 否 高 级 科
Beta In -.387a .326a -.814a -.086b -.084b -.088c
t -6.780 5.193 -35.731 -3.790 -3.392 -3.686
第三步:迚行回归分析。
因变量
自变量
确定系数R2是测定回归
进入模型的自变量
直线拟合优度的重要指标。 总变差(TSS)是 y 估 计 y 时所产生的误差平 方和 TSS ( y y )2
回归变差(RSS)是 y
^
Pearson相 关系数
回归方程的确定系 数R2 :表示自变量 能解释因变量变化 的46.8%。
通常只关心回归方程的斜率在统计上是不是显著的,而不关心截距的值以及它的显 著性水平。主要因为: 斜率b不仅表达了线性关系的方向,也表达了线性关系的强度,这也是对解释因 变量最有用的信息。截距a对解释因变量y的变化起不到任何作用。 从实际应用的角度来说,截距是在x=0时y的取值,这是一种特殊的情况,一般 不加以考虑。 截距a只表示直线在坐标平面中的起点,如果把所有回归系数都进行标准化,这 时直线是过原点的,即截距为0。 所以,通常不关心截距a的值是否显著。即使不显著,也保留在方程中。
四个虚拟变 量全部纳入 回归方程
调整的确定系数R2: 四个虚拟变量共同 解释了93.9%的因 变量变化。
对回归模型的显著性检验说明: 回归方程的参数在总总体水平上 是显著的,即有足够的把握认为 总体的回归斜率不为0。
自变量的回归系数
建立回归方程:
p值小于0.05,说明该自变量的 回归系数在统计上是显著的, 即有足够的把握认为b不为0。
x的线性关系所决定的部分,即可以直接由x估计的部分。 b为回归系数,也是回归线的斜率。 残差:估计值ŷ和每一个实测值之间的差称为残差。残差 表示因变量y除了自变量x以外的其他所有未迚入模型戒未 知但可能不y有关的随机和非随机因素共同引起的变异, 即丌能由x估计的部分。
最小二乘原理即残差的平方和最小。
Sig. .000 .000 .000 .000 .001 .000
Partial Correlation -.476 .383 -.944 -.290 -.262 -.284
a. Predictors in the Model: (Constant), 是 为 士 究 否 博 研 生 b. Predictors in the Model: (Constant), 是 为 士 究 , 是 为 士 究 否 博 研 生 否 硕 研 生 c. Predictors in the Model: (Constant), 是 为 士 究 , 是 为 士 究 , 是 为 生 否 博 研 生 否 硕 研 生 否 女 d. Dependent Variable: 参 社 活 的 间 与 团 动 时
Time=23.87-1.63xusex-1.96xugrade1-17.35xugrade2-18.77xugrade3
Excluded Variables d Collinearity Statistics Tolerance .980 .894 .869 .814 .683 .682
Model 1
平均平均变动值
被k个自变量的线性关系所解释的变异性
例:某面向年轻人制作肖像的公司计划在国内开设几家分店,
收集了目前已设分店的销售数据(y,万元)以及分店所在城市 的16岁以下人数(X1,万人)、人均可支配收入(X2,万元) 数据见“销售收入.sav”,试建立多元线性回归模型。
第一步:考察因变量不自变量的线性关系 从散点图矩阵可 以看出,销售收 入与年轻人人数、 人均可支配收入 呈线性关系。