多元统计学-1.回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
约有63%可由初3成绩来解释(或者说是由初
3成绩来决定)。
多个自变量的回归模型
多元回归方程:
y 0 1 x1 2 x2
k xk
是 前 面 的 一 个 解 释 变 量 的 推 广 。 这 里 0 , 1,…, k 和前面一样,称为回归系数。统计 软件,如 DPS也会自动输出相应的检验结果。
多元回归分析用户界面
当有多个解释变量时的检验须用方程分
析:检验是否目标变量和所有的解释变量都 不存着数量上的关系。
方差分析表 方差来源 平方和 回归 0.0640 剩余 0.0173 总的 0.0812
自由度 均方 F值 p值 4 0.0160 17.59 0.0000 19 0.0009 23 0.0035
CCD试验设计中的回归分析
1、实验设计类型; 2、实验处理因子数 3、实验处理各个水平取值的设置方式 4、各处理零水平(中心点)/变化区间或最小 /最大值。
23
24
25
实验结果统计分析
左边方实验设计表,右边一列放各个处理相应的产量, 然后用鼠标选中。
b3
0.0045
0.0000
0.2727
-0.0011
0.0019 2.3637 0.0289
0.0007 0.0095 0.9925
b4
-0.0347
-0.4477
0.0108 3.2080 0.0046
从多个解释变量里面挑选“重要”因子 建立回归方程,逐步回归。 逐步回归,逐个地把显著的变量加入; 把不显著的变量去掉。
80 S1 40
40
50
60
70
90
100
y 26.44 0.65 x
50
60
70 J3
80
90
100
该直线数学理论公式:
y 0 1 x
截距和斜率(26.444和0.651)是 对0和1的估计。
理论公式中多出的是随机误差,
即每个观察值和拟合值的差值。
计算出来的模型,有多大的可能性能代表他们之间的关
了进一步的定量理解之外,还可以利用回归模
型通过X对Y做预测(prediction)。
例:学生高一成绩,能否被初三的成绩来解释?
高 1和初 3成绩关系 100 90 80 70 60 50 40 40 50 60 70 初 3成绩 80 90 100
回归分析原理
图中的那条趋势线,如何用数学方法求出。 确定直线的标准-最小二乘(least squares) ——
哑元的各个参数1, 2, 3本身只有相对意义,无法三
个都估计,只能够在有约束条件下才能够得到估计。约束 条件可以有很多选择,一种默认的条件是把一个参数设为 0 ,比如 3=0 ,这样和它有相对意义的 1 和 2 就可以估计 出来了。对于前面的例子,可得到
y 28.708 0.688 x 11.066, (低收入家庭), y 28.708 0.688 x, (高收入家庭)。
直线到所有点的竖直距离的平方和最小。
用数据寻找一条直线的过程也叫做拟合(fit)。
DPS下的回归方程建立
变量 回归系数 b0 b1 26.4441 0.6511 0.7953 标准回归系数 标准误 5.3959 0.0716 t值 p值
4.90 0.0000 9.09 0.0000
截距=26.444; 斜率=0.651
代表的定性变量。这时需要含定性变量的回归分析,这时 的回归模型是:
y 0 1 x 1 , 代表家庭收入的哑元=1 时, = 0 1 x 2 , 代表家庭收入的哑元=2 时, = 0 1 x 3 , 代表家庭收入的哑元=3 时。
目
几个因子来解释。
的
研究对象的数量波动能否被另外一个或
假如用Y表示研究对象,用X表示其他可能可以 解释研究对象波动的某个(某些)因子。则用 数学方法可以建立函数关系Y=f(X)。
建立这种关系的过程就叫做回归 (regression)。
得到的结果为回归方程。
一旦建立了回归模型,除了对他们之间关系有
相关系数R=0.8873,决定系数R^2=0.7874, 调整相关R=0.8612
各个解释变量对因变量重要性
变量 b0 b1 回归系数 -0.1417 0.0001 0.5925 标准回归系数 标准误 t值 p值 0.0692 2.0483 0.0546 0.0000 4.2275 0.0005
b2
在DPS中,数据格式和线性回归相同:一行一个样本, 一列一个变量,因变量放在最右边。
在DPS中的逐步回归分析
16
逐 步 回 归 : 调 整 值 达 到 最 大
Rwenku.baidu.com
17
下一页
18
分析结果和线性回归相同。
19
自变量中有定性变量的回归
学生高1成绩受初3成绩影响数据中,如果还考虑家庭
收入,但它是“低”,“中”,“高”,即用 1, 2, 3来
系?这里我们关系的是:初3成绩每增加一分,高1成绩 是否有可能跟着增加。在统计上的假设检验是
H0 : 1 0 H1 : 1 0
统计软件,如DPS给出了这个检验的结果: t检验统计量为9.089,而p-值为0.000。
因变量 Y 的波动,被解释变量 X 可以解释的 比 例 , 叫 做 决 定 系 数 ( coefficient of determination),用R2表示。 本例的 R2=0.632 ;说明高一成绩的波动,大
y 28.708 0.688 x 4. 679, (中等收入家庭),
即0, 1, 1, 2, 3的估计值分别为28.708, 0.688, -11.066, -4.679和0。
回归分析结果 系数项 系数值 标准回归系数 标准误 t值 常数项 28.7081 A(1) -11.0662 -0.3928 2.6410 -4.1901 A(2) -4.6789 -0.1998 2.1759 -2.1503 X1 0.6876 0.8398 6.2938 10.9247 回归方程 y=28.70811-11.06623A(1)-4.67886A(2)+0.687575X1 p值 0.0001 0.0368 0.0000