多因素线性回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6
画散点图考查身高与年龄的分布关系
130
120
110
y
100
90 3 4 5 x 6 7 8
Y的离散程度与X没有关系,并且散点呈直线带
7
画散点图考查身高总体均数与年龄的关系
年龄组的身高样本均数与年龄的散点图
8
由散点图确定身高总体均数与年龄 可能是直线关系
年龄组的身高样本均数与年龄的散点图显示 年龄组的身高样本均数与年龄几乎在一条直 线上,略有些偏离直线的点可以理解为样本 均数的抽样误差所致(因为样本均数一般不 等于总体均数),因此可以假定固定年龄的 身高总体均数 Y | x 与年龄x的关系可能是 直线关系,即假定:
糖尿病组 24.1 25.9 25.6 25.8 26 健康组 24 25.8 23.6 25.6 26.8 24.7 23.4 25.2 27 23.2 24.2 24.8 23.3 23.2 25 25.5
24.7 22.5 23.6 22.7 25.4 22.7 22
21.6 24
21
成组t检验由单因素线性回归实现
x 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0
y 24.1 25.9 25.6 25.8 26 24 25.8 23.6 25.6 26.8 24.7 23.4 25.2 27 25.5 24.7 22.5 23.6 22.7 25.4 22.7 22 23.2 24.2 24.8 23.3 23.2 25 21.6
24
23
成组t检验由单因素线性回归实现
Stata输出结果为
-----------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------+---------------------------------------------------------------x | 1.74 .4069787 4.28 0.000 .9063416 2.573658 _cons | 23.52667 .2877774 81.75 0.000 22.93718 24.11615 ------------------------------------------------------------------------
12
误差与残差
Y x Y Y | X 称为随机误差
ˆ Y a bx ˆ Y Y
称为残差(residual)
根据上述,直线回归分析要求资料满足 固定X,Y服从正态分布等价于残差服从 正态分布。
13
直线回归原理示意图
所以如果固定x,Y服从正态分布,其散点图呈直线带分布
先做成组t检验,借助Stata软件得到下列t检验结 果
Group Obs Mean 1 15 25.26667 2 15 23.52667 diff 1.74 Degrees of freedom: 28 Ha: diff < 0 t = 4.2754 P < t = 0.9999 Std. Err. Std. Dev. .2819433 1.091962 .2934956 1.136704 .4069787 Ho: mean(1) - mean(2) Ha: diff != 0 t = 4.2754 P > |t| = 0.0002 [95% Conf. Interval] 24.66196 25.87137 22.89718 24.15615 .9063416 2.573658 = diff = 0 Ha: diff > 0 t = 4.2754 P > t = 0.0001
25
成组t检验由单因素线性回归实现原理
ˆ a bx 是总体均数 Y x 由于预测值 Y ˆ a 健康组BMI均数 的估计值,所以x=0, Y ˆ a b 糖尿病组BMI均数 Y X=1, 所以 b 糖尿病组BMI均数-健康组BMI均数 事实上,样本回归方程就是
16
回归系数假设检验的必要性
由于样本回归系数b与总体回归系数存在抽样误差, 即:一般情况下, b ,因此需要考虑抽样误差对统 计推断是否存在重大影响。 由于 =0时, y| x ,Y与x之间不存在直线 回归关系,因此是否为0,涉及到所建立的回归方程 是否有意义的重大问题,然而即使 =0,样本回归系 数b一般不为0,因此需要对回归系数是否等于0进行 假设检验。
多重线性回归分析
复旦大学生物统计学教研室
1
线性回归模型
单因素线性回归模型(复习) 多重线性回归方程 多重线性回归模型 模型的参数估计 多重线性回归对资料的要求 多重线性回归举例应用
2
单因素线性回归的复习
3
举例复习单因素回归模型
例 为了研究3岁至8岁男孩人群平均身高(cm)与 年龄(year)的规律,在某地区在3岁至8岁男孩中 随机抽样,共分6个年龄层抽样:3岁,4岁,…, 8岁,每个层抽3名男孩,共抽18名男孩。资料如 下:
残差的标准差s还可以表示为
s
( y y)
i
2
b
2
n2
(x x )
i
2
可以证明:H0:=0 成立时,检验统计量tb服从 自由度为n-2的t分布。即:当出现 | t | t0.05/ 2,n2 , =0 而言这是小概率事件, 故可以拒绝H0 :=0,认为 0 。
19
回归系数检验统计量t的分布示意图
0
0
当|t|>t0.05,1,n-2时,对=0而言是小概率事件, 对>0而言并非是小概率事件
20
成组t检验由单因素线性回归实现
下列将举例证实成组t检验可以用单因素线性回归 实现,以此进一步理解线性回归的意义。 举例:在2型糖尿病患者人群和健康人群中分别随 机抽取15个年龄在50岁~60岁男性对象,测量其 体重指数BMI,分析这两个人群的平均BMI是否不 同。
3 3 年龄X 97 身高Y 92.5 6 6 年龄X 身高Y 115.5 115.5 3 4 4 4 5 5 5 107 8 124
4
96 100 96.5 6 7 7 110 125.5 117.5
101 106 104 7 8 8 118 121.5 128.5
本例的研究目的和实现方法
1. 研究目的:了解年龄与儿童人群的平均身高对应 关系。 2. 方法1:可以做普查,得到每个年龄组所有儿童的 身高,并且计算每个年龄组的儿童人群的平均身 高。 3. 方法2:作抽样调查,本例就是通过按年龄组分层 抽样调查,获得样本后用回归分析的方法得到每 个年龄组儿童人群的平均身高估计值和相应的统 计推断。
ˆ 健康组均数+(糖尿病组均数-健康组均数)x Y
26
成组t检验由单因素线性回归实现原理
由于线性回归模型为 Y x
~ N (0, )
2
X=0时, X=1时 即:对于成组t检验资料而言,用X=1和 X=0定义分组变量,其资料满足线性回归 对资料的要求,故其结果与成组t检验相同。
29
多重线性回归模型
刻画观察变量Y与自变量 X1, X 2 , , X m 之间的 对应关系为下列多重线性回归模型
Y 0 1 X1
m X m
~ N (0, )
2
i表示除Xi以外的其它自变量固定的情况下, Xi变化一个单位,相应Y的平均变化值,即Y 总体均数的相应变化值。
Y |x x
9
回归方程
并且称上述直线方程为(总体)回归方程。 回归方程中,为未知参数,需要用样本资料通过 拟合曲线后得到其估计值,并分别记为a和b,相应 得到样本估计的回归方程
ˆ a bx Y
ˆ 为Y的预测值,其意义为固定x,Y的总 通常称 Y 体均数 Y | x 的估计值。
17
回归系数的假设检验
H0:=0 vs. H1: 0 =0.05 se(b) 回归系数的标准误为 其中s为残差的标准差 s 则回归系数的检验统计量为
s
2 ( x x ) i
2 ˆ ( yi y)
b tb se(b)
18
n2
回归系数的假设检验
14
直线回归系数的估计
用最小二乘法拟合直线,选择a和b使其残差 (样本点到直线的垂直距离)平方和达到最小。 即使下列的SSE达到最小值。
ˆi ) ( yi -a-bxi ) SSE ( yi y
2
2
( y y )( x x ) 由此得到 b (x x )
糖尿病组的BMI均数-健康组的BMI均数=1.74, t=4.2754,P=0.0002,95%CI为(0.9063416, 2.573658)
22
成组t检验由单因素线性回归实现
定义因变量Y为BMI,糖尿病组定义 自变量x=1,健康组定义自变量 x=0,数据格式如下 借助Stata软件实现线性回归: reg y x
10
Y与x的直线回归关系
由总体回归方程 当=0时,
Y |x x

可知:
总体均数
的直线回归方程就没有任何意义了,所以称 0 时, Y与x 之间存在直线回归关系,反之 =0 Y 与x 之间称不存在直线回归关系。
Y |x
y| x
。即:对于x的任何值,
没有任何改变,因此建立Y与x
i i 2 i
a y bx
15
回归系数的意义
由总体回归方程可知
y|x x
的估计
回归系数表示:x增加一个单位,总体均数
y| x
由于
ˆ a bx 是 y|x x Y
增加个单位
表达式 ,所以(样本)回归系数b表示x增加一个单
位,估计y平均增加b个单位。
回归系数=糖尿病组均数-健康组均数=1.74 t=4.28, P<0.001,95%可信区间为 (0.9063416,2.573658),与t检验结果完全相同
24
成组t检验由单因素线性回归实现原理
因为回归方程为
wk.baidu.com
Y x
Y是固定X时的Y总体均数,所以X=0时, 健康人群的总体均数为 Y , X=1时, 糖尿病人群的总体均数为 Y 因此 糖尿病人群总体均数与健康人群的总体均数 之差为 ,因此检验两个总体均数相等的 问题就是检验回归系数 0 的问题。
27
Y ~ N ( x, ) 2 Y ~ N ( , ) 2 Y ~ N ( , )
2
多重线性回归模型介绍
28
多重线性回归方程
设有m个自变量为 X1, X 2 , , X m ,亦称协变量, 应变量为Y,则描述Y的总体均数与m个自变 量 X1 , X 2 , , X m 之间的线性关系可以用下列的 多重线性回归方程 Y 0 1 X1 m X m 其中0为常数项,亦称截距,1,2,…, m称为偏回归系数。
5
儿童身高的分布特征
一般而言,儿童身高满足 1. 同一年龄x的儿童身高y近似服从正态分布, 因此对于每个年龄x,均有一个身高y的总 体均数 Y | X 。
2. 不同年龄x的儿童身高分别近似服从对应不 同身高总体均数 Y | X 的正态分布。 3. 身高的总体均数
Y | X 是年龄x的一个函数
11
回归模型
根据正态分布性质,可以得到: 1. 固定年龄X,身高Y服从总体均数为 2 2 Y | X ,方差为 的正态分布 N (Y | X , ) 2. 由散点图可以假定总体均数 Y |x x 3. 故 Y ~ N ( x, 2 ) 2 4. 令 Y Y |x Y x ~ N (0, , ) 5. 即:Y x ,并称为直线回归模型
30
多重线性回归模型
相关文档
最新文档