第9章 双变量回归与相关(改)汇总
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、一元线性回归 直线回归方程的模型是:yi=a+bxi+ei 其中 (1)a是截距 (2)b是回归系数(regression coefficient)(回归直线的 斜率) 回归系数的统计学意义是:自变量每变化一个单位,应 变量平均变化的单位数. (3)ei是残差
因此直线回归方程的一般形式是:
yi a bxi
第一节 直线回归
Linear Regression
简单线性回归分析是用线 性回归方程描述两变量数量上 相互依存的统计方法,简称直 线回归。
回归分析解决的问题
确定变量(自变量与因变量)之间是否 存在某种线性的统计学关系,存在则应 找出这种关系的表达式;
确定这种关系存在的概率的大小。
多元线性回归方程的一般形式是:
wk.baidu.com
y i b0 b1 x1i b2 x2i bn xni
其中的符号含义同前。
^
直线回归系数的最小二乘估计
基本思想:使样本点到回归直线的纵向距离 的平方和最小。 定义e (residual)为残差,Q为残差平方和
ˆ e y y
2 ˆ Q ( y y)
Q ( y a bx)
使关于残差的一阶偏导数为0
2
直线回归系数和截距计算公式
( x x )( y y ) l b l (x x)
2
xy xx
a y bx
例 9-1 某地方病研究所调查了8名正常儿童的尿 肌酐含量(mmol/24h)如表9-1,估计尿肌酐含 量(Y)对其年龄(X)的回归方程。
9个正方形其边长X(cm)与周长Y(cm) 的关系
编号 边长X 周长Y 1 4 16 2 2.5 10 3 3 12 4 5 20 5 3 6 7 8 9
2.1 4.5 4.4 2.2
12 8.4 18 17.6 8.8
正方形边长X与周长Y的散点图
20.0
为讨论父子身高间的线性关系,南方某地在应届 毕业生花名册中随机抽取了20名男生,分别测量 他们和他们父亲的身高(cm),得如下资料:
线性回归分析
因变量:连续变量 自变量:典型的是连续变量,但是在实际 应用中,任何类型的变量 目的:描述一些自变量与一个因变量之间 关联的程度、方向和范围。
因变量:准则变量、结果变量 自变量:回归变量、预测变量、独立变量
1、应变量(dependent variable) 2、自变量(independent variable)
编号 父高X 子高Y 编号 父高X 子高Y 1 150 159 11 170 173 2 153 157 12 171 170 3 155 163 13 172 170 4 158 166 14 174 176 5 161 169 15 175 178 6 164 170 16 177 174 7 165 169 17 178 173 8 167 167 18 181 178 9 168 169 19 183 176 10 169 170 20 185 180
^
其中
y i 是应变量y的预测值或称估计值。
^
4、多元线性回归 多元线性回归方程模型为: yi=b0+b1x1i+b2x2i+…+bnxni+ei
其中 (1) b0是常数项,是各自变量都等于0时,应变量的估计值。有时,人们称它 为本底值。 (2) b1,b2,…,bn是偏回归系数( partial regression coefficient ),其统计学 意义是在其它所有自变量不变的情况下,某一自变量每变化一个单位, 应变量平均变化的单位数。 如果所有参加分析的变量都是标准化的变量,这时b就等于0, b1, b2,…,bn 就变成了标准化偏回归系数,用符号b1‘,b2’,…,bn‘表示。 bi’= bi*sxi/sy 由于bi’没有量纲,因此可以相互比较大小,反映自变量的相对作用大小。 (3) ei是残差
父子身高散点图
180
175
170
son
165 160 155 150 160 170 180 190
father
双变量的名称种种
因变量(dependent variable)Y 自变量(independent variable)X 反应变量(response variable)Y 解释变量(explanatory variable)X 结局变量(outcome)Y 研究因素(design factor)X
( X )(Y ) n
232.61
(76)(23.87) 5.8450 8
2.求回归系数 b和截距a
(X-X) Y-Y l XY b l XX ( X X )2
b 5.8450 / 42 0.1392
a Y bX 3.列出直线回归方程
a 2.9838 (0.1392 )(9.5) 1.6617
第九章 双变量回归与相关
函数关系与相关关系 1、函数关系(确定性关系):两变量间 呈一一对应的关系。 2、相关关系(非确定性关系):两变量 间数量上存在联系,但非一一对应关系。 如年龄与血压,儿童年龄与体重等。
1、 相关与回归分析是描述两个或多个呈 相关关系(而非一一对应的函数关系)的 变量数量上相互依存的统计学方法。 2、相关与回归分析所用的样本数据应是 来自研究总体的一份随机样本。
表9-18 名正常儿童的年龄X(岁)与尿肌酐含量(Y)
编号 年龄X
1 13
2 11
3 9
4 6
5 8
6 10
7 12
8 7
尿肌酐含量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65
由原始数据及散点图的观察,两变量间呈直线趋势,故 作下列计算:
l XY 1.计算X、Y的均数X、Y,离均差平方和 l XX、lYY 与离均差积和
X
X
n
(76) 2 l XX X 764 42 n 8 ( Y ) 2 (23.87) 2 2 lYY Y 72.2683 1.0462 n 8
2
76 9.5 8
Y
Y 23.87 2.9838
n 8
( X ) 2
l XY XY
因此直线回归方程的一般形式是:
yi a bxi
第一节 直线回归
Linear Regression
简单线性回归分析是用线 性回归方程描述两变量数量上 相互依存的统计方法,简称直 线回归。
回归分析解决的问题
确定变量(自变量与因变量)之间是否 存在某种线性的统计学关系,存在则应 找出这种关系的表达式;
确定这种关系存在的概率的大小。
多元线性回归方程的一般形式是:
wk.baidu.com
y i b0 b1 x1i b2 x2i bn xni
其中的符号含义同前。
^
直线回归系数的最小二乘估计
基本思想:使样本点到回归直线的纵向距离 的平方和最小。 定义e (residual)为残差,Q为残差平方和
ˆ e y y
2 ˆ Q ( y y)
Q ( y a bx)
使关于残差的一阶偏导数为0
2
直线回归系数和截距计算公式
( x x )( y y ) l b l (x x)
2
xy xx
a y bx
例 9-1 某地方病研究所调查了8名正常儿童的尿 肌酐含量(mmol/24h)如表9-1,估计尿肌酐含 量(Y)对其年龄(X)的回归方程。
9个正方形其边长X(cm)与周长Y(cm) 的关系
编号 边长X 周长Y 1 4 16 2 2.5 10 3 3 12 4 5 20 5 3 6 7 8 9
2.1 4.5 4.4 2.2
12 8.4 18 17.6 8.8
正方形边长X与周长Y的散点图
20.0
为讨论父子身高间的线性关系,南方某地在应届 毕业生花名册中随机抽取了20名男生,分别测量 他们和他们父亲的身高(cm),得如下资料:
线性回归分析
因变量:连续变量 自变量:典型的是连续变量,但是在实际 应用中,任何类型的变量 目的:描述一些自变量与一个因变量之间 关联的程度、方向和范围。
因变量:准则变量、结果变量 自变量:回归变量、预测变量、独立变量
1、应变量(dependent variable) 2、自变量(independent variable)
编号 父高X 子高Y 编号 父高X 子高Y 1 150 159 11 170 173 2 153 157 12 171 170 3 155 163 13 172 170 4 158 166 14 174 176 5 161 169 15 175 178 6 164 170 16 177 174 7 165 169 17 178 173 8 167 167 18 181 178 9 168 169 19 183 176 10 169 170 20 185 180
^
其中
y i 是应变量y的预测值或称估计值。
^
4、多元线性回归 多元线性回归方程模型为: yi=b0+b1x1i+b2x2i+…+bnxni+ei
其中 (1) b0是常数项,是各自变量都等于0时,应变量的估计值。有时,人们称它 为本底值。 (2) b1,b2,…,bn是偏回归系数( partial regression coefficient ),其统计学 意义是在其它所有自变量不变的情况下,某一自变量每变化一个单位, 应变量平均变化的单位数。 如果所有参加分析的变量都是标准化的变量,这时b就等于0, b1, b2,…,bn 就变成了标准化偏回归系数,用符号b1‘,b2’,…,bn‘表示。 bi’= bi*sxi/sy 由于bi’没有量纲,因此可以相互比较大小,反映自变量的相对作用大小。 (3) ei是残差
父子身高散点图
180
175
170
son
165 160 155 150 160 170 180 190
father
双变量的名称种种
因变量(dependent variable)Y 自变量(independent variable)X 反应变量(response variable)Y 解释变量(explanatory variable)X 结局变量(outcome)Y 研究因素(design factor)X
( X )(Y ) n
232.61
(76)(23.87) 5.8450 8
2.求回归系数 b和截距a
(X-X) Y-Y l XY b l XX ( X X )2
b 5.8450 / 42 0.1392
a Y bX 3.列出直线回归方程
a 2.9838 (0.1392 )(9.5) 1.6617
第九章 双变量回归与相关
函数关系与相关关系 1、函数关系(确定性关系):两变量间 呈一一对应的关系。 2、相关关系(非确定性关系):两变量 间数量上存在联系,但非一一对应关系。 如年龄与血压,儿童年龄与体重等。
1、 相关与回归分析是描述两个或多个呈 相关关系(而非一一对应的函数关系)的 变量数量上相互依存的统计学方法。 2、相关与回归分析所用的样本数据应是 来自研究总体的一份随机样本。
表9-18 名正常儿童的年龄X(岁)与尿肌酐含量(Y)
编号 年龄X
1 13
2 11
3 9
4 6
5 8
6 10
7 12
8 7
尿肌酐含量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65
由原始数据及散点图的观察,两变量间呈直线趋势,故 作下列计算:
l XY 1.计算X、Y的均数X、Y,离均差平方和 l XX、lYY 与离均差积和
X
X
n
(76) 2 l XX X 764 42 n 8 ( Y ) 2 (23.87) 2 2 lYY Y 72.2683 1.0462 n 8
2
76 9.5 8
Y
Y 23.87 2.9838
n 8
( X ) 2
l XY XY