第9章 双变量回归与相关(改)汇总
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( X )(Y ) n
232.61
(76)(23.87) 5.8450 8
2.求回归系数 b和截距a
(X-X) Y-Y l XY b l XX ( X X )2
b 5.8450 / 42 0.1392
a Y bX 3.列出直线回归方程
a 2.9838 (0.1392 )(9.5) 1.6617
X
X
n
(76) 2 l XX X 764 42 n 8 ( Y ) 2 (23.87) 2 2 lYY Y 72.2683 1.0462 n 8
2
76 9.5 8
Y
Y 23.87 2.9838
n 8
( X ) 2
l XY XY
第九章 双变量回归与相关
函数关系与相关关系 1、函数关系(确定性关系):两变量间 呈一一对应的关系。 2、相关关系(非确定性关系):两变量 间数量上存在联系,但非一一对应关系。 如年龄与血压,儿童年龄与体重等。
1、 相关与回归分析是描述两个或多个呈 相关关系(而非一一对应的函数关系)的 变量数量上相互依存的统计学方法。 2、相关与回归分析所用的样本数据应是 来自研究总体的一份随机样本。
父子身高散点图
180
175
170
son
165 160 155 150 160 170 180 190
father
双变量的名称种种
因变量(dependent variable)Y 自变量(independent variable)X 反应变量(response variable)Y 解释变量(explanatory variable)X 结局变量(outcome)Y 研究因素(design factor)X
多元线性回归方程的一般形式是:
y i b0 b1 x1i b2 x2i bn xni
其中的符号含义同前。
^
直线回归系数的最小二乘估计
基本思想:使样本点到回归直线的纵向距离 的平方和最小。 定义e (residual)为残差,Q为残差平方和
ˆ e y y
2 ˆ Q ( y y)
Q ( y a bx)
使关于残差的一阶偏导数为0
2
直线回归系数和截距计算公式
( x x )( y y ) l b l (x x)
2
xy xx
a y bx
例 9-1 某地方病研究所调查了8名正常儿童的尿 肌酐含量(mmol/24h)如表9-1,估计尿肌酐含 量(Y)对其年龄(X)的回归方程。
表9-18 名正常儿童的年龄X(岁)与尿肌酐含量(Y)
编号 年龄X
1 13
2 11
3 9
4 6
5 8
6 10
ቤተ መጻሕፍቲ ባይዱ
7 12
8 7
尿肌酐含量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65
由原始数据及散点图的观察,两变量间呈直线趋势,故 作下列计算:
l XY 1.计算X、Y的均数X、Y,离均差平方和 l XX、lYY 与离均差积和
^
其中
y i 是应变量y的预测值或称估计值。
^
4、多元线性回归 多元线性回归方程模型为: yi=b0+b1x1i+b2x2i+…+bnxni+ei
其中 (1) b0是常数项,是各自变量都等于0时,应变量的估计值。有时,人们称它 为本底值。 (2) b1,b2,…,bn是偏回归系数( partial regression coefficient ),其统计学 意义是在其它所有自变量不变的情况下,某一自变量每变化一个单位, 应变量平均变化的单位数。 如果所有参加分析的变量都是标准化的变量,这时b就等于0, b1, b2,…,bn 就变成了标准化偏回归系数,用符号b1‘,b2’,…,bn‘表示。 bi’= bi*sxi/sy 由于bi’没有量纲,因此可以相互比较大小,反映自变量的相对作用大小。 (3) ei是残差
线性回归分析
因变量:连续变量 自变量:典型的是连续变量,但是在实际 应用中,任何类型的变量 目的:描述一些自变量与一个因变量之间 关联的程度、方向和范围。
因变量:准则变量、结果变量 自变量:回归变量、预测变量、独立变量
1、应变量(dependent variable) 2、自变量(independent variable)
9个正方形其边长X(cm)与周长Y(cm) 的关系
编号 边长X 周长Y 1 4 16 2 2.5 10 3 3 12 4 5 20 5 3 6 7 8 9
2.1 4.5 4.4 2.2
12 8.4 18 17.6 8.8
正方形边长X与周长Y的散点图
20.0
为讨论父子身高间的线性关系,南方某地在应届 毕业生花名册中随机抽取了20名男生,分别测量 他们和他们父亲的身高(cm),得如下资料:
第一节 直线回归
Linear Regression
简单线性回归分析是用线 性回归方程描述两变量数量上 相互依存的统计方法,简称直 线回归。
回归分析解决的问题
确定变量(自变量与因变量)之间是否 存在某种线性的统计学关系,存在则应 找出这种关系的表达式;
确定这种关系存在的概率的大小。
编号 父高X 子高Y 编号 父高X 子高Y 1 150 159 11 170 173 2 153 157 12 171 170 3 155 163 13 172 170 4 158 166 14 174 176 5 161 169 15 175 178 6 164 170 16 177 174 7 165 169 17 178 173 8 167 167 18 181 178 9 168 169 19 183 176 10 169 170 20 185 180
3、一元线性回归 直线回归方程的模型是:yi=a+bxi+ei 其中 (1)a是截距 (2)b是回归系数(regression coefficient)(回归直线的 斜率) 回归系数的统计学意义是:自变量每变化一个单位,应 变量平均变化的单位数. (3)ei是残差
因此直线回归方程的一般形式是:
yi a bxi