应用数理统计叶慈南第五章1

相关关系

例如人的年龄、身高、体重和血压之间也存在一定的关系，一般来说年龄大的、体重重的人血压也要相应的高一些，但这种关系并不是确定的，因为即使年龄和体重都相同的人，其血压也不一定相同．

又如在土地和耕作条件相同的条件，每亩的施肥量、播种量与农作物的产量之间也存在一定的关系，一般来说施肥量、播种量适当时产量较高，同样这种关系也不是确定的，具有某种随机性，

变量之间这种不确定性关系在社会现象和自然现象中普遍存在，其原因主要是由于一些随机因素的干扰和测量上的误差，我们称变量之间的这种不确定关系为相关关系．

回归分析就是分析和处理这些具有相关关系的变量之间关系的一种有效方法．

在研究具有相关关系的变量之间的关系时，往往要考虑一些变量的变化对另一些变量的影响，这其中的一些变量就相当于通常函数中的自变量，对它们能赋予一个需要的值（如施肥量、播种量）或能取到一个可观测但不能人为控制的值（如年龄、身高），这类变量称为自变量（预报变量），而因自变量变化而变化的这类变量称为因变量（响应变量）．

“回归”一词是英国统计学家高尔顿（P.Galton 1882-1911）在1889年发表的关于遗传的论文中首先应用的．他在研究前辈与后代身高之间的关系时，发现儿子的身高介于父亲身高与种族（父辈）平均身高之间，有回归于种族平均身高的趋势．后来他的朋友，英国著名统计学家K.Pearson等人搜集了上千个家庭成员的身高数据，分析出儿子的身高y与父亲的身高x大致可归结为以下关系：

y = 0.516 x +33.73 (英寸)

从而进一步证明了Galton的回归定律．这就是“回归”一词最早在遗传学上的含义．发展到今天，回归的现代意义要比原始的意义广泛的多．

在回归分析中要研究的主要问题是：

(1)确定因变量（响应变量）和自变量（预报变量）之间的定量关系表达式即建立回归模型．

(2)对回归模型进行检验．

(3)从众多的自变量中选择出对因变量影响显著的自变量．

(4)利用所建立的回归模型进行预测和控制．

§5.1 一元线性回归

我们先从最简单的情况开始讨论，只考虑一个因变量y和一个自变量x之间的关系．

一．一元线性回归模型

我们先看一个例子．

例5.1.1为研究某种物质在水中的溶解度（y）和温度（x）的关系，独立作了11组试验，记录数据如下：

表5.1.1

为了直观起见，可以x为横坐标，y为纵坐标，作上述数据的平面散点图（图5-1），每一数据对（x i，y i）为x-y坐标系中的一个点，(i =1，2，…，11)．

图5-1

从图上可以看出

①溶解度（y）基本随温度（x）升高而增加；

②点分布在某一直线两侧，不全在直线上，

从而可以认为y与x大致成直线关系，这些点与直线的偏离

是由其他一些不确定的因素的影响所造成的．

因此可以假设y 与 x 满足以下关系：

y = β0 +β1x +ε （5.1.1）其中β0+x β1为y 随x 线性变化的部分，β0 和β1是未知待估计的参数；ε是许多不可控或不了解的随机因素的总和，所以是不可观测的随机变量，但为了估计上的方便，通常假定

E ε= 0 D ε= σ2＜∞ 未知（5.1.2） y 是可观测的随机变量．

一般，称由（5.1.1）和（5.1.2）所确定的模型为一元线性回归模型．记为

⎩⎨⎧==++=σ

εεε

ββ2

10,0D E x y （5.1.3）未知参数β0为常数项，β1称为回归系数，自变量x 称为回归变量．显然有

E y = β0 +β1x （5.1.4）

（5.1.4）称为回归函数．

注意：这里我们说一个模型是线性的，是指它关于参数（β0和β1）是线性的，模型中自变量的最高次幂为该模型的阶，如 y = β0 +β1x +β2x 2+ε

是一个二阶（x 的）线性（对β0，β1，β2）回归模型．若利用试验数据求出β0和β1的估计值β∧0

和β∧

1，于是有

y ∧

=β∧0

+β∧

1x （5.1.5）

y ∧

为由估计值β∧

和β∧

1确定后对给定的x 值相应y 的回归值（预报值）．

（5.1.5）称为回归方程（预报方程）．其对应的直线称为回归直线（预报直线）．

图5-2

二．β0和β1的最小二乘估计及其性质

设有n 组独立的样本观测值（x i ，y i ）(i = 1,2,…, n )，由（5.1.3）有

⎩⎨⎧==++=σ

εεεββ2

10,0i i i

i i D E x y i = 1,2,…, n ，εεεn ,,,21 相互独立．（5.1.6）

称为样本回归模型． 1．β0和β1的最小二乘估计

如何利用样本数据求出β0和β1的估计值β∧0和β∧

1呢？一个

最直观的想法就是在散点图上确定一条直线l ：β0+β1x ，使得所有的点总的看来最接近这条直线．这时将直线l 的截距β0的取值与斜率β1的取值，作为β0和β1的估计值β∧

0和β∧

1是比较合适的．所谓所有的点总的看来最接近这条直线的含义即可以认为是

使得

Q (β0，β1) =∑=n i i 1

2ε=()∑-=n

i i i y E y 1

=()∑--=n

102

i i i x y ββ

达到最小．求出使函数Q (β0，β1)达到最小的β0，β1 的值，作为β0和β1的估计值β∧

0和β∧

1．即β∧0

和β∧

1应满足

Q (β∧0，β∧

1)=),(min 101

0ββββQ R

∈

应用数理统计 叶慈南 第五章1

应用数理统计叶慈南第五章1