第九章 回归分析(一元线性回归)(1)汇总

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
根据预报变量的已知值或给定值来估计和预 测响应变量的平均值并给出预测精度。
2 .弄清楚一 个变量的变化对另一个变量有什么样的影响。
有时候,两个变量之间的关系恰好是直线关 系。
例如,当一条简单电路的电阻R保持不变 时,电流I的变化与电压V的变化就是直线关系,这 由欧姆定律I=V/R便知。
变量之间的这种关系称为相关关系或称 为统计依赖关系。
对这种关系我们也期望用某种类型的数学方
程式来描述,并在某些限制下,用方程式通过一 些已知的变量之值去预测另一些变量之值。
如用施肥量的值x去预测亩产量y的值。
在这里,我们首先要区分两种主要类型的变 量。
一种变量相当于通常函数关系中的自变量, 对这样的变量能够赋予一个需要的值(如室内的温 度、施肥量)或者能够取到一个可观测但不能人
PROBABILITY THEORY AND MATHEMATICAL STATISTICS
概率论 与数理统计
第九章 回归分析
• 一元线性回归 • 多元线性回归
一元线性回归
1 . 回归的含义 2 . 两个变量的直线关系 3 . 一元线性回归模型 4. 最小二乘估计及统计性质 5 . 回归方程的显著性检验和
因此,不能指望实际身高和体重之间存在唯 一的关系。
但可以注意到,随着身高观测值的增加,对
应体重观测值的平均值也在增加,这种对于给定 的身高观测值所得的体重观测平均值的轨迹称为 体重对于身高的回归曲线,记为y=f(x).
身高对体重的回归曲 线也同样存在,记为x= g(y).
假设这两条曲线均为 直线(一般情况下可能不是), 则这两条直线一般说来是 不相同的。如图所示的两 条直线。
假如不懂欧姆定律,由V的变化和I的观测 值,可凭经验获得这种关系:即当R固定时,观测 值I相对于V的变化可以得到一条过原点的近似直线 (如图)。
虽然他们是确切的直线关系, 但在测量过程中可能会出现误差, 因此描点作图时观测点也就不会恰 好落在一条直线上。
然而,在利用V来预测I的值时, 应该利用这条过原点的直线。
例如,前面所说的水稻亩产量y与施肥量x, 显然,x是预报变量而y是响应变量。
回归分析正是研究预报变量之变动对响
应变量之变动的影响程度,其目的在于根据
已知预报变量的变化来估计或预测响应变量 的变化情况。
“回归(regression)”名称的由
来:
回归名称的由来要归功于英国统计学F.高尔顿
(F.Galton:1822~1911),他把这种统计分析方法 应用于研究生物学的遗传问题,指出生物后代有回 复或回归到其上代原有特性的倾向。高尔顿和他的 学生、现代统计学的奠基者之一K.皮尔逊 (K.Pearson:1856~1936)在研究父母身高与其 子女身高的遗传问题时,在观察了1078对夫妇后,
现在,假设有了每个人身高的记录,但不知 道他们各自的体重,该如何将他们估计出来?
我们利用体重对身高的回归曲线,可以得到
各个给定身高所对应的体重平均观测值,人们就
用这个值去估计体重。
(b)有时,我们明明知道两个变量之间不是 直线关系,但若限制在某个范围内时仍作为直线 关系来处理,是很有实用价值的。
如图所示的响应关系:
以每对夫妇的平均身高作为x,取他们的一个成年儿 子的身高为y,将结果绘成散点图后发现成一条直线。
计算出回归方程为
yˆ 33.73 0.516x
子代的身高有向平均值靠拢的趋向,因此,他用 “回归”一词来描述子代身高与父代身高的这种关 系。 这种趋势说明父母平均身高x每增加一个单位,其 成年儿子的平均身高增加0.516个单位。该结果表明:
1.高个子父亲确实有生高个子儿子的趋势。 2.子代人的身高有回归到同龄人平均身高的趋势。 3.此例形象的说明了生物学物种的稳定性。
具体地说,回归的内容包括:
如何确定响应变量与预报变量之间的回归模 型;
如何根据样本观测数据估计并检验回归模型 及未知参数;
从众多的预报变量中,判断哪些变量对响应 变量的影响是显著的,哪些变量的影响是不显著 的;
回归系数的置信区间 6.预测与控制
1 . 回归的含义
在含有变量的系统中,考察一些变量对另 一些变量的作用是必要的。
它们之间可能存在一种简单的函数关系, 也可能存在一种非常复杂的函数关系。这是确 定性关系。
然而,更常见的是,有些变量之间的关系 是非确定性的关系,这种关系无法用一个精确 的数学式子来表示。
(a)有时,即使不考虑误差,某种关系也不 是精确的直线关系,不过这时考虑直线关系仍有 很大意义。
例如,假设要考虑某一地区成年男子的身高 (cm)和体重(kg)的关系时,描出点对(x,y)=(身 高,体重)便得到图象。
注意对已知的身高,其 对应的体重观测点有一范 围,反之亦然。
这种量的变化,部分 地是由于测量误差引起的, 但主要还是由各人之间的 差异所引起的。
例如 1、合金的强度与合金中碳的含量有密
切的关系,但是不能由碳的含量精确知道这些合
金的强度,这是因为合金的强度还受到许多其它 因素及一些无法控制的随机因素的影响。
2、在气候、土质、水利、种子和栽培技术等
条件基本相同时,水稻亩产量y与施肥量x有密切 关系,但是施肥量相同,亩产量不一定相同.
3、某种日用品的销售量与当地人口有关,一 般人口越多销售量越大,但是人口与销售量之间 并无确定的数值对应关系。
响应关系
在0≤x≤10时,显然不是直线关系。 但如果只对o≤x≤5内的关系感兴趣,就可以看 作是直线关系。 当然这种关系不适合0≤x≤5以外的场合。这一 点在作预报时应值得注意,就是说,利用直线关 系对0≤x≤5以外的点作出的预报是不可靠的。预报 变量不止一个时,也有类似的情况值得注意.
为控制的值(如室外的温度),这种变量称为自变量, 或称预报变量。
预报变量的变化能波及另一些变量(如水稻亩
产量),这样的变量称为因变量,或称响应变量。
人们通常感兴趣的问题是预报变量的变化对 响应变量的取值有什么样的影响。
预报变量与响应变量之间的区别并无明显的 界线,往往与考虑的问题有关。然而,在实际问 题中,两种变量是容易区分的。
相关文档
最新文档