统计学-第九章直线回归与相关精品PPT课件

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

– 直线回归分析的任务:找出一条最能代表这些 数据关系的一条直线。
– 方法:一般采用最小二乘法least square method找出一条各实测点与它的纵向距离的平 方和为最小的直线回归方程。又称作最小二乘 回归
– 变量y随变量x而变化,称x为自变量 independent variable,y为应变量dependent variable.
6)直线回归方程图示:在自变量x的实测全 距范围内任取相距较远且易读的两x值,代 入回归方程求y的估计值,在图绘出两点连 成直线。
注意:所绘直线必然通过 (x, y) ,若纵坐
标、横坐标无折断号时,将此直线左端延 长与纵轴相交,交点的纵坐标必然等于截 距a,这两点可用来核对回归线绘制是否正 确。
第二节 直线回归分析中误差及 可信区间
( y yˆ )2
n2
(y
yˆ )2
lyy
lx2y lxx
(
y
y)2
[
(x x
(x
)(
y x
)2
y)]2
lyy的分析: p点的纵坐标被回归线、均数y 截成三段
SS总=SS回+SS剩 SS总= (y y)2:
说明未考虑x与Y的回归关系时Y的变异
SS回= (yˆ y)2:回归平方和
2、直线回归方程
– 直线方程:y=a+bx – 直线回归方程:
yˆ a bx
– a:为回归直线在Y轴上的截距intercept,a>0 表示直线与纵轴的交点在原点的上方,a<0交 点在原点的下方。a=0则回归直线通过原点
– b:回归系数regression coefficient,为直线的 斜率slope,b>o直线从左下走向右上, b<0从左 上走向右下, b=0直线与横轴平行。意义:x每 增(减)一单位,Y平均改变b个单位
S y.x
S yˆ ( xi x )
S y.x n
五、 yˆ(xix) 的可信区间 yˆ (xi x) 是总体均数 yˆ (xi x)
的估计值
95%可信区间:
yˆ t S yˆ t S (xi x)
0.05( ) yˆ ( xix )
yˆ ( xi x )
( xi x )
0.05( ) yˆ ( xix )
t值的自由度为S y.x的自由度n 2
六、 yˆi 的标准误
当xix时, yˆi 的变异不仅决定于y的误差, 也与回归系数b的误差有关
S 2 yˆ i
S
ቤተ መጻሕፍቲ ባይዱ
[ 2
y.x
1 n
(
xi (xj
x
)2 x)2
]
七、 yˆ ( x xi )
(个体y值)的可信区间
yˆ i t S 0.05( ) yˆi yˆ ( xxi ) yˆ i t0.05( ) S yˆi
第三节 回归系数和截距的统计 意义检验
一、回归系数的t检验
tb
b Sb
,
n
2
Sb
S y.x (x x)2
二、回归系数的方差分析
F MS回 = SS回 /回 MS剩 SS剩 / 剩
所得结论与t检验相同
三、两个回归系数差别的统计意义检验
t值的自由度为S y.x的自由度n 2
理论上,每个xi对应的y估计值都有一个区 间估计,把这些可信区间的上限和下限连
起来,为两条曲线。把这两条曲线间的空
间称为回归直线的可信区间。
八、截距的误差及总体参数的可信区间 由于截距是x=0时y的估计值,
1
x2
S S y.x
n
(xi x)2
九、单一个体yi值的范围预测
第九章 直线回归与相关
Linear Regression and correlation
第一节 直线回归
一、概述 1、函数关系与回归关系
– 函数关系:自变量取某一数值时,应变量有一 个完全确定的数值与之对应。(多见于物理、 化学等学科,生物医学界不少变量间有一定的 关系,但不是十分明确)
– 回归关系:应变量随自变量的变化而变化,且 呈直线趋势,但并非所有的点子都在一直线上。
三、回归系数的标准误
表示:样本回归系数b对总体回归系数进 行估计时误差的大小
Sb
S y.x (x x)2
求的95%可信区间 bt0.05()Sb ,自由度=n-2
四 y的、标yˆ (x准i x误) 的本标应准由误Sy/n求得,但因在直线回 归当中x的影响被扣除后,y方面的变异减
小,故y的标准误,即x=x时y^的标准误为
总=回+剩 总=n-1,回=1,剩=n-2
SS回=blxy
l
2 xy
lxx
b2lxx
SS剩=SS 总-SS回
二、实测值围绕回归线的离散度
回归分析时假设:X取某一值时,Y围绕回 归线+x呈正态分布,Sy.x是其标准差的 估计值。
故可估计出约有95%观测值y在总体回归线 y= +x上下1.96个标准估计误差范围内, 见P112图9-3
说明在Y的总变异中由于X与Y的直线关系 而使Y变异减少的部分,即总平方和中可以 用X解释的部分
SS剩= ( y yˆ )2:剩余平方和
反映X对Y的线性影响之外的一切因素 对Y的变异的作用,即总平方和中 无法用X解释的部分
P y - ^y
Y
y-y
^y - y-
y
X
各实测点离回归直线越近,剩余平方和愈 小,说明直线回归的估计误差愈小
b lxy lxx
xy xy
n x2 ( x)2
n
a y bx y b x
n
n
yˆ ( y bx) bx
P110例9-1: 1)由原始数据绘散点图,各点分布呈直线趋 势,故作下列计算
2)求x, y, x2, y2, xy 3)计算x,y的均数,lxx、lyy和lxy 4)求回归系数b和截距a 5)列出回归方程
3、最小二乘法
– 样本含量为n的的样本资料标在(x,y)平面上,可 得n个点,故可确定很多直线,直线回归的主 要目标之一是用实测的x估计y,所以希望估计 的y与实测的y间的误差愈小愈好。即从所有直 线中找到一条直线使估计误差平方和达最小。
– 即
( y yˆ )2 最小
二、求直线回归方程的基本方法
一、标准估计误差
– 估计误差error of estimate:在直线回归中,各
实际值y与由回归方程计算出的估计值之间有一
定的误差,称~。这种离差可以用类似标准差
的式子进行计算,称为标准估计误差standard
error of estimate。由于 数,所以自由度为n-2

Sy.x
决定于均数和回归系
相关文档
最新文档