应用统计学(第八章 一元回归与相关分析)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因变量的取值。 2) 控制 由因变量y反推自变量x的取值范围的问题,称为控制问
题。 3) 校正 建立回归方程,弄清试验指标与试验条件的关系,通过
回归关系对测定结果进行校正。
二、直线相关
1.相关系数和决定系数 相关系数:两个变量间线性相关程度和性质的统计量。
决定系数是相关系数的平方。 r (xi x)( yi y) SPxy (xi x)2 ( yi y)2 SSx SSy
应用统计学
第八章 一元回归与相关分析
➢ 相关和回归分析 是研究事物的相互关系,测定它们联系的紧密程度,揭
示其变化的具体形式和规律性的统计方法,是构造各种经济 模型、进行结构分析、政策评价、预测和控制的重要工具。
在统计上把研究变量之间相关关系的方法称为相关分析, 把研究因变量受自变量影响的数量关系的方法称为回归分析。 ➢ 变量间的关系
yi =0 + 1 xi + i
2)参数0,1的估计 回归分析就是根据样本观测值求解0,1,即用样本数
据求b0 和 b,对于给定的x值,有:
ŷ = b0 + bx y关于x的直线回归方程,x 为自变量,y 为因变量(依变 量),ŷ 是与x值相对应的因变量y的点估计值,b0截距,b 斜 率/回归系数。
离回归(残差、剩余)平方和 SSe (yi yˆi )2
y的总变异回归关系以外的其他因素引起的部分
b.自由度的分解和方差、F的计算
回归自由度
dfR=1
离回归自由度
dfe= (n-1)-1= n-2
回归均方
MSR= SSR /dfR = SSR
离回归均方
MSe = SSe/dfe = SSe/(n-2)
a.平方和的分解
( y y)2 ( yˆ y) ( y yˆ)2 ( yˆ y)2 2 ( yˆ y)( y yˆ)+( y yˆ)2 ( yˆ y)2 ( y yˆ)2
SSy= SSR + SSe
回归平方和 SSR ( yˆi y)2
y的总变异中由于回归关系而引起的部分
s MS / SS 0.00067 /1.12 0.0245
b
e
x
t b / s 0.8507 / 0.0245 34.781 b
df=n-2=5,查表得t0.01=4.032,所以t>t0.01,P<0.01。回归 系数b=0.8507极显著。表明BSA浓度与吸光度间存在极显著
的直线关系,可用所建立的直线回归方程进行蛋白质浓度
例题1:采用考马斯亮蓝法测定某蛋白质含量,在作标准曲线 时,测得小牛血清白蛋白(BSA) (mg/ml)与吸光度的数据,如 下表所示。
BSA(mg/ml)x 0.0 0.2 0.4 0.6 0.8 1.0 1.2 吸光度y 0.000 0.208 0.375 0.501 0.679 0.842 1.064
的测算。
回归截距b0的检验
2
s MS(1 x )
b0
e n SS
x
3.回归方程的评价
1)回归方程的拟合度
决定系数r2:y变异中回归关系所占的比例,用来评价回 归方程拟合度的好坏。0 ≤ r2 ≤1
r2
( yˆ y)2 (y y)2
SSR SS y
SPx2y SSx SS y
SPxy SS x
r0.05=0.3044,r0.01=0.3932。 |r|=0.8517,P<0.01 表明该品种大豆籽粒内脂肪含量与蛋白质含量呈极显著 负相关。
3.应用直线回归和相关需注意的问题 1)变量间的直线回归和相关分析要有相关学科专业知
回归分析的目的在于揭示出呈因果关系的相关变量间的 联系形式,通过建立回归方程,然后利用回归方程由自变量 来预测或控制因变量。
② 平行关系 变量间相互影响或共同受其他因素的影响,如身高和体 重。 只能用相关分析的方法研究,方法有直线相关(简单相 关)、偏相关、复相关、典型相关。 ➢ 相关的种类
正相关 负相关
y yˆ 2
syx
n 2 MSe
对于上例数据, s MS 0.00067 0.0259
yx
e
4.直线回归的区间估计 1)回归系数β1的区间估计 2)回归截距 β0的区间估计 3)总体平均数y0的区间估计 4)因变量yi的区间估计
5.回归方程的应用 1) 预测 预测时只需将自变量的取值代入回归方程,就可计算出
MSe SSe / dfe 0.00335 / 5 0.00067
F MSR / MSe 0.81056 / 0.00067 1209.689
变异来源
SS
df
回归
0.81056 1
剩余(残差) 0.00334 5
总变异 0.81391 6
MS 0.81056 0.00067
F 1209.689**
SPxy SS y
byx bxy
对于上例数据: r2 =SSR/SSy=0.8106/0.8139=0.9960.表示 吸光度的总变异中,BSA浓度对吸光度的线性影响占99.60%。
2)回归方程的偏离度
离回归标准误 syx:回归估测值ŷ与实际观测值y 偏差的
程度。离回归均方MSe是回归模型中2的估计值。
F值
F = MSR / MSe = (n-2)×SSR / SSe
例题1回归方程的显著性检验
n 7 SSy 0.81391 SPxy 0.95276
SSR
bSPxy
SPx2y SSx
0.9078 1.12
0.81056
SSx 1.12
SSe SSy SSR 0.81391 0.81056 0.00335 df y n 1 7 1 6 ,dfR 1 ,dfe 7 2 5 MSR SSR 0.8106
SPxy xy ( x)( y) n 3.1542 4.2 3.669 7 0.95276
计算回归截距b0,回归系数b
b SPxy SSx 0.9528 1.12 0.8507
b0 y bx 0.5241 0.8507 0.6 0.0137
直线回归方程为: yˆ 0.0137 0.8507x
一、直线回归
1.直线回归方程的建立 1)直线回归的数学模型 设自变量为x,因变量为y,两个变量的n对观测值为(x1, y1),
(x2, y2),..., (xn, yn)。可用直线函数关系来描述变量x, y之间的 关系:
Y=0 + 1 x + 其中0、1为待定系数,随机误差~N(0,2)。
设(x1, Y1), (x2, Y2), ..., (xn, Yn)是取自总体(x,Y)的一组样本, 而(x1, y1), (x2, y2), ..., (xn, yn)是该样本的一组观察值,则:
r的取值范围为[-1,1],r数值的大小表示两个变量相关 的程度。
r=±1时两个变量完全相关,r=0时两个变量完全无关 或零相关。
例题2:测定某品种大豆籽粒内的脂肪含量(x,%)和蛋白质含量 (y,%)的关系,样本容量n=42,结果列于下表。试分析脂肪 含量与蛋白质含量间的关系。
xyxyxyxyxyxy 15.4 44.0 19.4 42.0 21.9 37.2 17.8 40.7 20.4 39.1 24.2 37.6 17.5 38.2 20.4 37.4 23.8 36.6 19.1 39.8 21.8 39.4 17.4 42.2 18.9 41.8 21.6 35.9 17.0 42.8 20.4 40.0 23.4 33.2 18.9 39.9 20.0 38.9 22.9 36.0 18.6 42.1 21.5 37.8 16.8 43.1 20.8 37.1 21.0 38.4 16.1 42.1 19.7 37.9 22.9 34.7 18.4 40.9 22.3 38.6 22.8 38.1 18.1 40.0 20.7 36.2 15.9 42.6 19.7 38.9 24.6 34.8 15.8 44.6 19.6 40.2 22.0 36.7 17.9 39.8 20.7 35.8 19.9 39.8
根据最小二乘法,有
Q 2
b0
( y b0 bx) 0
解方程组得
Q b
2( y
b0
bx)x
0
b
xy
( x)( x2 ( x)2
y) / /n
n
(x x)( y (x x)2
y)
百度文库
SPxy SSx
b0 y bx
SS x2 ( x)2 / n SP xy ( x)( y) / n
解:1)直线回归方程的建立 基础数据计算
x x / n 4.2 / 7 0.6 y y / n 3.669 / 7 0.5241
SSx x2 x2 n 3.64 4.22 7 1.12
SSy y2 y2 n 2.7370 3.6692 7 0.81391
y
y
一元相关 多元相关
y
线性相关 曲线相关
y
正相关
x
负相关
x
x
曲线相关
不相关
x
➢ 回归分析和相关分析的联系和区别 联系:1)理论和方法具有一致性;2)无相关就无回
归,相关程度越高,回归越好;3)相关系数和回归系数方 向一致,可以互相推算。
区别:1)相关分析中, x与y对等,回归分析中, x与y 要确定自变量和因变量;2)相关分析中x , y均为随机变量, 回归分析中,只有y为随机变量;3)相关分析测定相关程度 和方向,回归分析用回归模型进行预测和控制。
回归估计值ŷ与实际观测值yi之差
yi – ŷ = yi – (b0 + bxi) 表示yi与回归直线ŷ = b0 + bx的偏离度。
要求 ŷ = b0 + bx 最好地反映x, y间的数量关系,必须
使 Q = Σ(y- ŷ)2 最小,由于:
Q = Σ(y - ŷ)2 = Σ(y - b0 - bx)2
1)确定性关系,又称函数关系,可以用精确性数学公 式表示;
2)非确定性关系:一个变量发生改变,另一个变量也 会跟着发生改变,但变量之间不存在完全的函数关系,在统 计学上也称协变关系。协变关系分为两类:
① 因果关系 一个变量的变化受另一个或几个变量的影响,如施肥量 与产量。 用回归分析的方法(一元回归与多元回归,线性回归与 非线性回归)研究,也可以用相关分析的方法研究。
2.相关系数的假设检验
1)F 检验
F
r2 y y 2 1 r2 y y 2
1
n
2
(n 2)r2 1 r2
F统计量服从df1=1, df1=n-2 的F分布。 2)t检验
r t
sr
sr (1 r2 ) / (n 2)
服从自由度 df=n-2 的t分布。
3)查表法 将不同自由度时的相关系数临界值求出并制表供查询, 以便简化相关系数检验过。 查表时,自由度df=n-2,变量个数M=2,用R(r)临界值 比较推断相关系数的显著性。 上例, df=n-2 =40,查附录G,
x
xy
3)回归直线
回归直线在平面坐标系中的位置取决于b0,b的值。
y b>0
b0>0 b0=0
0
b0<0
b=0
b<0 x
4)回归方程的基本性质
n
a.残差平方和 Q ( y yˆ)2最小
1
b.残差和为零: (y yˆ) 0
c.回归直线通过中心点 (x , y )
d.回归方程可写作: yˆ y b(x x)
F0.01 16.26
F 1209.689 F0.01 16.258 ,P 0.01
回归方程
具有极显著的统计学意义,
蛋白质浓度与吸光度之间存在着极显著的直线关系。
2)回归系数的t检验
MS
s
e
b
SS
x
对直线回归而言,t 检验和F 检验是等价的:F=t2
统计量t服从df=n-2的t分布,对于上例数据:
解:
SPxy xy ( x)( y) / n 224.6967 SSx x2 ( x)2 / n 237.8048
SSy y2 ( y)2 / n 292.6583
r SPxy
224.6967
0.8517
SSx SSy 237.8048 292.6583
大豆籽粒内脂肪含量和蛋白质含量的相关系数为-0.8517。
其含义为BSA 浓度每增加1mg/ml,吸光度增加0.8507。
回归直线 yˆ 0.0137 0.8507x
2.直线回归的假设检验 确定变量y与x间是否真正存在线性回归关系。 1)回归方程的F检验 (x,y)
y yˆ yˆ y y y
y
回归数据的总变异 y y 由随机误差 y yˆ 和回归效应 yˆ y 两部分组成。
相关文档
最新文档