简述一元线性回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归方程的精度与置信区间(简要介绍)
真实斜率的置信区间 回归线的置信区间 真实截距的置信区间
b ± tα , f
s
σ xx
1 x0 − x + n σ xx
a + bx0 ± tα , f
(
)
2
单次测定的置信区间
a ± tα , f
∑x
i =1
n
2
i
nσ xx
对于y0进行p次重复 测量 相应 的置信区间为 当x=x0时,y0值精度最好,x离 x平均值越远,精度越差 同理,对x0进行p次重复测量 相应的置信区间为
若原料的含水量为16.5%,试问加工后产品的含水率预计在什么范围?
先求得线性方程 y=b + ax 再求出相关系数R2 , 并判断其是否有意义 然后用以下公式求出产品含水率y的精确度范围,其中x0取16.5%
a + bx0 ± tα , f
1 1 x0 − x + + p n σ xx
(
)
2
如果要将加工后的产品含水率控制在17.0%~18.0% 之间,试问原料中的含水率应控制在何范围?
试由这些数据确定土壤中与作物中某痕量元素含量之间是否存在相关关系。
在本例中,将土壤中某痕量元素含量作为x,作物中某痕量元素含量作为y 。将有关的数据带入公式中,求得
b=
σ xy 2.727 = = 0.0048 σ xx 568.725
a = 0.174 − 0.0048 × 24.95 = 0.054
Q = ∑ yi − y
i =1
n
(
)
2
y
(xi , yi) (yi-Yi)
(Yi-y)
Y=b + ax
x 0
∵ Qe = ∑ ( yi − Yi )
i =1
n
2
并令 Q = ∑ yi − y
i =1
n
(
)
2
Qg = ∑ Yi − y
i =1
n
(
)
2
∴ Q = Qe + Qg
,பைடு நூலகம்
即总的偏差平方和Q可分解为Qg和Qe两部分,其中Qe反映了除x对 y的线性影响之外其它一切因素与实验误差以及x对y的非线性影响, 称之为殘差平方和。Qg表示由于x在x平均值周围变化而引起的y 对y平均值的偏差平方和。很显然,当全部实验点落在回归线上, 此时Qe=0,Q=Qg;如果y与x不存在线性关系,则Qg=0, Q=Qe。由此可见,Qg直接反映了因变量y与自变量x之间的相关 程度。
例题
某工厂生产一种产品,需要对产品的含水率进行控制。已知生产产品原料中的含水率 对产品的含水率有重要影响,为了保证产品质量,该厂化验人员对原料与产品的含水率 (质量百分)进行了测定,得到了如下一组数据:
实验号
1
2
3
4
5
6
7
8
9
10
原料含水率x 16.7% 18.2% 18.2% 17.9% 17.4% 16.6% 17.2% 17.7% 15.7% 17.1% 产品含水率y 17.1% 18.1% 18.6% 18.5% 18.2% 17.1% 18.0% 18.2% 16.0% 17.5%
题解:将有关的数据代入公式,计算建立的标准曲线为
b= 1 n n ∑ xy − n ∑ x∑ y i =1 i =1 i =1 1 n ∑ x − n ∑ x i =1 i =1
n 2 2 n
=
0.00275 = 41.667 0.000066
a = y − bx = 0.290 − 41.667 × 0.006 = 0.040
参考文献: 参考文献:
<<分析测试数据的统计处理方法>> <<分析测试数据的统计处理方法>> 邓勃 清华大学出版社 分析测试数据的统计处理方法 <<大学物理实验>> <<大学物理实验>> 厦门大学物理基础实验中心 大学物理实验 <<基础化学实验>> <<基础化学实验>> 基础化学实验编写组 基础化学实验 <<定量化学分析简明教程>> <<定量化学分析简明教程>> 北京大学出版社 定量化学分析简明教程
0.5
0.4
A
0.3
,
0.2
0.1
0.002
0.004
0.006
0.008
0.010
0.012
铜氨离子浓度c/10-3mol/L
线性相关性检验与相关系数
用最小二乘法拟合回归方程与回归线只表明各实验点与所拟合的回归 方程和回归线的变差平方和最小,并没有证明所拟合回归方程肯定有意 义。至于所拟合方程与回归线是否有意义,尚需进行统计检验。 由于除x之外其它因素和实验误差的影响,回归系数b与常数a的波动, 各实验点不一定都落在回归线上。各实验点偏离平均值的程度,可用它 们总的偏差平方和Q来表征。
a + bx0 ± tα , f
1 1 x0 − x + + p n σ xx
(
)
2
x0 ± tα , f
s b
y0 − y 1 1 + + 2 p n b σ xx
(
)
2
Q − Qg σ yy − b 2σ xx 2 = 求得 对于所涉及的s可通过公式s = n−2 n−2
既然Qg直接反映了因变量y与自变量x之间的相关程度,这种相关 程度可用一个称之为相关系数的量r来度量。对于变量y与x的一组 观测值来说,我们把
称为变量y与x之间的样本相关系数 相关系数 样本相关系数(相关系数 样本相关系数 相关系数)
|r|≤1 我们通常用r2来表示 当r2越接近于1,相关程度越大; 当r2越接近于0,相关程度越小. 我们可以通求相关系数的临界值 rα , f 检验r值是 否有意义 如果r> rα , f ,则说明所建立的回归方程有意义; 反之则没有意义。
当xi给定, yi是确定的,所以要使离差为最小,只是a,b两参量的值 是 要讨论的,于是可将其看为二元函数 求其最小值问题
二元函数极值求法
即
是关于未知量a,b的二元一次方程组,用加减消元法,易得 由(1)式
代入(2)式
进而求得
总结:算出了a,b,此时y=f(x)的回归方程为 。
例题
例题:用分光光度法测定氨溶液中的铜氨离子,以水参比,在600nm测定 铜氨显色溶液的吸光度A,得到结果如下: c/mol/L 0.002 0.003 0.005 0.008 0.012 A 0.12 0.14 0.27 0.40 0.52 试根据所得到的数据建立吸光度A与铜氨离子浓度c之间的回归方程。
利用回归方程进行预报与控制
预报是根据回归方程由自变量x来预估因变量y的取值范围, 控制则是希望因变量y值以一定概率落在某一指定区间(y’, y’’)时, 自变量x应控制的取值范围。预报与控制对实际工作具有重要意义 内建立回归方程的目的之一就是为了进行预报与控制。在前面讨 论了回归方程的精度与置信区间,根据回归方程的精度与置信区 间就可以进行预报与控制。
例题
例题 为了研究某一地区土壤与农作物中某痕量元素含量之间的相关关系,取土 样与生长在该土壤中的作物进行分析,测定该痕量元素的含量(µg)如下: 试样号 1 2 3 4 5 6 7 8 9 10 x(土样中) y(作物中) 0.13
33.5 27.0 36.0 32.0 19.5 11.0 29.0 21.5 23.0 17.0 0.24 0.15 0.23 0.19 0.16 0.11 0.20 0.16 0.17
谢 谢 观 赏
回归方程为 相关系数为
y = 0.054 + 0.0048 x
r=
σ xy σ xxσ yy
=
2.727 = 0.920 568.725 × 0.01544
查相关系数临界值表,得
γ 0.05,8 = 0.632, γ > γ 0.05,8
这说明所建立的回归方程式有意义的,作物中某痕量元素含量与土壤中该痕 量元素含量与土壤中该痕量元素含量之间确实存在相关关系。
建立的标准曲线为 A = 0.040 + 41.667c
B
0.6
Data: Data1_B Model: LineMod Equation: y = a*(x-b) Weighting: y No weighting Chi^2/DoF = 0.00074 R^2 = 0.98102 a b 41.66667 -0.00096 ? .34594 ? .00063
简 述 一 元 线 性 回 归
黄 延 俊 03088019
一元线性回归分析中的几点疑问
一元线性回归方程的建立 一元线性中相关系数R2的求法 回归方程的精度与置信区间 利用回归方程进行预报与控制
一元线性回归方程的建立(a, b值的求取)
两变量给出后,相关点可 以确定在相关图上可是散乱分布的, 拟合曲线y=ax+b 未必过每个(xi, yi) 点,但它是最优直线,所谓最优, 即全部相关点(x, y)与其对应的直 线上的点 应该离差为最小,由变异 指标的认识,可用对应点差的平方 和来刻画离差绝对量令