统计学案例——相关回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《统计学》案例——相关回归分析
案例一质量控制中的简单线性回归分析
1、问题的提出
某石油炼厂的催化装置通过高温及催化剂对原料的作用进行反应,生成各种产品,其中液化气用途广泛、易于储存运输,所以,提高液化气收率,降低不凝气体产量,成为提高经济效益的关键问题。
通过因果分析图和排列图的观察,发现回流温度是影响液化气收率的主要原因,因此,只有确定二者之间的相关关系,寻找适当的回流温度,才能达到提高液化气收率的目的。经认真分析仔细研究,确定了在保持原有轻油收率的前提下,液化气收率比去年同期增长1个百分点的目标,即达到12.24%的液化气收率。
2、数据的收集
目标值确定之后,我们收集了某年某季度的回流温度与液化气收率的30组数据(如上表),进行简单直线回归分析。
3.方法的确立
设线性回归模型为εββ++=x y 10,估计回归方程为x b b y
10ˆ+= 将数据输入计算机,输出散点图可见,液化气收率y 具有随着回流温度x 的提高而降低的趋势。因此,建立描述y 与x 之间关系的模型时,首选直线型
是合理的。
从线性回归的计算结果,可以知道回归系数的最小二乘估计值
b 0=21.263和b 1=-0.229,于是最小二乘直线为
x y
229.0263.21ˆ-= 这就表明,回流温度每增加1℃,估计液化气收率将减少0.229%。
(3)残差分析
为了判别简单线性模型的假定是否有效,作出残差图,进行残差分析。
从图中可以看到,残差基本在-0.5—+0.5左右,说明建立回归模型所依赖的假定是恰当的。误差项的估计值s=0.388。 (4)回归模型检验 a.显著性检验
在90%的显著水平下,进行t 检验,拒绝域为︱t ︱=︱b 1/ s b1︱>t α
/2=1.7011。
由输出数据可以找到b 1和s b1,t=b 1/ s b1=-0.229/0.022=-10.313,于是拒绝原假设,说明液化气收率与回流温度之间存在线性关系。 b.拟合度检验
判定系数r 2=0.792。这意味着液化气收率的样本变差大约有80%可以由它与回流温度的线性关系来解释。
2r r ==-0.89
这样,r 值为y 与x 之间存在中高度的负线性关系提供了进一步的证据。 由于n ≥30,我们近似确定y 的90%置信区间为:
s z y
)(ˆ2
α±=21.263-0.229x ±1.282×0.388 = 21.263-0.229x ± 0.497
4、结果分析
由回归直线图可知,要保持液化气收率在12.24%以上,回流温度必须控制在34℃以下。因为装置工艺卡片要求回流温度在33—40℃之间,为确保液化气质量合格,可以将回流温度控制在33—34℃之间。为此,应当采取各项有效措施,改善外部操作环境,将液化气收率控制在目标值范围内。
案例二:轿车生产与GDP等关系研究
中国的轿车生产是否与GDP、城镇居民人均可支配收入、城镇居民家庭恩格尔系数、私人载客汽车拥有量、公路里程等都有密切关系?如果有关系,它们之间是种什么关系?关系强度如何?(数据见《中国统计年鉴》)
(1)分析轿车生产量与私人载客汽车拥有量之间的关系:
首先,求的因变量轿车生产量y和自变量私人载客汽车拥有量x1的相关系数r=0.992018,说明两者间存在一定的线性相关关系且正相关程度很强。
然后以轿车生产量为因变量y,私人载客汽车拥有量x1为自变量进行一元线性回归分析,结果如下:
①由回归统计中的R=0.984101看出,所建立的回归模型对样本观测值的
拟合程度很好;
②估计出的样本回归函数为:ŷ=1.775687+0.206783x1,说明私人载客汽车拥有量每增加1万辆,轿车生产量增加2067.83辆;
③由上表中â和βˆ的p值分别是0.709481543和6.60805E-15,显然â的p值大于显著性水平α=0.05,不能拒绝原假设α=0,而βˆ的p值远小于显著性水平α=0.05,拒绝原假设β=0,说明私人载客汽车拥有量对轿车生产量有显著影响。
(2)分析轿车生产量与城镇居民家庭恩格尔系数之间的关系:
首先,求的因变量轿车生产量y和自变量城镇居民家庭恩格尔系数x2的相关系数r=-0.77499,说明两者间存在一定的线性相关关系但负相关程度一般。
然后以轿车生产量为因变量y,城镇居民家庭恩格尔系数x2为自变量进行一元线性回归分析,结果如下:
由回归统计中的R=0.600608看出,所建立的回归模型对样本观测值的拟合程度一般,综合其相关系数值可知此二者关系不太符合所建立的线性模型,说明二者间没有密切的线性相关关系。
(3)分析轿车生产量与公路里程之间的关系:
首先,求的因变量轿车生产量y和自变量公路里程x3的相关系数r=0.941214,说明两者间存在一定的线性相关关系且正相关程度较强。
然后以轿车生产量为因变量y,公路里程x3为自变量进行一元线性回归分析,结果如下:
①由回归统计中的R=0.885883看出,所建立的回归模型对样本观测值的拟合程度较好;②估计出的样本回归函数为:ŷ=-125.156+1.403022x3,说明公路里程每增加1万公里,轿车生产量增加1.403022万辆;
③由上表中â和βˆ的p值分别是5.64E-05和1.82E-08,显然â和βˆ的p 值均远小于显著性水平α=0.05,拒绝原假设α=0、β=0,但由于β对两者的影响更为显著,所以可以说明公路里程对轿车生产量有显著影响。
(4)分析轿车生产量与GDP之间的关系:
首先,求的因变量轿车生产量y和自变量GDP x4的相关系数r=0.939995,说明两者间存在一定的线性相关关系且正相关程度较强。
然后以轿车生产量为因变量y,GDP x4为自变量进行一元线性回归分析,结果如下: