统计学案例——相关回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《统计学》案例——相关回归分析

案例一质量控制中的简单线性回归分析

1、问题的提出

某石油炼厂的催化装置通过高温及催化剂对原料的作用进行反应,生成各种产品,其中液化气用途广泛、易于储存运输,所以,提高液化气收率,降低不凝气体产量,成为提高经济效益的关键问题。

通过因果分析图和排列图的观察,发现回流温度是影响液化气收率的主要原因,因此,只有确定二者之间的相关关系,寻找适当的回流温度,才能达到提高液化气收率的目的。经认真分析仔细研究,确定了在保持原有轻油收率的前提下,液化气收率比去年同期增长1个百分点的目标,即达到12.24%的液化气收率。

2、数据的收集

目标值确定之后,我们收集了某年某季度的回流温度与液化气收率的30组数据(如上表),进行简单直线回归分析。

3.方法的确立

设线性回归模型为εββ++=x y 10,估计回归方程为x b b y

10ˆ+= 将数据输入计算机,输出散点图可见,液化气收率y 具有随着回流温度x 的提高而降低的趋势。因此,建立描述y 与x 之间关系的模型时,首选直线型

是合理的。

从线性回归的计算结果,可以知道回归系数的最小二乘估计值

b 0=21.263和b 1=-0.229,于是最小二乘直线为

x y

229.0263.21ˆ-= 这就表明,回流温度每增加1℃,估计液化气收率将减少0.229%。

(3)残差分析

为了判别简单线性模型的假定是否有效,作出残差图,进行残差分析。

从图中可以看到,残差基本在-0.5—+0.5左右,说明建立回归模型所依赖的假定是恰当的。误差项的估计值s=0.388。 (4)回归模型检验 a.显著性检验

在90%的显著水平下,进行t 检验,拒绝域为︱t ︱=︱b 1/ s b1︱>t α

/2=1.7011。

由输出数据可以找到b 1和s b1,t=b 1/ s b1=-0.229/0.022=-10.313,于是拒绝原假设,说明液化气收率与回流温度之间存在线性关系。 b.拟合度检验

判定系数r 2=0.792。这意味着液化气收率的样本变差大约有80%可以由它与回流温度的线性关系来解释。

2r r ==-0.89

这样,r 值为y 与x 之间存在中高度的负线性关系提供了进一步的证据。 由于n ≥30,我们近似确定y 的90%置信区间为:

s z y

)(ˆ2

α±=21.263-0.229x ±1.282×0.388 = 21.263-0.229x ± 0.497

4、结果分析

由回归直线图可知,要保持液化气收率在12.24%以上,回流温度必须控制在34℃以下。因为装置工艺卡片要求回流温度在33—40℃之间,为确保液化气质量合格,可以将回流温度控制在33—34℃之间。为此,应当采取各项有效措施,改善外部操作环境,将液化气收率控制在目标值范围内。

案例二:轿车生产与GDP等关系研究

中国的轿车生产是否与GDP、城镇居民人均可支配收入、城镇居民家庭恩格尔系数、私人载客汽车拥有量、公路里程等都有密切关系?如果有关系,它们之间是种什么关系?关系强度如何?(数据见《中国统计年鉴》)

(1)分析轿车生产量与私人载客汽车拥有量之间的关系:

首先,求的因变量轿车生产量y和自变量私人载客汽车拥有量x1的相关系数r=0.992018,说明两者间存在一定的线性相关关系且正相关程度很强。

然后以轿车生产量为因变量y,私人载客汽车拥有量x1为自变量进行一元线性回归分析,结果如下:

①由回归统计中的R=0.984101看出,所建立的回归模型对样本观测值的

拟合程度很好;

②估计出的样本回归函数为:ŷ=1.775687+0.206783x1,说明私人载客汽车拥有量每增加1万辆,轿车生产量增加2067.83辆;

③由上表中â和βˆ的p值分别是0.709481543和6.60805E-15,显然â的p值大于显著性水平α=0.05,不能拒绝原假设α=0,而βˆ的p值远小于显著性水平α=0.05,拒绝原假设β=0,说明私人载客汽车拥有量对轿车生产量有显著影响。

(2)分析轿车生产量与城镇居民家庭恩格尔系数之间的关系:

首先,求的因变量轿车生产量y和自变量城镇居民家庭恩格尔系数x2的相关系数r=-0.77499,说明两者间存在一定的线性相关关系但负相关程度一般。

然后以轿车生产量为因变量y,城镇居民家庭恩格尔系数x2为自变量进行一元线性回归分析,结果如下:

由回归统计中的R=0.600608看出,所建立的回归模型对样本观测值的拟合程度一般,综合其相关系数值可知此二者关系不太符合所建立的线性模型,说明二者间没有密切的线性相关关系。

(3)分析轿车生产量与公路里程之间的关系:

首先,求的因变量轿车生产量y和自变量公路里程x3的相关系数r=0.941214,说明两者间存在一定的线性相关关系且正相关程度较强。

然后以轿车生产量为因变量y,公路里程x3为自变量进行一元线性回归分析,结果如下:

①由回归统计中的R=0.885883看出,所建立的回归模型对样本观测值的拟合程度较好;②估计出的样本回归函数为:ŷ=-125.156+1.403022x3,说明公路里程每增加1万公里,轿车生产量增加1.403022万辆;

③由上表中â和βˆ的p值分别是5.64E-05和1.82E-08,显然â和βˆ的p 值均远小于显著性水平α=0.05,拒绝原假设α=0、β=0,但由于β对两者的影响更为显著,所以可以说明公路里程对轿车生产量有显著影响。

(4)分析轿车生产量与GDP之间的关系:

首先,求的因变量轿车生产量y和自变量GDP x4的相关系数r=0.939995,说明两者间存在一定的线性相关关系且正相关程度较强。

然后以轿车生产量为因变量y,GDP x4为自变量进行一元线性回归分析,结果如下:

相关文档
最新文档