第7章 相关与回归分析课后习题解答
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
所以,Yf的置信度为 95%的预测区间为
所以,区间预测为
3.讨论以下几种场合的回归方程:
中回归系数的经济意义和应取的
符号。
(1)Yt为商业利润率;X2t他为人均销售额;X3t为流通费用率; (2)Yt为粮食销售量;X2t为人口数;X3t为人均收入; (3)Yt为工业总产值;X2t为占用的固定资产;X3t为职工人数; (4)Yt为国内生产总值;X2t为工业总产值;X3t为农业总产值。 答:
人均销售额越大,企业利润越高,故此商业利润率越高,从而商业利润率与人均销售额呈正相关关系;
而流通费用率越高,反映商业企业的经营成本越高,其商业利润率就越低。
人口数量越多,对粮食的消费量就越大;人均收入越多,对粮食的购买力就越强,故此这两个变量皆 与粮食销售量呈正相关关系。
固定资产和职工人数是两大生产要素,数量越多,说明生产要素越密集,工业总产值就越高,所以它 们与工业总产值的关系为正相关。
所以,Yf的置信度为 95%的预测区间为:
所以,区间预测为: 2.设销售收入 X 为自变量,销售成本 Y 为因变量。现已根据某百货公司 12 个月的有关资料计算出以 下数据(单位:万元):
利用以上数据,要求: (1)拟合简单线性回归方程,并对方程中回归系数的经济意义作出解释; (2)计算决定系数和回归估计的标准误差;
图 7—13
得到的回归方程为
图 7—14
(2)求平均成本函数: 因为平均成本 yt 与总成本 Yt 的关系为
所以, 将产量从 1 到 2000 取值,代入上式,获得 2000 个平均成本的数据点,描出平均成本函数的图形,见 图 7—15。 由图 7 一 15 可知,平均成本随着产量的增加显示下降,达到一最低值之后,又会随着产量的增加而 提高。
证明: (1)无偏性:
,证明略,参见教材 P173 页,公式 7.29 式的证明。 (2)线性:
令
,则
由此可见, βl 2 是Yt的一个线性函数。它是以kt为权的Yt的一个加权平均,从而 βl 2 是一个线性统计量。
(3)最小方差性:
设
为β2的任意线性无偏估计量。现讨论
的取值情况。
因为
也即作为β2的任意线性无偏估计量,必须满足下列约束条件:
二、选择题
1.变量之间的关系按相关程度分可分为( BCD )。
A.正相关 B.不相关 C.完全相关 D.不完全相关
2.复相关系数的取值区间为( A )。
A.0≤R≤1 B.-1≤R≤1 C.-∞≤R≤1 D.-1≤R≤∞
3.修正自由度的决定系数( ABD )。
A.
2
R
≤
R
2
2
B.有时小于 0 C.0≤ R ≤1
图 7—7
步骤二:为方便后续步骤书写公式,定义某些单元格区域的名称。 首先,定义 F6、F7、F8 的名称:选定 E6:F8 区域,然后执行菜单命令“插入”→“名称”→“指定”, 见图 7—8。
图 7—8 在调出的对话框中选中“最左列”,单击“确定”,见图 7—9。 其次,定义 B2:D23 的名称: 先选定该区域,然后执行菜单命令“插入”→“名称”→“定义”,见图 7 一 10。 调出“定义名称”对话框,输入名称“X”,单击“确定”,见图 7—11。
(注意:由于 t=1,…,n,未必代表总体中全部的随机误差项,故 u ≠0)
样本回归函数为 (7.4)
求平均数,有 (7.5)
(注意,根据假定条件: e =0)
(7.4)-(7.5)式,得 (7.6)
将(7.6)式代入(7.3)式,经整理后可得
平方后再求和:
取上式数学期望:
令
则(7.7)式等于: 教材 P173 页公式 7.30 为
2 由回归估计结果中,可以直接查出回归系数的t值检验值。这里,为帮助读者理解,列出计算步骤。
(3)对β2进行显著水平为 5%的显著性检验; (4)假定明年 1 月销售收入为 800 万元,利用拟合的回归方程预测相应的销售成本,并给出置信度 为 95%的预测区间。
解:
t值远大于临界值 2.228,故拒绝零假设,说明β2在 5%的显著性水平下通过了显著性检验。 (4)Yf=40.3720+0.7863×800=669.41(万元)
因为 代入(7.8)式,得 所以,有 又因为 所以,
又因为
将(7.9)式代入(7.10)式,得
将(7.11)式代人 B,得
(7.7) (7.8)
(7.9) (7.11)
(7.10)
又因为 所以, 将所求得的 A、B、c 数值一起代人(7.7)式,得
所以,
Fra Baidu bibliotek
证毕。
2.试证明最小二乘估计量 βl 2 是标准一元线性回归模型中总体回归系数 βl 2 的最优线性无偏估计量。
图 7—1
1 如果“数据分析命令”没有出现在“工具”菜单,则需要先运行“加载宏”命令,加载“分析工具库”。
图 7—2 在“回归”窗口中确定因变量 Y 值和自变量 X 值的区域后,点击“确定”。见图 7—3。回归结果见图 7—4。
图 7—3
图 7—4
从计算结果可知,拟合的样本回归方程为 (2)由图 7—4 可知,回归估计的标准误差为 638.7076;决定系数为 0.9987。 (3)回归系数的 5%显著性检验。 首先对β1的显著性进行检验2:
图 7—5 的消费” 步骤二:进行回归分析。 选择“工具”→“数据分析”→“回归”,在该窗口中选定自变量和因变量的数据区域,最后点击“确 定”完成操作。 得到回归分析的输出结果见图 7—6。
图 7—6 因此,回归方程为Ct=466.7965+0.4471Yt+0.2640Ct-1 (2)随机误差项的标准差估计值为 S=442.2165 (3)修正自由度的决定系数:Adjusted R Squares=0.9994 (4)各回归系数的 t 统计量为 (5)整个方程的显著性检验: F 统计量为 16484.6,远远大于临界值 3.52,说明整个方程非常显著。 (6)预测: 点估计值为 使用 Excel 进行区问估计步骤如下: 步骤一:构造工作表,见图 7—7。
在 F5 中输入公式“=MMULT(MMULT(Xf,MINVERSE(MMULT(TRANsPC)SE(X),X))), TRANSPOSE(Xf))”
然后按“Ctr1+Shift 十 Enter”组合键即可。 再计算Sef在F8 中输入公式“=442.22*SQRT(1+F5)”。442.22 为回归估计标准差。 步骤六:计算置信区间上下限。 在 F9、F10 中分别输入公式“=Cf—t 临界值*Sef”和“=Cf+t 临界值*Sef”。结果见图 7—12。
四、证明题
1.试证明教材P171 的(7.21)式给出的S2是标准一元线性回归模型中随机误差项的方差σ2的无偏估计 量。
证明:总体回归函数为
Yt = β1 + β2 X t + ut (7.1)
求样本平均数,有
Y = β1 + β2 X + u (7.2)
(7.1)-(7.2)式,得
( ) ( ) Yt − Y = β2 Xt − X + ut − u (7.3)
因为国内生产总值包括三次产业,所以工业总产值、农业总产值和全部的国内生产总值为正相关关系, 同时即便某些特殊地区没有工业和农业,仍然有国内生产总值,所以β1>0。
4.利用本章计算题 1 图 7—1 中给出的我国 GDP 和消费的资料,要求: (1)拟合以下形式的消费函数:
式中,Ct是t期消费;Ct-1是t-1 期的消费,Yt是t期的GDP; (2)计算随机误差项的方差估计值; (3)计算修正自由度的 t 统计量; (4)计算各回归系数的 t 统计量; (5)对整个回归方程进行显著性检验; (6)假设 2001 年的国内生产总值为 95350 亿元,试利用拟合的消费函数预测当年的消费总额,并给 出置信度为 95%的预测区间。 解:(1)回归分析的 Excel 操作步骤如下: 步骤一:首先对原 Excel 数据表作适当修改,添加“滞后一期的消费”数据见图 7—5。
又因为
,所以
分析此式:由于第二项 的处理使之最小化。
很明显,若令
是常数,所以
只能通过第一项
可以取最小值,即
所以, βl 2 是标准一元线性回归模型中总体回归系数β2的最优线性无偏估计量。
五、计算题
1.试根据教材 P205 页表 7—8 的资料,要求:
(1)以消费为因变量,国内生产总值为自变量,拟合线性回归方程; (2)计算回归估计的标准误差和决定系数; (3)对回归系数进行显著水平为 5%的显著性检验; (4)假定 2001 年我国的国内生产总值为 104880 亿元,利用拟合的回归方程预测该年可能达到的消 费额,给出置信度为 95%的预测区间。 解:(1)设消费为Y,国内生产总值为X,则线性回归方程为:Y=β1+β2X。 步骤一:构造 Excel 工作表,见图 7—1。 步骤二:回归分析1。 选择“工具”→“数据分析”,再在“数据分析”菜单中选中“回归”,见图 7—2。
构造 t 统计量: 查t分布表可知:显著性水平为 5%,自由度为 21 的双测t检验的临界值为 2.080,t值小于临界值,故 无法拒绝零假设,说明β1在 5%的显著性水平下没有通过检验。 同理,可对β2进行显著性检验: t值远大于临界值 2.080,故拒绝零假设,说明β2在 5%的显著性水平下通过了显著性检验。 (4)预测: 点估计:Xf=104880 亿元,代入回归方程,Yf=62024.16 亿元。 置信度 95%的预测区间为: 计算Sef:
第七章 相关与回归分析
一、判断题
1.产品的单位成本随着产量增加而下降,这种现象属于函数关系。( × ) 答:错。应是相关关系。单位成本与产量间不存在确定的数值对应关系。 2.相关系数为 0 表明两个变量之间不存在任何关系。( × ) 答:错。相关系数为零,只表明两个变量之间不存在线性关系,并不意味着两者间不存在其他类型的 关系。 3.单纯依靠相关与回归分析,无法判断事物之间存在的因果关系。( √ ) 答:对。因果关系的判断还有赖于实质性科学的理论分析。 4.圆的直径越大,其周长也越大,两者之间的关系属于正相关关系。( × ) 答:错。两者是精确的函数关系。 5.总体回归函数中的回归系数是常数,样本回归函数中的回归系数的估计量是随机变量。( √ ) 答:对。 6.当抽取的样本不同时,对同一总体回归模型估计的结果也有所不同。( √ ) 答:对。因为估计量属于随机变量,抽取的样本不同,具体的观察值也不同,尽管使用的公式相同, 估计的结果仍然不一样。
图 7—10
图 7—11
图 7—12 最终得出Cf的区间预测结果为 5.见教材 P207 页表 7—9 的资料。要求: (1)试拟合以下总成本函数: (2)根据总成本函数推导出平均成本函数,并描出平均成本函数的图形; (3)试根据以上结果推算总产量为 1550 时的单位产品平均成本。 解:(1)构造 Excel 数据表(见图 7 一 13),并以前面所述的同样步骤进行回归分析,得到相应的回 归分析结果,见图 7—14。
D.比R2更适合作为衡量回归方程拟合程度的指标
4.下列各项中,与回归预测误差的大小有关的是( ABCD )。
A.样本容量 B.自变量预测值与自变量样本平均数的离差
C.自变量预测误差 D.随机误差项的方差项的方差
三、问答题
请举一实例说明什么是单相关和偏相关,以及它们之间的差别。
答:例如夏季冷饮店冰激凌与汽水的消费量,简单地就两者之间的相关关系进行考察,就是一种单相 关,考察的结果很可能存在正相关关系,即冰激凌消费越多,汽水消费也越多。然而,如果我们仔细观察, 可以发现一般来说,消费者会在两者中选择一种消费,也就是两者之问事实上应该是负相关。两者之间的 单相关关系出现正相关是因为背后还有天气等因素的影响,天气越热,两种冷饮的消费量都越多。如果设 法将天气等因素固定不变,单纯考察冰激凌与汽水的消费量,则可能出现负相关关系。像这种假定其他影 响因素不变专门考察其中两个因素之间的关系就成为偏相关。
图 7—9 最后,采用同样方法,将 B26:D26 定义为“Xf”,将 F2:F4 定义为“B”。 步骤三:计算点预测值Cf。 在 F6 中输入公式“=MMULT(Xf,B)”,按回车键即可。 步骤四:计算 t 临界值。 在 F7 中输入公式“=TINV(1-0.95,22-3)”,按回车键即可。 步骤五:计算预测估计误差的估计值Sef。