回归分析作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
“回归分析”作业
注:需要使用软件的地方请都使用R!
Part1 一元线性回归
1、教材p54 习题2.15
2.15 一家保险公司十分关心其总公司营业部加班的制度,决定认真调查一下现状。经过十周时间,收集了每周加班工作时间的数据和签发的新保单数目,x为每周新签发的保单数目,y为每周加班工作时间(小时)。
(1)画散点图。
(2)x与y之间是否大致呈线性关系?
(3)用最小二乘法求出回归方程。
(4)求回归标准误差ˆ 。
(5)给出回归系数的置信度为95%的区间估计。
(6)计算决定系数。
(7)对回归方程作方差分析。
(8)作回归系数的显著性检验。
(9)作相关系数的显著性检验。
(10)该公司预计下一周签发新保单X0=1000张,需要的加班时间是多少? (11)给出Y0的置信度为95%的精确预测区间和近似预测区间。
(12)给出E(Y0)的置信度为95%的区间估计。
2、有一台秤,其测量结果带有随机误差。用它分别测量A和B两个球的重量,测量结果分别为2磅和3磅;再把A和B同时放到这个秤上,测量结果为4磅。请采用回归模型,估计出A和B的重量。
3、对于一元线性回归模型:01y x ββε=++,请阐述如何检验下列假设是否成立:
(1)02β=; (2)12β=.
Part2 多元线性回归 1、教材p87 习题3.11
研究货运总量y (万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。数据见表3.9
表3.9
(1)计算出y ,x1,x2,x3的相关系数矩阵。 (2)求出y 与x1,x2,x3的三元线性回归方程。 (3)对所求的方程作拟合优度检验。 (4)对回归方程作显著性检验。 (5)对每一个回归系数作显著性检验。
(6)如果有的回归系数没有通过显著性检验,将其剔除,重新建立回归方程,并作回归方程的显著性检验和回归系数的显著性检验。 (7)求出每一个回归系数的置信水平为95% 置信区间。 (8)求标准化回归方程。
(9)求当x01=75,x02=42,x03=3.1时的y0的预测值,并请给出置信水平为95%的预测区间。
(10)结合回归方程对问题做一些基本分析。
2、思考:理论上,残差之间并不独立,为何可用来检验独立性?请计算、检验第1题中残差的相关性/独立性。
Part3 回归诊断
1、请对习题2.15中的回归模型进行诊断
2、教材p127 习题4.9
表4.11是用电高峰每小时用电量y 与每月总用电量x 的数据。 (1)用普通最小二乘法建立y 与x 的回归方程,并画出残差散点图。 (2)诊断该问题是否存在异方差。
(3)如果存在异方差,用幂指数型的权函数建立加权最小二乘回归方程。 (4)用方差稳定变换'y 消除异方差。
表4.11
3、教材p128 习题4.13
表4.13中是某软件公司月销售额数据,其中,x为总公司的月销售额(万元),y 为某分公司的月销售额(万元)。
(1)用普通最小二乘法建立y与x的回归方程。
(2)用残差图及DW检验诊断序列的相关性。
(3)用迭代法处理序列相关,并建立回归方程。
(4)用一阶差分的方法处理数据,建立回归方程。
(5)比较普通最小二乘法所得的回归方程和迭代法、一阶差分法所建立回归方程的优良性。
表4.12
4、教材p129 习题4.16
对习题3.11中的数据做异常值检验。
5、教材p124中最后一段讲“只是使用这种方法时,变换后数据的回归方程中可能不含有回归常数项,给回归的拟合优度检验带来麻烦。”请回答:为何不含有常数项?为何会给拟合优度检验带来麻烦?
6、为了解决回归模型假定不成立的各项问题,我们常会采取对y 做变换的方法予以解决,譬如,因变量取为ln(y)。请问:
(1)因变量取为ln(y)后的回归模型是什么形式?应如何解释?
(2)思考:如果希望回归模型形式为011ln(())E y x ββ=+,请描述你打算如何求解模型参数。
7、完成下列表格:
Part4 线性模型选择与正则化
本部分所有习题均使用教材p150例5.6的数据:
1、以AIC为模型选择标准,请分别采用前进法、后退法、逐步回归法建立模型。
2、若希望建立一个只含有3个自变量的模型,请分别以调整复决定系数和AIC 为模型选择标准,分别建立前进法、后退法、逐步回归法下的模型,并比较这些模型的差异。
3、教材p170 习题6.4
4、分析数据的多重共线性,并根据多重共线性剔除变量,将所得结果与逐步回归所得的模型结果进行比较。
5、采用这里的数据,按教材p186 习题7.7的题干(1)-(6)进行分析。(调节系数根据CV来确定)
6、采用Lasso方法,建立回归模型。(调节系数根据CV来确定)
7、建立主成分回归模型与偏最小二乘回归。(成分个数根据CV来确定)
8、采用留一交叉验证方法,比较上述所建立的逐步回归、岭回归、Lasso法、主成分回归模型与偏最小二乘回归的优劣。
Part5 含定性变量的回归模型
1、教材p262 习题10.2
2、教材p263 习题10.5 (增加:对模型进行解释)
表10.11
3、教材p264 习题10.8(数据见“data”文件夹中的cereal.sav)
4、教材p266 习题10.11
Part6 非线性模型
1、教材p233 习题9.5
2、采用教材p221例9.5的数据(见下表),进行如下分析:
(1)采用龚珀兹模型形式,建立非线性模型
(2)建立多项式模型
(3)建立局部回归模型(包括所有讲过的局部回归模型方法)
(4)请依据留一交叉验证方法,评价上述模型优劣
Part7 稳健回归
采用faithful.txt数据,用所学的方法建立稳健回归模型,请依据留一交叉验证方法评价这些稳健回归模型与普通最小二乘回归模型的优劣。
Part8分位数回归
采用faithful.txt数据,用所学的方法建立稳健回归模型,并解释模型结果。Part9协整