数据处理、描述性统计、多元回归分析、回归诊断
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、数据描述及数据处理
因变量:年度票房
因电影票房收入差距过大,为尽量消除异方差的影响,对因变量y做取10为底的对数处理
自变量:
1、档期:0,1变量,分类:贺岁档,暑期档,黄金周档,平日档。设定虚拟变量,将对应类型赋值为1,不是则为0。设定贺岁档,暑期档,黄金周档这3个虚拟变量
2、技术效果:0,1变量,分类:3D,IMAX,2D。设定虚拟变量,将对应类型赋值为1,不是则为0。设定3D,IMAX这2个虚拟变量
3、电影类型:0,1变量,分类:动作片、爱情片、喜剧片、科幻片、惊悚片、动画片,其他片。设定虚拟变量,将对应类型赋值为1,不是则为0。设定动作片、爱情片、喜剧片、科幻片、惊悚片、动画片这6个虚拟变量
4、电影评分:0-10分
5、CPI:2011年~2016年各年的城镇居民人均可支配收入
6、CPI增幅
7、电影产地:0,1变量,国内(包括港澳台地区)取1,其他取0
二、描述性统计
使用条形图、直方图、箱线图等对数据进行表示
二、多元线性回归分析
1、最小二乘估计(OLS)
并求出R方,复相关系数R,得出回归方程对原有数据的拟合程度
并进行回归方程显著性检验F检验
并进行回归系数显著性检验T检验
2、多重共线性检验
画出相关系数矩阵并对其进行显著性检验
3、逐步回归(挑选出对因变量有显著影响的自变量)变量选择,避免多重共线性,
注意引入自变量的显著性水平小于剔除自变量的显著性水平
进行F检验和T检验,看逐步回归后的模型是否整体通过F检验,每个被选入的自变量通
过T检验
计算出选出的模型的R方,看拟合程度是否足够高
4、主成分分析和因子分析解决多重共线性
(1)主成分分析
计算各主成分的方差贡献率和累计方差贡献率,特征根和特征向量
画出主成分分析的载荷矩阵和碎石图
获取主成分得分
选择标准:主成分累计方差贡献率达到80%以上的前几个主成分
特征根小于1,不再选作主成分
(2)因子分析
画出协方差阵和相关系数矩阵
画出因子分析的载荷矩阵和碎石图
采用斜交旋转提取因子
绘制正交、斜交图形
得到因子得分
三、回归诊断
1、异方差检验(在逐步回归的过程中画残差图,观察是否存在异方差,如果存在,消除异方差)
因数据为截面数据,很容易出现异方差性
采用方法为残差图分析法
当回归模型满足所有假定,残差图上的点为随机的
修正方法:加权最小二乘法权重的取值(残差绝对值的倒数)
2、自相关性检验(随机扰动项存在序列相关检验)
自相关指随机误差项之间存在自相关现象,指一个变量前后期数值之间的相关关系
采用方法为DW检验法:检验随机扰动项具有一阶自回归的序列,若DW值在2左右时,不存在自相关
修正方法:box-cox变换或迭代法
3、异常值的诊断分析
(1)因变量异常
计算删除学生化残差,若绝对值大于3,则判定为异常值
(2)自变量异常
计算库克距离和中心化杠杆值
库克距离<0.5,不是异常点;库克距离>1,认为是异常点
若中心化杠杆值大于二倍的中心化杠杆值平均值,则认为异常点
4、残差正态性检验
绘制加权后的P-P图和Q-Q图
绘制加权后的残差直方图