基于主成分分析法的电影数据统计分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于主成分分析法的电影数据统计分析

作者:张飞

来源:《科技视界》2013年第36期

【摘要】本文利用主成分分析法对著名导演卡梅隆所执导六部影片的相关数据进行统计分析。结果表明,电影票房、获奖次数、观众评分等代表电影成功的因素是和拍摄电影时投入的时间和金钱紧密相关,一般情况下,投入的金钱和时间越多,出产的影片越能获得更高的得分和票房,就越能接近成功。

【关键词】卡梅隆;电影;票房;主成分分析法

1 数据来源

本文选取的指标共有六项,其中包括能代表电影成功的总票房,IMDB评分,获奖次数等,能代表拍摄电影时投入的制作花费和拍摄时间。

本文有的数据收集自Box Office Mojo官网上的票房排行榜(上映时间,北美总票房),有的数据收集自IMDB电影评分官网(IMDB评分),还有数据收集自维基百科(获奥斯卡奖数,制作花费,拍摄时间)进行数据统计,结果如表1所示。

表1 卡梅隆经典电影票房统计分析

2 主成份分析法

主成份分析法也称主分量分析或矩阵数据分析,通过变量变换的方法把相关的变量变为若干不相关的综合指标变量。

若某研究对象有两项指标ζ1和ζ2,从总体ζ(ζ1,ζ2)中抽取了N个样品,它们散布在椭圆平面内(见图1),指标ζ1与ζ2有相关性。η1和η2分别是椭圆的长轴和短轴,

η1⊥η2,故η1与η2互不相关。其中η1是点ζ(ζ1,ζ2)在长轴上的投影坐标,η2是该点在短轴上的投影坐标。从图1可以看出点的N个观测值的波动大部分可以归结为η1轴上投影点的波动,而η2轴上投影点的波动较小。若η1作为一个综台指标,则η1可较好地反映出N个观测值的变化情况,η2的作用次要。综合指标η1称为主成份,找出主成份的工作称为主成份分析。

可见,主成份分析即选择恰当的投影方向,将高维空间的点投影到低维空间上,且使低维空间上的投影尽可能多地保存原空间的信息,就是要使低维空间上投影的方差尽可能地大。

3 主成份分析法的应用

3.1 原始数据的处理和标准化

为了更直观的表示电影上映距今多长时间与票房之间的关系,将第一项指标“上映时间”改为“上映距今”,并对原始数据进行标准化处理,得到相关矩阵如表2所示。

表2 标准化处理后的矩阵

3.2 主成份分析的计算结果

运行SPSS软件,录入上述数据,进行主成份分析,输出成分矩阵,如表3所示,输出成分图,如图2所示。

表3 成份矩阵

图2

3.3 结果分析

由主成份计算结果可知,选取三个主成份来进行分析,这三个主成份的方差累计贡献率达到了99.85%,其中第一主成分占67%,第二主成份占16%,第三主成份占14%,可以认为这三个主成分极大程度上反映了原始数据。

在第一主成份中,北美总票房,获奖数,制作花费,拍摄时间这三个占有很大的权重,而且他们的变化方向一致,呈正相关关系,这说明在拍摄电影时投入越多资金,拍摄时间越长,出产的电影越能得到更高的票房,而且更有机会获奖。事实上,投入更多资金就意味着能请更好的编剧写出更好的剧本,请更好的导演和著名影星,更能使用更高级的道具设备等,优越的硬件条件是出产好电影的基础;投入更多的时间拍摄就意味着导演对于每个镜头要求都非常严格,精工细作才能出产好的电影。

另外,上映距今和总票房之间变化方向相反,呈负相关关系,这与常识是不相符,一般情况下距今时间越长,总票房越高,但是现在的金钱与过去的是不等值的,而且在过去电影还没有现在这么流行,还不是人们日常生活必不可少的一部分,不是所有人都能看得起电影的,所以一定程度上是可以解释这种现象。

在第二主成份中,只有IMDB的占有权重很大,但是可以发现所有的指标变化方向都是一致的,呈正相关关系,只是反映没有第一主成份里那么明显,但是也从一定程度上说明了第一主成分说明的问题,不同的是总票房和获奖次数并不能准确说明电影是不是受观众喜爱,而IMDB评分则弥补了这一点。总的来说就是在拍摄电影时投入资金越多,拍摄时间越长,出产的电影越能获得观众的喜爱,从而获得高票房。

在成分图中可以更直观的看出总票房,获奖数,评分等与投入的金钱,时间之间的关系。成分图表明总票房,获奖数,IMDB评分,制作花费,拍摄时间这几项是密切相关的,且呈正相关关系,很好的验证了第一主成分,第二主成分中说明的问题。

4 总结

本文利用主成分分析法就卡梅隆的电影相关数据进行统计分析,得出了成功的电影背后少不了时间和金钱的投入。当然,不排除实际上还有很多影响因素,比如获奖次数,就《泰坦尼克号》来说一下激增到11项,这在电影史上是罕有的,也间接说明了《泰坦尼克号》是一部划时代的大作;《异形2》属于恐怖类科幻片,这类影片在当时想被奥斯卡奖提名都很难,而它是首部获奥斯卡奖的恐怖类科幻片,而且还不止一项;再说票房,北美历史上是发生过通货膨胀的,这也在一定程度上影响了票房的数据……但是计算结果还是可以反映一定问题的,不影响结论,在电影投入的越多,拍摄时间越长,完成的电影就越会得到观众喜欢,票房自然就会上去。卡梅隆导演就是深谙这个道理,他从不会在电影上吝啬,不论花多大代价,花多长时间,都会完成他的大作,一部《阿凡达》他酝酿了14年,耗资5亿美元(约合人民币27.2亿元),历时四年拍制,最终震撼了全世界,十年磨一剑,必是宝剑。

【参考文献】

[1]汪应洛.系统工程[M].北京:机械工业出版社,2009:54-60.

[2]方开泰.实用多元统计分析[M].上海:华东师范大学出版社,1989.

[3]崔凝凝,唐嘉庚.基于回归分析的中国电影票房影响因素研究[J].江苏商论,2012(08).

[4]王建陵.当代西方电影票房预测研究的发展演变[J].电影艺术,2009(01).

[责任编辑:陈双芹]

相关文档
最新文档