基于多元线性回归的电影票房预测研究

基于多元线性回归的电影票房预测研究
基于多元线性回归的电影票房预测研究

2018年第2-3期

183研究与探讨

信息技术与信息化

基于多元线性回归的电影票房预测研究

Predicting of movie box office based on multiple linear regression

胡晓红* ** *** 王 红 HU Xiao-hong WANG Hong

摘 要 近年来,随着电影行业越来越热门,由此为影院带来了丰厚的票房收入,但传统影院都是依靠人工经验

拍片,在电影上映前,凭借历史经验对电影的场次进行排片,由于影片的票房收入受多方因素的影响,拍片多的电影可能最后的票房达不到预期收益,导致影院因安排场次失误而损失很多票房收入。为了有效提高电影拍片收益,本文通过数据分析,利用方差分析原理选择与电影票房相关的特征,并利用多元线性模型预估电影票房,为影院场次拍片提供了指导。同时,本文使用主成分分析方法揭示票房收入和哪些因素更相关,为电影制作方分配资源提供了一定的指导。通过测试数据测验,显示本方法取得了较好的效果。

关键词 票房预测;线性回归;方差分析;特征选择;主成分分析

Abstract In recent years, with the development of the film industry is becoming more and more popular, many domestic cinemas win a lucrative returns. In the past, the cinema was relying on experience to schedule movie, but this may cause the cinema loss a lot of money at the box office. Because the film’s box office income is influenced by many factors, the movie’s last box office with more scheduling may be below expectations. In order to increase the benefit of theatres, we use the principle of variance analysis to select the features related to movie box office, finally, the multiple linear model was used to estimate the box office, which provided guidance for the film screenings. At the same time, the model can also reveal which factors are more related to higher box office, which provides some guidance for the distribution of resources by the film makers. Experimental results showed that the method is effective. Key words box office, linear regression, variance analysis, feature selection,PCA

doi:10.3969/j.issn.1672-9528.2018.h2.048

* 山东师范大学信息科学与工程学院 山东济南 250358** 山东省分布式计算软件新技术重点实验室 山东济南 250014

*** 山东师范大学生命科学研究院 山东济南 250358

1 引言

随着社会经济的快速发展,影院迫切要求能够有一个预测性的票房指标,可以指导影院进行合理的排片,电影票房预测模型在影院的此种需求下,应运而生。2013 年 Google [1]的论文,里面的多元线性回归方程电影票房预测模型,能够在电影上映前一个月就计算出该部电影的首周票房,准确度高达 94%,一部电影包含了众多的属性,例如电影类型、导演等。建立有效电影票房预测模型的关键点是找到影响电影票房的关键因素。

国内外学者主要是在方法改进、估计未知总体参数以及

多元线性回归参数优化方面的研究[2-3]。尽管已经有了诸多的成果,但是多元线性回归预测模型的研究还相对不是那么完善,并且大多数研究的票房预测模型都是不对外公开信息的。学者大多研究影响电影票房的因素、利用不同的技术实现电影票房预测模型[4-5]。但是所采用的数据都是有限且没有一个后续的更新,不能顺应电影发展脚步,没有考虑可能会影响电影票房的因素。

本文通过爬取网络上的有效数据训练模型,并且可以根据要求爬取更多更新的数据,不断训练新的模型,使得模型更加适应电影行业的发展趋势,具有更高的预测准确度。2 票房预估模型

本文从豆瓣电影模块采集了50条电影信息,信息包含电影名称、导演影响度、主演影响度、首映评分、是否是黄金档期、想看人数、发行国家、片长、影片类型和票房10个

相关文档
最新文档