基于线性回归的网络节目收视率预测模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

河北大学工商学院
题目:基于线性回归的网络节目收视率预测模型
学 部 :管理学部 学科门类 :统计软件应用 专 业 :电子商务 学 号 :2013487021 姓 名 :臧晨阳
2015.12.20
装 订
基于线性回归的网络节目收视率预测模型
目录
基于线性回归的网络节目收视率预测模型 (1)
前言 (2)
方法 (3)
1.假设 (3)
2.数据 (3)
3.相关性分析 (4)
表 1 2014年河北地区各频道市场份额(Shr%) (4)
表 2 时段 (5)
表 3 节目类型 (5)
表 4 变量之间的关系 (5)
表 5 回归分析结果1 (6)
表 6 Modelsummary (6)
4.回归 (6)
表 7 回归分析结果 2 (7)
表 8 新节目的收视预测及真实数据 (7)
结果 (7)
前言
近年来,网络节目行业在中国发展迅猛。

随着无线视频的延生与扩展,我国的观众目前可以收看到由芒果视频、腾讯视频和其他媒体制作的很多个频道,数之不尽的节目。

节目收视率,一般由第三方数据调研公司,通过电话、问卷调查、数据流量或其他方式抽样调查获得。

收视率对于视频制作机构及广告商而言,是一个非常重要的数据。

它是衡量受
众群体规模的重要指南,是广告评估的基础参考数据之一,也是视频制作机构衡量节目取
舍和调整的重要参数之一。

视频收视率的竞争犹如一个巨大的竞技场,一方获利则意味着
必有一方失利。

机构的广告收入与观众规模的多少有直接的关联。

视频机构的执行者将广
告时间出售给广告客户,其价格大小的参考往往来自于对视频节目收视率的预测。

由于大
部分视频机构的广告推介往往提前于视频节目的播出,因此,对于视频机构而言,获得一
个预测收视率的方法是很必要的。

需要说明的是:视频收视率与观众的地域性格有着非常重要的关系。

不同地区的观众
往往有着不同的收视习惯。

因此,不同的视频节目往往在不同地区有着不同的收视率。


文收视率样本来自河北地区观众,因此建立的线性回归模型也仅适用于河北地区观众。

文献回顾
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定
量关系的一种统立基于以下几个变量:广播网、时间段、一周播出次数、较前一段时间的
收视率。

Shachar和Em erson则合并了节目虚拟变量,演员资料和节目制作费用等。

一些学者认为,线性回归模型可能过于简单,因此,从一定意义上说,线性回归不能
代表那些变量间的非线性关系”。

也有一些文章认为“神经网络模型、决策树和回归模型”可能更适用于视频节目预测。

但从笔者查阅的大部分文献来看,人们普遍认为,线性回归
是预测视频节目收视率简单易行的方法之一。

方法
1.假设
在本文中,视频收视率作为一个因变量。

基于上述参考文献和个人工作经验,一些自
变量被挑选出来,调查其与视频收视率之间的关系。

图1表明了下列假设的模型测试:
H 1(假设1):播出频道的市场份额。

假设这一变量与收视率呈正相关。

H 2(假设2):时间段。

假设这一变量与收视率与关联,与其播出于黄金时段与非黄金时
段有关。

H 3(假设3):每周播出次数。

假设这一变量与收视率呈正相关。

H 4(假设4):节目类型。

假设这一变量与收视率呈正相关。

2.数据
(1) 收视率 (因变量)
笔者从河北地区所能收看到的几套节目中,随机抽出了42个节目作为收视率数据样本。

他们分别来自腾讯视频、搜狐视频、优酷视频、爱奇艺视频、河北视频。

根据网上某网站
数据对这些视频的平均收视率做了全年跟踪。

由于视频节目往往被列入视频机构的年度计划,因此我们设定一年为研究的时间周期。

视频节目收视率指在某个时段收看某个视频节
目的目标观众人数占总目标人群的比重,以百分比表示。

本文中,我们将百分比的数据直
接转化为数字表示。

(2)频道的市场份额
自变量之一第一个假设,测试频道市场份额对因变量的影响力。

频道市场份额数据是由网络不完全统计出具,市场份额是根据去年这一频道的整体观众规模大小决定的。

市场份额(Shr%)是指特定时段内收看某一频道或某一节目的人数占同一时段所有收看视频的人数的百分比,也即是特定时段内某一频道的收视率占所有频道总收视率的百分比。

该指标考察的是收看某一频道(节目)的人数占当时所有收看视频的人数,数值越大,表明该频道(节目)在该时段的市场竞争力就越强。

2014年各样本相关频道的市场份额如表1所示,百分比数据转换为数字记录,如跑男节目在2014年在河北地区的市场份额为8.2%,被记录为8.2。

(3) 时间段(自变量之二)
第二个假设,即假设节目播出的时间段将影响节目收视率。

根据河北观众的收视习惯和时间段的重要性程度,将全天分为5个时间段如表2所示。

(4) 每周播出次数(自变量之三)
每周播出次数指节目样本每周在该频道中播出的次数。

如《河北新闻》节目在每天播出,因此被登记为“7”。

我们假设每周荧屏播出次数越高,收视率就越高。

(5) 节目类型 (自变量之四)
最后,节目类型也作为我们特殊关注的自变量之一。

根据央视索福瑞提供的数据,最受河北地区观众欢迎的前九名节目类型分别为:视频剧、新闻、综艺节目、生活服务、专题片、电影、体育、法律财经。

正如表3所示,我们将这九种类型的节目确定值定为3(最高)至1(最低)之间。

3.相关性分析
首先,第一步,我们假设以上4个自变量对相关节目收视率产生影响,经过SPSS软件运算,相关性分析结果如表4。

表4反映了因变量与自变量之间的相关性程度。

结果显示:因变量“收视率”与3个自变量:即“频道市场份额、每周播出次数、时间段”相关性显著。

鉴于自变量“节目类型”和因变量收视率”之间的线性关系不明显,所以在回归模型中将其剔除。

表 1 2014年河北地区各频道市场份额(Shr%)
表 2 时段
表 3 节目类型
表 4 变量之间的关系
表 5 回归分析结果1
表 6 Modelsummary
4.回归
(1) 回归结果1
如表5回归分析结果1所示:在第一步中,相关性显著的3个自变量通过SPSS软件进行线性回归运算。

在这次回归计算中,“频道市场份额与时间段”这两个变量表现出了良好适应性,而“每周播出次数”则适应性稍逊。

因此,在随后的分析中我们去除了“每周播出次数”这一变量。

(2) 回归分析结果2
从以上SPSS运行获得的数据,我们得出标准误差(Std. Error)为0.694, 拟合优度(R Square)为60.6%。

以上变量展示了一个很好的线性回归。

根据线性回归结果,得到以下方程式:
Y= a+ b1X1+b2X 2
Y代表视频节目收视率,X1为频道市场份额,X2为时间段,“a”为截距,b1和b2为系数。

表6和表7提供了回归模型结果。

回归程序导出了以下方程式:Y= -3.123+ 0.26 X1+ 0.654X2
Adjusted R (调整后的R平方)2值表明了以下模型可以适用于58.6%的视频收视率计算。

收视率= -3.123+ (0.26×频道市场份额) + (0.654×时间段)
表 7 回归分析结果 2
表 8 新节目的收视预测及真实数据
结果
现在,我们使用已建立的线性回归模型计算预测出2011年新节目的收视率。

表8展示了预测结果和事实收视率情况。

通过真实的2011年收视率数据检测,该模型预测的准确性尚可。

但是,所得结果并没有显示出完全意义上的精确度和有效性。

一些学者认为,多元线性回归可能是一个受欢迎
的的预测方法,但是,如果出现更多或更少的两个概念以上的运算,比起其他方法来说,
不够精确”(Nikolopoulos, Goodw in, Patelis and Assim akopoulos,2004)。

视频节目收视率受到多方面因素的影响,是一个复杂过程导致的结果,甚至专业机构(如CGM )尚不
能做出非常精准的预测。

其原因是多样的。

首先,由于其复杂性,一个简单的模型也许并
不能精确反映其真实状况。

其次,央视索福瑞所提供的收视率数据亦有可能存在固有缺陷。

基于观察时间较短,我们尚不清楚其样本的获得方式。

此外,分类变量模型不能确定是否
存在多元共线性。

根据研究结果,提出如下建议:一、要想吸引观众的眼球,需要合理安排时间段以及
提升节目质量。

黄金时间加上好的节目,节目收视率无疑会得到提升,就节目生产本身而言,发现合理的适合观众口味的内容和创意非常重要;二、这一模型可以预测在正常情况下,一档节目可以获得的收视率。

倘若真实数据与预测数据相差甚远,建议对节目的具体
情况做具体分析,如考虑节目质量因素、节目投入因素、同时段是否出现竞争力强的对手,等等。

从这一点角度而言,该模型具有一定的实用意义;三、虽然最后得出的线性回归的
模型可以使用多个变量来预测节目收视率,但是,由于模型不能预测各种主观因素。

因此,笔者建议仍需谨慎使用。

相关文档
最新文档