弹幕与字幕关联性分析对于视频发展的参考

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第9期(总263期)
No. 9 (Serial No. 263)
2019年9月SEP. 2019
情报探索
Information Research
弹幕与字幕关联性分析对于视频发展的参考
何楚佳姚威羽
(
中山大学资讯管理学院广东广州510006)
摘 要:[目的/意义]旨在为剧情的编排、社群网络的推广行销以及视频内容的规划、设计、行销等提供参考。

[方法/过 程]采用情感分析的方法,对弹幕与字幕进行统计分析,分析两者性质、特色的关联性,由此总结岀不同类型的关联性对应的
观看者的反馈,从而给予针对性的建议。

[结果/结论]弹幕可以明确了解观众对于视频的喜恶程度;字幕提供了剧情好坏走
向的基本判断;关联性分析可以给岀观看者对于当前剧情的反馈。

同时给岀了弹幕与字幕的特性,并将两者的关联性总结为 六大类,给予了评判资料的新来源。

关键词:弹幕;字幕;情感分析中图分类号:G206.3
文献标识码:J
Adoi :10. 3969/j. issn. 1005-8095. 2019. 09. 008
Relevance Analysis of Barrage and Subtitles for Video Development
He Chujia Yao Weiyu
(School of Information Management ,SUN YAT-SEN University ,Guangzhou Guangdong 510006)
Abstract :[ Purpose/significance ] The paper is to provide references for plot layout ,social network promotion ,and video content
planning ,design ,marketing ,etc. [ Method/process ] The paper uses method of sentiment analysis , conducts statistical analysis of
barrage and subtitle ,analyzes the natures ,characteristics between them ,summarizes the audiences ' feedback for different kinds of rel ­evance ,so as to put forward some pertinent countermeasures. [ Result/conclusion ] The barrage can reflect audiences ' preference de ­
gree of likes and dislikes for video; the subtitle provides the basic judgment of the story which is good or bad; the relevance analysis
can give the feedback of viewer on the current story. The paper summarizes the characteristics of the bullet screen and subtitles ,six cat ­egories of the relationship between the two , and gives a new source of judgment data.
Keywords : barrage ; subtitle ; sentiment analysis
0引言
在当今这个资讯流通非常快速的时代,无论是 YouTube 或是优酷网,每天都有成千上万来自世界 各地的视频在上传。

字幕主要描述的是视频中人物
的对话、旁白、简介等,而从字幕的主要特性可以分
析出许多视频的特征。

随着时间的推移,评论互动
方式有很大的转变。

从一开始书信往来、观众现场
电话的拨打,到Web 2.0共建共享的网络互动评论, 直到最近,发展出一种崭新的评论方式“弹幕评
论”。

弹幕之所以称之为“弹幕”一词,是因为大量 的“吐嘈”评论在视频中出现,就像子弹一样,而后
来只要在视频画面中出现且具有即时性、时间轴等 特征的评论,都被概括为弹幕。

弹幕可以了解观看者的意见、情感表达,以及字 幕在视频中所表现得剧情情绪的起伏,还有内容意
涵。

通过对弹幕进行情感分析,能够从另一个角度
研究及探讨观看者的情绪,如利用大数据分析观看
视频的潜在人群、利用时间轴分析观看人数、探讨视 频剧情的安排等。

依据研究背景的描述,弹幕评论为现今重要的
网络视频互动评论方式。

视频中的情感起伏,除了 透过影像、音效等表达,也借由文字词语中的字幕传
达其情感意境;弹幕评论则是视频观看者对于剧中
情节喜恶情绪的表现。

加上现今视频种类繁多、数
量日以倍增,如何有效且迅速地抓住观众感兴趣、关
注的视频内容,成为一项重要的课题。

本文通过情 感分析方法分析视频弹幕评论与字幕内容,探究其 中的特征及规律,更近一步接触观看者,以便了解他
们最真实的想法。

收稿日期:2019-04-24
作者简介:何楚佳(1992—),女,2015级硕士研究生,研究方向为用户需求分析;姚威羽(1991—),男,硕士,研究方向为社群分 析。

45
2019年9月情报探索第9期(总263期)
1情感分析的含义与方法
情感分析随着社群的发展、科技的创新与普及越发重要。

情感分析又称意见挖掘,结合自然语言处理、文本挖掘及电脑语言学等方法,来识别和提取文本中的主观资讯陆文星与王燕飞认为情感分析是资料探勘(Data mining)和电脑语言学的一个分支,是一种对网上各种新闻资源、社会媒体评论和其他用户生成内容进行提取、分析、处理、归纳和推理的技术o[2]
在文本中利用判别词语的情感极性是文本情感分析的基础。

为了定量判别词语的情感极性,情感权重的绝对值越大则意味着词语的褒贬程度越大。

词语的情感极性判别主要基于机器学习和情感词典2种方法。

1.1机器学习方法
机器学习方法,主要是应用机器学习的模型。

通过收集的基本资料,取出一部分成为训练集给予机器学习,判断其中的依赖关系并进行资料的自动分类。

一开始是Pang分别利用朴素贝叶斯(Naive Bayes)、最大熵(Maximum Entropy Models)、支持向量机(Support Vector Machine)对电影评论进行分类测验,测验结果最好的是支持向量机,其次是最大熵,最后是朴素贝叶斯,但差异不明显;[3〕Yuen与Roaymond WM基于Turney的点互信息(Pointwise Mutual Information),用少数的语料库来判别词语的情感极性;⑷接着朱嫣岚、闵锦、周雅倩等人提出了基于HowNet的2种词语情感极性判别方法:基于语义相似度与语义相关场的方法,且实验表明,基于HowNet语义相似度的方法比基于语义相关场的方法准确率更高,词频加权后的判别准确率可达80%以上;[5]张靖与金浩基于二元语法依赖关系的情感倾向互信特征模型,利用机器学习方式取得分类器,对语词情感倾向进行自动判别,并进行比较和优化,性能得以提高;同张靖等人在另一篇文章中提出自动判别方法,基于二元语法依赖关系的情感倾向或资讯特征模型,利用特征集合描述情感极性,通过机器学习方法训练分类器,自动判别词语的情感极性。


1.2情感词典方法
情感词方法是先建构一个情感词典,透过情感词中所属的词性及对应的情感值进行正负值的统计。

柳位平、朱艳辉、栗春亮等人提出了一种中文情感词语的情感权值计算方法,并以HowNet情感词语集为基准,建构了中文基础情感词典丿8]利用词典结合TF-IDF(term frequency-inverse document frequency)特征权值计算方法,对中文文本情感倾向进行判别,实验结果表明,该方法取得了不错的分类效果。

喻琦构建了微博情感分析所需使用的情感词库,包括情感词典、网络用语词典、腾讯微博表情符词典、主观性词语词典、语气词词典、程度副词词典和否定词词典等7类;提出了一种情感词典自动扩展方法。

[刃杜振雷构建了中文微博情感词典,借鉴心理学情感划分的研究,将情感词的类别划分为喜、怒、惧、恶、惊、爱、愁等7类情感,采用不同的策略对现有的情感资源的情感词进行了细微性情感分类改造,与完成网络词语和微博表情符号的扩展,构建了 适用于细微性情感分析的中文微博情感词典」10]
2视频弹幕与字幕的情感分析研究模型
依据情感分析所使用的方法及弹幕与字幕内容的特性,归纳出以下5项需要执行的项目:
2.1视频来源与实验数据集
数据分析前,先确立实验数据的来源、格式及特征,以便后续实验。

本研究从弹幕视频网站中撷取弹幕数据,字幕方面从各大字幕组去获取,作为此次的数据集。

弹幕与字幕有明显的特征存在,和一般的网络评论资料有显著差异。

从时间特性来看,弹幕除标准留言时间外,还有与视频时间轴相呼应的时间纪录,字幕则只有后者,这是弹幕与字幕最大的不同。

除此之外,两者的单句字数都相当短,且弹幕常带有强烈的情感表达,这也是与一般评论的不同之处。

2.2数据清洗与处理
“脏数据”主要是指不准确、不完整、有错误的数据,特别是指电脑系统或资料库[11]o数据清洗与处理是对各种“脏数据”进行对应的方式处理,得到标准的、干净的、连续的数据,作为后续应用数据统计、探勘使用。

数据清洗的方法主要有:(1)解决不完整数据(即值缺失)的方法:在大多数的情况下,缺失的值必须手工填入(即手工清理)。

当然,某些缺失值是可以从本数据源推导得到的,这就可以使用如平均值、最大值、最小值或更为复杂的概率估计代替缺失的值,进而达到清理的目的。

(2)错误值的检测及解决方法:用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵收分布或回归方程的值,也可以用简单规则库(常识性规则、业务特定规则等)检查数据值,或使用不同属性间的
46
2019年9月何楚佳等:弹幕与字幕关联性分析对于视频发展的参考第9期(总263期)
约束、外部的数据来检测和清理数据。

(3)重复记录的检测及消除方法:资料库中属性质相同的记录被认为是重复记录,通过判断记录间的属性值是否相等来检测技术是否相同,相等的记录(即合并/清除)。

合并/清除是消重的基本方法。

(4)不一致性(数据源内部及数据源之间):从多数据源集成的数据可能有语义冲突,可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,从而使得数据保持一致丿⑵
将上述所提及的方法作为清洗与处理数据的主轴,能够确保数据的品质及可信度。

另外,除了上述的清洗与处理数据的方法外,也需要考虑一些新词出现的频率。

可利用统计的方式,当新词频到达一定数量后,加入后续的情感词典使用。

2.3情感词典建构
情感词典的建构适用于后续情感值的比对。

综合先前所提及的弹幕与字幕主要特点是简短的语句、用词常为网络流行用语及特殊用词、视频时间轴等,以及相关研究的探讨,本研究决定使用情感词典作为本研究数据内容的比对依据。

但常规的情感词典较缺乏网络用语与新兴词汇并不适用于弹幕与字幕的处理,尤其是弹幕,必须为其建构专属的情感词典。

常规的情感词典在很多资料挖掘的论坛中均有分享,基于权威性的考量,本研究选择“数据堂”所提供的基本情感词典作为基本词汇的来源。

建构专属情感词典的程序为:利用清洗好的数据,针对文本的地方,进行分词、词性标注,还有添加在处理数据中发现的新词汇,再依据数据清洗的4个步骤进行人工筛选,判断是否要加入基本通用的情感词典。

加入时,除了词汇本身,还需标注正向、负向情感的标示,建构成视频专属的情感词典。

2.4弹幕与字幕情感分析
对清洗与处理完成的实验资料集做分词与词性标注,针对形容词与专属情感字典的内容进行匹配,而专属情感字典具有正负值。

为了解决语句中反义词、讽刺等的用法,本研究将正负值分开计算,以防计算误差,针对其对应的情感值进行统计,再依照单位时间分群个别计量,计算出各类影片单位时间内的正负情感词,然后探讨、分析字幕与弹幕之间的情感关系、视频之间字幕与弹幕的情感关系,得出观众对于此视频的喜恶及观感。

2.5情感分析视觉化
利用视觉化的方式进行数据的呈现,能够让统计出来的数据更直观。

先了解弹幕与字幕基本性质及特色,再利用情感词典匹配计算出弹幕与字幕两者的情感值,个别的基本资讯与弹幕与字幕的情感值进行交叉比对,针对上述3个步骤,以视觉化的方式呈现其资料,让资料以简单明了的方式呈现,以便浏览及利用。

通过分析归纳出本研究所需执行的程序:数据的来源与清洗、专属情感词典的建构、情感值的计算、情感值的呈现与代表意义。

按照这些程序,建构 弹幕与字幕之情感分析模型,如图1所示。

图1展示了弹幕与字幕情感分析的基本模型,该模型由视频来源与实验资料集、情感词典建构、弹幕与字幕情感分析、情感分析视觉化等模块组成。

通过该模型了解观看者对于剧情安排、画面呈现等
47
2019年9月情报探索第9期(总263期)
的真实想法,判断观看者的喜恶程度,为后续视频的发展、安排、宣传等提供新的判断依据。

综合所述,该模型旨在通过弹幕与字幕的情感分析,从不同类型视频中找出其通则与特性,让商家能够更接近观看者最真实的感受与想法,给予视频相关行业多一种评断视频内容的方式。

3弹幕与字幕情感值分析
3.1情感词典匹配与计算
情感匹配是利用“数据堂”所提供的情感词典为基础,情感词典分为正向情感词典及负向情感词典两部分,撷取部分内容如表1。

使用R软体对于弹幕与字幕进行分词、词性标注及人工过滤,找出两者的特殊用语,再根据其正负向情感加入基础情感词典中成为个别专属的情感词典。

表1部分情感词典内容
情感取向内容情感取向内容
正向情感词典一帆风顺一流一致
负向情感词典乞丐乞求大伤
将实验资料集用R软体与专属情感词典进行匹配与统计。

匹配方式为一条弹幕作为基本计算单位,且正负值分开计算,互相不抵销,主要是为了探究其正负值之间的关系及其相关现象。

当一条弹幕中的词句与正负的专属情感词典中相符合时,分别计正+1、负-1,不互相抵销。

统计方式以每分钟为单位,进行加总统计。

当1分钟的范围为弹幕1~ 100条时,此单位时间的情感值为1~100条弹幕的情感值的加总,正负分开计算,字幕也以相同的方式进行匹配与统计。

3.2弹幕与字幕情感值分析
弹幕的情感值表现是观看者对于剧情所反应的情感表象,字幕的情感值是随着剧中情节去做改变。

计算出情感值后,针对3种基本的情况,如图2所示。

图2弹幕与字幕情感表现的3种基本情况
(1)单位时间内,正向情感值显著,负向情感值不显著
弹幕:对于单位时间内的剧情、人物、物品、网友回应,有着大量且正向的回应。

字幕:对于单位时间内的视频剧情发展是正向的。

(2)单位时间内,正向情感值不显著,负向情感值显著
弹幕:对于单位时间内的剧情、人物、物品、网友回应,有着大量负向的回应。

字幕:对于单位时间内的视频剧情发展是负向的。

(3)单位时间内,正向情感值及负向情感值均显著
弹幕:对于单位时间内的剧情、人物、物品、网友回应,有着不同的看法。

字幕:单位时间内剧情场景切换、不同故事线切换,引起此现象。

从弹幕与字幕的情感数值中可以看出:当单位时间内,弹幕正向情感显著,负向情感不显著,代表时间内有事件引起观众的好感;反之,负向情感显著,正向情感不显著,代表时间内有事件引起观众的反感;当单位时间内弹幕正、负向情感值皆显著时,代表时间内有事件引起两极化的评论。

通过分析可以归纳出基本的模式,用以了解观看者对于视频画面的喜恶,也可以了解什么事件会引起观众的反应与争论。

字幕方面,主要反应的就是剧情的走向,可以了解剧情的基本起伏,也可以简单判断此视频的节奏。

当单位时间内,字幕正向情感值显著,负向情感值不显著,代表剧情正在往好的方面发展;反之,则是往坏的方面发展。

当正负情感值皆显著时,代表其中有转折,意味着可能有切换场景及其他故事线。

通过对弹幕及字幕的基本了解,可以推断出一些基本的模式,用于了解观众的喜恶,也可以了解剧情的基本信息。

4结语
网络视频观看者通过弹幕平台,针对视频内容发表的弹幕评论或观看别人评论,有些评论甚至成为网络用语并引发新的风潮,种种原因让弹幕越来越受到观看者的青睐,也因此弹幕评论是观众对视频的再次加值。

随着使用弹幕视频的观看者越来越多,弹幕评论中的观点和情感将更具有探讨与研究
48
2019年9月何楚佳等:弹幕与字幕关联性分析对于视频发展的参考第9期(总263期)
的实用价值。

本研究发现,弹幕及字幕汇入分析时,会有字码及编码、档案栏位虚值、格式等资料正确性的问题,以及新词汇的建立,需要在程序进行前做妥善的规划与处理,以便能顺利执行各阶段的工作。

在统计数据方面,弹幕的标准差远大于字幕,主要是因为弹幕的情感不一定随着剧情的情绪而起伏,而是直接反应观看者在观看过程中所引发的个人情绪反应。

4.1弹幕评论与视频字幕的主要性质与特色
弹幕方面,评论字数较短,常带有强烈的情感词汇,此外,还会发展出许多新词汇,且具有领域性,需要深入探讨、了解才能明确其含义。

弹幕正向情感值显著、负向情感值不显著时,代表在单位时间内有事件引起观众们的兴趣及好感;反之,当弹幕正向情感值不显著、负向情感值显著时,代表在单位时间内有事件引起观众们的反感及厌恶。

字幕方面主要是剧情好坏走向的基本表达,当正向情感显著、负向情感不显著时,代表此单位时间的剧情正往好的方向发展;反之,则是往坏的方向发展;当正负情感皆显著时,情况较少,但多为场景转换至其他故事线为主。

4.2弹幕评论与字幕之间的关联性
通过弹幕评论与字幕之前关联性的分析,对观众在视频内容播放中的想法及观感进行探究,结果显示:(1)字幕正向情感显著配上弹幕正向情感显著,代表观众能够接受此正向发展的剧情;(2)字幕正向情感显著配上弹幕负向情感显著,观众较不能接受此剧情的发展;(3)字幕正向显著配上弹幕正负情感皆显著时,代表观众对于正向发展的剧情产生不一样的看法与评论;(4)字幕负向情感显著配上弹幕正向情感显著,代表观众觉得此负向发展的剧情有点好笑;(5)字幕负向情感显著配上弹幕负向情感显著,代表观众对于负向发展的剧情表示有同感,且能够接受此剧情的发展;(6)字幕负向情感显著配上弹幕正负情感皆显著时,代表对于此剧情产生不同的看法与评论。

没有字幕正负显著配对的理由是,字幕的词汇、句数都远不如弹幕,所以在单位时间内,情感值表现就没弹幕评论来得丰富。

研究结果发现,通过对弹幕评论与字幕的关联性研究,可以更贴近观看者对于此视频的人物、剧情、配乐、特效等的最真实想法,为后续剧情的编排、社群网络的推广行销或是视频内容的规划、设计、行销等提供参考。

参考文献
[1]TURNEY.In Proceedings of the40th annual meet­ing on association for computational linguistics,Thumbs up or thumbs down?:semantic orientation applied to unsupervised classification of reviews[R].USA:Association for Computational Linguistics,2002:417-424.
[2]陆文星,王燕飞.中文文本情感分析研究综述[J].计算机应用研究,2012,29(6):2014-2017.
[3]徐军,丁孙新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报.2007,21(6):95-100.
[4]YUEN,RAYMOND WM.Proceedings of the20th international conference on Computational Linguistics,"Mor­pheme-based derivation of bipolar semantic orientation of Chi­nese words."[R].USA:Association for Computational Linguis-tics,2004.
[5]朱嫣岚,闵锦,周雅倩,等.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):16-22.
[6]张靖,金浩.汉语词汇主观性提取研究[J].计算机工程与设计,2010(4):915-917.
[7]张靖,金浩.汉语词语情感倾向自动判断研究[J].计算机工程,2010,36(23):194-196.
[8]柳位平,朱艳辉,栗春亮,等.中文基础情感词词典构建方法研究[J].计算机应用,2009,29(10):2875-2877.
[9]喻琦.中文微博情感分析技术研究[D].杭州:浙江工商大学,2013.
[10]杜振雷.面向微博短文本的情感分析研究[D].北京:北京信息科技大学,2013.
[11]CHU M Y.Blissful Data:Wisdom and Strategies for Providing Meaningful,Useful,and Accessible Data for All Em-ployees[J].AMACOM Div American Mgmt Assn.2004:255-256.
[12]蔡晓珍,徐健,吴思竹.面向情感分析的用户评论过滤模型研究[J].现代图书情报技术,2014,30(4):58-64.
49。

相关文档
最新文档