基于社交媒体的事件感知与多模态事件脉络生成

合集下载

后电影时代视听新媒体的“情动”生产、呈现与传播

后电影时代视听新媒体的“情动”生产、呈现与传播

THE REALM OF MOVIE AND TV ARTS影视艺苑随着数字网络技术兴起,技术赋能下视听新媒体应运而生,其以手机、网络、电脑等为传播媒介,以网络剧、网络电影、网络综艺、短视频等作为具体传播形态,冲击着当代生活的方方面面。

手机从初始简单的通讯工具演变为一种具有全功能性与移动性的便携智能终端,使得人们无时无刻不与各类数字化信息联系在一起。

网络环境成为人们日常不可分割的一部分,人们生活在互联网交织的各类视听新媒体当中,真正进入一种后电影时代。

“后电影”(post-cinema)的概念意指数字技术对电影制作、观影形式及电影理论的影响,有两个层面内涵:一是“胶片之后”,21世纪以来,随着数字技术的出现与发展,数字革命对以安德烈·巴赞所秉持的“摄影影像本体论”产生巨大的冲击;二是“观影之后”,大众消费电影的方式不再仅限于影院,获取影像的途径大大增加,信息传播技术的更迭,让影像接受的移动端越来越趋向网络化与融合化。

[1]后电影时代,虚幻与现实的界限被消解,“实在”与“想象”的壁垒被打破。

影像生产已远远超越“对于物质现实的复原”,摄影机不再仅是“现实的渐近线”,电影也远超其“照相本性”,主体的想象力与创造能动性愈加凸显。

视听新媒体在时空场域与媒介形态两个方面改变了传统视听媒体的建构、生产与传播。

德勒兹的“情动”理论聚焦主体情感领域的扩张、关注情感关系的外化,而当代互联网技术与数字虚拟技术的突飞猛进,使得与人们生活密切关联的视听新媒体生产与传播呈现出“情动”状态。

一、视听新媒体的“情动”:后电影时代语境与传播逻辑媒介的发展影响着艺术形态的生成,而今,数字技术给社会、文化带来较大冲击,也带来传统媒介形态的转型,为视听艺术带来质式的改变和崭新的飞跃。

(一)视听新媒体作为一种重要的媒介体认形态及其传播逻辑后电影时代,数字技术不断推动着媒体视听形态的更迭,技术革命与媒介方式催生着新的社会形态和新的生活习惯。

多模态数据融合的方法与应用研究

多模态数据融合的方法与应用研究

多模态数据融合的方法与应用研究随着科技的不断进步与发展,我们生活中产生的数据愈发庞大多样化,例如文本、图像、音频、视频等。

这些不同类型的数据被称为多模态数据。

然而,多模态数据分别存在于不同的媒介中,对于我们进行综合分析和利用带来了一定的困难。

为了充分挖掘多模态数据的潜在信息,提高数据分析的效率和准确性,多模态数据融合方法应运而生。

多模态数据融合是指将来自不同媒介的多模态数据进行整合,以获得更全面、准确的信息。

在这个过程中,涉及到的问题包括数据的对齐、特征提取、融合算法等。

本文将介绍一些常见的多模态数据融合方法,并探讨其在各个应用领域中的研究与应用。

一、多模态数据融合方法1. 数据对齐多模态数据来自不同的媒介,存在着不同的表达方式和数据格式。

为了将它们融合在一起,首先需要进行数据对齐。

数据对齐的目标是将不同模态之间的数据映射到同一个空间中,以便于后续的处理和分析。

常用的数据对齐方法包括传统的基于几何形状和特征点匹配的方法,以及近年来兴起的基于深度学习的方法。

2. 特征提取多模态数据中蕴含着丰富的信息,如何提取有用的特征是多模态数据分析的关键。

对于文本数据,可以通过自然语言处理技术提取词语、句子、主题等特征;对于图像数据,可以通过计算机视觉方法提取颜色、纹理、形状等特征;对于音频数据,可以通过音频信号处理技术提取频谱、音调、节奏等特征;对于视频数据,可以同时结合图像和音频的特征进行分析。

特征提取方法的选择应根据具体问题和任务灵活运用。

3. 融合算法特征提取之后,需要将不同模态的特征融合在一起,以便于综合分析。

常用的融合算法包括加权求和、级联融合、矩阵分解等。

加权求和是最简单直观的方法,根据特征的重要性对特征进行加权求和。

级联融合是将不同模态的特征串联起来,构成更高维的特征向量。

矩阵分解将多模态数据矩阵分解成低秩的子空间,从而捕捉数据中的共享信息。

二、多模态数据融合的应用研究1. 智能交通智能交通系统是一个涉及多个模态数据的复杂系统,包括车辆轨迹数据、摄像头视频数据、路况信息等。

在线社交网络中的事件趋势分析与预测模型研究

在线社交网络中的事件趋势分析与预测模型研究

在线社交网络中的事件趋势分析与预测模型研究随着互联网和社交媒体的快速发展,人们越来越多地利用在线社交网络来获取信息、分享观点和参与讨论。

在这样的网络环境下,社交媒体平台上的事件趋势分析和预测成为了一项重要的研究课题。

本文将探讨在线社交网络中的事件趋势分析与预测模型的研究。

事件趋势分析是研究社交媒体平台上热门话题演化规律的一种方法。

通过分析用户在社交媒体上发布的信息,可以检测出用户对某一事件的兴趣程度及其演化过程。

事件趋势分析可以帮助我们了解事件的发展趋势、关键参与者、受众群体和信息传播路径等,对于舆情分析、市场预测和社会影响评估等领域具有重要意义。

在事件趋势分析的基础上,预测模型可以帮助我们预测事件的未来发展趋势。

预测模型可以基于历史数据和现有的事件趋势,通过数学和统计方法进行建模和分析,从而对未来事件的发展做出预测。

在线社交网络中的事件预测模型可以帮助我们预测事件的热度、持续时间、传播范围和影响力等指标,以便我们能更好地制定决策和应对行动。

在在线社交网络中,事件趋势分析和预测模型的研究面临许多挑战。

首先,社交媒体平台上的信息量巨大,如何从海量的信息中筛选出与事件相关的信息是一项具有挑战性的任务。

其次,社交媒体用户的行为和观点多样化,如何准确地表示和模拟用户的行为是一个复杂的问题。

此外,事件发展的不确定性和突发性也给事件趋势分析和预测带来了难度。

为了解决这些挑战,研究者们提出了许多不同的事件趋势分析和预测模型。

其中,基于文本挖掘和机器学习的方法是常用的技术之一。

通过对用户发布的文本进行语义分析和情感分析,可以提取出与事件相关的关键词和主题,从而进行事件趋势分析和预测。

此外,基于网络图的分析方法也被广泛应用于事件趋势分析和预测。

通过构建社交媒体用户之间的关系网络,可以揭示事件的传播路径和影响力链条,为事件趋势分析和预测提供参考依据。

除了以上方法,一些研究者还尝试将多个模型进行集成,以提高事件趋势分析和预测的准确性和效果。

基于图文鲁棒性表征的社交媒体多模态命名实体识别

基于图文鲁棒性表征的社交媒体多模态命名实体识别

基于图文鲁棒性表征的社交媒体多模态命名实体识别随着社交媒体的蓬勃发展,海量的图文信息如洪水般涌入我们的生活。

在这片信息的海洋中,如何精准地捕捉并识别出关键信息——即命名实体,成为了一项挑战。

本文将探讨基于图文鲁棒性表征的社交媒体多模态命名实体识别技术,它如同一位熟练的猎人,在茂密的森林中追踪猎物,不放过任何一丝线索。

首先,我们要明白什么是“图文鲁棒性表征”。

在社交媒体上,文字和图片往往相互交织,共同构成信息的全貌。

图文鲁棒性表征就是这样一种能力,它能将文字和图像的信息融合起来,形成一个统一的、能够抵御各种干扰的表示形式。

这就像是一位画家在画布上同时运用油彩和水彩,创造出一幅既丰富又和谐的作品。

接下来,我们来看“多模态命名实体识别”的含义。

传统的命名实体识别主要关注文本信息,而多模态命名实体识别则是在此基础上加入了图像信息的处理。

这种技术就像是给机器装上了一双“鹰眼”,让它能在复杂的环境下更准确地找到目标。

那么,如何实现基于图文鲁棒性表征的社交媒体多模态命名实体识别呢?这就需要我们运用一系列先进的技术和方法。

比如,我们可以利用深度学习模型来提取文本和图像的特征,然后将这些特征进行有效的融合。

这个过程就像是调制一杯鸡尾酒,需要精心搭配各种成分的比例。

此外,我们还需要考虑如何处理社交媒体上的噪声数据。

这些噪声就像是混入豆子中的石子,如果不加以清除,就会影响最终的结果。

因此,我们需要设计一些算法来过滤掉这些噪声,确保数据的纯净度。

最后,我们还要关注模型的泛化能力。

一个好的模型不仅要在训练数据上表现优异,更要在新的数据上也能保持较高的准确率。

这就像是培养一名优秀的运动员,不仅要让他在熟悉的场地上发挥出色,更要让他在陌生的环境下也能保持状态。

综上所述,基于图文鲁棒性表征的社交媒体多模态命名实体识别是一项充满挑战但又极具前景的技术。

它能够帮助我们从海量的社交媒体数据中提取出有价值的信息,为各种应用提供支持。

虽然目前这项技术还面临许多困难和挑战,但我相信,随着技术的不断进步和创新,我们终将攻克这些难关,让这位“熟练的猎人”在信息的海洋中更加自如地遨游。

基于多模态数据的用户情感感知与建模研究

基于多模态数据的用户情感感知与建模研究

基于多模态数据的用户情感感知与建模研究情感是人类情感体验的核心特征之一,对于理解人类行为和决策过程以及改善用户体验至关重要。

随着社交媒体、音频视频数据的广泛应用,基于多模态数据的用户情感感知与建模研究成为了一个热门的研究领域。

本文将探讨基于多模态数据的用户情感感知与建模的研究进展,并分析其应用前景。

第一部分将介绍多模态数据的概念及其在用户情感感知与建模中的作用。

多模态数据是指包含多种模态(如文本、图像、音频、视频等)信息的数据。

这些模态可以互相补充,提供更全面的信息,帮助我们更好地理解用户的情感体验。

在用户情感感知与建模中,通过结合多模态数据可以获得更准确和全面的情感分析结果,从而为用户个性化推荐、情感识别以及情感建模等应用提供更好的支持。

第二部分将介绍基于多模态数据的用户情感感知与建模的方法与技术。

这些方法主要包括情感特征提取、情感分析和情感建模三个步骤。

情感特征提取是多模态数据处理的基础,通过对多模态数据进行特征提取可以获得反映情感的特征向量。

情感分析是将多模态数据映射到情感空间,并最终得到用户情感的过程。

情感建模是通过对用户情感数据进行建模分析,得到情感变化的模型,从而预测用户未来的情感状态。

这些方法可以结合机器学习、深度学习等技术,进行情感识别、用户情感刻画以及情感预测等任务。

第三部分将讨论基于多模态数据的用户情感感知与建模研究的应用前景。

多模态数据的丰富性和多样性为用户情感感知与建模提供了更广阔的应用场景。

一方面,基于多模态数据的情感分析可以应用于社交媒体,帮助企业了解用户情感需求,改进产品设计和营销策略。

另一方面,基于多模态数据的用户情感感知与建模也可以应用于健康医疗领域,帮助提高医疗服务的质量和效率,改善患者的情感体验。

最后,本文总结了基于多模态数据的用户情感感知与建模研究的主要成果和挑战。

多模态数据的利用可以提高情感分析的准确性和全面性,但同时也面临着数据集标注困难、多模态融合问题和隐私保护等挑战。

基于多模态数据的社交媒体信息传播模型研究

基于多模态数据的社交媒体信息传播模型研究

基于多模态数据的社交媒体信息传播模型研究近年来,社交媒体已经成为人们最为广泛使用的网络应用之一。

无论是在日常生活中,还是在商业及市场领域,社交媒体都存在着巨大的影响力。

如何有效地利用社交媒体进行信息传播,成为了人们关注的重点问题之一。

而基于多模态数据的社交媒体信息传播模型研究,则为解决这一问题提供了新的思路。

1. 社交媒体的多模态数据社交媒体提供的数据形态多样,包括文字、图像、音频、视频等多种数据类型。

这些数据的组合呈现出的是丰富多彩的信息形态。

因此,社交媒体应用的数据不再是单一模式的信息,而是多模态的信息流。

以微博为例,每一个微博都可以包含微博文字内容、图片、表情、链接、视频等。

这些数据类型应用微博的信息传播,具有各自独特的作用。

文字往往提供微博主题的核心内容,图片和视频则可以让人们更直观地感受到情感和事件,而链接则是引导用户进一步了解的方式。

在信息传播过程中,这些不同类型的数据相互协作,推动着信息的传输和流传。

因此,多模态数据的分析和研究,成为了社交媒体研究的重要课题。

2. 基于多模态数据的社交媒体信息传播模型社交媒体中信息的传播是基于多元数据构成的,其中包括用户、社交网络和多媒体数据。

不同的媒体数据类型在传播中需要考虑其独立的传播规律和交互影响。

基于这一前提,可以构建基于多模态数据的社交媒体信息传播模型。

该模型不仅可以描述和分析多媒体数据在传播过程中的不同特征和动态变化,也可以分析和解释不同媒体数据之间的交互影响和机制。

在此基础上,可以为信息传播提供更精准的预测和分析,以及更好的区分正面和负面的情感倾向。

3. 多模态数据的分析与应用面对社交媒体中庞杂、多元、无序的数据,必须采用有效的方法进行分析和应用。

一种方法是采用机器学习技术对多模态数据进行分析。

通过对数据进行特征提取,结合算法建模,得到准确的分析结果。

另一种方法则是采用深度学习技术进行数据分析。

这种方法可以应对更复杂和更多类型的数据,比机器学习技术更具优势。

国家重点研发计划「文化科技与现代服务业」重点专项 2022 年度项目申报指南说明书

国家重点研发计划「文化科技与现代服务业」重点专项 2022 年度项目申报指南说明书

北京大学 A 00009—47—附件2㔳 潦ഉ㌱吠൭〼㄰ 螠껥ᗠഉ2022 ㄠഉ〮‸㈴⸷㔸(仅国家科技管理信息系统注册用户登录可见)为落实“十四五”期间国家科技创新有关部署安排,国家重点研发计划启动实施“文化科技与现代服务业”重点专项。

根据本重点专项实施方案的部署,现发布2022年度项目申报指南。

本重点专项总体目标是:面向文化科技与现代服务业生态集聚的新趋势、服务消费升级的新需求和服务场景创新的新特征,结合文化科技与现代服务业数字化、专业化、智能化和生态化的发展趋势,系统布局共性基础技术研究,媒体融合、数字文化、文旅融合、文化遗产保护等文化科技场景服务技术创新与应用,生活服务、科技服务、生产服务等现代服务业场景服务技术创新与应用,促进文化产业数字化转型升级,提升国家文化软实力;支撑现代服务业健康快速发展,培育经济发展新动能。

2022年度指南部署坚持问题导向、分步实施、重点突出的原则,围绕文化产业基础性与制约性关键技术、媒体融合、数字文化、文旅融合、服务科学与技术、生活服务、科技服务、生产服务、文明起源、文化遗产保护、文化传承等11个技术方向,按照北京大学 A 00009—48—基础研究类、共性关键技术类、应用示范类三个层面,拟启动26项任务,拟安排国拨经费1.88亿元。

其中,围绕文化产业基础性与制约性关键技术、服务科学与技术等技术方向,拟部署8个青年科学家项目,拟安排国拨经费1600万元,每个项目不超过200万元。

指南任务1.1至8.1中的共性关键技术类及应用示范类任务,以及指南任务11.1,配套经费与国拨经费比例不低于1:1。

项目统一按指南二级标题(如1.1)的研究方向申报。

除特殊说明外,每个方向拟支持项目数为1~2项,实施周期不超过3年。

申报项目的研究内容必须涵盖二级标题下指南所列的全部研究内容和考核指标。

基础研究类项目下设课题不超过4个,参与单位总数不超过6家;共性关键技术类和应用示范类项目下设课题数不超过5个,项目参与单位总数不超过10家。

一种基于社交事件关联的故事脉络生成方法

一种基于社交事件关联的故事脉络生成方法

计算机研究与发展Journal of Computer Research and Development DOI:10. 7544/issnl000-1239. 2018. 2018015555(9) : 1972-1986, 2018一种基于社交事件关联的故事脉络生成方法李莹莹12马帅1 $蒋浩谊12刘喆2胡春明12李雄3U软件开发环境国家重点实验室(北京航空航天大学)北京100191)2 (北京大数据科学与脑机智能高精尖创新中心(北京航空航天大学)北京100191)3(国家计算机网络应急技术处理协调中心北京100029)(liyy@act. buaa. edu. cn)An Approach for Storytelling by Correlating Events from Social NetworksL l Yingying1,2,M a Shuai1,2,J i a n g Haoyi1,2,Liu Zhe2,HuChunming1,2,andLl Xiong31(State Key Laboratory o f Softw are Development Environment (Beihang U niversity),Beijing100191)2 (Beijing Advanced Innovation Center fo r Big Data and Brain Computing (Beihang University ),Beijing100191)3{National Computer Network Emergency Response Technical TeamjCorrdination Center o f China,Beijing100029) Abstract S o c i a l networks,such a s Twitter and Sinaweibo,have become po pu la r p l a t f o r m s t o r e p o r t t h e p u b l i c eve nt.They p r o v i d e v a l u a b l e d a t a f o r u s t o monitor e v e n t s and t h e i r e v o l u t i o n.However,i n f o r m a l words and fragmented t e x t s make i t c h a l l e n g i n g t o e x t r a c t d e s c r i p t i v e in fo rm at io n.Monitoring t h e e v e n t p r o g r e s s i o n from f a s t ac cumulation o f mi croblogs i s a l s o d i f f i c u l t.To t h i s end,we monitor t h e e v e n t p r o g r e s s i o n with a common t o p i c from t h e s o c i a l network.This c a n h e l p u s t og a i n an overviewand a d e t a i l e d documentation o f t h e ev en ts.I n t h i s paper,we u s e t h r e e c o n s e c u t i v ecomponents t o meet thisend.F i r s t,we u s e a s t r u e t u r e based approach t o microblog d a t a s e t.Second,we c l u s t e r t h e e v e n t s by t h e i r t o p i c s based on t h e i r l a t e n t se ma nt ic informatio n,anddefine e a c h c l u s t e r a s a s t o r y.Third,we u s e a graph based approach t o ge ne ra t e a s t o r y l i n e f o r e a c h s t o r y.The s t o r y l i n e i s denoted by a d i r e c t e d a c y c l i c graph(D A G)with a summary t o e x p r e s s t h e p r o g r e s s i o n o f e v e n t s i n t h e s t o r y.The u s e r e x p e r i e n c e e v a l u a t i o n i n d i c a t e s t h a t t h i s method c a n h e l p u s t o m onitor e v e n t s and t h e i r p r o g r e s s i o n by a c h i e v i n g improved a c c u r a c y and comprehension compared with t h e s t a t e o f a r t methods.Key words s o c i a l network;e v e n t progression;s t o r y l i n e;c l u s t e r;t o p i c model摘要推特和新浪微博等社交网络已成为报道公共事件的重要平台,它们为监控事件及其演化提供了宝贵的数据.然而,这些数据包含的非正式词语和碎片化文本使得从中提取描述性的信息具有一定的挑战.另外,从快速生成的大量微博监控事件演化也有一定难度.提出在社交网络中监控事件并对具有相同主题的事件演化进行分析.这既可以在粗粒度水平获得事件的概述,又可以在细粒度水平获得事件的详细信息.通过3个连续的组件实现该任务.1)用结构化的方法从微博检测事件;2)基于事件的隐式语义信息对事件聚类并将聚类获得的簇定义为故事#)用基于图的方法为每个故事生成故事脉络,故事脉络用包含摘要的有向无环图表示故事内事件的演化.用户体验评估实验表明:提出的方法比现有方法具有更高的准确性和可理解性,并能够帮助用户监控事件及其演化.收稿日期!018-03-06 ;修回日期:2018-06-25基金项目:国家自然科学基金项目(U1636210F61421003);国家自然科学基金优秀青年科学基金项目(61322207)This work was supported by the National Natural Science Foundation of China (U1636210F61421003) and the National NaturalScience Foundation of China for Excellent Young Scientists (61322207).通信作者:马帅(m ashuai" buaa. edu. cn)李莹莹等:一种基于社交事件关联的故事脉络生成方法1973关键词社交网络;事件演化;故事脉络;聚类;主题模型中图法分类号TP391社交网络已被政府、公司甚至总统(如奥巴马、特朗普等)等广泛用于发布新闻和报道事件.社交网 络中信息的实时性和快速传播的能力使其成为获取 信息的重要媒介.短文本的表述方式也能够有效地传递关键信息.社交网络的这些特性颠覆了传统媒体在信息传播上的统治力,这使其为监控事件及其演化提供了宝贵数据.然而,社交网络中文本的快速 积累、口语化的表达方式以及文本内容中的错别字 使得监控事件及事件间的演化具有极大挑战.从社交网络文本中对具有同一主题的的事件及其演化进 行提取能够极大地帮助我们在全景上对某一事件进 行了解.例如:我们期望获得关于平昌冬奥会所有项 目(即事件)的信息和这些项目的进程(即事件演 化).这需要我们首先检测事件,而后对这些事件进 行聚类从而获得具有同一主题的事件(即故事),并 最终以一种用户友好的方式(故事脉络)呈现出来.目前针对该问题的方法按照是否需要用户提供 关键词,大致可分为2类!)关键词检索依赖型算法,将该问题形式化为信息检索问题,依据用户提供 的关键词生成故事脉络,如Metr〇M ap[1]首先依据用户提供的关键词匹配到相关的文档,然后用其构 造用于表示故事脉络的多尺度地图.再如W a n g等 人[]首先依据主题相关的包含文本描述的图像集合 用图像的文本和时间相似度构造带权重的图,然后 通过在该图上解决最小权重支配集(minimum-weighted connecteddominating s e t)问题选择用于 表示故事脉络的对象;再如G E S M[3]首先依据用户 提供的关键词得到相关的微博,然后依据W a n g等 人[]的算法构造故事脉络.然而,这类方法严重依赖 于用户所提供的关键词,而对于用户无法提供关键词的情况,这类算法无法提供相应的结果,这限制了 该类方法的应用.2)为了解决这一问题,关键词检索 独立型算法能够自动生成故事脉络,如C A S T[4]首 先从数据流中基于微博的文本相似度和时间相似度 构造微博图,并将微博图中稠密子图做为事件,然后 依据事件间的相似度构造事件间关系,依据事件间 关系追踪事件的上下文.StoryGaph™则将每天的 新闻文本分到不同主题集合中,然后通过新产生的 主题与已经存在的主题的Pearson相关系数决定事 件的演化.然而,故事脉络生成仍然存在2个问题!)事件由微博集合表示且有特定主题,如何从微博集合提取与事件对应的强相关的微博集合是一个关键问题.目前,针对该问题研究者们已经提出多种解决方 式,然而如何选择最优的方法是一个具有挑战的问题.2)对有关联关系的事件如何进行有效组装,并以 故事脉络的形式展示是另一个关键问题.为此,我们将该问题形式化为3个连续的步骤,即事件检测、故事组装以及故事脉络生成.本文的主 要贡献有3个方面:1)从微博检测事件.依据事件的隐式语义信关联事件并组装故事,为故事生成故事脉络以可视化故事的发展过程;2)提出用包含摘要的有向无环图描述故事络.该故事脉络既可以使用户了解故事,也可使用户 了解故事的发展过程;3)利用新浪微博数据集评价我们提出的故脉络生成方法.基于用户体验的实验表明我们方法的性能优于现有方法.1研究问题和系统框架在本节中,我们首先介绍术语的定义;然后,我 们陈述所研究的问题;最后,我们描述系统框架.11术语定义定义1微博•一个微博™■由二元组〈M,T m>表 示,其中,1)M是微博的内容;2)T m是微博的产生时间.定义2.事件.一个事件e是在某时间和地点发 生的事件[6],例如!正确的中国国旗赶制完成预计11日运抵里约”是一个事件.其由六元组(式)〈I,Micr〇6l o g_ez:,Ce,L e,£>e*表示.其中,1)T e 表示 检测到事件的时间;2)Micro6Zog_e:表示事件的微 博集合;3) 表示记录事件主要信息的核心词集合;4)L e表示事件的地点;5) 表示事件的参与者集合;6)认表示事件的描述,该描述由一个短句子表示.我们基于微博集合识别L e和认特征.定义3.故事.一个故事s定义为属于相同主题 的事件集合,例如“2016里约奥运会”是一个故事,其由五兀组(式)〈£^«扣_加,T s,Cs,L S,R*表示•其 中,祝表示故事的事件集合;2)T S 表示故1974计算机研究与发展2018, 55(9)事的时间段%)c5表示故事的核心词集合;4)L5表 示故事的地点集合%)尺表示故事的参与者集合. 我们基于故事的事件集合加识别,C5,L5和R特征.定义@故事脉络用于可视化故事的发展过程,其由二兀组〈ietoow,表 示,其中,是展示故事内事件间演化的有向无环图;2)w m m a r y是描述故事大意的短句子.例 <图1中故事“2016巴西奥运”的故事脉络 (部分)用于可视 事的发展过程.圆结点代表事件,事件的描述和 时间(U T C+8)在该结点的.事件结点的 表示该事件在时丨上的顺序,索引号越大表示事件的时间越靠后.从事件 结点e到事件结点^的有向边表示他们之间的时系.该故事脉络有3个分支:分支A、分支 B和分支C.分支A与“巴约奥动员被 ”相关;分支B与“巴约奥运中国国”相关;分支C与“巴约奥 国女子 4X100 ”相关.故事脉络中的多个分支展示了故事“2016巴西奥运”的发展过程.故事摘要(summary)展示在上方的矩形框里.该摘要由各分支摘要合 ,用 事概述.Summary1) International swimming federation banned saven Russian athletes from taking part of the game.2) The correct Chinese flag has been rapidly manufactured and will ship to Rio on the 11 th of local timme.3) Appeal from track and field team has been rejected and China women relay team got the 9th place at preliminaries.Branch A2016/07/17 12:10©^2) 2016/07/21 16:50Russia is in trouble!Russia will be completely kicked out from this Olympic game?!0^3 J2016/07/21 18:00Russia’s track and field team will besuspended from Rio Olympic game.2016/07/24 08:20©It is first time in 120 years that Russia’steam will be banned from Rio Olympicgame.^5 J2016/07/24 22:10IOC announced the final decision that ©©2016/07/27 10:30Five Russian canoe sprint athletes were banned from Olympic game.2016/08/05 03:10Bach responded Russian doping scandal that I dare to look Russian athletes in the eye.(^)2016/08/24 11:50Appeal from Russia’s team has beenrejected by IOC,Russia’s team was suspended from Rio Paralympics.Branch B ©2016/08/08 12:10U. S. and Canadian Anti-Doping Agency have called on IOC to ban Russian athletes from participation in Olympic game.©Branch C2016/08/19 01:20 Chinese official protested thatChinese flag is incorrect...U. S. Women’s 400-meter relayteam appealed successfullyand got a second shot to run a©2016/08/11 11:50The correct Chinese flag hasbeen rapidly manufactured andwill ship to Rio on the 11 th oflocal time.Russia’s team was permitted to participate the game.2016/07/26 10:00 International swimming federation banned seven Russian athletes from taking part of the game.gi2J2016/08/19 02:40Once performance of U. S.women relay team is betterthan baseline at the rerun,theywill replace China’s team.2016/08/19 06:302016/08/21 14:50Rio Olympic committee:wewill apologize to Chinesegovernment and the people forusing wrong national flag.U. S. women’s 400-meter relayteam replaced China’s team toadvance the final match.f a)2016/08/19 10:20China’s team is replaced byUS team at the final match!Appeal from track and fieldteam has been rejected andChina women’s relay team gotthe 9th place at preliminaries.Fig. 1 The storyline in a story (^2016 Rio Olympic Games”) 图1 “2016巴西奥运”故事的故事脉络李莹莹等:一种基于社交事件关联的故事脉络生成方法19751.2问题陈述对于微博集…,风}),其中风是时间片f 的微博集合.我们的目!)从微博集中检测事件"£$,£.,…,瓦}),其中瓦是时间片f 检测 的事件集合;2)依据事件的隐式语义信息有效的关 联事件并组装故事(S=U,2,…,%}),其中&表示一个故事;3)为每个故事生成一个用于可视 〔事发展过程的故事脉络.1.3系统框架描述我们用包含3个组件的框架(如图2所示)解决 故事脉络生.首先,微博集中事件;然后,我们通过关联事件组装故事;最后,匆每个故事生成描述故事发展过程的故事脉络.DemonstrationEventDetection Story Assembly Storyline Generation ① Core Word Discovery ① StoryConstruction ① Story Skeleton Construction © Core Word ② Story Feature Community Extraction Identification② Story Summary③ Event Feature Identification卜咖jSina Microblog DataFig. 2 System framework图2系统框架1. 3. 1事件检测我们从微博集中检测事件.首先,从微博集得到 由表示事件的核心词和核心词间共现关系构成的核 心词图%然后,发现核心词图中紧密连接的子图并将 子图做为事件的核心词集合;最后,为事件识别 的特征 t ,L e ,P e,认和 Mz 'c r o ^Zog —sf .1. 3. 2故事组装我们依据主题对事件分组,将事件组装成故事. 首先,我们依据事件的隐式语义信息对事件聚类,将 一个 个故事%然后, 每个故事丨其他的特征和1 . 3 . 3 ! 事 络 生每 个 事 生事 络 $事 络 由包含摘要的事件有向无环图表示.首先,我们从故事 的事件集基于弱连通分量和最大生成树构造有向无 环图"々士_);然后,我们基于故事的所有事件描 述提取短文本作为故事的摘要.2系统组件针对在第1节中形式化的3个步骤,即事件检 测、故事组装和故事脉络生成,本节具应的实现方法.2.1事件检测事件步骤,我们旨在从微博数据中检测事件.. 用户理解故事的发展过程,事中的事件应 用事的,即事件应属于特定 且度性.表示事件的词、核心词,在使用频率和与其他词的 式于的时的变7(单个核心词表示的事件粒度,不表达事件的信息.例如单个核心词、辅警,只能表示事件与.密 连 的 核 心 集合表达事件信息,增加事件 .例如,紧密连接的核心词集合, 、沐阳、追授、牺牲和辅,表述+ 政府追公牺牲义”事件.用核心词集合表示的事件不利于用户理 述的,我们用事件的结构化表示用户理解事件.用3个连续的事件检测任务.首先,用热点发现算法[7]发表示事件的的词(核心词#然后,用重叠的社 算[8( 密连接的核心词集合对事件 描述 %, 微博事 件特 征 , 方 用 理事件.下面描述的3个连续的 事件 丨任,我们采用Ring [9]实现的事件算法.2.1.1核 心 发核 心 发, 发 表 示 事 件 的 核 心词.表示事件的用和与的i 模式 于 的时7] .用H O T S P O T [7]:能描述事件的词.该算法首据 微博 数据 构造 图 %然的,即核心词,并输出核心核心系构成的图(核心词图).2.1.2核 心 社核 心 社, 表 示 事 件 的核心词集合.事件的核心词通 密连接.依据 -步输出的核心词图,我们用社算法[]:密连接的核心词社区,即由词(点)和 系(边)构成的稠密子图.核心词社 应事件的核心词集合,其能够有效地描述一个事件..据图3(a )1976计算机研究与发展2018, 55(9)展示的核心词图检测出图3(b)的核心词社区,该核 心词社区表示+政府追 公牺档义 ”事件.2.1.3事件特征识别在事件特征 ,我们将事件的数据进行结构 事件的描述信息.仅用核心词集合表示事件存在不足,如碎 和易读性差.我们将用核心词集合表示的事件扩充为事件六元组,过程如下:1)将时间I赋值为事件被的时间(每 10min)%2)据核心词集合寻找包含事件所有核心词的微博集合%3)将描述A赋值为事件的微博集合中包 含核心词集合中的词最多的句子;4)我们从事件的微博集合中识别所有的命实体(namedentity),包括地名、人名和机构名等%5)我们将地点乙赋值为事件的微博集合中频繁出现的地名;6)将参与者集合尺赋值为事件的微博集合中出现的人名和机构名.2.2故事组装事组装步骤,我们旨在通过关联事件组装故 事.用 事,故事应囊括:题下 事件,即故事组装 效组装 联的事件.据事件词的相似度,即事件的显式语义信息,将 联关系的事件 简单直观的方式.但基于显式语义信息 到的 度较细,即只能将词相似度较高的事件聚到相同的簇.考虑到相同事的事件可能包含较少的 ,如表1所示,事件W和事件〜仅包含“Rio”和“Olympic”两个 ‘,基于显式语义信息的 不能有效组装 联关系的事件•LatentDiricheletAllocation(LDA)为 数据集中的数据,例事件集合中的事件,生 利于相似性和相 判断的 布[10].通过用L D A生成事件的 布发现事件〜和事件^1的主题分布很相似.为方便说明,以下称事件的[分布为隐式语义信息.我们基于L D A挖掘的隐式语义信息将相 的事件 .Table 1 Two Eevents From the Story (u2016 Rio Olympic Games1#表1 故事“2016巴西奥运”中2个事件Feature ei〇Time 2016/08/11 11:50 Location Brazilen 2016/08/19 01:20USParticipants Core words Description Chinese Olympic Committee,the Xinhua News Agencyprotest, rapidly manufacture, ship toThe correct Chinese flag has been rapidly manufactured andwill ship to Rio on the 11th of local time.The US team,Brazilian teamplayback,take-over,appeal,American team,FelixUS women 400-meter relay team of appealed successfullyand got a second shot to run a race.Microblog Set M l:The correct Chinese flag has been rapidly manufacturedand will ship to Rio on 11th. According to Xinhua NewsAgency,Chinese officials repeatedly protested incorrect flagwas used during medal ceremonies and Rio Olympic finallyagreed to rapidly manufacture Chinese flag. contractor,located in Sao Paulo, spent 30 hours to complete the taskand will ship the flags to Rio on 11th.M2:…M l :# Rio Olympic Go for it # [T he women 400-meterrelay team of US granted the rerun. ] US team has filed anappeal claim that US athlete was bumped by a Brazilianathlete and lead to drop baton. After taking the appealfrom US t e am, Brazilian Olympic officials disqualified t h eBrazilian teams and granted the second chance to ran a racealone at night to decidewhether they can advance to final.M2:…我们用2个连续的模块完成故事组装任务.首先,据事件的隐式语义信息关联事件,将事件分到不同的故事;然后,据事件的特征,识别事的特征,生 事的结构化表示,以便用户查询.2.2.1故事构造事构造 ,我们将含有相同主题的事件聚成簇,事.L D A生成的隐式语义信息包含相似性和相 判断等任务的必要统计关系[10],是李莹莹等:一种基于社交事件关联的故事脉络生成方法1977一个有效且被很多学者使用的模型.我们用L D A建模事件所属的故事.每个事件^被建模成故事(主题)的概率分布,用故事向量"1…)表示.其中,4表示事件^属于故事(主题的概率,N s是参数初始故事数.观察发现,较于不相关的事件,相同故事下的事件有更多的共有词.用该先验知识初始化L D A中故事的词分布可减少L D A的搜索空间.我们用预聚类和细聚类的方式组装故事.首先,我们用聚类算法D B S C A N[11]实现预聚类,即依据显式语义信息对事件分组;然后,我们用预聚类的结果初始化L D A中故事的词分布,并依据L D A生成的隐式语义信息构造故事.1)预聚类.预聚类依据事件的显式语义信息对 事件分组.目前有很多成熟且应用广泛的聚类算法.我们从成熟聚类算法中选择适合我们任务的算法.基于密度的聚类算法D B S C A N有3个优势:①能处理带噪音的数据;②不需要指定类别;③容易适应单遍(s i n g l e-pass)聚类,即只需遍历一遍数据集即可完成聚类.我们采用D B S C A N进行预聚类.首先,我们为事件集合E中每个事件e构造词向量•若第々个词在事件e中,叫,=1;否则=〇.然后,我们依据词向量用D B S C A N将事件聚到类成员P中,其中尸={尸1,尺,/,込},巧是包含一个事件集合的预簇.D B S C A N使用的距离函数:dis(el e:)=1—cos(!e.,!:),(1)其中,和!.分别是事件e和事件:的词向量.最终,我们将事件集合£和基于D B S C A N的聚类结果作为细聚类的输人.2)细聚类.细聚类基于预聚类的结果挖掘事件 的隐式 义信息$据事 件的 隐 式 义信息 联事件,并将事件赋值到故事.L D A生成的隐式语义信息有利于相关性判断.用预聚类的结果初始化L D A中故事的词分布可减少L D A的搜索空间.首先,我们依据预聚类结果初始化L D A中故事的词分布,给定预聚类结果P,我们将相同的预簇中事件的词赋给相同的故事;然后,我们用Gibbs Sampling推断L D A的参数、事件的故事向量;最后,我们依据选择标准将事件赋给故事.选择标准.我们假设每个事件属于且仅属于一个故事.我们将事件赋给概率最高的故事.算法1.故事构造算法.输人:事件集合£={1,e.,…,e…}、初始故事数A,;输出:故事集合S={,,,…,m}(T O"N s). Construct. St or y(E^N,);①S#,,,…,S N J;② {尸1,尸2,…,^}#D B S C A N(E);③ f o r 4=1t o I d o④ i f ."N^then⑤ k#i;⑥ e l s e⑦ k#random(1^N,);⑧ end i f⑨将预簇尺中所有事件的所有词赋给故事Sk的词列表;⑩ end f o r⑪f o r fe,=1t o d o⑫f o r e a c h e v e n t e$E d o⑬f o r e a c h word,$e d o⑭f o r e a c h s t o r y s$S do⑮计算事件e中词,属于故事s的概率;⑯end f o r⑫基于词,的故事概率分布抽样词所属的故事;⑮end f o r⑬end f o r⑫end f o r⑪f o r e a c h e v e n t e$E d o⑫为事件e计算故事向量;9end f o r⑫基于选择标准将事件赋给故事;㉕移除故事集合S中空故事;9r e t u r n S.故事构造的伪代码如算法1所示,给定事件集E,故事构造算法构造并返回故事集S.首先,我们用 聚类算法D B S C A N预聚类(行②)然后,我们用D B S C A N的预聚类结果初始化L D A(行③〜⑩)随之,我们用GibbsSampling推断L D A的参数,包括 推断事件的故事向量(行⑪〜2)而后,我们依据选 择标准将事件分到故事中并去掉不包含事件的故事 (行⑭〜㉕)最后,我们返回非空的故事集S(行⑫).时间复杂度分析.D B S C A N需计算任意2个事 件间的距离,这需要〇(|E|2).L D A需为各事件的各 词抽样故事,这需要〇(N%E|Z),其中Z是事件中词 的平均长度.总时间复杂度为0(|E|2+N|E|Z).1978计算机研究与发展2018, 55(9)2. 2. 2故事特征识别事特征,我们将故事的数据进行结构于用户查询故事.事件组件为事件生成结构化表示,用事件的结构化表示生事的结构化表示既能充分利用相关微博的信息,也 :高效率.我们基于事件六元组将用事件集合表示 的故事扩充为故事五元组,过程如下!)故事的时间T ,的开始时间和结束时被赋值 事的事件集中事件的最早时间和最晚时间;2)故事内包识别特征并返回故事集S .首先,故事的开始时间被 设为事件集中的事件的最早时间(行②),故事的结 束时间被设为事件集中事件的最晚时间(行③)然 ,故事的地点集合、参与者集合和核心词集合 I被设为事件集中地点、参与者集合和核心词集合的集(行④〜⑥)最后,故事集S 被返回(行⑧). 时间复杂度.为故事生成特征时,,遍历该故事的事件集,这需要〇(L ),其中L 指故事中事 件的平均长度.因此,总的时间复杂度为0(1 SIL ).含事件的特征越多,越能帮助用户查询故事,故事的 点集合L ,、参与者集合P 5和核心词集合C ,分别 被设事的事件集中相应特征的并集.算法2.故事特征识别算法.输入:故事集合S =.i ,&,…,^} %输出:故事集合S =.i ,S2,I d e n t i f y . Story . Fe at ur e (S ) %® f o r e a c h s t o r y s$S do ②T s . start#m in ({T e \e $ Event __sets }) %③T _. stop #m ax ( { T e | e $ Event _sst _}) %④'_#U 'e %e $ Event _e t⑤p s # U P e ;e $ Event _9et9⑥Cs # U e $ Event C e %9et9⑦end f o r⑧ r e t u r n S E故事特征识别的伪代码如算法2所示.给定故 事集S ,故事特征算事集S 中每个故事2.3故事脉络生成事脉络生成步骤,我们旨在为故事生成包含摘要的有向无环图 视事的发展过程.为更好的用 验,故事脉络应兼顾准和理解.准 指故事脉络准 展示事件的发展过程.理指 事 络 于用的 事 E 事可能包含多个相对独立的.例“2016巴西奥运”故事包含“巴 约奥动员被”和“巴约奥国女子4X 100f”等多个相对独立的 .我们用弱连通:提事中多个相对独立的 .为方便描述,下面称相对独立的支.支内的事件强的关联关系.复杂的图结构表示的分支不便于用 的理解[15].如图4(a )中图结构表示的分支,虽然其充表事件间的关联关系,但其也引入 不必要连接,如事件^到事件〜为折中准 和理解性,我们用最大生成树生支的树结构,如图)(b )所示.(a) Graph structure2016/07/17 12:10U. S and Canadian Anti-Doping Agency have called on IOC to ban Russian athletes from participation in Olympic game.2016/07/21 18:00Russia’s track and field team will be suspended from Rio Olympic game. 2016/07/24 08:20 —It is first time in 120 years that Russia’s team will be banned from Rio Olympic game.2016/07/24 22:10IOC announced the final decision that Russia’s team was permitted to participate the game.2016/07/26 10:00International swimming federation banned seven Russian athletes from taking part of the game.2016/07/27 10:30Five Russian canoe sprint athletes were banned from Olympic game.(b) Tree structureFig. 4 A branch represented by a graph or tree structure图4由图或树结构表示的分支我们用2个连续的模块完成故事脉络生成任 务.首先,事的事件集中基于弱连通 和大生成树构造故事骨架%然后,我们用基于图的方本做事的摘要.2 E /E 1 !事 骨 构造事 骨 构 造$据 事 的 事 件 集构造 用于 描 述 事发展 过 的 向无 环 图 E$计算2事件间的权重,依此生向边,构造李莹莹等:一种基于社交事件关联的故事脉络生成方法1979一个事件图;然后,我们依据事件图识别故事中的分 支,即识别该图中所有的弱连通分量,并形成弱连通 分量集合;最后,我们为弱连通分量集合中每个弱连 通分量构造一个最大生成树,即用树结构表示的分支.这些用树结构表示的分支构成故事的骨架:zv(.et,e j')=l(.T e.sim i (et](c p sim p(e t $')\cc sim c(e t $')'),(2)其中,$和e:表示2个事件,>(T$,T$)表示事件间 的时间关系;4m,,4m0和4m t表示2事件地点、参与 者集合和核心词集合的相似度=0和=是权重系数,该权重系数在满足C0+C==1的条件下可以被调整.演化关系包含着事件的时间关系.有向边只能从先发生的事件指向后发生的事件.若Te.<Te.,s:>(T$,T$ )=1;在其他情况下,>(T$,T,)=0.相同地点发生的事件更可能属于相同的分支. smi用于度量2事件地点间的相似度.s m,($,)= 1,若事件,和事件e:的地点相同%m/,,)= 0.5,若事件,的地点地理位置上属于事件e:的地 点,例如地点“中国北京”在地理位置上属于地点“中国”c m/ (e,e,)=0,在其他情况下.事件间的参与者和核心词的相似度同样能反映事件间的演化关系.度量2事件的参与 者集合的Jaccard系数,4m t(e, e)度量2事件的核 心词集合的Jaccard系数.事件的微博集合由包含事件所有核心词的微博 构成.事件的地点和参与者由微博集合中的命名实体构成.因此事件的核心词、地点和参与者包含了微 博集合的主要信息.我们在3个组装的故事上调节权重系数=0和 c=.首先,我们使用多组权重系数构造故事骨架.然后,我们依据骨架是否反应故事的发展过程对多个故事骨架排序,并依据排序结果设定=0=0. 3和c c=0E7E算法3.故事骨架构造算法.输人:故事,的事件集£,批_,〖=.1,,…,,%Event__$t %}%输出:故事的骨架,$Z"〇n.Construct.Story.Skeleton(E,"」")%①基于E,"_$"创建一个按时间升序排列的事件列表een"Z f"%%skeleton#nnW;③e,n26rancA#nu ll; /)事件到分支映射)/@f o r s=0t o event.list.size—1do⑤ eent0a,t#null% /)父事件结点)/⑥ e^,.,4g7t#0; /)与父事件结点边的权重)/*f o r:=0t o l—1do⑧ :2l.weight#compute.Height(event.Zzt.s)% /)依据式(2)计算事件:到i的有向边权重)/⑨ i f j2i.vueight*edge.weight th en⑩ event.0arent#event.list,get")⑪edge.weight#j2i.weight%⑫end i f⑬end f o r⑭i f event.0arent+null th en⑮branch#event2branch.get^event.iist.g t")) %⑮branch.add(edge(.event.iist^j s));⑮event2branch.0ut"vent.list,g e t d,branch)⑬e l s e⑮创建一个新的分支branch;9branch.add"vent.list,g e t d)%0event2branch.0ut"vent.list,g e t d,branch#%⑬skeleton.add(branch)%9end i f⑭end f o r45r e t u r n skeleton.故事骨架构造的伪代码如算法3所示.给定故 事s的事件集E e t_$t,算法3为故事s构造并返 回故事骨架k i t o n.算法计算弱连通分量的同时构造 连通 的 大生 .,据事件的时间升序排列事件(行①).然后,我们遍历事件(行④〜⑭).我们计算事件e e t与任意时间在e e t之前的事件间的有向边权重,并寻找最大的权 重和对应的父事件eent0a,t(行⑤〜⑬).若存 在父事件,则事件e e t属于事件eent0a,t所 在的分支,并在分支中添加从事件eent0a,t到 事件e e t的边(行⑮〜⑬),否则,构造新的只包含 事件e e t的分支branch(行⑬〜⑫).最后,我们返 回故事骨架k i t o n(行@).时间复杂度分析.升序排列事件花费的时间为CK%E e t%l b( %E e t%)).构造弱连通分集和 大生 计算 2 事 件 向权重,花费的时间为〇(|E,t s t|2).总花费时间为 0(|Event_set|2).。

基于NLP的社交媒体舆情分析与事件预测研究

基于NLP的社交媒体舆情分析与事件预测研究

基于NLP的社交媒体舆情分析与事件预测研究社交媒体在当今社会已经成为人们交流、获取信息和表达观点的重要平台。

然而,随着社交媒体的快速发展,舆情的形成和演变也日益复杂。

为了更好地理解社交媒体舆情,并准确预测可能发生的事件,基于自然语言处理(NLP)的社交媒体舆情分析与事件预测研究变得十分重要。

本文旨在探讨基于NLP的社交媒体舆情分析与事件预测的方法和应用。

1. 社交媒体舆情分析的意义和挑战社交媒体舆情分析是指通过对社交媒体平台上的文本、图像和视频等内容进行挖掘和分析,来获取用户对特定事件、话题或产品的观点和情感倾向。

社交媒体舆情分析不仅可以帮助企业、政府和个人更好地了解公众意见和情感态度,还可以指导决策和管理。

然而,由于社交媒体的高度异质性、动态性和大规模性,舆情分析面临诸多挑战,包括信息噪音、情感倾向分析和事件预测的准确性等方面。

2. NLP在社交媒体舆情分析中的应用NLP作为一门研究人机交互和自然语言理解的领域,可以为社交媒体舆情分析提供有效的工具和技术支持。

首先,NLP可以帮助提取社交媒体上的文本信息,并对其进行预处理,包括分词、去除停用词和词干化等操作。

然后,基于机器学习和深度学习的技术,可以对社交媒体文本进行情感倾向分析,判断用户的喜好、态度和情感倾向。

此外,NLP还可以进行关键词提取和主题建模,帮助用户更好地理解社交媒体上的热点话题和事件。

3. 社交媒体事件预测的方法和研究社交媒体舆情分析的一个重要应用就是事件预测。

通过分析社交媒体上的讨论和一些指标,如用户观点、关键词和用户互动等,可以预测将来可能发生的事件。

在这方面,NLP技术可以帮助识别关键词和主题,并提取用户观点和情感信息。

接着,利用时间序列分析和机器学习算法,可以对事件的趋势和未来可能的发展进行预测。

例如,对于某个新产品的上市,社交媒体上的用户评论和讨论可以被用来预测产品的市场反应和用户接受程度。

4. 基于NLP的社交媒体舆情分析与事件预测的实际应用基于NLP的社交媒体舆情分析与事件预测已经在各个领域得到广泛应用。

基于社交网络分析的事件演化预测研究

基于社交网络分析的事件演化预测研究

基于社交网络分析的事件演化预测研究社交网络分析作为一种新兴的数据分析技术,已经被广泛应用于各个领域。

其中,基于社交网络分析的事件演化预测研究,可以有效地帮助人们更好地了解事件的发展趋势,从而制定出更科学的应对策略。

本文将从事件演化预测研究的意义、方法、实践应用等方面进行探讨。

一、事件演化预测研究的意义在当今社会,事件发生的频率越来越高,而且事件的规模和影响力也越来越大。

因此,人们迫切需要一种能够提前预测事件演化趋势的工具,以便及时制定出对策。

在这种情况下,基于社交网络分析的事件演化预测研究应运而生。

通过对社交网络中各个节点之间的关系进行分析和研究,可以有效地预测事件的演化趋势,从而提前制定出应对策略,降低事件的影响力。

二、事件演化预测研究的方法基于社交网络分析的事件演化预测研究主要采用社交网络分析算法和机器学习算法来进行研究。

其中,社交网络分析算法主要包括节点度中心性、介数中心性、接近度中心性等多种算法。

这些算法可以有效地分析和研究社交网络中各个节点之间的关系,并通过对这些关系的分析来预测事件的演化趋势。

除了社交网络分析算法,机器学习算法也是事件演化预测研究的重要方法之一。

通过对社交网络中的数据进行采集、分析和训练,可以构建出基于机器学习算法的模型,从而进行事件演化预测研究。

这些模型可以利用历史数据来预测未来的事件发展趋势,从而为决策者提供更为科学的决策依据。

三、基于社交网络分析的事件演化预测研究的实践应用基于社交网络分析的事件演化预测研究已经被广泛应用于各个领域。

例如,在舆情分析领域,通过对社交网络中的数据进行采集、分析和建模,可以预测社会热点事件的发展趋势,从而提前掌握舆论动向,为政府部门和相关企事业单位提供依据。

在品牌口碑管理领域,可以利用社交网络分析技术对品牌在社交媒体上的口碑进行监测和分析,并利用预测模型提前预测口碑发展趋势,从而及时进行品牌管理。

除了这些领域,基于社交网络分析的事件演化预测研究还可以被应用于金融风险管理、灾害预警等多个领域。

基于多源融合的社交媒体舆情分析模型

基于多源融合的社交媒体舆情分析模型

基于多源融合的社交媒体舆情分析模型一、社交媒体舆情分析的重要性与挑战随着互联网技术的飞速发展,社交媒体已成为人们获取信息、表达观点和交流思想的重要平台。

社交媒体的普及和影响力的提升,使得舆情分析变得尤为重要。

舆情分析能够帮助政府、企业以及个人了解公众情绪、预测舆情走向,从而做出更为明智的决策。

1.1 社交媒体舆情分析的核心价值社交媒体舆情分析的核心价值在于能够及时捕捉和分析公众在社交媒体上的讨论和情绪。

这种分析有助于揭示社会热点问题、公众关注点以及舆论的动态变化。

通过对社交媒体数据的深入挖掘,可以为政策制定、市场策略、品牌形象管理等提供数据支持。

1.2 社交媒体舆情分析面临的挑战尽管社交媒体舆情分析具有巨大的潜力和价值,但在实际操作中也面临着诸多挑战。

首先,社交媒体数据的海量性使得数据收集和处理变得复杂。

其次,社交媒体上的信息真实性和可靠性需要仔细甄别。

此外,用户隐私保护、数据安全和伦理问题也是舆情分析过程中需要考虑的重要因素。

二、基于多源融合的社交媒体舆情分析模型构建为了有效应对社交媒体舆情分析的挑战,构建一个基于多源融合的分析模型显得尤为重要。

该模型能够整合来自不同社交媒体平台的数据,通过先进的数据处理技术和分析方法,提供更为全面和深入的舆情分析。

2.1 多源数据的采集与整合多源数据的采集是构建舆情分析模型的第一步。

需要从Twitter、Facebook、Instagram、微博、微信等多个社交媒体平台收集数据。

这些数据包括文本、图片、视频等多种形式。

数据采集后,需要进行清洗和整合,以消除重复和无关信息,确保数据的质量和一致性。

2.2 舆情分析的关键技术构建舆情分析模型需要应用多种关键技术,包括自然语言处理(NLP)、情感分析、主题建模、趋势分析等。

自然语言处理技术用于理解文本内容,情感分析用于判断文本的情感倾向,主题建模用于识别讨论的主题和关键词,趋势分析用于预测舆情的发展趋势。

2.3 模型的评估与优化模型的评估是确保舆情分析准确性的重要环节。

多模态社交媒体分析

多模态社交媒体分析

多模态社交媒体分析随着互联网的快速发展,社交媒体已经成为人们日常生活中不可或缺的一部分。

人们通过社交媒体平台分享自己的生活、观点和情感,与朋友、家人和陌生人进行互动。

然而,传统的社交媒体主要依赖于文本形式的信息传递,无法满足用户对多模态内容的需求。

多模态社交媒体分析应运而生,通过对文本、图像、音频和视频等多种形式内容进行综合分析,为用户提供更丰富、更细致的信息。

一方面,多模态社交媒体分析可以提供更全面的用户画像。

传统上,通过用户发布的文本内容可以了解其兴趣爱好、观点倾向等信息。

然而,在现实生活中,人们通过图片和视频等形式表达自己更为直观和真实。

因此,在多模态社交媒体分析中加入图像和视频等元素可以更好地了解用户行为与特征。

另一方面,在情感识别方面也有着广泛应用前景。

情感识别是指通过对文本、音频或视频等数据进行分析来判断其表达者情感状态的过程。

多模态社交媒体分析可以通过结合多种模态的数据,提高情感识别的准确性和可靠性。

例如,通过分析用户发布的图片和视频中的面部表情、语调、语言内容等,可以更准确地判断用户当前的情感状态。

多模态社交媒体分析还可以应用于社交网络中的舆情分析。

舆情分析是指对社交网络中涉及特定事件、话题或个人等内容进行监测和分析,以了解公众对该事件或话题的态度和观点。

传统上,舆情分析主要依赖于文本内容的挖掘和统计。

然而,在现实生活中,人们通过图片、视频等形式表达对特定事件或话题的看法更为直观。

因此,在多模态社交媒体分析中加入图像和视频等元素可以更全面地了解公众对特定事件或话题的态度。

除了上述应用领域外,多模态社交媒体分析还可以应用于广告推荐、用户行为预测等方面。

例如,在广告推荐方面,传统上主要依靠用户历史行为数据进行推荐。

然而,在现实生活中,人们通过图片、视频等形式表达自己对产品或服务的喜好更直观。

因此,通过对用户发布的多模态内容进行分析,可以更准确地了解用户的兴趣和需求,从而提供更精准的广告推荐。

人工智能驱动的社交媒体舆情分析方法与应用

人工智能驱动的社交媒体舆情分析方法与应用

人工智能驱动的社交媒体舆情分析方法与应用随着社交媒体的快速发展和普及,人们已经完全融入了一个信息丰富的数字世界。

社交媒体平台上的每个用户都成为了信息的生产者和消费者,他们的言论和行为成为了社会舆论的一部分。

这使得社交媒体成为了实时舆情的重要来源。

社交媒体舆情分析是一种用于收集、整理、分析和预测社交媒体上用户感兴趣的话题、意见和情绪的方法。

随着大数据和人工智能技术的发展,社交媒体舆情分析正变得越来越准确和高效。

本文将介绍一些人工智能驱动的社交媒体舆情分析方法及其应用。

一、社交媒体舆情分析方法1. 文本挖掘与情感分析:文本挖掘和情感分析技术通过自然语言处理和机器学习算法,对社交媒体上的文本内容进行分析。

这些方法可以识别和提取用户的意见、情绪和观点,帮助分析师更好地理解和预测公众对特定事件或话题的反应。

基于情感分析的方法可以将用户的情感划分为积极、中性和消极,以便更好地评估舆情的倾向。

2. 图像和视频分析:图像和视频分析技术可以通过计算机视觉和深度学习算法,自动识别和分析社交媒体上的图片和视频内容。

这使得分析师能够更好地了解用户的行为和态度,并识别可能引发舆论的关键事件。

例如,通过分析社交媒体上的图片和视频,可以实时监测自然灾害、社会事件和政治热点等,并及时回应和解决相关问题。

3. 社交网络分析:社交网络分析是对社交媒体上的用户之间的关系和互动进行分析的方法。

通过分析用户之间的连接、交流和影响力,可以了解舆论的传播过程和影响力。

社交网络分析可以帮助企业和政府机构更好地了解用户的需求和偏好,制定更准确和有效的策略。

二、人工智能驱动的社交媒体舆情分析应用1. 政府决策支持:政府部门可以利用人工智能驱动的社交媒体舆情分析来了解公众对政策的态度和反应。

通过分析舆论和用户的意见,政府能够更好地预测和回应公众的需求,从而制定更具针对性和可接受性的政策措施。

2. 品牌声誉管理:企业可以借助社交媒体舆情分析来监测和管理品牌的声誉。

社交网络中的用户话题建模与分析

社交网络中的用户话题建模与分析

社交网络中的用户话题建模与分析随着互联网的普及和社交网络的快速发展,人们在社交媒体平台上进行日常交流和话题讨论已经成为常态。

社交网络中的用户话题建模与分析是一项重要的研究领域,它包括对用户在社交媒体上发布的内容进行话题划分和分析,以了解用户兴趣、关注领域和社会趋势。

话题建模是指通过文本分析技术和机器学习算法,将用户在社交网络上发布的内容进行自动分类和归纳,从而识别出不同的话题。

在社交网络中,每个用户发布的内容通常包含文本、图片、视频等多种形式,因此需要采用多模态的分析方法来处理这些数据。

在话题建模过程中,首先需要从社交网络中收集大量的用户数据。

这些数据可以来源于不同的社交媒体平台,如微博、Facebook和Twitter等。

接下来,需要对文本数据进行预处理,包括分词、去除停用词和词干化等。

然后,可以采用文本挖掘和机器学习技术,如主题模型(如LDA)和聚类算法(如K-means),来进行话题划分和分析。

话题建模的结果可以提供给社交网络平台的推荐系统,用于生成个性化的推荐内容。

例如,当用户关注某个特定话题时,平台可以根据话题建模的结果向用户推荐相关的内容和用户。

这可以提高用户的使用体验,并增加用户的粘性。

除了话题建模,对用户在社交网络上的话题进行分析也是一项重要的研究任务。

通过对用户话题的分析,可以了解用户的兴趣爱好、关注领域和社会趋势。

例如,可以通过统计某个话题的热度和讨论规模来了解用户对该话题的关注程度;可以通过比较不同用户对话题的观点和情感倾向来了解社会舆论的倾向;可以通过对用户话题的时序分析来发现话题的传播规律和突发事件。

在进行用户话题分析时,可以采用文本分析和数据挖掘技术。

例如,可以通过情感分析技术,对用户在社交网络上发布的内容进行情感倾向的判断。

也可以通过社交网络分析技术,构建用户之间的关系图谱,分析用户之间的影响力和社交影响力。

此外,还可以使用网络爬虫技术,对用户在社交网络上的转发和评论行为进行分析。

社交网络分析中的网络节点识别技术使用教程

社交网络分析中的网络节点识别技术使用教程

社交网络分析中的网络节点识别技术使用教程导语:社交网络分析已经成为现代社会科学研究中的重要工具之一。

而网络节点识别技术则是社交网络分析的核心内容之一。

本文将为您介绍社交网络分析中的网络节点识别技术的使用教程。

一、什么是网络节点识别技术?网络节点识别技术是指通过分析社交网络中的节点之间的关系和属性信息,识别和分类节点的过程。

节点可以是社交网络中的个人用户、组织实体或其他实体。

网络节点识别技术可以帮助我们深入了解社交网络中的个体,揭示他们之间的联系,并为我们进行个体行为预测、影响力分析等提供支持。

二、网络节点识别技术的步骤1. 数据收集:首先需要收集社交网络中的数据,包括节点的关系连接和节点的属性信息。

节点的关系连接可以通过提取网络中的链接关系来实现,节点的属性信息可以通过节点的个人资料、发帖内容等获得。

2. 特征提取:在进行节点识别之前,需要对节点的属性信息进行特征提取。

特征提取是将节点的属性信息转换为有效的数值特征表达的过程。

常用的特征提取方法有文本特征提取、图像特征提取和网络拓扑特征提取等。

3. 训练模型:将提取的特征作为输入,建立一个合适的网络节点识别模型。

常用的识别模型包括决策树、支持向量机、神经网络等。

在构建模型之前,应根据实际需求选择适合的算法和模型架构。

4. 模型训练与验证:使用收集到的部分数据进行模型的训练,并使用另外一部分数据进行模型的验证。

通过不断调整模型参数,提高模型的性能和准确率。

5. 节点识别与分类:使用训练好的模型对未知节点进行识别和分类。

模型将根据节点的特征进行判断,给出节点所属的类别。

根据具体需求,可以进行多分类和二分类等任务。

三、常用的网络节点识别技术1. 基于图嵌入的网络节点识别技术:通过将节点和边的信息映射到低维向量空间中,以捕捉节点之间的结构信息和关系。

常用的方法有DeepWalk、Node2Vec等。

2. 基于机器学习的网络节点识别技术:通过训练一个分类器来区分不同的节点。

自然语言处理在社交媒体分析中的应用

自然语言处理在社交媒体分析中的应用

自然语言处理在社交媒体分析中的应用在当今数字化的时代,社交媒体已经成为人们生活中不可或缺的一部分。

人们在社交媒体上分享自己的想法、感受、经历和观点,产生了海量的数据。

如何从这些纷繁复杂的数据中提取有价值的信息,理解用户的情感、需求和行为,成为了一个重要的研究课题。

自然语言处理(Natural Language Processing,简称 NLP)技术的出现为解决这一问题提供了有力的手段。

自然语言处理是一门让计算机理解和处理人类语言的学科,它涉及到语言学、计算机科学、数学和统计学等多个领域的知识。

在社交媒体分析中,NLP 技术可以帮助我们对社交媒体上的文本数据进行挖掘、分类、情感分析和信息抽取等,从而为企业、政府和研究机构提供决策支持和洞察。

首先,NLP 技术在社交媒体数据的挖掘和分类方面发挥着重要作用。

社交媒体上的内容种类繁多,包括新闻、评论、帖子、微博等。

通过使用 NLP 技术中的词法分析、句法分析和语义理解等方法,我们可以对这些文本数据进行预处理,提取关键信息,如关键词、主题词和命名实体等。

然后,利用机器学习算法,如朴素贝叶斯、支持向量机和决策树等,对这些数据进行分类,将其分为不同的类别,如政治、经济、娱乐、体育等。

这样,我们就可以快速地了解社交媒体上的热点话题和关注焦点,为相关的研究和决策提供依据。

其次,情感分析是 NLP 在社交媒体分析中的另一个重要应用。

人们在社交媒体上表达自己的情感和态度,这些情感信息对于了解公众的意见和情绪非常有价值。

通过 NLP 技术,我们可以对社交媒体上的文本进行情感分析,判断其是积极的、消极的还是中性的。

例如,对于一条评论“这部电影太棒了,我非常喜欢!”,NLP 算法可以判断其情感倾向为积极;而对于“这家餐厅的服务太差了,再也不来了!”则可以判断为消极。

情感分析不仅可以应用于对产品、服务的评价,还可以用于对社会事件、政策的民意调查,帮助政府和企业及时了解公众的反应,做出相应的调整和改进。

微博事件感知与脉络呈现系统

微博事件感知与脉络呈现系统

微博事件感知与脉络呈现系统欧阳逸;郭斌;何萌;於志文;周兴社【期刊名称】《浙江大学学报(工学版)》【年(卷),期】2016(050)006【摘要】为了研究微博的事件感知与脉络呈现方法,以Twitter为研究对象,对现实生活中发生的事件进行提取并呈现事件发展的过程.对微博的处理分为事件感知阶段和事件脉络呈现阶段.在事件感知阶段对原始微博进行过滤分析,去除冗余信息,并得到与事件相关的微博集.在事件脉络呈现阶段采用基于图结构的方法,将微博之间的关系转换成图中结点之间的关系,寻找图中的关键结点作为关键微博,并连接关键结点,最终得到在时间和内容上连贯的事件脉络.实验结果表明:所提出的方法能呈现事件的发展过程,也能体现事件发展的多样化.【总页数】7页(P1176-1182)【作者】欧阳逸;郭斌;何萌;於志文;周兴社【作者单位】西北工业大学计算机学院,陕西西安 710129;西北工业大学计算机学院,陕西西安 710129;西北工业大学计算机学院,陕西西安 710129;西北工业大学计算机学院,陕西西安 710129;西北工业大学计算机学院,陕西西安 710129【正文语种】中文【中图分类】TP399【相关文献】1.基于社交媒体的事件感知与多模态事件脉络生成 [J], 徐程浩;郭斌;欧阳逸;翟书颖;於志文2.突发公共卫生事件中微博、微信的议题呈现异同r——以2016年山东"疫苗事件"为例 [J], 黄宇3.争议性公共事件的微博舆论呈现——以“上海女孩逃离江西”事件为例 [J], 庄雯莎4.报纸微博同题叙事的“辫式”呈现——以《南方都市报》新浪微博“小悦悦事件”报道为个案 [J], 周正昂;张珞5.社交媒体中新生代生育观呈现——基于“杨丽萍微博热搜事件”的内容分析 [J], 张淑燕;刘爽;孙新宇因版权原因,仅展示原文概要,查看原文内容请购买。

ChatGPT技术在社会媒体分析领域的实际应用案例分享

ChatGPT技术在社会媒体分析领域的实际应用案例分享

ChatGPT技术在社会媒体分析领域的实际应用案例分享社交媒体已经成为人们日常生活中不可或缺的一部分,无论是个人还是企业都离不开这个广阔的交流平台。

随着互联网的快速发展,社交媒体上涌现出大量的文本信息,这给信息的处理和分析带来了挑战。

然而,近年来的人工智能技术取得了重要突破,其中ChatGPT技术(Chat Generative Pre-trained Transformer)在社会媒体分析领域的应用展现出了极大的潜力。

ChatGPT是由雷鬼公司(OpenAI)开发的一种语言生成模型,它基于预训练的Transformer模型。

相比传统的基于规则的文本处理方法,ChatGPT能够更好地理解和生成自然语言,使得人机交互更加自然和易用。

在社会媒体分析领域,ChatGPT技术可以应用于多个方面,如情感分析、主题识别、用户关系分析等。

在情感分析方面,ChatGPT的应用非常广泛。

社交媒体上的情感信息往往是用户对某一事件、产品或观点的态度和情感表达。

分析这些情感信息对企业和政府机构来说具有重要意义。

例如,在某一特定时间节点,如果某一品牌的社交媒体上涌现出大量的负面情感,这可能意味着该品牌正面临舆论危机。

利用ChatGPT技术可以进行实时的情感分析,帮助企业快速了解和应对相关问题。

此外,ChatGPT还可以用于社交媒体上的主题识别。

社交媒体上的信息量庞大,用户的关注点和讨论话题也各不相同。

通过ChatGPT技术,我们可以对社交媒体上的文本信息进行聚类和分类,从而找到用户感兴趣的主题和热门话题。

这对于企业开展精准的营销和舆情监测非常有帮助。

例如,某企业可以通过ChatGPT技术追踪用户对其产品的评价,进而了解用户对产品的需求和改进方向。

除了情感分析和主题识别,ChatGPT还可以用于用户关系分析。

社交媒体上的用户关系网络错综复杂,用户之间的连接和交互隐藏着重要的信息。

ChatGPT可以通过学习海量的社交媒体文本,分析用户之间的对话和互动模式,从而识别出用户之间的关系类型,如朋友、家人、同事等。

内容分析报告

内容分析报告

内容分析报告一、前言内容分析是一种基于统计学和语言学的研究方法,旨在分析文本、音频和视频等媒体中的信息,以了解传播内容、社会事件、个体行为等方面的特征和变化。

本文旨在对近期内容分析领域的研究进行总结和归纳,分析研究热点和趋势,并对未来的研究方向进行展望。

二、研究现状内容分析作为一种广泛应用的研究方法,其应用领域非常广泛,如新闻传播、政治学、营销学、心理学等领域。

然而,随着信息技术不断发展,传统的内容分析方法已经无法满足分析和处理大规模数据的需求。

因此,研究者们开始尝试采用机器学习、自然语言处理等技术来进行内容分析研究。

近期,内容分析领域的研究重点主要包括以下几个方面:1. 基于机器学习和自然语言处理的内容分析模型。

研究者们通过训练大规模的数据集,建立了一系列基于深度学习、自然语言处理技术的内容分析模型,包括情感分析、主题分类、实体识别等。

2. 基于社交媒体的内容分析研究。

随着社交媒体的普及,研究者们开始着手对社交媒体中的文本、照片、视频等多媒体内容进行分析,以了解社会事件和民众的态度。

3. 基于语料库的内容分析研究。

语料库是指由大量文本样本组成的数据库,研究者们通过分析语料库中的文本,以了解不同领域的语言使用规律和特征。

三、未来展望由于内容分析领域的应用非常广泛,未来的研究方向也将扩展到更多领域。

除了上述几个热点方向之外,我认为以下几个方向值得研究者们进一步关注:1. 基于大数据的内容分析技术。

未来的内容分析研究需要更多的大数据样本来支持研究结论,需要更加高效的数据分析和处理方法。

2. 基于跨媒体的内容分析研究。

传统的内容分析都是针对某一种特定媒体进行研究,未来可以将多媒体内容进行跨媒体分析,以更全面地了解传播内容。

3. 基于多模态的内容分析研究。

除文本之外,音频、视频等多模态数据也是内容分析领域研究的重点之一,未来需要更多的研究来深入探讨这些领域。

四、结论内容分析作为一种重要的研究方法,已经在不同领域展示了极大的作用。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第44卷 第6A期2017年6月计算机科学COMPUTER SCIENCEVol.44No.6AJune 2017本文受国家重点基础研究发展计划(973计划)(2015CB352400),国家自然科学基金(61332005,61373119)资助。

徐程浩(1994-),男,主要研究领域为普适计算、社交媒体挖掘,E-mail:haochengxu@mail.nwpu.edu.cn;郭 斌(1980-),男,博士,教授,CCF高级会员,主要研究领域为普适计算和移动群智感知,E-mail:guob@nwpu.edu.cn(通信作者);欧阳逸(1994-),男,博士生,主要研究领域为普适计算;翟书颖(1981-),女,讲师,主要研究领域为物联网和移动社交网络;於志文(1977-),男,博士,教授,CCF高级会员,主要研究领域为普适计算和社会感知计算。

基于社交媒体的事件感知与多模态事件脉络生成徐程浩1 郭 斌1 欧阳逸1 翟书颖2 於志文1(西北工业大学计算机学院 西安710129)1 (西北工业大学明德学院 西安710129)2摘 要 随着信息技术的发展和社交媒体的流行,普通用户已经完成了从信息接受者到信息产生者的转变,每个人都可以实时分享自己身边的信息,也可以转发自己感兴趣的内容,这使得社交媒体的数据量迅速增长。

在海量数据中蕴含着丰富的社会事件发生和发展的记录,如何有效地从这些数据中挖掘出有价值的信息成为了当前信息领域的重要问题。

针对该问题,介绍了基于社交媒体的事件感知与多模态事件脉络生成。

基于社交媒体的事件感知与多模态事件脉络生成旨在通过分析社交媒体中的文本、时间、图像、评论、观点、情感和用户交互等多模态数据,感知事件并刻画事件的关系,从而实现对事件的总结。

讨论了基于社交媒体的事件感知与多模态事件脉络生成的描述模型、概念、发展历史、关键技术与挑战以及其广泛的应用领域,综述了社交媒体分析在事件感知和事件总结方面的研究进展,并对其未来发展进行了展望。

关键词 社交媒体,事件感知,多模态数据,事件脉络,跨媒体中图法分类号 TP391 文献标识码 A Event Sensing and Multimodal Event Vein Generation Leveraging Social MediaXU Cheng-hao1 GUO Bin1 OUYANG Yi 1 ZHAI Shu-ying2 YU Zhi-wen1(School of Computer Science,Northwestern Polytechnical University,Xi’an 710129,China)1(Northwestern Polytechnical University Ming De College,Xi’an 710129,China)2 Abstract With the development of information technology and popularity of social media,normal users have become in-formation producers from receivers and everyone can share what happened around them and repost what they are inter-ested in,which makes the information stored in social media increase rapidly.The large amount of data containsabundant and valuable records of social events.How to get valuable informations from these data has become one of themost important problems in information field.This paper introduced the new research field,including crowd-poweredevent sensing and multimodal summarization to solve this problem.Crowd-powered event sensing and multimodal sum-marization aim at sensing and analyzing events by analyzing multimodal data existed in social media to predict and sum-marize events effectively.This paper described the modal of event,the history of sensing,the key technology,challengesand wide application field,summarized the development of event sensing and summarization based social media analysisand looked into the future.Keywords Social media,Event sensing,Multimodal data,Storyline,Cross media 1 引言社交媒体是人们之间用来分享见闻、经验和观点的网络平台,目前国内外常用的社交媒体主要有微博、Twitter和Facebook等。

随着Web2.0的兴起和社交媒体的发展,Twit-ter和微博等社交应用允许人们发布和分享自己的所见所闻,越来越多的信息以多种数据形式出现在各大社交媒体中。

大量的实时数据吸引了很多研究者分析这些社交媒体的数据,并从中挖掘出有用的知识。

文献[1]把Twitter当作社会事件的传感器来实时感知地震的方位并通知当地的民众,这种通知方式甚至比日本气象局的通知还要迅速。

文献[2]研究了Twitter在突发事件报道上的高时效性,显示在官方发布本拉登死亡消息之前,Twitter上关于这一消息的转发量已经达到上百万。

社交媒体数据分析的应用前景十分广泛。

例如,有些研究致力于通过社交媒体来侦测突发事件,包括恐怖袭击、疾病和地震[4-6]等灾难事件;有些研究工作用于对一些有规律的事件进行预测,比如政治选举和体育比赛[7];还有些研究通过更加直观的方式对社交媒体中的事件进行总结,然后以不同的可视化方式呈现给用户,不同的总结和分析方法衍生了不同的结果呈现方式,比如检索排序[18-20]和时间轴[21-27]。

对社交媒体数据的处理面临着许多问题:1)社交媒体数据作为个人用户发布信息的渠道,其内容往往具有随意性[3],这与经过编辑的新闻报道是不同的,这种随意性给事件分析带来困难;2)由于微博本身的字数限制,单条微博往往难以提供有效的信息[3],这使得对长文本分析的传统方法不能简单地应用到社交媒体分析中;3)多模态的数据也给社交媒体分析带来新的挑战,由于信息的随意性和每条信息携带了一定数据量,充分利用每条微博的信息成为必然,而如何统一处理这些不同模态的信息是研究者们现在关注的重点之一。

本文第2节介绍社交媒体的事件模型和概念模型的一些研究成果;第3节和第4节分别介绍事件感知和事件总结的发展概况和方法;第5节介绍面向社交媒体的事件感知和多模态事件脉络生成所面临的挑战和针对这些问题的方法;第6节介绍面向社交媒体的数据分析的应用和前景;最后总结全文。

2 社交媒体的事件描述模型社交媒体的普及使得每天有千万级以上的用户在这些平台上分享和传播信息,面对海量数据,需要一个统一的模型来分析隐藏在数据之中的信息和知识。

对社交媒体的事件描述模型中涉及的相关概念进行介绍。

子事件:社会事件通常会包含不同的子事件,每个子事件反映的是一个事件的不同侧面,比如对疾病事件的感知、对疾病的传播的描述和对疾病的防治的描述可以分别作为“疾病”这一事件的子事件。

线索:事件之间往往都不是孤立的,根据关注事件的用户群体是否相似、事件之间的时空关系以及事件包含的关键词可以得到事件之间的关系图,这个体现事件变化和事件相关性的图就是一个线索,即事件发展的脉络。

关联:两个事件有关联是指两个事件之间存在某种关系,通常这种关系是因果关系或者是互补关系,即一个事件经过一段时间发展成为另一个事件,或者两个事件同时是另一个事件的子事件。

情感:社交媒体中的信息除了像新闻报道那样包含了事件的发展信息,还包含了民众对这些事件的评价和看法,可以将这些看法简单地分为积极的看法和消极的看法,或者以其他标准划分看法中带有的情绪,这就是社交媒体信息中包含的情感。

3 事件检测随着社交媒体的发展,越来越多的用户在社交媒体上分享和讨论热点事件,这些事件可以是物理世界中发生的事件,也可以是社交媒体中的热点话题。

社交媒体拥有丰富、多维度的信息,因此,通过分析这些海量数据可以实时发现热点事件[36]。

然而,对于某一事件,与之相关的微博量非常庞大,同时,其中充斥着大量的冗余信息,因此社交媒体的事件检测也面临着巨大的挑战。

目前事件检测的方法可以分为两类。

第一类方法以文档为中心,通过分析文档间的相似度进行聚类,从而检测事件[9-14]。

文献[12]提出将事件划分为不重合的片段,通过对这些片段进行聚类来生成不同的事件。

文献[13]采用LDA模型来发现时间和空间属性不同的事件。

文献[14]使用一种层次和非层次的聚类算法来发现时间轴上的不同事件。

由于微博的长度较短,单条微博中包含的信息往往很少,使用以文档为中心的方法进行事件发现时会生成大量的稀疏向量从而影响微博相关性的测量,所以更多的事件检测工作建立在以特征为中心的方法上。

第二类方法以特征为中心,通过分析与事件相关的关键词来发现事件[15-17]。

文献[15]使用无限状态自动机对数据流进行建模,采用层次结构来分析数据流,从而发现数据流中的热点事件。

文献[16]自动提取微博中突发事件的关键词,并通过对这些关键词进行聚类来发现热点事件。

文献[17]不仅通过识别微博文本特征和用户特征进行事件发现,同时还对热点事件的发展进行了预测。

4 多模态事件脉络生成通常在检测到事件发生之后,用户会进一步关注事件的发展过程,一个清晰的事件脉络能够告知用户整个事件的发展过程[37]。

在一个事件中,用户可以通过文本、图片、评论、转发等形式来描述事件的发展,这些多模态的数据提供了丰富的信息,同时也给事件脉络生成带来了挑战。

相关文档
最新文档