基于CRISP-DM框架规划云舆情项目的数据挖掘方案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于CRISP-DM框架规划云舆情项目的数
据挖掘方案
【摘要】舆情是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和,随着互联网发展,云端舆情显得尤为重要;本文简要介绍应用CRISP-DM框架来规划云舆情项目的数据挖掘流程,及部分数据应用方案。

【关键字】云舆情;CRISP-DM;数据挖掘
1、引言
舆情广义上是指舆情因变事项发生、发展和变化过程中,民众所持有的社会态度,通过辨析探究舆情,能够捕捉民意,预测事态发展,提供决策依据;近年来,我国互联网从用户规模、技术应用、数据信息量等方面都发生巨大变化;面对海量舆情信息,各机构目前采用最多的是对关键词进行人工搜索甄别的方法,效率极低,时效性和准确性得不到保障,得不到智能的分析预判数据。

为及时掌握、分析网上舆论动态,云舆情项目充分利用互联网智能分析处理等核心技术,采集新闻、论坛、自媒体、微博、微信、群聊、短视频、抖音、快手、外媒等媒体信息,为用户提供全面的大数据舆情监测预警服务,云舆情项目采用在各种KDD 过程模型中占据领先位置的CRISP-DM框架,对互联网信息进行数据挖掘、汇集整理和分析,为决策提供依据,增强对舆情信息的有效整合。

本文从项目规划实施的视角,阐述一下基于CRISP-DM框架规划云舆情项目数据挖掘的看法,供大家相互交流。

2、过程描述
(1)、商业理解(business understanding)
经市场调研,目前市场上对于多平台海量舆情数据分析处理很困难,急需一
套互联网舆情监控分析系统开展互联网信息的挖掘汇集整理和分析工作;云舆情
系统在此背景下应运而生,系统能把握互联网上舆论信息,及时掌握、分析网上
舆论动态,全面了解社情民意,为决策提供舆情信息分析服务,并及时发现和解
决潜在的舆情危机。

基本原理为根据关注的关键词组或关键词组集合从各媒体平
台查找出海量舆情数据,经过数据集成、规约、清理、变换、统计等处理方式,
整合汇聚成高价值数据,通过分析算法形成主题跟踪、专题分析、事件分析、倾
向分析、预警分析、统计报告等可视化数据链条,最终形成SaaS化云舆情商业
产品。

根据初期市场反馈,成本可控,收益极佳,符合商业产品标准。

(2)、数据理解(data understanding)
首先考虑数据收集工作,利用互联网爬取技术,通过关注的词组或词组集合,整合传统媒体、门户网站、微信、微博、论坛、短视频等舆情信息,实时获取相
应数据,此处最关键的是需要引入排除词算法,例如关注词为北大,对应排除词
会有东北大药房、南北大状等,这需要使用过程中不停积累,将无关信息过滤掉,在初步收集过程就过滤一些数据,以免堆积太多不相关数据影响后续算法处理速度;
其次熟悉数据工作,确定可用的数据源;探索数据特征,进行简单的特征统计,按照类型详细分为新闻、论坛、微博、微信、自媒、平媒、视频、政务、移媒、社群、外媒、网页14个小类;
最后进行初步的数据检验,将标题、摘要、关键词、作者、来源、日期等信
息进行校验,尽可能保证数据完整性和正确性,采用智能算法对缺失值进行填补;最终汇总为粗糙原始的数据集。

(3)、数据准备(data preparation)
数据准备的目的是形成最终可用的格式化数据集,处理步骤可能涉及多个业
务领域且需要多次加工数据处理;针对云舆情项目的初始数据,我们分析首先需
要将数据中的广告信息进行处理,随着商业化在舆情的渗透,广告可谓是无孔不入,所以决定通过智能分析去除广告算法,先将广告信息打包隔离;其次去除重
复数据,在采集数据阶段,不可避免的会出现重复数据,但去重的算法是需要慎重考虑的,并不是内容一致就去除掉,那样对后面传播路径、传播次数、关注程度等模型计算会造成不可逆的影响,对于不同媒体相同或相似的内容,还是需要予以保留,经过多次模拟处理后,确定最终的去重算法,保证系统数据不影响后续的建模;最后精准处理缺失值和异常值并对信息进行格式转化,添加了一些后续建模需要的标题比重、关键词权重、情感类型等影响因素,形成最终可用的格式化数据集。

(4)、建模(modeling)
建模就是基于最终数据集,选择适当的数据挖掘技术和算法,根据项目的目标和数据特征进行模型的建立和调优;在本项目中,关键建模包括:第一,标题匹配,一般标题都是内容的结晶,将标题提取出来与关键词进行匹配,自定义匹配度,这样获取的数据与关注的数据匹配度较高;第二,内容精准匹配,将每个舆情做分词处理,计算每个分词的权重,通过权重与关键词匹配度综合计算舆情权重,通过自定义权重,获取对应权重数据;第三,情感分析,使用文本挖掘技术来分析公众的情感倾向和话题关注度,形成舆情走势链条;第四,归类预测,使用聚类和分类算法来对不同的舆情事件进行归类和预测;第五,舆情分析,根据整合汇聚的高价值数据,形成专题分析、事件分析、预警分析、统计报告等可视化数据链条。

通过列举的这五种关键建模和其他辅助模型,最终形成本项目理想的建模模型。

(5)、评估(evaluation)
截止到现在,已经建立了多个高质量的模型,但在部署前,还需要对模型的性能效果进行评估,以确定模型的可靠性和适用性,如不满足要求则需要另一次或者多次CRISP-DM的迭代来创建适当的模型;本项目中使用了交叉验证和混淆矩阵等指标来评估模型的精度,经多次论证,查准率、查全率等关键指标均符合标准,确定了模型精度满足要求;除精度外,评估还确定了模型满足业务目标,未发现有遗漏内容,通过了质量保证审计,建模过程中涉及到数据回溯处理、参数校准等技术问题,也确定能达到技术条件;通过头脑风暴法确定关注的问题都
被充分考虑或被全方位的解决,基于以上分析得出建模模型性能及效果均符合相
关标准的结论,且最终就数据挖掘结果的使用达成一致的决定。

(6)、部署(deployment)
部署阶段,需要将经过评估和验证的模型部署到实际的业务环境中,以便为
使用者提供及时的数据挖掘结果和建议。

在本项目中,将各模型部署好后,按照
预定方案将关键变量设置成页面可配,增强模型自适应能力,而且项目的模型并
不一定是独立的,在不违背业务的前提下,通过自定义处理,是允许各模型自由
组合使用的,通过模型组合发挥最佳的效果,以满足多元化业务需求;通过模型
详细处理专题分析、事件链条、突发预警、舆情简报、分析推测等可视化形式的
主体的活动,将需要执行的活动结果以及过程组织成为可读文本报表图形等形式,展现给使用者,也从侧面保证使用者正确的使用已构建的模型,最终达到数据挖
掘结果和建议预测能够满足展示分析要求且及时支撑决策的目的。

3、总结
经过时间证明,CRISP-DM框架提纲挈领的特性,已经成为事实上的行业标准,在规划云舆情项目的数据挖掘方案中,更是展示出无与伦比的重要性,在未来各
行业过程模型发展中,将持续发挥指导性价值;有优秀的框架作为支撑,云舆情
项目也进入了高质量发展的道路,作为行业的佼佼者,将继续指引相关领域发展,服务大众,服务社会。

参考文献:
[1]罗小琴.网络舆情监控在人口政策上的应用[J].中国信息安
全,2014(06):110-112.
[2]张安琪.大数据技术在网络舆情管理中的作用研究[J].江苏科技信
息,2021,38(23):45-48.
[3]黄渊林,曲翔.大学生网络舆情群体极化及其应对[J].高校辅导员学
刊,2021,13(04):31-34.DOI:10.13585/ki.gxfdyxk.2021.04.007.。

相关文档
最新文档