网络舆情监测引导系统研究

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

网络舆情监测引导系统研究

摘要：网络舆情监测与引导是个复杂的技术和管理过程，必须充分利用web数据挖掘技术的优势，建立完善网络舆情监测引导系统，进一步提升信息化、自动化和智能化，自觉地把互联网的优势转化为推进社会治理的现实动力和强大合力。

关键词：网络舆情；监测引导；web数据挖掘

一、时代背景

互联网时代是人类历史上一个空前伟大的技术革命时代。现代信息技术、通讯传播技术、网络技术等众多现代化的传播技术已渗透到社会生活的各个领域。互联网广泛性、即时性、开放性、共享性和互动性的特点及丰富多彩、方便实用的应用形式决定其日益成为反映社情民意的重要阵地，网上热点层出不穷，网络舆情对国家事务、公共事务决策的影响力也日益加大。历史原因曾使中国长期处于封闭状态，国内关于舆情的研究起步较晚，目前迫切需要提升与之相应的理论和技术支持。舆情分析与监测是信息深加工，以往“剪报”式低价值粗加工的信息服务，虽可按主题范围搜集，但提供的结果仅局限于单一的信息内容，传统的单一线性收集方式已不能够满足人类大脑发散思维的需要。

二、网络舆情监测引导的技术支撑

在浩瀚的网络中，政府如果仅仅依靠人工完成网络海量信息的收集和处理是不现实的。而web数据挖掘能快速、准确的获得有价值

的网络信息，利用历史数据预测未来的行为以及从海量数据中发现知识。它克服了普通数据库管理系统无法发现数据中隐藏的关系和规则及根据现有数据预测未来的弱点。web数据挖掘的出现为自动和智能的把互联网上的海量数据转化为有用信息和知识提供了条件。可有效地从web获取并分析相关舆情，达到监测、辅助决策和引导的目的，为网络舆情预警提供了极大的帮助。

（一）web数据挖掘

web数据挖掘由传统数据库领域的数据挖掘技术演变而来。数据挖掘是指从大型数据库的数据中提取出人们感兴趣的、可信的、隐含的、明显未知的、新颖的、有效的、具有潜在用处的信息的过程[1]。随着互联网的蓬勃发展，数据挖掘技术被运用到网络上，并根据网络信息的特点发展出新的理论与方法，演变成网络数据挖掘技术。web数据挖掘是指对目标样本进行分析提取特征，以此为依据从web文档和web活动中抽取人们感兴趣、潜在的有用模式和隐藏的信息，所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。

根据挖掘对象的不同，可将web数据挖掘技术分为三大类[2]：web内容挖掘、web结构挖掘和web使用挖掘。web内容挖掘是指从web上检索资源，从相关文件内容及描述信息中获取有价值的潜在信息。根据处理对象的不同，web内容挖掘分为文本挖掘和多媒体挖掘。web结构挖掘的目标是web文档的链接结构，目的在于揭示

蕴含于文档结构中的信息，主要方法是通过对web站点的结构进行分析、变形和归纳，将web页面进行分类，以利于信息的搜索。结构挖掘的重点在于链接信息。web使用挖掘是从服务器访问日志、用户策略、用户对话和事物处理信息中得到用户的访问模式和感兴趣的信息，利用这种方法，可以获知web使用者的行为偏好，从而预测其行为。

（二）web挖掘过程

web数据挖掘依然遵循数据挖掘的研究思路，挖掘过程分为四个阶段：数据收集、数据预处理、模式发现和模式分析（如图1所示）[3]。

1.数据收集。网络信息的收集是网络舆情监测的源头，其广度和深度决定了监测效果。对于明确主题的舆情信息采集，可以采用搜索引擎方法。由于各个现存搜索引擎索引数据库的构造方法不同，其索引数据不尽完整，所以应将多个单搜索引擎搜索结果进行整合、调用、控制和优化。搜索中可以以宽度优先、深度优先或启发方式循环地在互联网中发现相关信息，可将网络空间按域名、ip地址或国别域名划分为独立子空间详细搜索；或以信息类型为划分，如html格式、xml格式、ftp文件、word文档、newsgroup文章和各种音、视频文件等。舆情信息检索结果可按不同维度展现，包括按内容分类、舆情分类、相关人物、相关机构、相关地区、正负面分类等。每个维度下把搜索结果自动分类统计展示，以便短时间内

检索到精确信息。

2.数据预处理。因原始web访问数据的文件格式是半结构化的，包含不完整、冗余、错误的数据，需进行提取、分解、合并，转化为适合挖掘的格式，保存到关系型数据库表或数据仓库中，等待进一步处理。数据预处理可改进数据质量，提高后续舆情挖掘过程的精度和性能。对采集到的舆情进行初步加工处理，如格式转换、数据清理、数据统计，对于新闻评论，需过滤无关信息，保存新闻标题、出处、发布时间、内容、点击次数、评论人、评论内容和评论数量等。对于论坛，需记录帖子的标题、发言人、发布时间、内容、回帖内容、回帖数量等，最后形成格式化信息。条件允许时甚至可直接对网站服务器的数据库进行操作。

3.模式发现。利用数据挖掘的算法可发现用户聚类、页面聚类、频繁访问页组、频繁访问路径等隐藏的用户访问模式。若在挖掘用户浏览模式过程中发现选择的数据或属性有偏差，或挖掘技术达不到预期结果，需根据反馈结果不断重复以上过程，通过数据挖掘，创建和更新用户模式库。模式发现可应用许多相关领域的方法，但需针对web数据挖掘的特点做出相应的改进。

统计分析。通过分析会话文件，可对页视图、浏览时间和浏览路径长度进行各种不同的描述性统计分析（频繁访问页、频率、均值、中间值和访问量的时间分布等），提高网络舆情挖掘的效率和质量。路径分析。发现站点中最常被访问的路径及其他相关路径信息。

信息采集过程中的静态数据可采用该技术，采用图的方法来分析web页面间的路径关系。g=（v，e），其中：v是页面的集合，e是页面之间的超链接集合，页面定义为图中的顶点，而页面间的超链接定义为图中的有向边。顶点v的入边表示对v的引用，出边表示v引用了其他的页面，这样形成网站的结构图，从中可确定最频繁访问路径，此路径指向的信息极有可能就是互联网上的“热点”和“焦点”。

关联规则。挖掘的是客户的不同浏览事务所涉及的大量数据中项集间的联系规律。利用该算法可从纷杂的网络信息中找出促使网络舆情产生、变化的内在因素，帮助揭示舆情的变动规律，挖掘出影响因素间的相互关系。

序列模式。挖掘出交易集间有时间序列关系的模式，由此确定用户将来访问趋势和模式。在舆情信息汇集和分析的基础上，可将社会运行接近负向质变的临界值的程度进行早期预报，提前发现不良事件的苗头，尽早梳理，快速应对，达到预防和控制作用。

分类。先从数据中选出已分类的训练集，运用分类技术，建立分类模型，对未分类数据分类。分类模型由分类器或分类函数确定相应类别，分类模型类别可由特征化了的属性集合描述。分类发现可描述特殊群体的公共属性。在网络舆情研究中，可根据自身需求对大量的网络信息初步筛选，进行分类、分组，如设置“民生问题”、“突发事件”、“公共安全”、“经济危机”等。然后有针对地进行数