基于Web信息挖掘的网络舆情分析技术

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

中Ｎｏ，－民公安大学学报（自然科学版）
２塑２生筮兰塑盟！：垒２嫂！』！坠里尘！！ｇ蝤坠！堕里！！吐！：！堕垫！堡墨塑坠堕盟堕里ｉ！！望迎（坠ｉ！望塑！塑！婴鱼塑！！赶）整箜丝塑坠噬兰
基于Ｗｅｂ信息挖掘的网络舆情分析技术
梅中玲
（铁道警官高等专科学校，河南郑州４５００５３）
摘要网络舆情分析是有效掌控网络、促进社会主义和谐社会建设的重要手段。

Ｗｅｂ信息技术的特点决定了其适用于网络舆情分析。

利用Ｗｅｂ信息挖掘，可以发现网络舆情、分析网络舆情的起源、发现网络舆情受众及其特点、研究舆情在网络上的传播扩散模式以及评估舆情影响效果。

关键词Ｗｅｂ信息挖掘；网络舆情；舆情分析
中图分类号ＴＰ３９３
０引言
随着互联网在全球范围内的飞速发展，网络新闻媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。

在反映和引导舆论方面，网络与传统新闻媒体有同样的功能但是具有不同的特点。

在网络上，任何人都可以在博客、ＢＢＳ论坛、留言版或者自建站点上发布言论和观点，并且发布者往往不必考虑发布言论的真实性以及带来的社会影响，媒体信息的正确性及传播范围都无法得到有效控制，其所导致的舆情容易产生不良的社会影响。

中国共产党第十六届中央委员会第六次全体会议于２００６年１０月１ｌ１３通过的《中共中央关于构建社会主义和谐社会若干重大问题的决定》指出应“加强对互联网等的应用和管理，理顺管理体制，倡导文明办网、文明上网，使各类新兴媒体成为促进社会和谐的重要阵地”。

如何加强网络舆情的分析和预警已成为各级主管部门迫切需要解决的问题。

１网络舆情
“舆情是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，民众对社会管理者产生和持有的社会政治态度。

如果把中间的一些定语省略掉，舆情就是民众的社会政治态度。

”１１Ｊ任何一种技术的出现及发展，或多或少会对社会生活造成一定的冲击和影响。

网络从诞生起，就开始深刻地影响着人们生活、学习、思考、交流和娱乐的方式。

以网络为平台，通过新闻、评论、发帖、回复等为载体表现出来的舆情，就是网络舆情。

网络舆情是舆情的一种具体表现形式，它既有舆情的共性，又有自己的特点。

由于这些特点的存在，网络舆情与现实社会中传统意义上的舆情已经有很大差异。

网络舆情是舆情的一种表现形式。

在社会转型时期，各项制度尚未健全的过程中，网络舆情对社会监督的确起到了很大的作用。

但我们也要看到网络舆情的另一面即舆情的局限。

由于网络是个“自由超市”，再由于“把关人”的缺席，网络舆情的局限性比起传统媒体环境中一般意义上的局限更甚。

近年来我国已发生多起网络舆情转化为现实社会压力从而导致行为舆论的例子。

因此，对网络舆情进行分析和预警逐步成为社会管理者面临的重大课题。

目前我国对于网络舆情的预警与分析还处于探
作者简介梅中玲（１９６０一），女，河南开封人，副教授。

・８５・
万方数据
索阶段，缺乏有效的方法，而Ｗｅｂ信息挖掘的出现和逐步成熟，为解决这个问题提供了良好的技术手段。

２Ｗｅｂ信息挖掘
２．１Ｗｅｂ信息挖掘及其分类
Ｗｅｂ信息挖掘由传统数据库领域的数据挖掘技术演变而来。

数据挖掘是指从大型数据库的数据中提取出人们感兴趣的、可信的、隐含的、明显未
知的、新颖的、有效的、具有潜在用处的信息的过程。

随着互联网的蓬勃发展，数据挖掘技术被运用到网络上，并根据网络信息的特点发展出新的理论与方法，演变成网络信息挖掘技术。

Ｗｅｂ信息挖掘是指对目标样本进行分析提取特征，以此为依据从Ｗｅｂ文档和Ｗｅｂ活动中抽取人们感兴趣、潜在的有用模式和隐藏的信息，所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。

Ｗｅｂ信息挖掘在已知数据样本的基础上，通过归纳学习、机器学习、统计分析等方法得到数据对象间的内在特性，据此采用信息过滤技术在网络中提取用户感兴趣的信息，获得更高层次的知识和规律。

因此根据挖掘对象的不同，可以将Ｗｅｂ数据挖掘技术分为三大类：Ｗｅｂ内容挖掘、Ｗｅｂ结构挖掘和Ｗｅｂ访问信息挖掘。

Ｗｅｂ内容挖掘是指从Ｗｅｂ上检索资源，从相关文件内容及描述信息中获取有价值的潜在信息。

根据处理对象的不同，Ｗｅｂ内容挖掘分为文本挖掘和多媒体挖掘。

Ｗｅｂ结构挖掘的目标是Ｗｅｂ文档的链接结构，目的在于揭示蕴含于文档结构中的信息，主要方法是通过对Ｗｅｂ站点的结构进行分析、变形和归纳，将Ｗｅｂ页面进行分类，以利于信息的搜索。

结构挖掘的重点在于链接信息。

Ｗｅｂ访问信息挖掘是从服务器访问日志、用户策略、用户对话和事物处理信息中得到用户的访问模式和感兴趣的信息，利用这种方法，可以获知Ｗｅｂ使用者的行为偏好，从而预测其行为。

２．２Ｗｅｂ信息挖掘的流程
Ｗｅｂ信息挖掘的流程如图１所示。

数据收集：首先要找到Ｗｅｂ信息挖掘的数据源。

值得注意的是有时信息资源不仅限于在线Ｗｅｂ文档，还包括电子邮件、电子文档、新闻组或者网站的日志数据甚至是通过Ｗｅｂ形成的交易数据库中的数据。

・８６・
图１Ｗｅｂ信息挖掘流程图
数据选择和预处理：从取得的Ｗｅｂ资源中剔除无用信息和将信息进行必要的整理。

如从Ｗｅｂ文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规范的逻辑形式、数据文件或是关系表。

模式发现：利用合理挖掘算法，自动对上一步整理完成的内容进行深人分析，发现其中蕴含的模式。

这一工作可以在同一个站点内部或在多个站点之间进行。

模式分析：验证、解释上一步骤产生的模式，并对挖掘出来的模式、规则进行分析，找出其中蕴含的分析者兴趣的模式和信息。

２．３Ｗｅｂ信息挖掘主要方法
随着Ｗｅｂ的迅速发展，Ｗｅｂ上信息的数量急剧增加，网络通信量也一样急剧增加，所以Ｗｅｂ信息挖掘系统面临着越来越多的站点和越来越大的数据量，如何提高信息挖掘能力成为一个必须解决的问题。

目前Ｗｅｂ挖掘方面采用的方法主要有以下几种。

（１）统计分析。

为了适应复杂信息的挖掘需求，往往依赖有明确目标和任务的概率模型。

数据挖掘的统计模型要适合于所要提取的对象。

利用统计分析技术可以对我们感兴趣的内容进行蕴含信息的挖掘。

统计数据对于提高系统的性能、安全性以及优化站点结构大有帮助。

（２）关联规则。

用户在访问Ｗｅｂ时，经常会在同一次访问中浏览一些无顺序关系的页面集合，挖掘发现的这些页面之间内在的联系，就是关联规则。

如果关联规则中的页面之间没有超链接，则应该引起我们的特别关注。

通过获取关联规则，可以将其作为启发式规则分析远程客户可能请求的页面，从而对用户行为做出预测。

（３）聚类分析。

聚类分析的实质是建立一种分类方法，它能够将一批数据按照它们在性质上的
万方数据
亲密程度在没有先验知识的情况下自动进行分类，每一类都是大量具有相似性个体的集合，不同类之间具有明显的区别。

聚类分析是一种探索性分析，在分类过程中，人们不必事先给出一个分类的标准，聚类分析能够从信息本身出发，自动进行分类。

（４）分类。

分类是将数据项按照预先定义的类别进行划分、归类。

分类的准则是事先定好的，过程类似于邮件分捡的过程。

在Ｗｅｂ信息挖掘中，分类主要是将用户配置文件归属到既定的用户类别，网页根据内容的属性分类等。

分类技术要求抽取关键属性描述已知的信息，通过指导性归纳学习算法进行分类。

（５）序列模式。

用户访问Ｗｅｂ过程中，某些访问行为往往在时间上具有先后顺序，这种时间上的顺序关系就是时间序列模式。

在Ｗｅｂ信息挖掘中，序列模式识别指寻找用模式可以预测用户即将可能请求的页面，从而可以预测用户在Ｗｅｂ浏览过程中下一个访问动作。

序列分析对于了解用户的偏好及访问习惯有非常重要的作用。

３基于Ｗｅｂ信息挖掘的网络舆情分析
３．１利用Ｗｅｂ信息挖掘发现网络舆情
对网络舆情的发现，目前使用的主要是人工方法，也就是有专职人员在网络上查看、搜寻网民关注的热点，但是这种方法明显费时费力且效率低下。

２００７年７月１８日ＣＮＮＩＣ发布的第２０’次中国互联网调查报告显示：截止２００７年６月３０日，我国内地互联网普及率达到了１２．３％，网民总人数达到１．６２亿，宽带网民数达１．２２亿，手机网民数较去年翻了２．６倍，已有４４３０万人；国内域名总数达到９１８万，网站数量达到１３１万个。

此外，我国上网计算机数达到６７１０万，比２００６年末增长了７７０万台；国际出口带宽总量为３１２，３４６Ｍｂｐｓ。

面对海量而且继续在快速增加的信息，要从中发现所有的舆情无异于大海捞针。

Ｗｅｂ信息挖掘技术可以自动地在网络上收集信息，速度要远远高于人工。

收集到信息之后，进行预处理，将网络上大量半结构化和非结构化的数据整理成为结构化，便于进行分析。

运用Ｗｅｂ信息挖掘中的聚类分析，可以将经过整理的海量信息按照其内在的关联性自动划分成为不同的类别，从而发现分布于网络上各处与某一个主题相关的所有的新闻、帖子、博客、播客以及相应的跟帖。

对于聚类分析划分出来的主题，经过简单统计就可以发现目前网络上的舆情及其构成。

３．２利用Ｗｅｂ信息挖掘分析网络舆情的起源当网络舆情被发现或被关注时，往往已经具有一定规模，而且还在继续发展传播的过程中。

此时距离舆情的出现已经过去了一段时间，而且舆情传播空间也发生了变化，可能已经从某一网站传播到了另一网站。

对于公安机关或相关主管部门而言，在发现舆情的同时，还需要了解舆情的发展进程，这对于发现舆情的起源，从而了解整个舆情发展变化过程非常有益。

也就是说，我们不仅要发现舆情，还需要追溯到舆情产生的源头。

但网络的特点使这变得很困难，因为网络是一个虚拟的世界，它缩短了时空距离，信息传播速度非常快。

而Ｗｅｂ结构挖掘可以比较好地解决这个问题。

Ｗｅｂ结构挖掘的目标是Ｗｅｂ文档的链接结构，目的在于揭示蕴涵于文档结构中的信息，主要方法是通过对Ｗｅｂ站点的结构进行分析、变形和归纳，将Ｗｅｂ页面进行分类，以利于信息的搜索。

在网络空间中，舆情有自己的载体，也就是新闻、评论、发帖、回复等，这些内容在网络上发布和传播时，会留下各种踪迹，比如页面相互之间的链接，帖子上注明的转贴地点，各个帖子发布时间，等等。

根据这些信息，利用Ｗｅｂ结构挖掘，可以发现它们之间的链接结构和发布的先后顺序，从而整理出各个帖子相互之间关系，发现最初始的帖子，追溯到舆情源头。

３．３利用Ｗｅｂ信息挖掘发现网络舆情受众及其特点
在网络舆情的形成和发展过程中，受众是一个关键要素，受众的结构在相当程度上决定了舆情的影响力、传播发展速度及对社会的影响。

受众的上网时间、上网时段、上网频度、上网偏好等等，都是决定舆情发展和影响力的重要因子。

从舆情预警的角度来看，舆情受众也是舆情预警的重要参考指标。

但是网民数量众多，如何从数量过亿的网民中发现谁是舆情的受众呢？手工查找当然不是办法，但是借助于Ｗｅｂ访问信息挖掘，就可以顺利实现这一点。

每一个网民在登录或访问网站时，都会在网站服务器上留下痕迹，包括进入每一个板块的时间，访问的主题，是否发言跟帖等等都会被记录下来。

利用这些丰富的信息，通过聚类、统计、关联分析，可以从众多网民中发现舆情的受众以及受众的
・８７・
万方数据
构成，包括地域分布、访问偏好等，并且可以通过分析、统计历史数据，发现每一个受众的关注点、意见倾向性、心理特征，如追求与众不同还是偏激、随大流还是保持沉默，以及以往在网站上的表现。

利用以上种种资料，可以对受众与舆情的互动关系做出评估，从而分析作为影响因子之一，受众将会如何左右舆情发展进程。

３．４利用Ｗｅｂ信息挖掘研究舆情在网络上的传播、扩散模式
舆情被发现之时并非其结束之１３，它往往还将继续发展、扩散。

对于舆情将会产生的后续影响，必须加以评估。

而舆情将会如何发展，起决定作用的是舆情的传播。

可以想见，如果舆情停止了传播，那它影响的只是目前的受众，有限的人群，但这种突然的中止难以自发出现。

在现实世界里，通过人际传播、传统媒体传播，可以实现舆情的扩散。

而在网络上，也一样有其传播渠道和方式，如通过门户网站传播、通过论坛社区传播、人际传播。

舆情传播的方式和速度，在相当程度上决定了舆情的影响力和现实效果。

运用Ｗｅｂ信息挖掘，可以通过对于大量历史数据的收集和学习，建立网络舆情传播的先验模式，当某个舆情发生时，通过信息挖掘发现其传播特点。

在网络舆情传播过程中，很多因素都会影响其传播效果，因为信息发布者不同的处理手法会直接影响受众的心理，如门户网站把某些消息置于头条位置，并且提供照片、专家点评、系列报道和网民评论链接，与把某消息置于网站页面下端不易被关注到的位置，效果就大不一样。

在论坛中，管理员如果把一个帖子置顶，那这个帖子自然就会得到更多的关注，它所反映的舆情也就能够更快地得到传播。

通过Ｗｅｂ信息挖掘可以发现类似的处理手法上的差异，结合受众分析，可以发现舆情的传播、扩散模式。

作为预警措施，在发现舆情传播模式后，可以采取适当措施，影响其传播进程。

３．５利用Ｗｅｂ信息挖掘评估舆情影响效果舆情分析的根本目的在于评估其影响效果，评估结果直接决定了舆情的预警等级。

舆情影响效果可以通过对前面所述因素综合进行分析，尤其是要
・８８・通过预警等级指标体系进行评估。

利用Ｗｅｂ信息挖掘，可以预判网络舆情的影响力，尤其有助于发现网络舆情向行为舆论转化的关键点。

根据信息传播学理论，现实生活中的舆论分为潜舆论、显舆论和行为舆论，如２００５年北京爆发的反１３游行就是行为舆论的一种形式。

当在网络上出现了反１３的情绪后，网民互相呼应形成舆情的累积和急剧扩散，最终促成了现实生活中的反１３游行。

现实生活中的部分群体性事件，也是发端于网络。

４结语
利用Ｗｅｂ信息挖掘，可以及时发现网络关注热点，尤其是某些具有煽动性、鼓动性的帖子以及网民对此的关注度、回复度、响应度。

通过Ｗｅｂ信息挖掘，及时发现其中某些敏感词汇，并通过对于某些重点人物、重点帖子的表现来及时评估舆情目前的影响效果以及转化为现实的行为舆论的可能性，以便相关部门及时采取预控措施，维护社会的安全与稳定。

参考文献
［１］王来华，刘毅．中国２００４年舆情研究综述［Ｊ］．新华文摘，２００５（１８）．
［２］王丽平，刘大鹏．开展互联网上舆情控制的方针、对策［Ｊ］．吉林公安高等专科学校学报，２００６（１）：１０９—１１２．
［３］叶高．人民内部矛盾的疏导与社会稳定预警机制的构建［Ｊ］．云南社会科学，２００６（５）：６—８．
［４］刘毅．网络舆情与政府治理范式的转变［Ｊ］．前沿，２００６（１０）：１４０—１４３．
［５］费爱国，王新辉．一种基于Ｗｅｂ日志文件的信息挖掘方法［Ｊ］．计算机应用，２００４，２４（６）：５８．
［６］吴绍忠．ＷＥＢ信息挖掘与公安情报收集［Ｊ］．中国人民公安大学学报：自然科学版，２００６（４）：５０—５３．
［７］林亮景．试析网络犯罪［Ｊ］．长治学院学报，２００５，２２（４）：１６—１９．
［８］黄晓斌．网络信息挖掘［Ｍ］．北京：电子工业出版社，２００５．
（责任编辑陈晓明）
万方数据。