基于WEB数据挖掘的网络舆情分析研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于WEB数据挖掘的网络舆情分析研究

一、网络舆情

网络舆情是由于各种事件的刺激而产生的通过互联网

传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合。网络舆情形成迅速,对社会影响巨大。随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、BBS、博客、聚合新闻(RSS)。网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。

网络的开放性和虚拟性,决定了网络舆情具有以下特点:

(一)直接性,通过BBS,新闻点评和博客网站,网民可以立即发表意见,下情直接上达,民意表达更加畅通;

(二)突发性,网络舆论的形成往往非常迅速,一个热点事件的存在加上一种情绪化的意见,就可以成为点燃一片舆论的导火索;

(三)偏差性,由于发言者身份隐蔽,并且缺少规则限制和有效监督,网络自然成为一些网民发泄情绪的空间。在现实生活中遇到挫折,对社会问题片面认识等等,都会利用

网络得以宣泄。因此在网络上更容易出现庸俗、灰色的言论。

二、数据挖掘技术

数据挖掘(Data Mining,DM),又译为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘是目前人工智能和数据库领域研究的热点问题。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。知识发现过程由以下三个阶段组成:1.数据准备,2.数据挖掘,3.结果表达和解释。数据挖掘可以与用户或知识库交互。

(一)决策树。决策树是数据挖掘分类算法的一个重要方法。在各种分类算法中,决策树是最直观的一种。每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时,递归过程就完成了。另外,随机森林分类器将许多决策树结合起来以提升分类的正确率。

决策树同时也可以依靠计算条件概率来构造。

决策树如果依靠数学的计算方法可以取得更加理想的

效果。数据库已如下所示:

(x,y)= (x1,x2,x3…,xk,y)

相关的变量Y 表示我们尝试去理解,分类或者更一般化的结果。其他的变量x1,x2,x3 等则是帮助我们达到目的的变量。

(二)遗传算法。遗传算法也是计算机科学人工智能领域中用于解决最优化的一种搜索启发式算法,是进化算法的一种。这种启发式通常用来生成有用的解决方案来优化和搜索问题。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择以及杂交等。遗传算法在适应度函数选择不当的情况下有可能收敛于局部最优,而不能达到全局最优。

(三)人工神经网络。人工神经网络在结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型,在数据采掘中可用来进行分类、聚类、特征采掘等操作。人工神经网络是并行分布式系统,采用了与传统人工智能和信息处理技术完全不同的机理,克服了传统的基于逻辑符号的人工智能在处理直觉、非结构化信息方面的缺陷,具有自适应、自组织和实时学习的特点。

(四)模糊逻辑。模糊逻辑指模仿人脑的不确定性概念判断、推理思维方式,对于模型未知或不能确定的描述系统,以及强非线性、大滞后的控制对象,应用模糊集合和模糊规

则进行推理,表达过渡性界限或定性知识经验,模拟人脑方式,实行模糊综合判断,推理解决常规方法难于对付的规则型模糊信息问题。在数据采掘中,常用来进行证据合成置信度计算等。

(五)粗糙集理论。粗糙集理论作为一种数据分析处理理论,在1982年由波兰科学家Z.Pawlak创立。粗糙集理论作为一种处理不精确(imprecise)、不一致(inconsistent)、不完整(incomplete)等各种不完备的信息有效的工具,一方面得益于他的数学基础成熟、不需要先验知识;另一方面在于它的易用性。由于粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律,因此是一种天然的数据挖掘或者知识发现方法,它与基于概率论的数据挖掘方法、基于模糊理论的数据挖掘方法和基于证据理论的数据挖掘方法等其他处理不确定性问题理论的方法相比较,最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其他不确定性问题的理论有很强的互补性。

(六)可视化技术。可视化技术作为解释大量数据最有效的手段而率先被科学与工程计算领域采用,并发展为当前热门的研究领域――科学可视化。可视化技术把数据转换成图形,给予人们深刻与意想不到的洞察力,在很多领域使科学家的研究方式发生了根本变化。可视化技术的应用大至高

速飞行模拟,小至分子结构的演示,无处不在。在互联网时代,可视化与网络技术结合使远程可视化服务成为现实。

三、基于WEB的数据挖掘

基于WEB的数据挖掘,就是利用数据挖掘技术自动地从网络文档以及服务中发现和抽取信息的过程。基于WEB 的数据挖掘技术已经应用于解决多方面的问题,比如基于WEB内容和结构的挖掘极大的帮助了我们从巨量的网络资源中更加快速而准确的获取所需要的资料,而基于使用的数据挖掘的强大作用,更是为商业运作提供了有力的量化决策根据。

(一)基于WEB的数据挖掘特点

1.Web数据挖掘的对象是大量、异质、分布的Web文档web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。如果想要利用这些数据进行数据挖掘,必须要研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。

2.web文档是半结构化或无结构的目前数据发掘多应用于关系和面向对象数据库,它们有完善的结构,按照预先定义的模式进行组织、存储和存取,而W eb 上的数据非常复杂,往往具有半结构化或非结构化特性,难以映射到一个固定的

相关文档
最新文档