Web挖掘在当今社会中的发展和前景
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Web挖掘在当今社会中的发展和前景
摘要:作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注。
目前,Web挖掘的研究正处于发展阶段,尚无统一的结论,需要国内外学者在理论上开展更多的讨论,使Web挖掘开发对其生活发展起到推进作用,以及它所面临的挑战。
关键词: Web挖掘;分类;模式分析;可视化;网络通信
中图分类号:TP393 文献标识码:A 文章编号:1006-4311(2010)08-
0133-01
0 引言
由于互联网在传播与交换信息方面的快捷与便利,互联网以惊人的速度作为
商务和信息发布的平台持续发展。
Internet用户群体表现出多样性的特点,全球
互连网大约有数千万个Web网站,其访问用户具有不同的背景,不同的兴趣和目的,他们在访问过程中留下大量的Web访问和使用信息。
分析这些数据能够发现有意义的隐藏访问模式规则,这对于分析和改善站点的使用情况及资源配置具有
重要的意义。
1 国内外的研究现状
目前为止,国外的挖掘研究己经从最初的可行性基础研究经历了试验性研究,文本挖掘应用在商业领域得到了应用。
政府机构,通过Web挖掘进行数据评估和分析,同时完成其他的搜索任务。
国内对Web挖掘的研究起步较晚,国内互联网业是从1997年开始迅速蓬勃地发展起来的。
直到1999年,国内互联网用户达到
一定数量后,国内学者才开始关注Web数据挖掘。
2 Web数据挖掘概述
Web挖掘是将数据挖掘技术与互联网相结合的一项综合技术,简单地说,"Web挖掘就是从Web文档、Web活动中抽取感兴趣的、潜在的有用模式和隐藏
信息怎样对这些数据进行复杂的应用成了现今研究热点,它面对的信息常常为文本、图形、图像数据等。
3 Web挖掘的分类
web挖掘的研究主要有3种,即Web结构挖掘、Web使用挖掘和Web内容
挖掘。
①Web结构挖掘。
Web结构挖掘主要是指挖掘Web上的链接结构,它有
广泛的应用价值。
②Web使用挖掘。
Web使用挖掘主要是指对日志记录的挖掘。
访问信息进行分析和发现找到日志中蕴藏的规律以识别潜在的客户、跟踪及侦探
非法访问的隐患等。
③Web内容挖掘。
Web的内容主要是包含文本、声音、图
片等的文档信息,以及Web的链接结构的链接信息。
4 Web挖掘的处理流程
数据进行数据挖掘,必须经过如下处理流程。
①查找资源。
其任务是从目标
文档中得到数据,包括电子邮件、文档、新闻组、或者网站的日志形成数据。
②信息选择和预处理。
其任务是从取得的Web资源中剔除无用信息将有用信息进行必要的整理。
组成规整的逻辑形式甚至是关系表。
③模式发现。
自动进行模式发现。
在同一个站点内部或在多个站点之间进行。
④模式分析验证、解释产生的
模式。
这个过程可以是机器自动完成,也可以是与分析人员进行交互来完成。
5 Web挖掘应用的成功案例分析
数据挖掘已经在许多领域得到了应用。
①Web挖掘应用到NBA竞技中。
IBM
公司开发的数据挖掘应用软件被美国NBA大约20个队教练广泛使用。
②Web挖
掘应用到商业银行中。
数据挖掘技术在银行和金融领域应用广泛。
③Web挖掘
应用到电信中。
数据挖掘技术在电信行业也得到广泛应用。
④Web挖掘应用到
科学探索中。
数据挖掘开始应用到尖端科学的探索中。
6 Web挖掘存在的问题
Web数据挖掘方面还有很多工作要做,我们在探讨过程中看到需要进一步研
究和完善的工作主要有以下几个方面:①错误数据的处理与过滤。
在现实数据库中,往往存在一些明显的错误数据,这必然影响挖掘的精度。
②数据格式的转换。
虽然此方面的东西已经应用了不少,由于服务器的日志文件格式的复杂性,现在
还没有一个能使多数人接受的转换工具。
③用户访问事务的确定。
这是一个
Web数据挖掘中基本的也是最重要的,确定方法的好坏直接影响着以后的工作。
④传统的数据挖掘技术应用到Web数据挖掘。
数据挖掘技术在传统数据库上的
应用应该说比较完善了,如何将其核心技术应用到各种新型数据库或Web结构上还需要继续研究。
⑤数据挖掘的评估与可视化。
挖掘得到的各种规则不仅需要证明其正确性,更需要证明其有用性和可理解性。
合适的评估方法可以提高有用性,而可视化的研究可以提高可理解性,使挖掘结果更易为用户接受。
⑥高度综合的网络信息。
Web挖掘的研究对象是网络信息,由于网络信息涉及各个学科门类,
因而内容具有较大的综合性,要在丰富的内容中挖掘有规律的知识,其难度相当大。
⑦模糊、多样的用户目标。
基于网络信息Web挖掘的用户类型较多,许多
用户往往对所要挖掘的主题模糊的、粗浅的认识,不能提出明确的目标。
这就需
要基于Web挖掘的知识发现系统具有一定的智能性和学习机制,不断地发现和跟踪用户的兴趣,并且清晰地表示知识发现的结果,从而提高知识发现的可用性。
总之,Web挖掘已经引起了世界各国计算机科学界、信息产业界以及许多著
名高科技跨国公司的高度关注,具有充分潜力和挑战性。
参考文献:
[1]韩家炜,孟小峰,王静,李盛恩.Web挖掘研究.计算机研究与发展,2001(4):405-414.
[2]杜文华.Web使用挖掘综述[J].电脑开发与应用,2003,4:59-61.
[3]陈健,印鉴.Web使用挖掘技术研究综述[J].计算机工程,2005,9:4-6.
[4]曼丽春,朱宏,杨全胜.Web数据挖掘研究与探讨[J].现代电子技术,2005,8:10-13.。