毕业设计(论文)-基于Web内容的数据挖掘分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学号:
基于Web 内容的数据挖掘分析
学院名称: 计算机与信息工程学院
专业名称: 计算机科学与技术专业 年级班别: 2012级1班
姓 名:
指导教师:
2016年5月
河南师范大学 本科毕业论文
基于Web内容的数据挖掘分析
摘要二十一世纪以来,互联网技术飞速发展,Web也越来越流行,Web信息资源也是呈现爆炸式增长。基于Web内容的数据挖掘分析,通过收集Web访问者的互联网浏览记录、上网习惯等方式得到原始数据,用来改进互联网用户的操作体验,提升Web服务,也有利于商户开展有关的电子商务活动。本文讲述了从Web挖掘到Web内容挖掘、Web结构挖掘、Web使用挖掘的相关内容,重点简述了Web使用挖掘的过程。表明了Web数据挖掘的主要应用方向,并着重分析相关应用方向的关键技术,然后介绍了Web 数据挖掘的技术实现,有关联规则,序列模式挖掘技术,分类、聚类技术,路径分析技术,以及最后的Web挖掘技术的流程。
关键词数据挖掘;Web挖掘;信息提取
Data Mining Analysis Based on Web Content Abstract The twenty-first century, the rapid development of Internet technology, Web has become increasingly popular, Web information resources is explosive growth. Data mining analysis based on Web content , browse through the collection of Web visitors Internet records, surfing habits and other ways to get the raw data used to improve the operation of the Internet user experience, enhance the Web services, but also conducive to conduct business-related e-commerce activities. This article describes the mining from the Web to Web content mining, Web structure mining, Web usage mining-related content, focusing briefly on Web usage mining process. It indicates the direction of the main application Web data mining, and analyzes the key technology-related application direction, and then introduced the Web data mining technology, association rules, sequential pattern mining, classification, clustering technology, path analysis, and last Web mining process.
Keywords Data mining; Web mining; Information extraction
前言
近年来,网络以及通信技术不断发展,互联网无疑成为全世界影响最大的信息服务的平台,给人们的生活带来了非常大的变革。如今,信息显得特别重要,互联网上的相关信息资源也无比丰富,人们在对待这么丰富的信息资源时,只有研究出关键相关技术才能从中挖掘出有价值的信息来。Web数据挖掘就这样诞生了,它可以帮助人们挖掘出人们所需要的隐藏在巨大信息资源背后的有效信息,符合人们的预期,这已经成了热门的研究方向。
1 Web挖掘
1.1 概念
在1996年,Oren Etzioni第一次提出了Web挖掘这个概念。Web挖掘就是从海量的Web 资源当中通过采用数据挖掘的技术能动的得到需要的信息[1,11]。数据挖掘是有数据库、AI、自然语言等几个方面的汇总[2]。
Web数据挖掘的步骤如下:
1)发现资源:任务是在Web当中检索数据;
2)信息选取和数据预处理:将已经挑选得到的某些原始数据根据相关技术进行预处理[3];
3)发现获取概要模式:利用某些特定技术将藏匿在不同的Web当中的概要模式进行提取;
4)概要模式分析:确认已经获得的模式并解释。
1.2 Web数据挖掘的分类
Web数据挖掘的通常分类方法是依据挖掘对象的不相同,分类如下:web的内容挖掘;web的结构挖掘;web的使用挖掘。如图1。
1.2.1Web的内容挖掘
Web的内容挖掘就是针对Web文档,对于那些可以利用原始数据预处理技术处理的海量数据进行处理得到有价值的信息。Web的内容挖掘是对多媒体文档和文本文档来说的。Web的文本数据挖掘,是对Web进行归纳,总结,分析,最终得出结论的[4,12]。近年来,业内对多媒体数据挖掘技术也是越来越成熟,越来越深入。
图1.1 挖掘分类
(1)Web 的文本数据挖掘
Web 的文本数据挖掘是把统计学和计算机语言学作为理论基础,从海量的文本数据中提取有用的信息技术[5,13]。
(2)Web 的多媒体数据挖掘
对Web 当中的图片、视频、音频等多媒体信息进行相关技术分析获得有效的模式信息,企图得知事物之间的相关性,得出结论。
文本总结就是用较少的话语来归纳已经提取得到的信息。
文本分类就是根据不同的性质或主题将文本分门别类。
文本聚类就是将某些具有相同的特征的文本集合起来。
关联分析就是找到文档中不同部分的内在的关系。
1.2.2 Web 的结构挖掘
Web 的结构挖掘是在Web 结构和链接关系当中寻找到隐含的信息和模式的过程。Web 内容的结构不相同的网页之间的链接的关系,还有网页页面里的树形的关系,如HTML 、XML ,以及文档URL 的目录路径结构等等[6]。利用Web 的结构挖掘分析可以更加深入的对Web 文档的内容进行分析,从整体的角度审视文档。结构分析可以采用先分解,再变形,最后归纳总结的方法。通过分类技术和聚类技术,获得最为重要的页面,称之为权威页面,目的是能够使得查找信息更加高效。所谓链接关系指的是某些网页当中存在着彼此分享某些内容,相互引用的关系。
Web 的结构挖掘有很多的应用,包含以下几个方面: Web 挖掘
内容挖掘
结构挖掘 使用挖掘 文本
挖
掘
多媒体挖掘 用户访问模式分析
分析定制Web 站点
超链接挖掘 页面结构挖掘