Web数据挖掘在电子商务中的应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

结课论文

课程名称:数据仓库与数据挖掘

授课教师:***

论文题目:Web数据挖掘在电子商务中的应用学生姓名:***

学号:********

北京交通大学

2022年4月

Web 数据挖掘在电子商务中的应用

摘要:大数据时代已然来临,在各种信息数据都呈现出爆炸式增长的今天,不同规模的电商都在奋力追赶“大数据”发展的速率和步伐。一个全新的以信息为中心,以洞察力为导向的电商生存环境已经出现,而智慧的分析能力成为在该环境下成功的关键,以大数据为导向的效率提升,客户需求快速响应,风险把控和商业模式优化,都将成为提高商业流转速率的利器,数据挖掘和分析领域技术型、产品型的创业公司将有可能成为全新的创业机会和投资热点。数据挖掘在电子商务的发展中占有越来越重要的作用,本文重点论述Web 数据挖掘在电子商务的相关应用。 关键字:Web 数据挖掘,电子商务,内容挖掘

随着Internet 的快速发展,互联网上的各种信息飞速增长,电子商务已经成为当代经济不可或缺的重要组成部分。面对电子商务网站产生的海量信息和数据,通过Web 数据挖掘技术可以从这个庞大的信息数据集合中提取有用的信息,找到提供数据管理和使用的平台;可以合理的组织网站建设,更加人性化的给用户提供服务;可以从无限量的网络信息中迅速找到用户最为需求的信息,从而更好的有针对性的销售自己的产品。电子商务中的Web 数据挖掘,主要是从其中挖掘出有效的、新颖的、有价值的,潜在的有用的市场信息,从而进行正确的商业决策。

1 概述

1.1Web 数据挖掘技术

Web 数据挖掘技术是随着电子商务的发展应运而生的技术,是指从海量的Web 信息仓库中进行浏览的相关数据中发现潜在有用的、隐含的模式或关联信息。Web 数据挖掘技术在电子商务中有广泛的应用,能对客户的访问方式、订单详情等进行挖掘,获取其购买行为特点,跟踪发现用户的访问习惯,以此来改进网页设计机构,实现智能化、个性化的用户界面。1

1.2Web 数据挖掘的分类

Web 挖掘通常基于Web 数据类型的分类进行划分。Web 数据类型主要包含三种:一

类是Web内容数据,例如一般的Web文档;二类是Web结构数据,例如在Web页面类存

在的超链接;最后一类是Web日志,其中主要包含了用户的访问信息。Web挖掘分为

Web内容挖掘、Web结构挖掘、Web日志挖掘,如图1-1。2

2

图1-1 Web数据挖掘分类

1.Web内容挖掘

Web内容挖掘指从Web文档、内容、数据及其描述中发现有用的知识。Web文档文

件挖掘以及基于概念索引或Agent技术的资源搜索也归于此类。Web信息资源类型众多,

目前www信息资源已经成为网络信息资源的主体,然而除了大量的人们可以直接从网上

抓取、建立索引、实现查询服务的资源之外,相当一部分信息是隐藏着的据(如由用户的

提问而动态生成的结果,存在于数据库系统中的数据,或是某些私人数据)无法被索引,

从而无法提供对它们有效的检索方式,这就迫使我们把这些内容挖掘出来。若从信息资源

的表现形式来看,Web信息内容是由文本、图像、音频、视频、多媒体和其他各种类型的

数据组成的,因此,Web内容挖掘也是一种针对多媒体数据的挖掘。

2.Web结构挖掘

Web结构挖掘是指从Web的组织结构链接关系中推导知识的过程。大量的Web超链

接信息提供了关于Web页面内容相关性、质量和结果方面的信息,反映了文档之间的超链

接结构进行分析,发现网页的结构有用的模式,找出权威页面。它又可以分为外部结构挖掘、内部结构挖掘和URL 挖掘。

3. Web 使用挖掘

Web 使用挖掘,也称为Web 日志挖掘。它通过分析客户使用浏览器浏览的信息和页面链接信息记录,来发现用户的访问模式,分析它们的规律。进而可以识别用户的需求和兴趣,改进站点界面结构,增强其服务竞争力,为用户提供实用的

1.3Web 数据挖掘的基本过程

电子商务中的Web 数据挖掘过程主要有以下几个阶段。

1. 准备数据

准备数据在Web 数据挖掘过程中主要分为有目的的收集数据、选择数据和预处理数据等三个阶段。Web 数据挖掘通过收集Web 服务器端的所有用户的访问行为数据,对其进行选择和处理,去掉无用的数据。预处理数据,是为了除去Web 目志文件中与所需数据重复的冗余性数据和模糊性数据。

2. 数据预处理

由于本地缓存、代理服务器和防火墙的影响,Web 日志中的数据通常不完整以及不一致,直接进行数据挖掘较困难,因此,必须进行数据预处理。即从Web 数据中剔除无用信息和将信息进行必要的整理。主要包括以下步骤:

➢ 数据净化:删除数据冗余项,确定用户真实访问意图相关的记录。

➢ 用户识别:识别出每一个用户变得很复杂,一般通过相同IP 在一定时间范围进行

识别,误差较大。目前已有一些精确识别一个用户的方法,如利用Cookie 、让用

户进行注册等。

➢ 会话识别:将用户在一段时间内的请求页面分解成能获取用户的访问路径、数量

等信息。

➢ 路径补充:如果有重要的访问信息被遗漏而没有被日志记录,填充这些遗失的页

面增加到会话中。

3. 模式分析

模式分析的基础数据是订单数据库和Web 服务器日志。模式分析器运用数据挖掘技术分析Web 服务器日志数据,可以获得物品相对于页面、相对于用户聚类的权值模式,以及用户聚类的模式。从对用户购买记录的数据库分析,可以找到物品在被购买时,它们之间

存在的关联相似模式。模式分析器除了分析产生模式外,还需要进行模式的更新,以保证模式的实效性。

2 电子商务与数据挖掘

2.1电子商务中Web 数据挖掘技术

1. 路径分析技术

用路径分析技术进行Web 数据挖掘就是通过对Web 服务器的日志文件中判定最频繁访问的路径,及其它的有关路径的信息。利用这些信息,可以改进页面及网站的设计结构。

2. 关联规则挖掘技术

关联规则挖掘技术主要用于找到用户访问对网站上各种文件之间访问的相互联系与规则。利用关联模型,可以更好地组织站点内容,实施有效合理的市场策略。常用的算法是Aprior 算法。

3. 序列模式挖掘技术

序列模式挖掘是指发现事务序列之间的模式,即一组数据项的出现在时间顺序上伴随产生另外一组数据项。在Web 服务器日志中记录的是每个用户在一段时间范围内的访问情况。因此,与该用户事务相关联的时间戳是在指在数据项处理过程中确定并从属于用户事务的一段时间间隔。该技术就是要挖掘出交易集之间的有时间序列的模式。在特定网站服务器日志里,特定用户的访问是以一段时间为单位记载的。在某一指定的时问段内,分析其产生的数据信息,可以帮助管理者找出其感兴趣的规则,例如有助于帮助商家印证其产品所处的生命周期阶段,常用的技术是周期分析法。

4. 分类分析技术

数据分类是将数据项的某些属性的值进行划分的。数据分类技术很多,常用的有贝叶斯分类和贝叶斯网络、遗传算法、判定树归纳等,近年来较流行的是神经网络分类分析技术。

5. 聚类技术

数据聚类技术是一个将物理或者抽象对象的集合分组成由类似的对象组成的多个类或簇的过程。聚类分析能作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对某些簇做进一步的分析。常用的聚类算法大体上可以划分为几类:基于模型方法、

相关文档
最新文档