Web日志挖掘中数据预处理技术的研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
户对 某个特 定页面 的请 求往往会 引起几个 日志 的记 录, 然而对 于 日志挖 掘来讲 , 多时候我们 并不需 要 很 网页上 的 图 形 或 其 他 资 源 请 求 , 有 用 户 请 求 的 只 H ML页面才真 正代表 了用 户 的意 图。关于 这点 我 T 们 可 以通 过删除特 定的后缀 名来完成 。另外现 在很 多搜索软 件也会 自动对用 户所搜索 的相关 网页发送
用 挖掘又 叫 We b日志 挖掘 。通过 We b日志挖 掘 可
以从 w b服 务器的 日志 中发 现用 户 的访 问模 式 , e 分 析 站点 的使 用情况 , 从而进 一步研 究 We b日志记 录
中的规 律 , 以期 改 进 We b站点 的性 能 和 组织 结构 ,
是将传统 的数据 挖 掘技 术 与 We b数 据 资源 结 合起 来, 并综合 运用统计 学 、 计算 机 网络 、 据 库 与数据 数 仓库、 可视 化等众多领域 的技术 , 进行 We b挖掘 。 We 掘 包括 结 构 挖 掘 、 用 挖 掘 、 b挖 使 内容 挖 掘 等几个方 面。其 中 w b使 用 挖 掘 又 叫 We 日志挖 e b
1 引 言
随着 互联 网 的飞速 发展 , 网络应 用 已经渗 透 到 我 们生活工作 的方方 面面。我们 利用 网络搜索有用 的信息 , 相互 交流沟通 , 行商业 活动等 。如何有效 进 地 分析用户 的需求 , 助用 户从 因特 网的 信息 海洋 帮
中发现他们 感兴趣 的信 息 和资 源 , 已经 成 为一 项迫 切 而重要 的课题 。解决 这些 问题 的一个 有效途径 就
请求, 这些 对我 们来 说 都是 没用 的记 录 。删 除这 些
第 7卷 第 3期
20 0 8年 9月
广 东 轻 工 职 业 技 术 学 院 学 报
J OURNAL OF GUAN GDONG N DUS I TRY TECH NI CAL COLLEGE
V01 7 .
N O. 3
S p. 20 e 08
We b日志 挖掘 中数 据预 处理 技 术的研 究
页; 把用 户归 类 , 不 同 类 型 的用 户 运 用 不 同的链 对
接; 为用户 推荐他 们 可能感 兴 趣 的 网页等 个性 化 服
务。
虽然 We 自身 有着异质 、 b 分布 、 动态 、 统一 结 无
构 的特点 ,但 从 局 部 来 看 在 每 个 提 供 信 息 资 源 的 We b服务器 上都有一 个 结构 比较 完善 的 日志文 件 , 对 其进行 挖掘是切 实可行 的且 具有重 要 意义 。We b 日志挖掘过 程大 体分 为 : 数据 预 处理 、 式 发现 、 模 模
中 图分 类号 : P3 3 T 9
文献 标识码 :A
文 章编号 : 6 215 (0 8 0 -0 9 4 1 7 -9 0 2 0 ) 30 0 - 0
指从 海 量 的 We b信 息 源 集 合 中发 现 有 效 的、 颖 新
的、 在 可 用 的及 最 终 可理 解 的知 识 ( 模 式 , 潜 如 规
图 1 We 日志挖 掘 过 程 b
3 w b 日志数 据 预 处 理 的 意 义 e
从图 1中我 们看到 , 要对 We b数 据 进行 有效 的 挖掘, 首先必须 对 We b日志进 行数 据预 处理 。所 谓 数 据预处理 即根 据挖掘 的 目的 , 原始 We 对 b日志 文
律 , 束 等 )的非 平 凡 过 程 。We 约 b挖 掘 主 要 分 为 We b结构挖 掘 、 b内容 挖 掘 、 b使 用 挖 掘。其 We We 中 We 用挖掘 是指 通过 挖掘存 储 在 We 的访 b使 b上 问 日志 , 而发 现 有用 的 信息 的过 程 , 以 We 从 所 b使
掘 。数据 预处理是 w b 日志挖 掘 的首 要 步骤 , e 也是 非 常重要 的一步 。预 处理 过 程 是保 证 We 日志挖 b 掘 质量 的关键 , 预处 理 的结果 直接 影 响到 挖掘 算法 的选择与模 式发现 。本 文介绍 w b E志挖 掘 的一些 e t
提 高站点 的 服务 质 量。 另外 通过 We b日志挖 掘 我 们 可 以发 现 用 户 的兴 趣 并 为他 们 创 造 新 的个 人 网
步 , 处 理 的结 果 决 定 了挖 掘 的 效 率 和 质 量 。 本 文 主要 阐述 了预 处 理 的 一 般 过 程 , 针 对 预 并 目前 国 内外 常 用 的 一 些预 处 理 技 术 进 行 了探 讨 和 分析 。
关键词 : b日志挖掘 ; We 数据预 处理 ; 户识 别 ; 用 会话 识别
式 分析等 三个 阶段 。
相 关知识 , 主要分 析 w b 日志数 据预 处 理 的一般 并 e 过程, 对该领 域的一 些技 术 和 方法 进行 了 比较 详 细
的探讨 。
2 w b 日志挖 掘 的 概 念 e
随着 网络 的发展 和人 们 对信 息 的需 求 , 个 研 究 热 点。 We b挖 掘是
秦 文 胜
( 东 轻工 职 业 技 术学 院 电子 通 信 工程 系 , 广 广东 广 州 5 00 ) 130
摘
要 : b日志挖 掘是 利用数据挖 掘技 术挖 掘 和 分析 网络 日志 , 获取 网站使 用过 程 We 并
中的有 价值的信 息和模式 的过程 。预处理是 We b日志挖掘 的第 一步 , 是非 常关键 的一 也
收稿 日期 : 0 8— 6—1 20 0 8
作者 简 介 : 文胜 (97一) 女 , 教 授 。 秦 16 , 副
l 0
广 东 轻 工 职 业 技 术 学 院 学 报
第 7卷
原始嗣
志 文 件
预处理
挖掘数
据 集
模式发现
规则
模式
模式分析
有 意义的
模 式 、 规 则