校园网Web日志挖掘研究与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

校 园 网 We b日志 挖 掘研 究 与实 现
张 小 林
( 安庆 师范学 院 现代教育技术 中心 , 安徽 安庆 2 e b挖掘 中的一个重要 的分支 , 通过 w e b日志挖掘可以获得用户的访 问模式和用户感兴趣
的信息及关 注的内容 , 从 而为用户 提供个 性化 的服 务。另外通 过对大 量的 w e b日志文件进行分析 , 可 以获取 大部分用户 同时感兴趣 的信息和 内容, 从而获得 关联 度高的网页 , 以便 更好地优化 和改善 网站 的布局。
2 0 1 3年 8月 第1 9卷第 3期
安庆 师范 学院 学报 (自然科 学版 )
J o u r n a l o f A n q i n g T e a c h e  ̄C o l l e g e ( N a t u r a l S c i e n c e E d i t i o n )
We b日志挖 掘是 以应 用 为 目的 , 目前 w e b日
志 挖掘 主要 应用 有 :
相 当多 , 网上流 行 的木马 、 病毒也 相 当泛滥 。对 于

个 开放性 的 w e b站 点 , 每 天 都 要 面对 许 多 用 户
( 1 ) 提供 个 性化 的服 务 。这 主要 应 用 在 一 些
电子商 务 网站 , 或 需要 注 册访 问 的一 些 资 源 性 网 站 。通过 分 析用 户 的访 问记 录 , 得 到 用 户 的访 问 模 式 和用户 的兴趣 爱好 , 然 后 当用 户 下 次 登 录
有意 或无 意 的攻 击 。不 能 仅仅 依 靠 防 病 毒软 件 ,
还要 时刻关 注 w e b 日志 文件 。可 以通过 w e b日志
作者 简介 :张小林 , 男, 安徽 安庆人 , 硕士 , 安庆师范学院讲师 , 研究方向为数据挖掘 、 计算机 网络。

7 0・
安庆师范学院学报 ( 自然科学版 )
要是 w e b 1 3 志 文件 。首 先是 对 w e b 3志文件 进行 1 预处 理 。在数据 预处理 阶段 主要 是对原 始 日志文
挖掘 中 的离群 点技术 来检 测 。
w e b 站点时 , 系统直 接将该用户感 兴趣 的信息或
商 品显 示在 用 户方 便 操 作 的位 置 , 过 滤 一 些 不 必 要 的信息 , 提 高用 户访 问的效 率 。
2 w e b日志挖 掘 的过 程
We b日志挖 掘 的过 程 一般 分 为 四个 步骤 , 即数 据预处 理 、 事务识 别 、 选 择挖 掘技 术和算 法及 模 式 分析 。
户 的访 问记 录 , 也就 是 w e b访 问 日志 , 它 所记 录 的 数 据是 根据 设定 的 日志 文 件 格 式 来 记 录 的 , 因此
问网站的速度 、 网 站 的 页 面设 计 及 颜 色 搭 配 等 。 我们 通过 分析 w e b 日志 文件来 获取 w e b服 务器 的 访 问量 , 从 而分 析 w e b服 务器 的运行 效率 , 尽量 减 少w e b服 务器 的拥 塞 、 优 化传输 、 减 少用户 访 问的
关 键 词 :数 据 挖 掘 ; w e b日志 挖 掘 ; 日志 分 析 中 图分 类 号 :T P 3 9 3 . 1 8 文 献 标 识 码 :A 文 章 编 号 :1 0 0 7- 4 2 6 0 ( 2 0 1 3 ) 0 3- 0 0 6 9— 0 4
在 万维 网上 的每 台 w e b服务 器都 可 以记 录用
Au g. 2 0 1 3
VO I . 1 9 NO. 3
网 络 出版 时 间 : 2 0 1 3— 9— 2 5 1 3 : 5 5 网络出版地址 : h t t p : / / w w w . c n k i . n e t / k c ms / d e t a i l / 3 4 . 1 1 5 0 . N. 2 0 1 3 0 9 2 5 . 1 3 5 5 . 0 2 0 . h t m l
等待 时 间。
它是一个结构化的记 录集 。当有用户浏览或请求 获取资源时 , w e b服务器都将 毫无 遗漏地记录和 保 留这些 关 于 用 户 交 互 的 数 据 。 因 此 , w e b使 用 挖 掘 的主要 目标 是从 w e b的访 问记 录 中获取 人们
感 兴趣 的用 户访 问模 式 。利用 w e b 日志 挖掘 方法 分 析不 同 的 w e b站 点 和 w e b访 问 日志 , 可 以帮 助 网站维 护人 员根 据用 户 的访 问模 式 和兴趣 来 提供
( 2 ) 提高 w e b服务器的性能。评价一个 网站 的 满 意度 , 主要 有 几 个 方 面 : 网站 自身 的 内容 、 访
( 1 ) 数据预处理。We b日志挖掘的数据源主
收 稿 日期 :2 0 1 3—0 2—2 1 基 金 项 目 :安 庆 师 范 学 院 青 年科 研 基金 ( N O .1 2 0 0 0 1 0 0 0 0 1 9 ) 和安 庆 师 范 学 院 教 研 项 目资 助 。
部分 用户 比较 关注 的 , 哪 些版块 之 间关 联 度高 , 这 样有 利于 帮 助 网站 设 计 者 更 好 地 调 整 网站 的 布 局, 使 用户 访 问 比较便 捷 , 提高访 问效率 。
( 4 ) w e b服 务器 的安全 。 目前 , 网络上 的黑 客
1 w e b日志挖 掘 的 应 用
更好 的网络 服务 。
( 3 ) 改 善 网 站 的 结 构 布 局 。一 个 大 型 的 网 站, 其 结构 是 比较 复杂 的。 网页 的链 接 布 局 是否
方便 , 版 块的划分是 否合理等 , 通过 w e b日志挖 掘, 可 以发现其 中的一些 问题 , 找 出哪些版 块是 大
相关文档
最新文档